CN114664316B - 基于自动拾音的音频修复方法、装置、设备及介质 - Google Patents
基于自动拾音的音频修复方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114664316B CN114664316B CN202210533030.3A CN202210533030A CN114664316B CN 114664316 B CN114664316 B CN 114664316B CN 202210533030 A CN202210533030 A CN 202210533030A CN 114664316 B CN114664316 B CN 114664316B
- Authority
- CN
- China
- Prior art keywords
- audio
- curve
- audio data
- data stream
- restoration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000008439 repair process Effects 0.000 claims description 68
- 238000001228 spectrum Methods 0.000 claims description 58
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 18
- 239000013598 vector Substances 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于自动拾音的音频修复方法、系统、设备及介质,方法包括:获取用户实时输入的原始音频数据流并进行特征解析得到音频特征,获取曲线数据库中与音频特征相匹配的备选修复曲线,根据选择信息确定目标修复曲线,通过目标修复曲线对原始音频数据流进行音频修复,得到修复音频数据流。本发明属于音频处理技术领域,通过上述方法,可对原始音频数据流进行特征解析得到音频特征,并获取与音频特征相匹配的备选修复曲线,可提供能够对原始音频数据流进行准确修复的备选修复曲线以供用户选择,大幅提高了对原始音频数据流进行修复的效率。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种基于自动拾音的音频修复方法、装置、设备及介质。
背景技术
互联网平台中用户需可对发出的音频进行修复、美化,如对短视频录入的音频、唱歌软件录入的音频进行修复、美化,从而提高短视频或直播视频中音频的播放效果。然而,对音频进行修复的方式多种多样,用户通常无法从多种修复方法中准确选择与所发出音频相适配的修复方法,导致无法对音频进行准确修复,具体使用过程中用户需反复尝试才能确定最终用于音频的修复方式,增加了用户对修复方法进行选择的时间成本,影响了对音频进行修复的效率。因此,现有技术方法中用于对音频进行修复的方法存在修复效率较差的问题。
发明内容
本发明实施例提供了一种基于自动拾音的音频修复方法、装置、设备及介质,旨在解决现有技术中用于对音频进行修复的方法所存在的修复效率较差的问题。
第一方面,本发明实施例提供了一种基于自动拾音的音频修复方法,其中,所述方法包括:
获取用户实时输入的原始音频数据流;
根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征;
获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线;
接收用户根据所述备选修复曲线所反馈的选择信息,所述选择信息为用户对所述备选修复曲线进行选择的信息;
获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流。
第二方面,本发明实施例提供了一种基于自动拾音的音频修复装置,其中,所述基于自动拾音的音频修复装置,包括:
原始音频数据流获取单元,用于获取用户实时输入的原始音频数据流;
音频特征获取单元,用于根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征;
备选修复曲线获取单元,用于获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线;
选择信息接收单元,用于接收用户根据所述备选修复曲线所反馈的选择信息,所述选择信息为用户对所述备选修复曲线进行选择的信息;
修复音频数据流获取单元,用于获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流。
第三方面,本发明实施例又提供了一种计算机设备,其中,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述第一方面所述的基于自动拾音的音频修复方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述第一方面所述的基于自动拾音的音频修复方法。
本发明实施例提供了一种基于自动拾音的音频修复方法、装置、设备及介质。获取用户实时输入的原始音频数据流并进行特征解析得到音频特征,获取曲线数据库中与音频特征相匹配的备选修复曲线,根据选择信息确定目标修复曲线,通过目标修复曲线对原始音频数据流进行音频修复,得到修复音频数据流。通过上述方法,可对原始音频数据流进行特征解析得到音频特征,并获取与音频特征相匹配的备选修复曲线,避免用户反复尝试才能选择到与原始音频数据流相适配的修复曲线,可提供能够对原始音频数据流进行准确修复的备选修复曲线以供用户选择,大幅提高了对原始音频数据流进行修复的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于自动拾音的音频修复方法的流程示意图;
图2为本发明实施例提供的基于自动拾音的音频修复方法的子流程示意图;
图3为本发明实施例提供的基于自动拾音的音频修复方法的另一子流程示意图;
图4为本发明实施例提供的基于自动拾音的音频修复方法的另一子流程示意图;
图5为本发明实施例提供的基于自动拾音的音频修复方法的另一子流程示意图;
图6为本发明实施例提供的基于自动拾音的音频修复方法的另一子流程示意图;
图7为本发明实施例提供的基于自动拾音的音频修复方法的另一子流程示意图;
图8为本发明实施例提供的基于自动拾音的音频修复装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的基于自动拾音的音频修复方法的流程示意图;该基于自动拾音的音频修复方法应用于客户端中,该基于自动拾音的音频修复方法通过安装于客户端中的应用软件进行执行,客户端至少包括音频输入单元,音频输入单元可以是麦克风,客户端通过音频输入单元对用户发出的音频进行自动拾音采集,客户端即是对用户输入的音频数据流进行音频修复的终端设备,例如台式电脑、笔记本电脑、平板电脑、手机、智能语音助手、MP3、MP4或智能音箱等,在具体实施例中,客户端还具有音频播放单元,音频播放单元可以是耳机、音响等。如图1所示,该方法包括步骤S110~S160。
S110、获取用户实时输入的原始音频数据流。
具体的,客户端可获取用户实时输入的原始音频数据流,原始音频数据流可包含一段时间内用户所发出的声音信号,原始音频数据流由连续性输入的音频数据组成。
S120、根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征。
客户端中配置有音频特征提取模型,可根据音频特征提取模型对接收到的原始音频数据流进行特征解析,从而得到原始音频数据流对应的音频特征,音频特征即可用于对原始音频数据流的特征进行量化表征。其中,所述音频特征提取模型包括频谱转换规则、频率转换公式及逆变换规则,音频特征可以是与原始音频数据流对应的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)。
在一实施例中,如图2所示,步骤S120包括子步骤S121、S122、S123、S124和S125。
S121、从所述原始音频数据流中截取预设时长的音频数据。
原始音频数据流中包含较长时间的音频数据,可从原始音频数据流中截取预设时长的音频数据,如预设时长为10秒,则可从原始音频数据流中截取得到10秒的音频数据进行后续处理。
S122、对所述音频数据进行分帧处理得到对应的多帧音频信息。
音频数据在计算机中以包含音轨的声谱图进行表示,声谱图中包含很多帧,每一帧即对应一个时间单元,则可从音频数据的声谱图中获取得到每一帧音频信息,每一帧音频信息即对应一个时间单元内所包含的音频信息。
S123、根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱。
可根据单位时间对音频信息进行分段得到多个音频信息段,每一音频信息段中均对应一个单位时间内包含的多帧音频信息,可根据频谱转换规则对得到的每一音频信息段进行快速傅里叶变换(fast Fourier transform,FFT)然后旋转90度,得到与每一音频信息段对应的音频频谱,在音频频谱中的频谱表示频率与能量的关系。例如,单位时间可设置为0.02S。
S124、根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱。
可根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱,为进一步凸显预设时长的音频数据的声音特征,可将以线性方式表示的音频频谱转换为非线性音频频谱,非线性音频频谱的离散性更强,因此可进一步凸显音频数据的声音特征。音频频谱及非线性音频频谱均可采用频谱曲线进行表示,则频谱曲线由多个连续的频谱值所组成。
例如,频率转换公式可采用公式(1)进行表示:
其中mel(f)为转换后非线性音频频谱的频谱值,f为线性音频频谱的频率值。
S125、根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频特征。
可根据逆变换规则对每一非线性音频频谱进行逆变换,具体的,对所得到的一个非线性音频频谱取对数后进行离散余弦变换(Discrete Cosine Transform,DCT),取进行离散余弦变换的第2个至第13个系数进行组合以得到与该非线性音频频谱对应的音频系数,则从每一非线性音频频谱可对应获取得到12个维度的音频系数,获取每一非线性音频频谱对应的音频系数即可得到与原始音频数据流对应的音频特征。
S130、获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线。
客户端中配置有曲线数据库,曲线数据库中存储有多条修复曲线,可将音频特征与修复曲线进行匹配,从而获取曲线数据库中与音频特征相匹配的一条或多条修复曲线作为备选修复曲线。
在一实施例中,如图3所示,步骤S130包括子步骤S131和S132。
S131、根据预置的分类模型对所述音频特征进行分类,得到与所述音频特征对应的音频类型。
客户端可根据预置的分类模型对音频特征进行分类,从而得到音频特征的音频类型,分类模型即是用于对音频特征进行分类的神经网络模型,可通过分类模型对音频特征进行分类,以确定与音频特征最相关的一个音频类型。
在一实施例中,分类模型包括多头自注意力神经网络、特征组合层及全连接层,如图4所示,步骤S131包括子步骤S1311、S1312、S1313和S1314。
S1311、将所述音频特征输入所述多头自注意力神经网络的多个特征编码层分别进行编码计算,得到与每一所述特征编码层对应的多头向量矩阵。
多头自注意力((Multi-Head Self-Attention)神经网络将输入的音频特征表示为一组键值对(K,V)以及查询Q,则K、V及Q分别代表三个元素,K与Q的维度数相等,多头自注意力神经网络中的多头即多个自注意力方向,自注意力方向的数量可由用户预先设定。
可将音频特征分别输入多头自注意力神经网络的多个特征编码层中,每一特征编码层可对应对K、V及Q同时进行输入,每一特征编码层中所配置的权重参数各不相同,通过特征编码层进行编码计算的具体过程可采用以下公式进行表示:
将公式(2)与公式(3)结合,即可计算得到对应的多头向量矩阵,其d K即为Q和K的维度数,K T为对K进行向量转制得到向量矩阵,WQ、WK、WV分别为Q、K及V对应的权重矩阵,i为多头自注意力网络包含的自注意力方向的数量,head i即为当前特征编码层中第i个自注意力方向的计算结果。
S1312、将所有所述特征编码层的多头向量矩阵输入所述特征组合层进行特征组合,得到权重特征向量。
可通过特征组合层对所得到的每一特征编码层的多头向量矩阵进行编码组合,从而得到对应的权重特征向量。具体的,特征组合层可基于卷积神经网络(convolutionalneural network, CNN)构建得到,每一特征编码层的多头向量矩阵均作为输入信息输入特征组合层。
S1313、将所述权重特征向量输入至所述全连接层,以获取全连接层中每一输出节点的节点值。
特征组合层的输出信息输入至全连接层,全连接层包含多个输出节点,每一输出节点对应一个音频类型,则可获取全连接层每一输出节点对应的节点值,输出节点的节点值也即权重特征向量与该输出节点的音频类型之间的匹配度。
S1314、将节点值最大的一个所述输出节点对应的音频类型确定为与所述音频特征对应的音频类型。
从所得到的每一输出节点的节点值中,选择节点值最大的一个输出节点对应的音频类型,并将所选择的音频类型确定为与音频特征相匹配的音频类型。
S132、获取所述曲线数据库中与所述音频类型相对应的曲线确定为所述备选修复曲线。
曲线数据库中每一曲线均包含一个或多个类型标签,可将曲线数据库中曲线的类型标签与音频类型进行匹配,判断每一曲线中是否存在任一类型标签与音频类型相匹配,若曲线中任一类型标签与音频类型相匹配,则将该曲线确定为备选修复曲线。
在一实施例中,如图5所示,步骤S130包括子步骤S133、S134、S135和S136。
S133、根据所述曲线数据库中每一曲线分别对所述音频数据进行音频修复,得到与每一所述曲线对应的音频修复数据。
可根据曲线数据库中每一曲线分别对音频数据进行音频修复,每一曲线中包含相应的特征参数,可根据曲线对音频数据中的频谱进行调整,从而实现对音频数据进行音频修复。例如,曲线中对频率段1500-1549Hz对应的特征参数为-5dB,则可对音频数据中位于频率段1500-1549Hz之间的音频频谱根据该曲线中特征参数“-5dB”进行调整,上述实例中仅仅列举了对某一频谱段的音频频谱进行调整的方式,在实际应用过程中,曲线包含对连续的多个频谱段组成的频谱进行调整的特征参数,如曲线包含对1450-1499Hz、1500-1549Hz、1550-1599Hz等多个频谱段组成的频谱进行调整的特征参数。
S134、获取所述音频修复数据与所述音频数据的原声之间的相似度。
可对音频修复数据与音频数据的原声之间的相似度进行计算,原声可以是短视频中的原始歌唱音频或唱歌软件中歌曲的原声音频等,原声也即对用户音频进行修复的目标音频。可获取每一音频修复数据对应的音频矩阵,同时获取原声的音频矩阵,音频矩阵可以是包含频率、时间的二维矩阵,矩阵中数值为音频在特定时间及特定频率内的响度值。对每一音频修复数据的音频矩阵与原声的音频矩阵分别进行余弦相似度计算,得到每一音频修复数据与原声之间的相似度。如余弦相似度计算公式可采用公式(4)进行表示:
其中,S即为计算得到的余弦相似度,Aij为任一音频修复数据的音频矩阵中第i行第j列的响度值,Bij为原声的音频矩阵中第i行第j列的响度值,M为音频矩阵的总行数,N为音频矩阵的总列数。
S135、根据所述相似度对与每一所述音频修复数据对应的曲线进行排序;S136、获取预设比例且排序靠前的多个曲线并确定为所述备选修复曲线。
可根据相似度大小对音频修复数据对应的曲线进行排序,相似度较大的音频修复数据对应的曲线排序靠前,相似度较小的曲线排序靠后。根据预设比例从曲线排序结果中获取排序靠前的多个曲线,并确定为备选修复曲线。如预设比例为0.2,则获取占曲线排序结果中曲线总数量0.2倍的曲线作为备选修复曲线。
在一实施例中,如图6所示,步骤S130包括子步骤S133、S134、S1341、S1342、S1343和S136。
S133、根据所述曲线数据库中每一曲线分别对所述音频数据进行音频修复,得到与每一所述曲线对应的音频修复数据;S134、获取所述音频修复数据与所述音频数据的原声之间的相似度。
上述两个步骤的具体实现方式与实施例中列举的实施方式相同,在此不作赘述。
S1341、根据所述曲线数据库中每一曲线的使用频次计算与每一曲线对应的使用系数。
曲线数据库中还记录有曲线的使用频次,使用频次也即是用户选择曲线进行使用的具体次数,可对使用频次进行计算以得到相应的使用系数,具体的,使用系数可采用公式(5)计算得到:
其中,x曲线的使用频次,x取值为整数,v为公式中预置的参数值,Gx为计算得到的使用系数。
例如,若曲线的使用频次为5次,则x=5,公式中参数值v=10,则可对应计算得到使用系数Gx为0.7788。
S1342、将所述相似度与所述使用系数相乘得到每一曲线对应的排序系数值。
可将每一曲线对应的相似度与上述步骤中计算得到的相应曲线的使用系数相乘,乘积即可作为与每一曲线对应的排序系数值。
S1343、根据所述排序系数值对与每一所述音频修复数据对应的曲线进行排序。
每一音频修复数据即对应一个排序系数值,可根据排序系数值的大小对每一音频修复数据对应的曲线进行排序,排序系数值较大的曲线排序靠前,排序系数值较小的曲线排序靠后,得到曲线排序结果。
S136、获取预设比例且排序靠前的多个曲线并确定为所述备选修复曲线。
根据预设比例从曲线排序结果中获取排序靠前的多个曲线,并确定为备选修复曲线。获取备选修复曲线的过程与上述实施例中具体实现过程相同,在此不作赘述。
S140、接收用户根据所述备选修复曲线所反馈的选择信息。
接收用户根据所述备选修复曲线所反馈的选择信息,所述选择信息为用户对所述备选修复曲线进行选择的信息。具体的,客户端中配置有显示屏,可通过显示屏将获取到的备选修复曲线的曲线标识显示在显示屏中,曲线标识可以是曲线名称或其它可用于对曲线进行唯一识别的标识信息。用户通过显示屏察看备选修复曲线,并对备选修复曲线进行选择,客户端可获取用户对备选修复曲线进行选择所反馈的选择信息。
S150、获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流。
选择信息也即是对备选修复曲线中的一个曲线进行选定的信息,可从备选修复曲线中获取与选择信息对应的一个曲线作为目标修复曲线,根据目标修复曲线对原始音频数据流进行音频修复,原始音频数据流可以是用户录入并存储于客户端内的音频数据,还可是用户实时输入的音频数据,对原始音频数据流进行修复后,即可得到修复音频数据流,客户端可对获取到的音频数据流进行实时播放。
在一实施例中,如图7所示,步骤S150包括子步骤S151和S152。
S151、对所述目标修复曲线进行解析以获取特征参数。
目标修复曲线采用曲线对相应信息进行记载,即可对目标修复曲线进行解析,具体的,可预先配置解析频率段,通过解析频率段对目标修复曲线进行解析,也即通过解析频率段获取目标修复曲线在每一频率段对应的曲线段,并获取曲线段的数值得到特征参数。
例如,解析频率段为50Hz,则以50Hz作为分割单元对完整频率进行分割,得到对应的多个频率段,如1450-1499Hz、1500-1549Hz、1550-1599Hz,获取目标修复曲线中落入每一频率段的曲线段,曲线段内包含与每一频率值对应的参数值,如1500Hz:3dB,1501Hz:2dB…;对曲线段内每一频率值对应的参数值进行平均计算,从而得到与每一频率段对应的特征参数。
S152、根据所述特征参数对所述原始音频数据流中的音频频谱进行调整,得到所述修复音频数据流。
可根据特征参数对原始音频数据流中的音频频谱进行调整,从而实现对原始音频数据流进行音频修复得到对应的修复音频数据流,对音频频谱进行调整的具体方法在上述步骤中已详细说明,在此不作赘述。
在本发明实施例所提供的基于自动拾音的音频修复方法中,获取用户实时输入的原始音频数据流并进行特征解析得到音频特征,获取曲线数据库中与音频特征相匹配的备选修复曲线,根据选择信息确定目标修复曲线,通过目标修复曲线对原始音频数据流进行音频修复,得到修复音频数据流。通过上述方法,可对原始音频数据流进行特征解析得到音频特征,并获取与音频特征相匹配的备选修复曲线,避免用户反复尝试才能选择到与原始音频数据流相适配的修复曲线,可提供能够对原始音频数据流进行准确修复的备选修复曲线以供用户选择,大幅提高了对原始音频数据流进行修复的效率。
本发明实施例还提供一种基于自动拾音的音频修复装置100,该基于自动拾音的音频修复装置用于执行前述的基于自动拾音的音频修复方法的任一实施例。具体地,请参阅图8,图8为本发明实施例提供的基于自动拾音的音频修复装置的示意性框图,该基于自动拾音的音频修复装置100包括原始音频数据流获取单元110、音频特征获取单元120、备选修复曲线获取单元130、选择信息接收单元140和修复音频数据流获取单元150。
原始音频数据流获取单元110,用于获取用户实时输入的原始音频数据流。
音频特征获取单元120,用于根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征。
在一实施例中,所述音频特征获取单元120包括子单元:音频数据截取单元,用于从所述原始音频数据流中截取预设时长的音频数据;分帧处理单元,用于对所述音频数据进行分帧处理得到对应的多帧音频信息;频谱转换单元,用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;频率转换单元,用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;逆变换单元,用于根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频特征。
备选修复曲线获取单元130,用于获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线。
在一实施例中,所述备选修复曲线获取单元130包括子单元:音频类型获取单元,用于根据预置的分类模型对所述音频特征进行分类,得到与所述音频特征对应的音频类型;类型匹配单元,用于获取所述曲线数据库中与所述音频类型相对应的曲线确定为所述备选修复曲线。
在一实施例中,所述音频类型获取单元包括子单元:多头向量矩阵获取单元,用于将所述音频特征输入所述多头自注意力神经网络的多个特征编码层分别进行编码计算,得到与每一所述特征编码层对应的多头向量矩阵;权重特征向量获取单元,用于将所有所述特征编码层的多头向量矩阵输入所述特征组合层进行特征组合,得到权重特征向量;节点值获取单元,用于将所述权重特征向量输入至所述全连接层,以获取全连接层中每一输出节点的节点值;每一所述输出节点对应一个音频类型;音频类型确定单元,用于将节点值最大的一个所述输出节点对应的音频类型确定为与所述音频特征对应的音频类型。
在一实施例中,所述备选修复曲线获取单元130包括子单元:音频修复数据获取单元,用于根据所述曲线数据库中每一曲线分别对所述音频数据进行音频修复,得到与每一所述曲线对应的音频修复数据;相似度计算单元,用于获取所述音频修复数据与所述音频数据的原声之间的相似度;曲线排序单元,用于根据所述相似度对与每一所述音频修复数据对应的曲线进行排序;曲线获取单元,用于获取预设比例且排序靠前的多个曲线并确定为所述备选修复曲线。
在一实施例中,所述备选修复曲线获取单元130包括子单元:音频修复数据获取单元,用于根据所述曲线数据库中每一曲线分别对所述音频数据进行音频修复,得到与每一所述曲线对应的音频修复数据;相似度计算单元,用于获取所述音频修复数据与所述音频数据的原声之间的相似度;使用系数计算单元,用于根据所述曲线数据库中每一曲线的使用频次计算与每一曲线对应的使用系数;排序系数值获取单元,用于将所述相似度与所述使用系数相乘得到每一曲线对应的排序系数值;排序单元,用于根据所述排序系数值对与每一所述音频修复数据对应的曲线进行排序;备选修复曲线获取单元,用于获取预设比例且排序靠前的多个曲线并确定为所述备选修复曲线。
选择信息接收单元140,用于接收用户根据所述备选修复曲线所反馈的选择信息,所述选择信息为用户对所述备选修复曲线进行选择的信息;
修复音频数据流获取单元150,用于获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流。
在一实施例中,所述修复音频数据流获取单元150包括子单元:曲线解析单元,用于对所述目标修复曲线进行解析以获取特征参数;调整单元,用于根据所述特征参数对所述原始音频数据流中的音频频谱进行调整,得到所述修复音频数据流。
在本发明实施例所提供的基于自动拾音的音频修复装置应用上述基于自动拾音的音频修复方法,获取用户实时输入的原始音频数据流并进行特征解析得到音频特征,获取曲线数据库中与音频特征相匹配的备选修复曲线,根据选择信息确定目标修复曲线,通过目标修复曲线对原始音频数据流进行音频修复,得到修复音频数据流。通过上述方法,可对原始音频数据流进行特征解析得到音频特征,并获取与音频特征相匹配的备选修复曲线,避免用户反复尝试才能选择到与原始音频数据流相适配的修复曲线,可提供能够对原始音频数据流进行准确修复的备选修复曲线以供用户选择,大幅提高了对原始音频数据流进行修复的效率。
上述基于自动拾音的音频修复方法可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于自动拾音的音频修复方法以对用户输入的音频数据流进行音频修复客户端。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于自动拾音的音频修复方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于自动拾音的音频修复方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的基于自动拾音的音频修复方法中对应的功能。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述的基于自动拾音的音频修复方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种基于自动拾音的音频修复方法,其特征在于,所述方法包括:
获取用户实时输入的原始音频数据流;
根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征;
获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线;
接收用户根据所述备选修复曲线所反馈的选择信息,所述选择信息为用户对所述备选修复曲线进行选择的信息;
获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流;
所述音频特征提取模型包括频谱转换规则、频率转换公式及逆变换规则,所述根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征,包括:
从所述原始音频数据流中截取预设时长的音频数据;
对所述音频数据进行分帧处理得到对应的多帧音频信息;
根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;
根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;
根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频特征;
所述获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线,包括:
根据所述曲线数据库中每一曲线分别对所述音频数据进行音频修复,得到与每一所述曲线对应的音频修复数据;
获取所述音频修复数据与所述音频数据的原声之间的相似度;
根据所述曲线数据库中每一曲线的使用频次计算与每一曲线对应的使用系数;
将所述相似度与所述使用系数相乘得到每一曲线对应的排序系数值;
根据所述排序系数值对与每一所述音频修复数据对应的曲线进行排序;
获取预设比例且排序靠前的多个曲线并确定为所述备选修复曲线。
2.根据权利要求1所述的基于自动拾音的音频修复方法,其特征在于,所述获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流,包括:
对所述目标修复曲线进行解析以获取特征参数;
根据所述特征参数对所述原始音频数据流中的音频频谱进行调整,得到所述修复音频数据流。
3.一种基于自动拾音的音频修复装置,其特征在于,所述基于自动拾音的音频修复装置,包括:
原始音频数据流获取单元,用于获取用户实时输入的原始音频数据流;
音频特征获取单元,用于根据预置的音频特征提取模型对所述原始音频数据流进行特征解析,得到与所述原始音频数据流对应的音频特征;
备选修复曲线获取单元,用于获取预置的曲线数据库中与所述音频特征相匹配的备选修复曲线;
选择信息接收单元,用于接收用户根据所述备选修复曲线所反馈的选择信息,所述选择信息为用户对所述备选修复曲线进行选择的信息;
修复音频数据流获取单元,用于获取与所述选择信息对应的目标修复曲线对所述原始音频数据流进行音频修复,得到与所述原始音频数据流对应的修复音频数据流;
所述音频特征提取模型包括频谱转换规则、频率转换公式及逆变换规则,所述音频特征获取单元包括子单元:音频数据截取单元,用于从所述原始音频数据流中截取预设时长的音频数据;分帧处理单元,用于对所述音频数据进行分帧处理得到对应的多帧音频信息;频谱转换单元,用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;频率转换单元,用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;逆变换单元,用于根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频特征;
所述备选修复曲线获取单元包括子单元:音频修复数据获取单元,用于根据所述曲线数据库中每一曲线分别对所述音频数据进行音频修复,得到与每一所述曲线对应的音频修复数据;相似度计算单元,用于获取所述音频修复数据与所述音频数据的原声之间的相似度;使用系数计算单元,用于根据所述曲线数据库中每一曲线的使用频次计算与每一曲线对应的使用系数;排序系数值获取单元,用于将所述相似度与所述使用系数相乘得到每一曲线对应的排序系数值;排序单元,用于根据所述排序系数值对与每一所述音频修复数据对应的曲线进行排序;备选修复曲线获取单元,用于获取预设比例且排序靠前的多个曲线并确定为所述备选修复曲线。
4.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现如权利要求1至2中任一项所述的基于自动拾音的音频修复方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的基于自动拾音的音频修复方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533030.3A CN114664316B (zh) | 2022-05-17 | 2022-05-17 | 基于自动拾音的音频修复方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533030.3A CN114664316B (zh) | 2022-05-17 | 2022-05-17 | 基于自动拾音的音频修复方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114664316A CN114664316A (zh) | 2022-06-24 |
CN114664316B true CN114664316B (zh) | 2022-10-04 |
Family
ID=82036735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210533030.3A Active CN114664316B (zh) | 2022-05-17 | 2022-05-17 | 基于自动拾音的音频修复方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664316B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102884797A (zh) * | 2010-03-04 | 2013-01-16 | Thx有限公司 | 有选择地修正用于输出设备的音频或视频数据的电子适配器单元 |
CN104052423A (zh) * | 2013-03-15 | 2014-09-17 | 骷髅头有限公司 | 定制音频再现装置 |
CN110299141A (zh) * | 2019-07-04 | 2019-10-01 | 苏州大学 | 一种声纹识别中录音回放攻击检测的声学特征提取方法 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112309352A (zh) * | 2020-01-15 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 音频信息处理方法、装置、设备和介质 |
CN113297412A (zh) * | 2020-02-24 | 2021-08-24 | 北京达佳互联信息技术有限公司 | 音乐推荐方法、装置、电子设备和存储介质 |
-
2022
- 2022-05-17 CN CN202210533030.3A patent/CN114664316B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102884797A (zh) * | 2010-03-04 | 2013-01-16 | Thx有限公司 | 有选择地修正用于输出设备的音频或视频数据的电子适配器单元 |
CN104052423A (zh) * | 2013-03-15 | 2014-09-17 | 骷髅头有限公司 | 定制音频再现装置 |
CN110299141A (zh) * | 2019-07-04 | 2019-10-01 | 苏州大学 | 一种声纹识别中录音回放攻击检测的声学特征提取方法 |
CN112309352A (zh) * | 2020-01-15 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 音频信息处理方法、装置、设备和介质 |
CN113297412A (zh) * | 2020-02-24 | 2021-08-24 | 北京达佳互联信息技术有限公司 | 音乐推荐方法、装置、电子设备和存储介质 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114664316A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10497378B2 (en) | Systems and methods for recognizing sound and music signals in high noise and distortion | |
US8082150B2 (en) | Method and apparatus for identifying an unknown work | |
CN109147807B (zh) | 一种基于深度学习的音域平衡方法、装置及系统 | |
US6968337B2 (en) | Method and apparatus for identifying an unknown work | |
CN112199548A (zh) | 一种基于卷积循环神经网络的音乐音频分类方法 | |
US20060155399A1 (en) | Method and system for generating acoustic fingerprints | |
CN109147816B (zh) | 对音乐进行音量调节的方法及设备 | |
WO2021072893A1 (zh) | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 | |
Haque et al. | An analysis of content-based classification of audio signals using a fuzzy c-means algorithm | |
CN111062440A (zh) | 一种样本选择方法、装置、设备及存储介质 | |
CN111640451A (zh) | 一种成熟度评估方法及装置、存储介质 | |
Lin et al. | Domestic activities clustering from audio recordings using convolutional capsule autoencoder network | |
CN110070891A (zh) | 一种歌曲识别方法、装置以及存储介质 | |
CN114664316B (zh) | 基于自动拾音的音频修复方法、装置、设备及介质 | |
Abidin et al. | Local binary pattern with random forest for acoustic scene classification | |
CN113793623B (zh) | 音效设置方法、装置、设备以及计算机可读存储介质 | |
CN113051425B (zh) | 音频表征提取模型的获取方法和音频推荐的方法 | |
US20140140519A1 (en) | Sound processing device, sound processing method, and program | |
CN103390404A (zh) | 信息处理装置、信息处理方法和信息处理程序 | |
US11151483B2 (en) | System and a method for assessing data for analytics | |
Sheng et al. | Feature selection for dynamic range compressor parameter estimation | |
US20230368766A1 (en) | Temporal alignment of signals using attention | |
Panagiotakis et al. | Signal segmentation and modelling based on equipartition principle | |
CN116097353A (zh) | 在呈现出多种损伤的训练信号上训练的质量估计模型 | |
CN118333713A (zh) | 对象推荐方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |