CN112927701A - 样本生成、神经网络生成、音频信号生成方法及装置 - Google Patents
样本生成、神经网络生成、音频信号生成方法及装置 Download PDFInfo
- Publication number
- CN112927701A CN112927701A CN202110164876.XA CN202110164876A CN112927701A CN 112927701 A CN112927701 A CN 112927701A CN 202110164876 A CN202110164876 A CN 202110164876A CN 112927701 A CN112927701 A CN 112927701A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- target
- sound source
- generating
- generation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 438
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000000354 decomposition reaction Methods 0.000 claims description 70
- 238000012545 processing Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 191
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
本公开提供了一种样本生成、神经网络生成、音频信号生成方法及装置,其中,该方法包括:基于目标声源的位置信息,对目标声源的单声道音频信号进行转换处理,得到目标声源的双声道音频信号;基于双声道音频信号,生成目标双声道音频信号;基于目标双声道音频信号,生成目标单声道音频信号;基于目标双声道音频信号、以及目标单声道音频信号,生成样本数据;其中,目标双声道音频信号为样本数据中的监督数据,目标单声道音频信号为样本数据中的训练数据。本公开实施例能够将单声道音频信号转换为样本数据,由于单声道音频信号的获取比较容易,且转换为样本数据的过程也不需要依赖于昂贵的声音采集设备,因此样本数据获取的成本较低。
Description
技术领域
本公开涉及音频处理技术领域,具体而言,涉及一种样本生成、神经网络生成、音频信号生成方法、装置、计算机设备以及存储介质。
背景技术
立体声音频,特别是双耳音频,在身临其境的观看环境中扮演着重要的角色。通过将确定声源位置发出的单声道音频转化为双声道音频,可以使用户能够根据双声道音频确定发声位置。在利用虚拟现实(Virtual Reality,VR)观影时,用户可以在通过观看电影图像的方式确定发声物体位置的同时,通过收听立体声音频的方式加强对发声物体的感知,提高用户的观影感受。
当前,可以通过依赖于神经网络得到指定发声位置的双声道音频,但获取训练神经网络的样本数据的成本较高。
发明内容
本公开实施例至少提供一种样本生成、神经网络生成、音频信号生成方法、装置、计算机设备以及存储介质。
第一方面,本公开实施例提供了一种样本生成方法,包括:
基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号;基于所述双声道音频信号,生成目标双声道音频信号;基于所述目标双声道音频信号,生成目标单声道音频信号;基于所述目标双声道音频信号、以及所述目标单声道音频信号,生成样本数据;其中,所述目标双声道音频信号为所述样本数据中的监督数据,所述目标单声道音频信号为所述样本数据中的训练数据。
这样,能够将单声道音频信号转换为样本数据,由于单声道音频信号的获取比较容易,且转换为样本数据的过程也不需要依赖于昂贵的声音采集设备,因此样本数据获取的成本较低。
一种可选的实施方式中,所述位置信息包括:所述目标声源在预设坐标系中的方位角和顶角。
这样,通过利用方位角和顶角确定目标声源的位置信息,可以在保证能够准确的表征位置信息的同时,减少表示位置信息的数据量。
一种可选的实施方式中,所述目标声源的双声道音频信号,包括:所述目标声源的左声道音频信号、以及所述目标声源的右声道音频信号。
一种可选的实施方式中,所述基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号,包括:基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号;基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号;基于多个预设方向分别对应的左声道虚拟信号,生成所述目标声源的左声道音频信号;以及基于所述多个预设方向分别对应的右声道虚拟信号,生成所述目标声源的右声道音频信号。
这样,利用上述基于多个通道、以及多个方向对单声道音频信号进行分解,均可以将分解后得到对应的子信号还原为原先的单声道音频信号的约束条件,可以在避免人耳结构产生的滤波影响的同时,减少实验室环境的制约因素。
一种可选的实施方式中,基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号,包括:
对所述单声道音频信号进行球谐函数分解,得到所述单声道音频信号在多个通道中的每个通道对应的子音频信号。
这样,通过球谐函数分解的方式,可以较大程度的减小在对单声道音频的分解时产生的信号损失。
一种可选的实施方式中,所述基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号,包括:基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数;基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号;针对所述每个预设方向,基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
一种可选的实施方式中,所述基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数,包括:基于所述多个通道分别对应的子音频信号,构建子音频信号向量;基于所述子音频信号向量、以及所述目标声源的单声道音频信号,得到所述多个通道分别对应的音频分解系数;在所述多个预设方向上对所述多个通道分别对应的音频分解系数进行分解,得到所述多个预设方向中每个方向对应的目标音频分解系数。
一种可选的实施方式中,所述基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号,包括:基于所述多个预设方向分别对应的目标信号分解系数,构建分解系数矩阵;基于预先确定的约束条件、所述分解系数矩阵、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号。
一种可选的实施方式中,所述基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号,包括:利用头相关冲激响应HRIR对所述每个预设方向对应的虚拟音频信号进行分解,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
这样,利用HRIR对每个预设方向对应的虚拟音频信号进行分解,可以模拟定位更为真是的双声道音频信号中的相关声学信息,使得得到的左声道虚拟信号、以及右声道虚拟信号更具有真实性。
一种可选的实施方式中,所述基于所述双声道音频信号,生成目标双声道音频信号,包括:将至少两个目标声源分别对应的双声道音频信号进行叠加,生成所述目标双声道音频信号。
一种可选的实施方式中,所述目标双声道音频信号,包括:目标左声道音频信号、以及目标右声道音频信号;所述基于所述目标双声道音频信号,生成目标单声道音频信号,包括:将所述目标左声道音频信号、以及所述目标右声道音频信号叠加,得到所述目标单声道音频信号。
这样,利用得到的目标双声道音频信号生成目标单声道音频信号,可以减少由于利用目标声源生成对应的双声道音频信号的过程中产生的损失对数据的干扰,使得目标双声道音频信号与目标单声道音频信号有更准确的对应关系。
一种可选的实施方式中,所述训练数据还包括:生成所述目标双声道音频信号的双声道音频信号对应目标声源的位置信息。
第二方面,本公开实施例提供了一种神经网络生成方法,包括:利用第一方面所述的样本生成方法生成样本数据;利用所述样本数据对待训练的神经网络进行训练,得到目标神经网络。
这样,由于采用第一方面生成的样本数据具有较高的真实度,且多样性较强,因此利用这样的样本数据训练得到的神经网络可以不受限于单一环境的影响,泛化能力更强。
第三方面,本公开实施例提供了一种音频信号生成方法,包括:获取待处理视频、以及与所述待处理视频对应的单声道音频信号;基于所述待处理视频,确定所述待处理视频中声源对象的位置信息;利用第二方面所述的神经网络生成方法生成的目标神经网络,对所述待处理视频中声源对象的位置信息、以及所述单声道音频信号进行处理,得到双声道音频信号。
这样,由于采用第二方面生成的神经网络的泛化能力更强,因此利用这样的神经网络对待处理视频对应的单声道音频信号进行处理后,得到的双声道音频信号可以更真实、更准确。
第四方面,本公开实施例还提供一种样本生成装置,包括:第一处理模块,用于基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号;第一生成模块,用于基于所述双声道音频信号,生成目标双声道音频信号;第二生成模块,用于基于所述目标双声道音频信号,生成目标单声道音频信号;第三生成模块,用于基于所述目标双声道音频信号、以及所述目标单声道音频信号,生成样本数据;其中,所述目标双声道音频信号为所述样本数据中的监督数据,所述目标单声道音频信号为所述样本数据中的训练数据。
一种可选的实施方式中,所述位置信息包括:所述目标声源在预设坐标系中的方位角和顶角。
一种可选的实施方式中,所述目标声源的双声道音频信号,包括:所述目标声源的左声道音频信号、以及所述目标声源的右声道音频信号。
一种可选的实施方式中,所述第一处理模块在基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号时,用于:基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号;基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号;基于多个预设方向分别对应的左声道虚拟信号,生成所述目标声源的左声道音频信号;以及基于所述多个预设方向分别对应的右声道虚拟信号,生成所述目标声源的右声道音频信号。
一种可选的实施方式中,所述第一处理模块在基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号时,用于:对所述单声道音频信号进行球谐函数分解,得到所述单声道音频信号在多个通道中的每个通道对应的子音频信号。
一种可选的实施方式中,所述第一处理模块在所述基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号时,用于:基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数;基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号;针对所述每个预设方向,基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
一种可选的实施方式中,所述第一处理模块在基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数时,用于:基于所述多个通道分别对应的子音频信号,构建子音频信号向量;基于所述子音频信号向量、以及所述目标声源的单声道音频信号,得到所述多个通道分别对应的音频分解系数;在所述多个预设方向上对所述多个通道分别对应的音频分解系数进行分解,得到所述多个预设方向中每个方向对应的目标音频分解系数。
一种可选的实施方式中,所述第一处理模块在基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号时,用于:基于所述多个预设方向分别对应的目标信号分解系数,构建分解系数矩阵;基于预先确定的约束条件、所述分解系数矩阵、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号。
一种可选的实施方式中,所述第一处理模块在基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号时,用于:利用头相关冲激响应HRIR对所述每个预设方向对应的虚拟音频信号进行分解,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
一种可选的实施方式中,所述第一生成模块在基于所述双声道音频信号,生成目标双声道音频信号时,用于:将至少两个目标声源分别对应的双声道音频信号进行叠加,生成所述目标双声道音频信号。
一种可选的实施方式中,所述目标双声道音频信号,包括:目标左声道音频信号、以及目标右声道音频信号;所述第二生成模块在基于所述目标双声道音频信号,生成目标单声道音频信号时,用于:将所述目标左声道音频信号、以及所述目标右声道音频信号叠加,得到所述目标单声道音频信号。
一种可选的实施方式中,所述训练数据还包括:生成所述目标双声道音频信号的双声道音频信号对应目标声源的位置信息。
第五方面,本公开实施例还提供一种神经网络生成装置,包括:第四生成模块,用于利用第四方面所述的样本生成装置生成样本数据;训练模块,用于利用所述样本数据对待训练的神经网络进行训练,得到目标神经网络。
第六方面,本公开实施例还提供一种音频信号生成装置,包括:获取模块,用于获取待处理视频、以及与所述待处理视频对应的单声道音频信号;确定模块,用于基于所述待处理视频,确定所述待处理视频中声源对象的位置信息;第二处理模块,用于利用基于第四方面所述的神经网络生成装置生成的目标神经网络,对所述待处理视频中声源对象的位置信息、以及所述单声道音频信号进行处理,得到双声道音频信号。
第七方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面、第二方面、或第三方面中任一种可能的实施方式中的步骤。
第八方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面、第二方面、或第三方面中任一种可能的实施方式中的步骤。
关于上述装置、计算机设备、及计算机可读存储介质的效果描述参见上述对应的方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种样本生成方法的流程图;
图2示出了本公开实施例所提供的一种基于目标声源的位置信息,对目标声源的单声道音频信号进行转换处理,得到目标声源的双声道音频信号的具体方法的流程图;
图3示出了本公开实施例所提供的一种生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号的具体方法的流程图;
图4示出了本公开实施例所提供的一种确定预设方向的示意图;
图5示出了本公开实施例所提供的一种神经网络生成方法的流程图;
图6示出了本公开实施例所提供的一种音频信号生成方法的流程图;
图7示出了本公开实施例所提供的一种样本生成装置的示意图;
图8示出了本公开实施例所提供的一种神经网络生成装置的示意图;
图9示出了本公开实施例所提供的一种音频信号生成装置的示意图;
图10示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,在训练用于音频转换的神经网络时,需要预先在实验室环境下获取高质量的真实立体声数据,并利用获取的真实立体声数据对神经网络进行训练。而在实验室环境下获取真实立体声数据时,需要昂贵的音频采集环境,造成了样本数据获取的成本较高。
另外,由于样本数据均是在实验室环境下获取的,因此得到的样本数据在实际使用中,容易表现出实验室环境的相关特性,导致了基于该种样本数据训练得到的神经网络会学习到这种特性,从而在应用过程中,造成了生成的双声道音频数据也会存在实验室环境的相关特性,失真度较高。
此外,由于实验室环境较为单一,生成的样本数据的多样性较差,造成了训练得到的神经网络的泛化能力较差。
基于上述研究,本公开提供了一种样本生成方法,能够将单声道音频信号转换为样本数据,单声道音频信号的获取比较容易,且转换为样本数据的过程也不需要依赖于昂贵的声音采集设备,因此样本数据获取的成本较低。
此外,由于单声道音频信号可以在任何环境下采集得到,因此不受限于单一的采集环境,使得训练得到的神经网络不受限于单一环境特性的影响,因而得到的样本数据具有更高的真实度。
同时,利用在多种环境下采集到的单声道音频信号生成的样本数据来训练神经网络,样本数据的多样性较强,神经网络的泛化能力也更强。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种样本生成方法进行详细介绍,本公开实施例所提供的样本生成方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该样本生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面对本公开实施例提供的样本生成方法加以说明。
参见图1所示,为本公开实施例提供的样本生成方法的流程图,所述方法包括步骤S101~S104,其中:
S101:基于目标声源的位置信息,对目标声源的单声道音频信号进行转换处理,得到目标声源的双声道音频信号;
S102:基于双声道音频信号,生成目标双声道音频信号;
S103:基于目标双声道音频信号,生成目标单声道音频信号;
S104:基于目标双声道音频信号、以及目标单声道音频信号,生成样本数据;其中,目标双声道音频信号为样本数据中的监督数据,目标单声道音频信号为样本数据中的训练数据。
本公开实施例利用目标声源的位置信息,对目标声源的单声道音频信号进行转换处理,得到目标声源的双声道音频信号,并基于双声道音频信号确定对应的目标双声道音频信号、以及目标单声道音频信号,作为样本数据,该过程能够将单声道音频信号转换为样本数据,单声道音频信号的获取比较容易,且转换为样本数据的过程也不需要依赖于昂贵的声音采集设备,因此样本数据获取的成本较低。
下面对上述S101~S104加以详细说明。
针对上述S101,目标声源例如包括确定位置信息的单声道音频信号s(t)。目标声源由于为单声道音频信号,因此相较于直接获取双声道音频信号较易获取,并且可以避免在获取双声道音频信号时花费较大的设备、时间成本。
示例性的,在确定目标声源时,可以从一段视频中截取单一声源的单声道音频信号,或者直接获取单一声源的单声道音频信号。
其中,在从一段视频中截取单一声源的单声道音频信号时,使用的一段视频例如可以是电影片段或者拍摄的短视频。其中,得到的一段视频中包含唯一发声对象,例如电影中一个进行台词表演的演员,或者音乐会中独奏的乐器。
另外,也可以利用具有录音功能的设备获取某一目标声源的单声道音频信号。
在确定目标声源的位置信息时,例如可以先建立一个预设坐标系,预设坐标系例如包括直角坐标系,或者球形坐标系。
其中,由于在模拟人体头部接收声源信号时,以头部为中心,可以假设声源聚集性的由多个方向向此中心传播,因此可以选用球形坐标系作为预设坐标系,根据中心确定预设坐标系的原点,以模拟真实场景中确定位置信息的目标声源向人体头部传播的形态方式。
具体地,在确定方位角时,例如可以确定目标声源在预设坐标系的x轴与y轴所在平面上的投影点与原点的连线,与x轴之间的夹角确定;在确定顶角时,例如可以确定目标声源与原点的连线与预设坐标系的z轴之间的夹角确定。
在确定目标声源的位置信息后,即可以对目标声源的单声道音频信号进行转换处理,以得到目标声源的双声道音频信号。
此处,可以为同一单声道音频信号确定至少一个位置信息;针对每个位置信息,都可以基于该位置信息、以及单声道音频信号,生成与该位置信息对应的样本数据。
具体地,参见图2所示,为本公开实施例提供的一种基于目标声源的位置信息,对目标声源的单声道音频信号进行转换处理,得到目标声源的双声道音频信号的具体方法,包括:
S201:基于目标声源的位置信息,在多个通道上将单声道音频信号进行分解,得到多个通道中每个通道对应的子音频信号。
此处,多个通道例如可以是全方向通道W,以及预设坐标系的x轴、y轴、以及z轴分别对应的正交通道X、Y、以及Z。
具体地,在确定多个通道中每个通道上分别对应的子音频信号时,可以对单声道音频信号进行球谐函数分解,得到单声道音频信号在多个通道中的每个通道对应的子音频信号。
其中,球谐函数可以根据球面谐波分解(Spherical Harmonic Decomposition)确定,在基于多个通道将目标声源的单声道音频信号进行转换处理时,例如可以采用下述公式(1)~(4)。
其中,单声道音频信号在通道W上对应的子音频信号由于对应了全方向,因此可以直接表示为单声道音频信号s(t)。对于在通道X、Y、Z上分别对应的子音频信号以及系数中满足其中序数l以及阶数m分别表示球面谐波分解时对应的序数以及阶数,阶数m的范围由序数l确定,例如限制在区间[-l,l]中。并且δm的取值由阶数m确定,当阶数m取值为0时,δm取值为1;当阶数m取值为1时,δm取值为0。
S202:基于多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号。
其中,在根据上述S201确定单声道音频信号s(t)在多个通道分解对应的子音频信号后,即可以粗略地利用分解得到的子音频信号确定单声道音频信号s(t)对应的双声道音频信号,但是这种方法无法规避人耳结构导致的对双声道音频信号的滤波,使得人的大脑在接收到此双声道音频信号后,所感知到的声源位置和真实的声源位置之间差异较大。
其中,为了缓解人耳结构产生的滤波影响,可以利用描述自由场中点声源与人体耳道指定位置之间的声学传递函数,头相关传递函数(Head-Related Transfer Function,HRTF),对单声道音频信号s(t)进行处理,具体地,可以使用HRTF在时域中的头相关冲激响应(Head-Related Impulse Response,HRIR)模拟定位更为真实的双声道音频信号中的相关声学信息双耳时间差(Interaural Time Difference,ITD),双耳声级差(InterauralLevel Difference,ILD),以及单耳频谱因素。但是这种方法更适应于实验室环境,例如为空旷无反射环境,并不能适应正常的自然环境,因此这种方法的局限性较大。
此外,由于对于单声道音频信号s(t),可以根据多个通道将其分解为对应的多个子音频信号,也可以根据多个方向将其分解为对应的子音频信号,也即无论对单声道音频信号s(t)进行何种方向上的分解,都可以基于确定的分解通道或方向、以及通道或方向对应的子音频信号对单声道音频信号s(t)进行还原。
因此,在本公开实施例中,可以利用上述基于多个通道、以及多个方向对单声道音频信号s(t)进行分解,均可以将分解后得到对应的子信号还原为原先的单声道音频信号的约束条件,实现在单声道音频信号s(t)分解时,既可以在避免人耳结构产生的滤波影响,同时又可以减少实验室环境的制约因素。
具体地,参见图3所示,为本公开实施例提供的一种生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号的具体方法,包括:
S301:基于多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数。
在具体实施中,在基于多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数时,例如可以采用下述方式:基于多个通道分别对应的子音频信号,构建子音频信号向量;基于子音频信号向量、以及目标声源的单声道音频信号,得到多个通道分别对应的音频分解系数;在多个预设方向上对多个通道分别对应的音频分解系数进行分解,得到多个预设方向中每个方向对应的目标音频分解系数。
其中,在根据上述S201确定每个通道分别对应的子音频信号时,还可以将公式(1)中除单声道音频信号s(t)外的系数表示为多个通道分别对应的音频分解系数Y(υ),也即对于任一通道的子音频信号,都可以以单声道音频信号s(t)、以及此通道对应的系数Y(υ)表示,则由不同通道对应的子音频信号确定的子音频信号向量Ψ(υ)可以以下述公式(5)表示:
同时,根据上述公式(5)、以及上述公式(1)~(4)中确定的不同通道对应的子音频信号,可以确定多个通道分别对应的音频分解系数Y(υ)。
在确定多个通道分别对应的音频分解系数Y(υ)后,基于预设的多个方向,可以利用专用模拟原始三维声场效果的声音系统——环境立体混合声(Ambisonics)对Y(υ)进行分解,以得到多个预设方向中每个方向对应的目标音频分解系数Y(υ′n)。其中n表示在N个预设方向中的第n个方向,在下文中不再重复赘述。
其中,预设方向例如可以设置N(N为正整数)个,根据实际情况可以设置N为8或者10。在确定N个预设方向时,例如可以在预设坐标系的x-y平面上选取N个点,然后再根据确定的N个点确定对应的N个预设方向。
示例性的,可以将依据人眼有效视野的限制,通过将预设坐标轴中x轴作为人眼的在正视时的视线方向,然后利用人眼左右视野相对于正视的视线方向范围[-1/3π,1/3π],从该范围内确定x-y平面上的N个点,然后预设坐标轴的原点与此N个点的连线方向作为N个预设方向。
参见图4所示,为本公开实施例提供的一种确定预设方向的示意图。在示意图中,示出了预设坐标系的原点o、x轴、y轴、z轴、表征x-y平面的扇形41,以及在x-y平面确定的8个点42,以及根据任一点42确定的预设方向43。
在确定N个预设方向后,即可对Y(υ)进行分解,得到N个预设方向中每个预设方向分别对应的目标音频分解系数Y(υ′n)。
S302:基于多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成多个预设方向分别对应的虚拟音频信号。
在根据上述S301确定了多个预设方向分别对应的目标音频分解系数Y(υ′n)后,即可以构建分解系数矩阵D(Θ),并基于预先确定的约束条件、分解系数矩阵D(Θ)、以及多个通道分别对应的子音频信号构成的子音频信号向量Ψ(υ),生成多个预设方向分别对应的虚拟音频信号sn′(t)。
其中,构建的分解系数矩阵D(Θ)可以表示为D(Θ)=[Y(υ′1),…,Y(υ′N)]T。
预先确定的约束条件,例如可以是上述基于多个通道、以及多个方向对单声道音频信号s(t)进行分解,均可以将分解后得到对应的子信号还原为原先的单声道音频信号的约束条件,可以用下述公式(6)表示:
D(Θ)s′(t)=Ψ(υ) (6)
此时,即可以利用公式(6)表达的约束条件,利用确定的分解系数矩阵D(Θ)以及子音频信号向量Ψ(υ),确定多个预设方向上分别对应的虚拟音频信号sn′(t)。
其中,对于N个方向中任一方向上的虚拟音频信号,都可以根据下述公式(7)确定:
s′(t)=(D(Θ)TD(Θ))-1D(Θ)TΨ(υ) (7)
其中,在公式(7)中简化了方向n。
S303:针对每个预设方向,基于每个预设方向对应的虚拟音频信号,生成与每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
在具体实施中,可以利用HRIR对目标预设方向对应的虚拟音频信号进行分解,生成与每个预设方向对应的左声道虚拟信号hl(υ′n)、以及右声道虚拟信号hr(υ′n)。
承接上述S202,获取目标声源的双声道音频信号的具体方法还包括:
S203:基于多个预设方向分别对应的左声道虚拟信号,生成目标声源的左声道音频信号;以及基于多个预设方向分别对应的右声道虚拟信号,生成目标声源的右声道音频信号。
其中,在生成目标声源的左声道音频信号时,可以将上述S303中确定的多个预设方向对应的左声道虚拟信号hl(υ′n)与S302中确定的多个预设方向上分别对应的虚拟音频信号sn′(t)进行卷积运算,并将多个预设方向上分别对应的此卷积运算的结果进行加和,以得到目标声源s(t)的左声道音频信号
同样的,在生成目标声源的右声道音频信号时,可以将上述S303中确定的多个预设方向对应的右声道虚拟信号hr(υ′n)与S302中确定的多个预设方向上分别对应的虚拟音频信号sn′(t)进行卷积运算,并将多个预设方向上分别对应的此卷积运算的结果进行加和,以得到目标声源s(t)的右声道音频信号
针对上述S102,在根据上述S101确定了目标声源s(t)对应的双声道音频信号的情况下,可以基于该双声道音频信号,生成目标双声道音频信号。
一种可能的实施方式中,可以直接将双声道音频信号作为目标双声道音频信号。此时,该目标双声道音频信号为单音源的双声道音频信号。
另一种可能的实施方式中,也可以将至少两个目标声源分别对应的双声道音频信号进行叠加,生成目标双声道音频信号。此时,该目标双声道音频信号为多音源的双声道音频信号。
其中,为了更好的对多声源的情况进行处理,设置目标声源可以有两个或者多个,以模拟生活中例如音乐会上多个乐器进行演奏时的多声源场景,或者模拟影片中多个演员同时进行台词表演时的多声源场景。任一目标声源的确定的方式与上述S101中确定目标声源的方式相似,在此不再赘述。
通过确定利用至少两个目标声源确定的目标双声道音频信号,可以将其作为样本数据中的监督数据,用以在监督训练将单声道音频转化为双声道音频相关的神经网络对多个声源的单声道音频信号进行处理的处理能力。
针对上述S103,目标双声道音频信号,包括目标左声道音频信号、以及目标右声道音频信号。
在基于目标左声道音频信号生成目标单声道音频信号时,例如可以采用下述方法:将目标左声道音频信号、以及目标右声道音频信号进行叠加,得到目标单声道音频信号。
此处,叠加例如可以不考虑音量大小的叠加,在叠加时,例如是将目标左声道音频信号和目标右声道音频信号对应时间戳的信号值求和。
例如,目标左声道音频信号为:0.1,0.2,0.3;目标右声道音频信号为:0.4,0.5,0.6,将两者叠加后得到的目标单声道音频信号即为:0.5,0.7,0.9。
另外,在将目标左声道音频信号和目标右声道音频信号叠加时,例如还可以是将对应时间戳的信号值求平均。
其中,得到的目标单声道音频信号为样本数据中的训练数据,用以作为将单声道音频转化为双声道音频相关的神经网络的输入数据。
此外,利用得到的目标双声道音频信号生成目标单声道音频信号,作为样本数据,可以减少由于利用目标声源生成对应的双声道音频信号的过程中产生的损失对数据的干扰,因此样本数据中的监督数据(也即目标双声道音频信号)与样本数据中的训练数据(也即目标单声道音频信号)有更准确的对应关系。
在本公开另一实施例中,训练数据还包括生成目标双声道音频信号的双声道音频信号对应目标声源的位置信息。
示例性的,以确定目标双声道音频信号的目标声源包括两个为例进行说明。
在确定两个目标声源分别对应的位置信息时,例如可以先确定一个环形面,然后在该环形面上确定在y轴与z轴所在的平面上的任一点位置(y,z)。该环形面是根据人体有效视野、以及预设坐标系确定的前视环形面。其中,前视环形面可以由两个边界、上边缘、以及下边缘确定。
在具体实施中,确定该前视环形面时,例如可以先在预设坐标系中的x轴与y轴所确定的x-y平面中确定前视环形面的边界,表征前视环形面的宽度W。由于人体的有效视野大约是2/3π,因此可以在x-y平面中,以x轴为标准轴,在顺时针、逆时针两个方向上分别偏转2/3π,并依据形成的夹角确定该前视环形面的边界。
然后,还可以利用确定的前视环形面的边界,确定前视环形面的上边缘以及下边缘,表征前视环视面的高度H。具体地,可以通过为前视环形面确定高度与宽度的比值,例如设置为H/W=1/2,以确定前视环形面的上边缘以及下边缘。
此时,对于此前视环形面,可以确定其上任一点的位置信息。
在确定前视环形面后,可以将两个目标声源的位置分别确定在前视环视面上的任一点。由于在同一个位置认为只有一个目标声源发声,因此两个目标声源的位置在该前视环形面上的不同点。
针对上述S104,在利用上述S101~S103确定了目标双声道音频信号以及目标单声道音频信号后,即可以生成样本数据。也即,样本数据中包括监督数据目标双声道音频信号、以及训练数据目标单声道音频信号。
基于同一发明构思,本公开另一实施例中还提供了一种神经网络生成方法。
参见图5所示,为本公开实施例提供的一种神经网络生成方法的流程图,包括S501~S502:
S501:利用本公开实施例提供的样本生成方法生成样本数据;
S502:利用样本数据对待训练的神经网络进行训练,得到目标神经网络。
其中,神经网络包括但不限于下述至少一种:卷积神经网络(ConvolutionalNeural Networks,CNN)、区域卷积神经网络(Regions Region-based ConvolutionalNetwork,R-CNN)、快速区域卷积神经网络(Fast Region-based Convolutional Network,Fast R-CNN)、更快速区域卷积神经网络(Faster Region-based Convolutional Network,Faster R-CNN)。
具体地,在待训练的神经网络中,还可以包括进行目标检测的网络模型,用于检测视频中任一目标声源,并确定目标声源对应的位置信息。
在具体实施中,以样本数据中的训练数据目标单声道音频信号作为待训练的神经网络的输入,利用样本数据中的监督数据目标双声道音频信号对待训练的神经网络进行监督学习,在完成较多数量的样本数据的学习后,即可以得到目标神经网络。
示例性的,可以选用Faster R-CNN作为待训练的神经网络。对于样本数据中人一对监督数据以及训练数据,将训练数据输入到Faster R-CNN后,Faster R-CNN可以在对训练数据进行处理后,输出训练数据对应的双声道音频信号中左声道音频信号与右声道音频信号之间的差分音频,并根据此差异预测训练数据对应的预测左声道音频信号、以及右声道音频信号。
具体地,可以将训练数据表示为sm(t),作为Faster R-CNN的输入,Faster R-CNN在对sm(t)进行处理后,可以返回预测的差分音频其中,由于Faster R-CNN在对数据进行处理时,数据的取值范围会较大程度的影响模型训练的速度和难度,从而影响训练的效率,因此还可以对训练时的数据进行掩膜处理(mask),也即返回的预测的差分音频可以表示为其中ISTFT表示短时傅里叶逆变换(Inverse Short-TimeFourier transform),M表示掩膜处理。
利用监督数据目标双声道音频信号,即可根据该预测得到的预测左声道音频信号以及右声道音频信号对Faster R-CNN中的相关参数进行调整,以使得Faster R-CNN输出的预测的差分音频可以逐渐的贴近监督数据目标双声道音频信号。
由于利用样本生成方法确定的样本数据在成本较低的同时,还可以保证准确性,因此利用样本生成方法确定的样本数据训练得到的神经网络可以避免利用双声道音频信号进行学习时对实验室环境等产生的过拟合现象。
基于同一发明构思,本公开另一实施例中还提供了一种音频信号生成方法。
参见图6所示,为本公开实施例提供的一种音频信号生成方法的流程图,包括S601~S603:
S601:获取待处理视频、以及与待处理视频对应的单声道音频信号;
S602:基于待处理视频,确定待处理视频中声源对象的位置信息;
S603:利用本公开实施例提供的神经网络生成方法生成的目标神经网络,对待处理视频中声源对象的位置信息、以及单声道音频信号进行处理,得到双声道音频信号。
具体地,待处理视频可以为一段音乐会的视频,或者包含进行台词表演的演员的电影片段。其中,待处理视频包含对应的单声道音频信号。
在确定该待处理视频后,即可以确定待处理视频中声源对象的位置信息。此处,可以通过人工标注的方式确定声源对象的位置信息,或者,使用目标检测相关的网络模型确定位置信息。具体确定位置信息的方法在此不再赘述。
在确定待处理视频中声源对象的位置信息、以及对应单声道音频信号后,即可以利用目标神经网络对其进行处理,以得到待处理视频对应的双声道音频信号。具体的过程可以参见上述样本生成方法、以及神经网络生成方法的说明,在此不再赘述。
此外,还可以将增强现实(Augmented Reality,AR)游戏作为一个目标场景,以枪战游戏为例,在可以确定武器发声位置时,也可以使用目标检测网络对武器发声位置对应的位置信息、以及该武器发出的单声道音频信号进行处理,以得到该武器的双声道音频信息。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与样本生成方法对应的样本生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述样本生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图7所示,为本公开实施例提供的一种样本生成装置的示意图,所述装置包括:第一处理模块71、第一生成模块72、第二生成模块73、以及第三生成模块74;其中,
第一处理模块71,用于基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号;第一生成模块72,用于基于所述双声道音频信号,生成目标双声道音频信号;第二生成模块73,用于基于所述目标双声道音频信号,生成目标单声道音频信号;第三生成模块74,用于基于所述目标双声道音频信号、以及所述目标单声道音频信号,生成样本数据;其中,所述目标双声道音频信号为所述样本数据中的监督数据,所述目标单声道音频信号为所述样本数据中的训练数据。
一种可选的实施方式中,所述位置信息包括:所述目标声源在预设坐标系中的方位角和顶角。
一种可选的实施方式中,所述目标声源的双声道音频信号,包括:所述目标声源的左声道音频信号、以及所述目标声源的右声道音频信号。
一种可选的实施方式中,所述第一处理模块71在基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号时,用于:基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号;基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号;基于多个预设方向分别对应的左声道虚拟信号,生成所述目标声源的左声道音频信号;以及基于所述多个预设方向分别对应的右声道虚拟信号,生成所述目标声源的右声道音频信号。
一种可选的实施方式中,所述第一处理模块71在基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号时,用于:对所述单声道音频信号进行球谐函数分解,得到所述单声道音频信号在多个通道中的每个通道对应的子音频信号。
一种可选的实施方式中,所述第一处理模块71在所述基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号时,用于:基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数;基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号;针对所述每个预设方向,基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
一种可选的实施方式中,所述第一处理模块71在基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数时,用于:基于所述多个通道分别对应的子音频信号,构建子音频信号向量;基于所述子音频信号向量、以及所述目标声源的单声道音频信号,得到所述多个通道分别对应的音频分解系数;在所述多个预设方向上对所述多个通道分别对应的音频分解系数进行分解,得到所述多个预设方向中每个方向对应的目标音频分解系数。
一种可选的实施方式中,所述第一处理模块71在基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号时,用于:基于所述多个预设方向分别对应的目标信号分解系数,构建分解系数矩阵;基于预先确定的约束条件、所述分解系数矩阵、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号。
一种可选的实施方式中,所述第一处理模块71在基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号时,用于:利用头相关冲激响应HRIR对所述每个预设方向对应的虚拟音频信号进行分解,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
一种可选的实施方式中,所述第一生成模块72在基于所述双声道音频信号,生成目标双声道音频信号时,用于:将至少两个目标声源分别对应的双声道音频信号进行叠加,生成所述目标双声道音频信号。
一种可选的实施方式中,所述目标双声道音频信号,包括:目标左声道音频信号、以及目标右声道音频信号;所述第二生成模块73在基于所述目标双声道音频信号,生成目标单声道音频信号时,用于:将所述目标左声道音频信号、以及所述目标右声道音频信号叠加,得到所述目标单声道音频信号。
一种可选的实施方式中,所述训练数据还包括:生成所述目标双声道音频信号的双声道音频信号对应目标声源的位置信息。
基于同一发明构思,本公开实施例中还提供了与神经网络生成方法对应的神经网络生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本公开实施例提供的一种神经网络生成装置的示意图,所述装置包括:第四生成模块81、以及训练模块82;其中,
第四生成模块81,用于利用第四方面所述的样本生成装置生成样本数据;训练模块82,用于利用所述样本数据对待训练的神经网络进行训练,得到目标神经网络。
基于同一发明构思,本公开实施例中还提供了与音频信号生成装置对应的音频信号生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述音频信号生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图9所示,为本公开实施例提供的一种音频信号生成装置的示意图,所述装置包括:获取模块91、确定模块92以及第二处理模块93;其中,
获取模块91,用于获取待处理视频、以及与所述待处理视频对应的单声道音频信号;确定模块92,用于基于所述待处理视频,确定所述待处理视频中声源对象的位置信息;第二处理模块93,用于利用基于第四方面所述的神经网络生成装置生成的目标神经网络,对所述待处理视频中声源对象的位置信息、以及所述单声道音频信号进行处理,得到双声道音频信号。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种计算机设备,如图10所示,为本公开实施例提供的计算机设备结构示意图,包括:
处理器10和存储器20;所述存储器20存储有处理器10可执行的机器可读指令,处理器10用于执行存储器20中存储的机器可读指令,所述机器可读指令被处理器10执行时,处理器10执行下述步骤:
基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号;基于所述双声道音频信号,生成目标双声道音频信号;基于所述目标双声道音频信号,生成目标单声道音频信号;基于所述目标双声道音频信号、以及所述目标单声道音频信号,生成样本数据;其中,所述目标双声道音频信号为所述样本数据中的监督数据,所述目标单声道音频信号为所述样本数据中的训练数据。
上述存储器20包括内存210和外部存储器220;这里的内存210也称内存储器,用于暂时存放处理器10中的运算数据,以及与硬盘等外部存储器220交换的数据,处理器10通过内存210与外部存储器220进行数据交换。
上述指令的具体执行过程可以参考本公开实施例中所述的样本生成、神经网络生成、音频信号生成方法的步骤,此处不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的样本生成、神经网络生成、音频信号生成方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的样本生成、神经网络生成、音频信号生成方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (19)
1.一种样本生成方法,其特征在于,包括:
基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号;
基于所述双声道音频信号,生成目标双声道音频信号;
基于所述目标双声道音频信号,生成目标单声道音频信号;
基于所述目标双声道音频信号、以及所述目标单声道音频信号,生成样本数据;
其中,所述目标双声道音频信号为所述样本数据中的监督数据,所述目标单声道音频信号为所述样本数据中的训练数据。
2.根据权利要求1所述的样本生成方法,其特征在于,所述位置信息包括:
所述目标声源在预设坐标系中的方位角和顶角。
3.根据权利要求1或2所述的样本生成方法,其特征在于,所述目标声源的双声道音频信号,包括:所述目标声源的左声道音频信号、以及所述目标声源的右声道音频信号。
4.根据权利要求3所述的样本生成方法,其特征在于,所述基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号,包括:
基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号;
基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号;
基于多个预设方向分别对应的左声道虚拟信号,生成所述目标声源的左声道音频信号;以及基于所述多个预设方向分别对应的右声道虚拟信号,生成所述目标声源的右声道音频信号。
5.根据权利要求4所述的样本生成方法,其特征在于,基于所述目标声源的位置信息,在多个通道上将所述单声道音频信号进行分解,得到所述多个通道中每个通道对应的子音频信号,包括:
对所述单声道音频信号进行球谐函数分解,得到所述单声道音频信号在多个通道中的每个通道对应的子音频信号。
6.根据权利要求4或5所述的样本生成方法,其特征在于,所述基于所述多个通道分别对应的子音频信号,生成多个预设方向分别对应的左声道虚拟信号、以及右声道虚拟信号,包括:
基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数;
基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号;
针对所述每个预设方向,基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
7.根据权利要求6所述的样本生成方法,其特征在于,所述基于所述多个通道分别对应的子音频信号,确定多个预设方向中每个预设方向对应的目标信号分解系数,包括:
基于所述多个通道分别对应的子音频信号,构建子音频信号向量;
基于所述子音频信号向量、以及所述目标声源的单声道音频信号,得到所述多个通道分别对应的音频分解系数;
在所述多个预设方向上对所述多个通道分别对应的音频分解系数进行分解,得到所述多个预设方向中每个方向对应的目标音频分解系数。
8.根据权利要求6或7所述的样本生成方法,其特征在于,所述基于所述多个预设方向分别对应的目标信号分解系数、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号,包括:
基于所述多个预设方向分别对应的目标信号分解系数,构建分解系数矩阵;
基于预先确定的约束条件、所述分解系数矩阵、以及多个通道分别对应的子音频信号,生成所述多个预设方向分别对应的虚拟音频信号。
9.根据权利要求6或7所述的样本生成方法,其特征在于,所述基于所述每个预设方向对应的虚拟音频信号,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号,包括:
利用头相关冲激响应HRIR对所述每个预设方向对应的虚拟音频信号进行分解,生成与所述每个预设方向对应的左声道虚拟信号、以及右声道虚拟信号。
10.根据权利要求1-9任一项所述的样本生成方法,其特征在于,所述基于所述双声道音频信号,生成目标双声道音频信号,包括:
将至少两个目标声源分别对应的双声道音频信号进行叠加,生成所述目标双声道音频信号。
11.根据权利要求1-9任一项所述的样本生成方法,其特征在于,所述目标双声道音频信号,包括:目标左声道音频信号、以及目标右声道音频信号;
所述基于所述目标双声道音频信号,生成目标单声道音频信号,包括:将所述目标左声道音频信号、以及所述目标右声道音频信号叠加,得到所述目标单声道音频信号。
12.根据权利要求1-11任一项所述的样本生成方法,其特征在于,所述训练数据还包括:
生成所述目标双声道音频信号的双声道音频信号对应目标声源的位置信息。
13.一种神经网络生成方法,其特征在于,包括:
利用权利要求1-12任一项所述的样本生成方法生成样本数据;
利用所述样本数据对待训练的神经网络进行训练,得到目标神经网络。
14.一种音频信号生成方法,其特征在于,包括:
获取待处理视频、以及与所述待处理视频对应的单声道音频信号;
基于所述待处理视频,确定所述待处理视频中声源对象的位置信息;
利用基于权利要求13所述的神经网络生成方法生成的目标神经网络,对所述待处理视频中声源对象的位置信息、以及所述单声道音频信号进行处理,得到双声道音频信号。
15.一种样本生成装置,其特征在于,包括:
第一处理模块,用于基于目标声源的位置信息,对所述目标声源的单声道音频信号进行转换处理,得到所述目标声源的双声道音频信号;
第一生成模块,用于基于所述双声道音频信号,生成目标双声道音频信号;
第二生成模块,用于基于所述目标双声道音频信号,生成目标单声道音频信号;
第三生成模块,用于基于所述目标双声道音频信号、以及所述目标单声道音频信号,生成样本数据;其中,所述目标双声道音频信号为所述样本数据中的监督数据,所述目标单声道音频信号为所述样本数据中的训练数据。
16.一种神经网络生成装置,其特征在于,包括:
第四生成模块,用于利用权利要求1-12任一项所述的样本生成方法生成样本数据;
训练模块,用于利用所述样本数据对待训练的神经网络进行训练,得到目标神经网络。
17.一种音频信号生成装置,其特征在于,包括:
获取模块,用于获取待处理视频、以及与所述待处理视频对应的单声道音频信号;
确定模块,用于基于所述待处理视频,确定所述待处理视频中声源对象的位置信息;
第二处理模块,用于利用基于权利要求13所述的神经网络生成方法生成的目标神经网络,对所述待处理视频中声源对象的位置信息、以及所述单声道音频信号进行处理,得到双声道音频信号。
18.一种计算机设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至12任一项所述的样本生成方法的步骤,或者执行如权利要求13所述的神经网络生成方法的步骤,或者执行如权利要求14所述的音频信号生成方法的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机设备运行时,所述计算机设备执行如权利要求1至12任一项所述的样本生成方法的步骤,或者执行如权利要求13所述的神经网络生成方法的步骤,或者执行如权利要求14所述的音频信号生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110164876.XA CN112927701A (zh) | 2021-02-05 | 2021-02-05 | 样本生成、神经网络生成、音频信号生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110164876.XA CN112927701A (zh) | 2021-02-05 | 2021-02-05 | 样本生成、神经网络生成、音频信号生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112927701A true CN112927701A (zh) | 2021-06-08 |
Family
ID=76170935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110164876.XA Pending CN112927701A (zh) | 2021-02-05 | 2021-02-05 | 样本生成、神经网络生成、音频信号生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927701A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023000088A1 (en) * | 2021-07-19 | 2023-01-26 | Mcmaster University | Method and system for determining individualized head related transfer functions |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005218085A (ja) * | 2004-01-27 | 2005-08-11 | Hewlett-Packard Development Co Lp | モノラル音声信号からマルチチャネル音声信号を生成する方法、システム、およびコンピュータ読取可能媒体 |
CN104143325A (zh) * | 2014-07-18 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 伴奏/原唱音频数据切换方法和系统 |
WO2017211448A1 (en) * | 2016-06-06 | 2017-12-14 | Valenzuela Holding Gmbh | Method for generating a two-channel signal from a single-channel signal of a sound source |
CN107889044A (zh) * | 2017-12-19 | 2018-04-06 | 维沃移动通信有限公司 | 音频数据的处理方法及装置 |
CN109104687A (zh) * | 2018-09-25 | 2018-12-28 | Oppo广东移动通信有限公司 | 音效处理方法及相关产品 |
CN109254752A (zh) * | 2018-09-25 | 2019-01-22 | Oppo广东移动通信有限公司 | 3d音效处理方法及相关产品 |
CN109447245A (zh) * | 2018-10-29 | 2019-03-08 | 石家庄创天电子科技有限公司 | 基于神经网络的等效模型生成方法以及建模方法 |
CN109635676A (zh) * | 2018-11-23 | 2019-04-16 | 清华大学 | 一种从视频中定位音源的方法 |
CN110400575A (zh) * | 2019-07-24 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN110853658A (zh) * | 2019-11-26 | 2020-02-28 | 中国电影科学技术研究所 | 音频信号的下混方法、装置、计算机设备及可读存储介质 |
-
2021
- 2021-02-05 CN CN202110164876.XA patent/CN112927701A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005218085A (ja) * | 2004-01-27 | 2005-08-11 | Hewlett-Packard Development Co Lp | モノラル音声信号からマルチチャネル音声信号を生成する方法、システム、およびコンピュータ読取可能媒体 |
CN104143325A (zh) * | 2014-07-18 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 伴奏/原唱音频数据切换方法和系统 |
WO2017211448A1 (en) * | 2016-06-06 | 2017-12-14 | Valenzuela Holding Gmbh | Method for generating a two-channel signal from a single-channel signal of a sound source |
CN107889044A (zh) * | 2017-12-19 | 2018-04-06 | 维沃移动通信有限公司 | 音频数据的处理方法及装置 |
CN109104687A (zh) * | 2018-09-25 | 2018-12-28 | Oppo广东移动通信有限公司 | 音效处理方法及相关产品 |
CN109254752A (zh) * | 2018-09-25 | 2019-01-22 | Oppo广东移动通信有限公司 | 3d音效处理方法及相关产品 |
CN109447245A (zh) * | 2018-10-29 | 2019-03-08 | 石家庄创天电子科技有限公司 | 基于神经网络的等效模型生成方法以及建模方法 |
CN109635676A (zh) * | 2018-11-23 | 2019-04-16 | 清华大学 | 一种从视频中定位音源的方法 |
CN110400575A (zh) * | 2019-07-24 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN110853658A (zh) * | 2019-11-26 | 2020-02-28 | 中国电影科学技术研究所 | 音频信号的下混方法、装置、计算机设备及可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023000088A1 (en) * | 2021-07-19 | 2023-01-26 | Mcmaster University | Method and system for determining individualized head related transfer functions |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110035376B (zh) | 使用相位响应特征来双耳渲染的音频信号处理方法和装置 | |
RU2591179C2 (ru) | Способ и система для генерирования передаточной функции головы путем линейного микширования передаточных функций головы | |
US10820097B2 (en) | Method, systems and apparatus for determining audio representation(s) of one or more audio sources | |
EP2868119B1 (en) | Method and apparatus for generating an audio output comprising spatial information | |
US9560467B2 (en) | 3D immersive spatial audio systems and methods | |
US10893375B2 (en) | Headtracking for parametric binaural output system and method | |
KR100606734B1 (ko) | 삼차원 입체음향 구현 방법 및 그 장치 | |
JP7038725B2 (ja) | オーディオ信号処理方法及び装置 | |
WO2019116890A1 (ja) | 信号処理装置および方法、並びにプログラム | |
GB2542609A (en) | Differential headtracking apparatus | |
KR102656969B1 (ko) | 불일치 오디오 비주얼 캡쳐 시스템 | |
US10595148B2 (en) | Sound processing apparatus and method, and program | |
WO2017119318A1 (ja) | 音声処理装置および方法、並びにプログラム | |
Villegas | Locating virtual sound sources at arbitrary distances in real-time binaural reproduction | |
Barumerli et al. | Round Robin Comparison of Inter-Laboratory HRTF Measurements–Assessment with an auditory model for elevation | |
CN112927701A (zh) | 样本生成、神经网络生成、音频信号生成方法及装置 | |
WO2017119320A1 (ja) | 音声処理装置および方法、並びにプログラム | |
Vennerød | Binaural reproduction of higher order ambisonics-a real-time implementation and perceptual improvements | |
US10390167B2 (en) | Ear shape analysis device and ear shape analysis method | |
Garg et al. | Visually-Guided Audio Spatialization in Video with Geometry-Aware Multi-task Learning | |
Hollebon et al. | Experimental study of various methods for low frequency spatial audio reproduction over loudspeakers | |
Picinali et al. | Chapter Reverberation and its Binaural Reproduction: The Trade-off between Computational Efficiency and Perceived Quality | |
CN114630240B (zh) | 方向滤波器的生成方法、音频处理方法、装置及存储介质 | |
Hogg et al. | Exploring the impact of transfer learning on GAN-based HRTF upsampling | |
CN117998274B (zh) | 音频处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |