CN109286888A - 一种音视频在线检测与虚拟声像生成方法及装置 - Google Patents

一种音视频在线检测与虚拟声像生成方法及装置 Download PDF

Info

Publication number
CN109286888A
CN109286888A CN201811266232.6A CN201811266232A CN109286888A CN 109286888 A CN109286888 A CN 109286888A CN 201811266232 A CN201811266232 A CN 201811266232A CN 109286888 A CN109286888 A CN 109286888A
Authority
CN
China
Prior art keywords
sound
audio
channel
video
characteristic parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811266232.6A
Other languages
English (en)
Other versions
CN109286888B (zh
Inventor
牛欢
孟子厚
张茂成
申少雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201811266232.6A priority Critical patent/CN109286888B/zh
Publication of CN109286888A publication Critical patent/CN109286888A/zh
Application granted granted Critical
Publication of CN109286888B publication Critical patent/CN109286888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Algebra (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供了一种音视频在线检测与虚拟声像生成方法及装置,其中方法包括:对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,获得运动声源运动过程中所需声道以及相应声道中的声学参数;利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

Description

一种音视频在线检测与虚拟声像生成方法及装置
技术领域
本发明涉及虚拟声像生成技术领域,尤其涉及一种音视频在线检测与虚拟声像生成方法及装置。
背景技术
目前市面上的影视资源更多采用多通道录制,是为了更好的达到音效的真实饱满。但是对于听众而言,确实无法完美匹配动态音效与影像画面。随着影视行业的发展,现存很多模式,其中包括杜比全景声、AURO-3D等,但也存在重放过程中声像效果不佳等问题。如何让听众在现有的环境和已有片源音频制式的情况下,对于全景声格式下虚拟声像再生成与模拟则是本处理器需要解决的问题。
于此同时,对国内外全景声重放系统声像生成的技术发展与相关成果进行研究分析,不难发现其中存在以下若干问题。
1)研究文献可以看出,目前全景声重放系统制式较多,但是均未明确针对上方和下方空间音效问题进行处理,且上下方空间音效重放制式也未进行规范或说明;根据现有市面上各种全景声重放方式在放映时,听者确实也感觉存在垂直空间音效声像不定,且容易混淆等问题存在;因而模拟垂直空间音效,改善上下方声像是切实需要解决的问题。
2)目前的影视作品的音频制作主要分为两种:一种为同期录音即同期音,这些声音主要包括演员的对白、动作音效和拍摄现场的声音空间环境效果。另一种为后期录音。但是目前常用的是后期录音来解决动态音效以及声音空间环境效果,这样实际重放过程中就存在难以解决的声音距离感以及动态音效运动速率等问题。
A、声音的距离感知的实验探究,目前的国内外的文献研究较少,也没有给出一定结论可以直接进行工程应用。
a)针对不同频率成分距离感知问题,文献中标明随着频率成分和空间感知距离存在一定关系,但是没有提供更多的关于垂直轴向距离感知与频率成分的关系,这是可以研究的一个问题;
b)现有的文献研究主要集中于水平面上的主观距离感知,但实际应用中,是需要对水平面及垂直面进行综合应用,故水平面与垂直面上人主观距离感知是否存在明显的差异性,并且此差异性是否可以进行线性修正都是需要通过实验进行探讨;
c)同时对于主观距离感知的影响因素更多的研究偏重于声压级变化,但是声源入射的角度、延时参量的设置等是否对其有一定的影响,也是需要实验来进行进一步探讨;
d)即使影响主观距离感知因素主要取决声压级的变化,但是类似于近场范围内,不同声压级变化时人主观距离感知也存在一定的范围,但是此范围也需要通过实验也进行实际确定,便于实际工程应用;
B、根据文献资料可知,针对运动声源感知的阈限的探索相对较少,但是是否存在影响运动声源感知阈限的其他因素;
a)由于运动声源感知阈限的结论比较宽泛,没办法进行应用,因而需要对其实验结果进行补充,得到不同声源信号以及不同声源频率相应的运动声源感知阈限。
b)针对影视音频制作中,动态音效基本上都存在一定背景音存在;因而信噪比变化对于运动声源感知阈限存在什么样的影响,也是在进行工程应用前需要解决的问题;
c)目前对于运动声源阈限的感知研究,基本上都是固定在一个半径范围内即半径为2.5m,但是实际影视重放时,扬声器配置远大于这个范围,因而声源位置距离是否对运动声源阈限的感知有影响;如果存在,影响的趋势变化也是需要探讨的。
故上述影响全景声格式下虚拟声像再生成的问题,是需要解决的问题,从而对影视作品的虚拟声像音效问题进行改善,明确声像方向,确定合适的声像强度。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种音视频在线检测与虚拟声像生成方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种音视频在线检测与虚拟声像生成方法,包括:获取影视作品,提取影视作品的视频以及多声道音频;对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;利用多声道音频以及声音特征参数的标注文件生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。
其中,在虚拟声像的生成后,音视频在线检测与虚拟声像生成方法还包括:利用多声道系统进行虚拟声像的重放。
其中,将多声道音频信号进行信号矩阵分配,得到分配结果包括:将多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。
其中,声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。
其中,声学参数包括:声压级、声源角度和频率谱。
本发明另一方面提供了一种音视频在线检测与虚拟声像生成装置,包括:提取模块,用于获取影视作品,提取影视作品的视频以及多声道音频;在线检测模块,用于对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;多声道音频处理模块,用于利用多声道音频以及声音特征参数的标注文件生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;模型处理模块,用于从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;生成模块,用于利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。
其中,音视频在线检测与虚拟声像生成装置还包括:重放模块;重放模块,用于在生成模块进行虚拟声像的生成后,利用多声道系统进行虚拟声像的重放。
其中,多声道音频处理模块通过如下方式将多声道音频信号进行信号矩阵分配,得到分配结果:多声道音频处理模块,具体用于将多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。
其中,声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。
其中,声学参数包括:声压级、声源角度和频率谱。
由此可见,通过本发明实施例提供的音视频在线检测与虚拟声像生成方法,将原多声道音频信号进行信号处理,针对不同重放区域进行重新的信号分配处理,并对多声道音视频在线检测的标注文件进行实时读取,再根据不同标注文件中的各项参数,分别进入三维距离感知模型以及运动声源速率感知阈限模型,对运动声源的虚拟声像进行重现。
进一步,可以更加真实地重现运动声源的三维声场感知。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的音视频在线检测与虚拟声像生成方法的流程图;
图2为本发明实施例提供的音视频在线检测与虚拟声像生成方法的一种具体实现方式的流程图;
图3为本发明实施例提供的音视频在线检测与虚拟声像生成装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的音视频在线检测与虚拟声像生成方法的流程图,参见图1,本发明实施例提供的音视频在线检测与虚拟声像生成方法,包括:
S101,获取影视作品,提取影视作品的视频以及多声道音频。
S102,对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件。
S103,利用多声道音频以及声音特征参数的标注文件生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果。
具体地,多声道音频信号可以先进行矩阵分配,由此可以,针对不同重放区域进行重新的信号分配。
在设置在影院的重放系统包括四层时,从上至下分别为顶层、高度层、水平层地层;依次为设置在天花板的扬声器矩阵、设置在墙体高处的扬声器矩阵,以及设置在墙体位于听众耳朵高度的扬声器矩阵以及设置在地面的扬声器矩阵。
作为本发明实施例的一个可选实施方式,将多声道音频信号进行信号矩阵分配,得到分配结果包括:将多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。具体地,信号分配结束后,可以对某些水平层特定通道采用子带随机延时去相关处理,例如先对信号分频子带随机延时,延时后对信号进行线性叠加。当然,也可以对中高层通道以及顶部除中置通道外其他通道采用子带随机延时去相关处理,该处理可以与水平层的处理一致,只是延时参数不同。通过该处理可以确保各个通道的的精确性。
以下以5通道矩阵分配到27通道为例进行说明,不考虑地层的扬声器矩阵,其中所有的字母均是实际的数值。
在上述具体示例的基础上可以看出,高度层扩展需要进行分频带距离感知扩展,之后分频信号线性叠加运算(其中高度层前方中置信号、左声道信号、右声道信号不进行此运算);
Y″HL1=Y′HL1*(分频带距离感知扩展(例如:dis=a*lg(Fc)+b、dis=c*lg(SPL)+d));其中,公式中的字母均是实际的数值。
S104,从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数。
作为本发明实施例的一个可选实施方式,声音特征参数的标注文件可以包括:运动声源的声音特征参数的标注文件。其中,声学参数可以包括:声压级、声源角度和频率谱。
具体地,可以利用运动声源的运动轨迹以及运动时间进行运动速率运算,利用运动声源的声压级、角度、频率谱等声学参数进行运动声源距离感知运算,确定运动声源运动所需声道以及相应声道中的运动时间、声压级、频率谱等信号处理。
S105,利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。具体地,可以根据运动声源在所需声道中的信号运算后与各通道进行信号合成运算,一生成虚拟声像。
其中,值得说明的是,步骤S103与步骤S104的顺序并不局限于上述顺序,也可以先执行步骤S104后再执行步骤S103,也可以在执行步骤S103的同时执行步骤S104,可以理解无论何种顺序均应属于本发明的保护范围。
由此可见,通过本发明实施例提供的音视频在线检测与虚拟声像生成方法,将原多声道音频信号进行信号处理,针对不同重放区域进行重新的信号分配处理,并对多声道音视频在线检测的标注文件进行实时读取,再根据不同标注文件中的各项参数,分别采用三维距离感知方法以及运动声源速率阈限方法,对运动声源的虚拟声像进行精确生成。
作为本发明实施例的一个可选实施方式,在虚拟声像的生成后,音视频在线检测与虚拟声像生成方法还包括:利用多声道系统进行虚拟声像的重放。由此可以在生成的虚拟声像的基础上,利用多声道系统进行重放,可以更加真实地重现运动声源的三维声场感知。
以下提供了一种音视频在线检测与虚拟声像生成方法的一种具体实现方式,但本发明并不局限于此,参见图2,本发明实施例提供的一种音视频在线检测与虚拟声像生成方法的具体实现方式可以包括:从影视作品中提取出视频和多声道音频,利用视频和多声道音频进行多声道音视频在线检测,生成运动声源等声音特征参数的标注文件,并利用多声道音频结合运动声源等声音特征参数的标注文件生成多声道音频文件,利用多声道音频文件得到多声道音频信号,对多声道音频信号进行矩阵分配,部分信号采用子带随机延时去相关处理,利用运动声源等声音特征参数的标注文件获取运动声源的运动轨迹以及运动时间,并获取声压级、声源角度、频率谱等声学参数,将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,以及将声压级、声源角度、频率谱等声学参数代入三维声源距离感知模型,计算得到运动声源运动过程中所需声道以及相应声道中的运动时间以及声压级、频率谱等声学参数,利用运动声源运动过程中所需声道以及相应声道中的运动时间以及声压级、频率谱等声学参数,以及对多声道音频信号进行矩阵分配,部分信号采用子带随机延时去相关处理后的信息进行合成操作,生成虚拟声像,并通过多声道系统进行重放。由此可见,通过本发明实施例提供的音视频在线检测与虚拟声像生成方法,将原多声道音频信号进行信号处理,针对不同重放区域进行重新的信号分配处理,并对多声道音视频在线检测的标注文件进行实时读取,再根据不同标注文件中的各项参数,分别进入三维距离感知模型以及运动声源速率感知阈限模型,由此可以对运动声源的虚拟声像进行重现。进一步,可以更加真实地重现运动声源的三维声场感知。
图3示出了本发明实施例提供的音效生成装置的结构示意图,本发明实施例提供的音效生成装置应用上述方法,以下仅对本发明实施例提供的音效生成装置的结构进行简要说明,其他未尽事宜,参考上述音效生成方法的相关描述,参见图3,本发明实施例提供的音视频在线检测与虚拟声像生成装置,包括:
提取模块301,用于获取影视作品,提取影视作品的视频以及多声道音频;
在线检测模块302,用于对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;
多声道音频处理模块303,用于利用多声道音频以及声音特征参数的标注文件生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;
模型处理模块304,用于从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;
生成模块305,用于利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。
由此可见,通过本发明实施例提供的音视频在线检测与虚拟声像生成装置,将原多声道音频信号进行信号处理,针对不同重放区域进行重新的信号分配处理,并对多声道音视频在线检测的标注文件进行实时读取,再根据不同标注文件中的各项参数,分别采用三维距离感知方法以及运动声源速率阈限方法,对运动声源的虚拟声像进行精确生成。
作为本发明实施例的一个可选实施方式,声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。作为本发明实施例的一个可选实施方式,声学参数包括:声压级、声源角度和频率谱。
作为本发明实施例的一个可选实施方式,音视频在线检测与虚拟声像生成装置还包括:重放模块306;重放模块306,用于在生成模块进行虚拟声像的生成后,利用多声道系统进行虚拟声像的重放。由此可以在生成的虚拟声像的基础上,利用多声道系统进行重放,可以更加真实地重现运动声源的三维声场感知。
作为本发明实施例的一个可选实施方式,多声道音频处理模块303通过如下方式将多声道音频信号进行信号矩阵分配,得到分配结果:多声道音频处理模块303,具体用于将多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。具体地,信号分配结束后,可以对某些水平层特定通道采用子带随机延时去相关处理,例如先对信号分频子带随机延时,延时后对信号进行线性叠加。当然,也可以对中高层通道以及顶部除中置通道外其他通道采用子带随机延时去相关处理,该处理可以与水平层的处理一致,只是延时参数不同。通过该处理可以确保各个通道的的精确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种音视频在线检测与虚拟声像生成方法,其特征在于,包括:
获取影视作品,提取所述影视作品的视频以及多声道音频;
对所述视频以及所述多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;
利用所述多声道音频以及所述声音特征参数的标注文件生成多声道音频文件,并利用所述多声道音频文件生成多声道音频信号,对所述多声道音频信号进行信号矩阵分配,得到分配结果;
从所述声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将所述运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从所述声音特征参数的标注文件中提取声学参数,并将所述声学参数代入三维声源距离感知模型,利用所述运动声源运动速率感知模型以及所述三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;
利用所述分配结果以及所述运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。
2.根据权利要求1所述的方法,其特征在于,在所述虚拟声像的生成后,还包括:利用多声道系统进行所述虚拟声像的重放。
3.根据权利要求1所述的方法,其特征在于,所述将所述多声道音频信号进行信号矩阵分配,得到分配结果包括:
将所述多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。
4.根据权利要求1所述的方法,其特征在于,所述声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。
5.根据权利要求1或4所述的方法,其特征在于,所述声学参数包括:声压级、声源角度和频率谱。
6.一种音视频在线检测与虚拟声像生成装置,其特征在于,包括:
提取模块,用于获取影视作品,提取所述影视作品的视频以及多声道音频;
在线检测模块,用于对所述视频以及所述多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;
多声道音频处理模块,用于利用所述多声道音频以及所述声音特征参数的标注文件生成多声道音频文件,并利用所述多声道音频文件生成多声道音频信号,对所述多声道音频信号进行信号矩阵分配,得到分配结果;
模型处理模块,用于从所述声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将所述运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从所述声音特征参数的标注文件中提取声学参数,并将所述声学参数代入三维声源距离感知模型,利用所述运动声源运动速率感知模型以及所述三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;
生成模块,用于利用所述分配结果以及所述运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。
7.根据权利要求6所述的装置,其特征在于,还包括:重放模块;
所述重放模块,用于在所述生成模块进行虚拟声像的生成后,利用多声道系统进行所述虚拟声像的重放。
8.根据权利要求6所述的装置,其特征在于,所述多声道音频处理模块通过如下方式将所述多声道音频信号进行信号矩阵分配,得到分配结果:
所述多声道音频处理模块,具体用于将所述多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。
9.根据权利要求6所述的装置,其特征在于,所述声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。
10.根据权利要求6或9所述的装置,其特征在于,所述声学参数包括:声压级、声源角度和频率谱。
CN201811266232.6A 2018-10-29 2018-10-29 一种音视频在线检测与虚拟声像生成方法及装置 Active CN109286888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811266232.6A CN109286888B (zh) 2018-10-29 2018-10-29 一种音视频在线检测与虚拟声像生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811266232.6A CN109286888B (zh) 2018-10-29 2018-10-29 一种音视频在线检测与虚拟声像生成方法及装置

Publications (2)

Publication Number Publication Date
CN109286888A true CN109286888A (zh) 2019-01-29
CN109286888B CN109286888B (zh) 2021-01-29

Family

ID=65178131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811266232.6A Active CN109286888B (zh) 2018-10-29 2018-10-29 一种音视频在线检测与虚拟声像生成方法及装置

Country Status (1)

Country Link
CN (1) CN109286888B (zh)

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5970100A (ja) * 1982-10-13 1984-04-20 Matsushita Electric Ind Co Ltd 音像制御装置
CN1507701A (zh) * 2001-05-07 2004-06-23 参量虚拟扬声器和环绕声系统
US20090129603A1 (en) * 2007-11-15 2009-05-21 Samsung Electronics Co., Ltd. Method and apparatus to decode audio matrix
US20110222693A1 (en) * 2010-03-11 2011-09-15 Samsung Electronics Co., Ltd. Apparatus, method and computer-readable medium producing vertical direction virtual channel
US20120020487A1 (en) * 2010-07-20 2012-01-26 International Business Machines Corporation Audio device volume manager using measured distance between first and second audio devices to control volume generation by the second audio device
CN103021414A (zh) * 2012-12-04 2013-04-03 武汉大学 一种三维音频系统距离调制方法
KR20140000108A (ko) * 2012-06-22 2014-01-02 주식회사 한국토프톤 위치변화에 따른 사운드 효과를 용이하게 표현할 수 있는 9.1채널 스피커 시스템.
CN104754442A (zh) * 2013-12-31 2015-07-01 广州励丰文化科技股份有限公司 全景多通道声像控制方法
EP2899997A1 (en) * 2014-01-22 2015-07-29 Thomson Licensing Sound system calibration
US20150334502A1 (en) * 2013-01-23 2015-11-19 Nippon Hoso Kyokai Sound signal description method, sound signal production equipment, and sound signal reproduction equipment
US20150382130A1 (en) * 2014-06-27 2015-12-31 Patrick Connor Camera based adjustments to 3d soundscapes
CN105264914A (zh) * 2013-06-10 2016-01-20 株式会社索思未来 音频再生装置以及方法
EP3002960A1 (en) * 2014-10-04 2016-04-06 Patents Factory Ltd. Sp. z o.o. System and method for generating surround sound
CN106165453A (zh) * 2013-10-02 2016-11-23 斯托明瑞士有限责任公司 用于下混多通道信号和用于上混下混信号的方法和装置
CN106448687A (zh) * 2016-09-19 2017-02-22 中科超影(北京)传媒科技有限公司 音频制作及解码的方法和装置
CN106454686A (zh) * 2016-08-18 2017-02-22 华南理工大学 一种基于体感摄像头的多通路环绕声动态双耳重放方法
CN107105384A (zh) * 2017-05-17 2017-08-29 华南理工大学 一种中垂面上近场虚拟声像的合成方法
CN107409264A (zh) * 2015-01-16 2017-11-28 三星电子株式会社 基于图像信息处理声音的方法和对应设备
CN206728283U (zh) * 2017-04-01 2017-12-08 宁波音王电声股份有限公司 一种多维环绕声扬声器阵列
CN107968985A (zh) * 2013-07-05 2018-04-27 韩国电子通信研究院 在二维及三维空间上的虚拟声像定位方法
US20180124543A1 (en) * 2016-11-03 2018-05-03 Nokia Technologies Oy Audio Processing
US20180227690A1 (en) * 2016-02-20 2018-08-09 Philip Scott Lyren Capturing Audio Impulse Responses of a Person with a Smartphone

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5970100A (ja) * 1982-10-13 1984-04-20 Matsushita Electric Ind Co Ltd 音像制御装置
CN1507701A (zh) * 2001-05-07 2004-06-23 参量虚拟扬声器和环绕声系统
US20090129603A1 (en) * 2007-11-15 2009-05-21 Samsung Electronics Co., Ltd. Method and apparatus to decode audio matrix
US20110222693A1 (en) * 2010-03-11 2011-09-15 Samsung Electronics Co., Ltd. Apparatus, method and computer-readable medium producing vertical direction virtual channel
US20120020487A1 (en) * 2010-07-20 2012-01-26 International Business Machines Corporation Audio device volume manager using measured distance between first and second audio devices to control volume generation by the second audio device
KR20140000108A (ko) * 2012-06-22 2014-01-02 주식회사 한국토프톤 위치변화에 따른 사운드 효과를 용이하게 표현할 수 있는 9.1채널 스피커 시스템.
CN103021414A (zh) * 2012-12-04 2013-04-03 武汉大学 一种三维音频系统距离调制方法
US20150334502A1 (en) * 2013-01-23 2015-11-19 Nippon Hoso Kyokai Sound signal description method, sound signal production equipment, and sound signal reproduction equipment
CN105264914A (zh) * 2013-06-10 2016-01-20 株式会社索思未来 音频再生装置以及方法
CN107968985A (zh) * 2013-07-05 2018-04-27 韩国电子通信研究院 在二维及三维空间上的虚拟声像定位方法
CN106165453A (zh) * 2013-10-02 2016-11-23 斯托明瑞士有限责任公司 用于下混多通道信号和用于上混下混信号的方法和装置
CN104754442A (zh) * 2013-12-31 2015-07-01 广州励丰文化科技股份有限公司 全景多通道声像控制方法
EP2899997A1 (en) * 2014-01-22 2015-07-29 Thomson Licensing Sound system calibration
US20150382130A1 (en) * 2014-06-27 2015-12-31 Patrick Connor Camera based adjustments to 3d soundscapes
EP3002960A1 (en) * 2014-10-04 2016-04-06 Patents Factory Ltd. Sp. z o.o. System and method for generating surround sound
CN107409264A (zh) * 2015-01-16 2017-11-28 三星电子株式会社 基于图像信息处理声音的方法和对应设备
US20180227690A1 (en) * 2016-02-20 2018-08-09 Philip Scott Lyren Capturing Audio Impulse Responses of a Person with a Smartphone
CN106454686A (zh) * 2016-08-18 2017-02-22 华南理工大学 一种基于体感摄像头的多通路环绕声动态双耳重放方法
CN106448687A (zh) * 2016-09-19 2017-02-22 中科超影(北京)传媒科技有限公司 音频制作及解码的方法和装置
US20180124543A1 (en) * 2016-11-03 2018-05-03 Nokia Technologies Oy Audio Processing
CN206728283U (zh) * 2017-04-01 2017-12-08 宁波音王电声股份有限公司 一种多维环绕声扬声器阵列
CN107105384A (zh) * 2017-05-17 2017-08-29 华南理工大学 一种中垂面上近场虚拟声像的合成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JACK M. LOOMIS: "Assessing auditory distance perception using perceptually directed action", 《PERCEPTION & PSYCHOPHYSICS》 *
PAVEL ZAHORIK: "Assessing auditory distance perception using virtual acoustics", 《2002 ACOUSTICAL SOCIETY OF AMERICA》 *
牛欢,孟子厚: "平面环绕声的多声道扩展与效果分析", 《中国传媒大学学报》 *
王恒: "三维音频中空间线索感知特性研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN109286888B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
Li et al. Scene-aware audio for 360 videos
JP6330034B2 (ja) 適応的なオーディオ・コンテンツの生成
CN111276153B (zh) 屏幕相关的音频对象重映射的设备和方法
US9712939B2 (en) Panning of audio objects to arbitrary speaker layouts
RU2586842C2 (ru) Устройство и способ преобразования первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал
US20160155455A1 (en) A shared audio scene apparatus
US20200275233A1 (en) Improved Rendering of Immersive Audio Content
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
KR20150100656A (ko) 상이한 재생 라우드스피커 셋업에 대한 공간 오디오 신호의 세그먼트-와이즈 조정
US10277997B2 (en) Processing object-based audio signals
US20150146874A1 (en) Signal processing for audio scene rendering
CN109410912B (zh) 音频处理的方法、装置、电子设备及计算机可读存储介质
US9646617B2 (en) Method and device of extracting sound source acoustic image body in 3D space
US10375472B2 (en) Determining azimuth and elevation angles from stereo recordings
EP3026936A1 (en) Information processing device and method, and program
KR20150047334A (ko) 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치
US10547962B2 (en) Speaker arranged position presenting apparatus
KR101968456B1 (ko) 적응형 양자화
US20130297054A1 (en) Audio scene selection apparatus
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
CN109525929B (zh) 一种录音定位方法及装置
CN109286888A (zh) 一种音视频在线检测与虚拟声像生成方法及装置
US10779106B2 (en) Audio object clustering based on renderer-aware perceptual difference
CN106385660B (zh) 处理基于对象的音频信号
US20190335272A1 (en) Determining azimuth and elevation angles from stereo recordings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant