CN109525929B - 一种录音定位方法及装置 - Google Patents

一种录音定位方法及装置 Download PDF

Info

Publication number
CN109525929B
CN109525929B CN201811266750.8A CN201811266750A CN109525929B CN 109525929 B CN109525929 B CN 109525929B CN 201811266750 A CN201811266750 A CN 201811266750A CN 109525929 B CN109525929 B CN 109525929B
Authority
CN
China
Prior art keywords
sound source
static
moving
positioning
stationary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811266750.8A
Other languages
English (en)
Other versions
CN109525929A (zh
Inventor
牛欢
孟子厚
晁玉静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201811266750.8A priority Critical patent/CN109525929B/zh
Publication of CN109525929A publication Critical patent/CN109525929A/zh
Application granted granted Critical
Publication of CN109525929B publication Critical patent/CN109525929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种录音定位方法及装置,其中方法包括:设置传声器阵列,其中,传声器阵列包括六个传声器,六个传声器形成两个正四棱锥,两个正四棱锥包括相同的四个不共面的传声器;利用传声器阵列获取录音信息,从录音信息中提取运动声源以及静止声源;对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果;根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果,对静止声源进行距离感知估计,得到静止声源的定位结果。由此在提供一种新的传声器阵列设计的基础上,对运动声源进行定位轨迹以及静止声源的距离感知估计,由此可以精确到定位录音信息。

Description

一种录音定位方法及装置
技术领域
本发明涉及影视录音技术领域,尤其涉及一种录音定位方法及装置。
背景技术
影视中的同期声,指的是同期录音中获得的现场声音。这些声音主要包括演员的对白、动作音效和拍摄现场的声音空间环境效果。同期录音的最大特点是真实、自然,具有与故事情节和画面形象配合紧密、情绪气氛真实自然的优点。对于实景拍摄而言,由于同期录音是在真实的空间和环境中拾取的声音,可以解决后期录音至今难以解决的声音距离感等问题,使得包括方位感、层次感在内的声音空间环境特征得以很好的展现。
目前用于同期录音传声器阵列,随着具有高度通道的环绕系统变得越来越普遍,需要以新的传声器技术捕捉3D声音。2012年纽约大学的Paul Geluso在普通的环绕声传声器技术中增加MZ传声器,并重放到7.0(5+2)通道上,初步的主观评价结果表明,在垂直方向上添加双向(8字指向性)Z传声器是捕捉高度声音信息的有效方法,但是这种传声器技术的空间解析度并不清楚。2014年HYUNKOOK LEE也证明了高度传声器的有效性,他分析了高度传声器与主层传声器之间的间距对传声器阵列的影响。实验结果发现,高度传声器与主层传声器之间的间距为0时LEV和ASW性能较好但其定位性能如何并未验证。2015年WillHowie等人创建了一个实验性的十四声道双层传声器阵列,希望能够更好地理解改善3D重放系统时需要采取哪些步骤进行音乐录制,他将传统的立体声录音阵列在水平和垂直平面都增加了额外的传声器,产生了十四个声道的环绕声录音,主观评价结果发现,与传统的5.1环绕声相比,这些3D录音具有更高的包络感和真实感。2015年HYUNKOOK LEE提出的一种录音制式:在Hamasaki Square的正上方1米处放置4个朝上的心形传声器,HS为4个8字传声器。相比于无高度传声器的3D LEV来说,有高度传声器的阵列的3D LEV效果得到提升,对其它空间属性指标并未进行主观评测。2016年Hyunkook Lee提出了用心形传声器录制360度VR音频,作者采用四通道传声器进行录音,四个传声器等分360度,并且每两个传声器的拾音角得是90度,然后用扬声器和带有仿真头旋转的双耳重放,评估水平定位性能。扬声器重放时也有一定的前后镜像混淆现象,双耳重放时更严重。另外,常用于全景声录音的Ambisonic传声器的空间解析度也不够,2012年Eugeniusz Kornatowski提到Ambisonic传声器的方位角定位误差在4度左右,仰角误差在5度左右。综上所述,近年来多种录音技术大多都增加了高度通道,但高度传声器的类型和位置选择在很大程度上是实验性的,并且专注于捕捉各种声音信息,并未解析出空间信息,而Ambisonic传声器的空间解析度又不高。
由此可见,现有技术的缺陷和不足:
1.现在传声器技术也不仅仅局限于水平面,开始有一些研究试着添加高度通道。这些高度通道传声器技术大多数是捕捉高度信息,但是空间解析度不高,但对于正上下方的空间信息并未进行特定的捕捉;
2.目前运用于同期录音的传声器阵列考虑是声音音质以空间中声音信息的捕捉能力,并不会对录音信号中的运动声源进行动态检测以及运动轨迹的精确信息进行标注;
3.同样,对于适用于声源定位检测的传声器阵列,不会考虑到录音声音重放的音质以及声音空间信息等。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种录音定位方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种录音定位方法,包括:设置传声器阵列,其中,传声器阵列包括六个传声器,六个传声器形成两个正四棱锥,两个正四棱锥包括相同的四个不共面的传声器;利用传声器阵列获取录音信息,从录音信息中提取运动声源以及静止声源;对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果;根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果,对静止声源进行距离感知估计,得到静止声源的定位结果。
其中,对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果包括:将运动声源划分声源面网格,并计算运动声源的声速,利用声源面网格和声速进行多普勒解除计算,得到运动声源的多普勒解除之后的声压信号;利用时延估计算法对多普勒解除之后的声压信号与静止声源的声压信号进行计算,得到运动声源和静止声源延时结果;根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果包括:将运动声源和静止声源延时结果代入传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将声源面网格和静止声源方位角和俯仰角代入偏差矩阵,计算得到运动声源的定位结果。
其中,对静止声源进行距离感知估计,得到静止声源的定位结果包括:提取静止声源的声学参数,代入距离感知估计模型计算得到静止声源的声源距离,根据静止声源的声源距离,得到静止声源的定位结果。
其中,方法还包括:采用多声道重放系统结合运动声源的定位结果和静止声源的定位结果,对运动声源和静止声源进行重放。
其中,对静止声源进行距离感知估计,得到静止声源的定位结果之前,方法还包括:利用传声器阵列获取录音素材信息,生成录音素材库;提取录音素材库的录音素材的声音特征参数,确定距离感知估计模型。
本发明另一方面提供了一种录音定位装置,包括:传声器阵列,其中,传声器阵列包括六个传声器,六个传声器形成两个正四棱锥,两个正四棱锥包括相同的四个不共面的传声器;提取模块,用于利用传声器阵列获取录音信息,从录音信息中提取运动声源以及静止声源;计算模块,用于对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果;定位模块,用于根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果,对静止声源进行距离感知估计,得到静止声源的定位结果。
其中,计算模块用于通过如下方式对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果:计算模块,具体用于将运动声源划分声源面网格,并计算运动声源的声速,利用声源面网格和声速进行多普勒解除计算,得到运动声源的多普勒解除之后的声压信号;利用时延估计算法对多普勒解除之后的声压信号与静止声源的声压信号进行计算,得到运动声源和静止声源延时结果;定位模块用于通过如下方式根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果:定位模块,具体用于将运动声源和静止声源延时结果代入传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将声源面网格和静止声源方位角和俯仰角代入偏差矩阵,计算得到运动声源的定位结果。
其中,定位模块用于通过如下方式对静止声源进行距离感知估计,得到静止声源的定位结果:定位模块,具体用于提取静止声源的声学参数,代入距离感知估计模型计算得到静止声源的声源距离,根据静止声源的声源距离,得到静止声源的定位结果。
其中,装置还包括:重放模块;重放模块,用于采用多声道重放系统结合运动声源的定位结果和静止声源的定位结果,对运动声源和静止声源进行重放。
其中,装置还包括:模型确定模块;模型确定模块,用于在定位模块对静止声源进行距离感知估计,得到静止声源的定位结果之前,利用传声器阵列获取录音素材信息,生成录音素材库;提取录音素材库的录音素材的声音特征参数,确定距离感知估计模型。
由此可见,通过本发明实施例提供的录音定位方法及装置,提供了一种新的传声器阵列设计,兼顾水平面以及高度面的空间高度解析以及垂直空间的录音信息高效保留,同时通过提取不同的声学特征来进行运动声源以及静止声源的区别,对运动声源或静止声源进行时延定位算法,并对运动声源进行定位轨迹以及静止声源的距离感知估计,由此可以精确到定位录音信息,进一步以便于多声道重放系统对运动声源以及静止录音声源的精确重放。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的录音定位方法的流程图;
图2为本发明实施例提供的传声器阵列的结构示意图;
图3为本发明实施例提供的录音定位装置的结构示意图;
图4为本发明实施例提供的一种录音定位方法的具体实施方式的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的录音定位方法的流程图,参见图1,本发明实施例提供的录音定位方法,包括:
S101,设置传声器阵列,其中,传声器阵列包括六个传声器,六个传声器形成两个正四棱锥,两个正四棱锥包括相同的四个不共面的传声器。
具体地,可以参考图2进行传声器阵列的设置。
传声器阵列可以为双正四棱锥,包含两个正四棱锥,每个正四棱锥又可以包含4种不共面的四支传声器的组合定位,在坐标系中的位置如图2所示,M1、M2、M3、M4、M5、M6分别为六个传声器,O既为坐标系的原点,同时也是双正四棱锥的中心。
S102,利用传声器阵列获取录音信息,从录音信息中提取运动声源以及静止声源。
具体地,可以利用不同的声学特征来进行运动声源以及静止声源的提取。
S103,对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果。
对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果包括:将运动声源划分声源面网格,并计算运动声源的声速,利用声源面网格和声速进行多普勒解除计算,得到运动声源的多普勒解除之后的声压信号;利用时延估计算法对多普勒解除之后的声压信号与静止声源的声压信号进行计算,得到运动声源和静止声源延时结果。
具体地,参见图2,设S为目标声源点,坐标为(x,y,z)。坐标原点O到目标点S的距离为r,OS在XOY平面的投影为OQ。定义OQ与X轴的夹角为α,OQ与OS的夹角为β。假设正四棱锥的棱长为a,那么M1(0,0,
Figure GDA0002771381680000041
),M2(0,0,
Figure GDA0002771381680000042
),M3(
Figure GDA0002771381680000043
-
Figure GDA0002771381680000044
0),M4(
Figure GDA0002771381680000045
0),M5(
Figure GDA0002771381680000046
0),M6(
Figure GDA0002771381680000047
0)。
设S到六个传声器的距离分别为d1,d2,d3,d4,d5,d6,那么目标声音信号到达其它传声器的距离与到达M1距离之差为:di1=ri-r1=c·ti1(i=3,4,5,6);目标声音信号到达其它传声器的距离与到达M2距离之差为:di2=ri-r2=c·ti2(i=3,4,5,6)。在进行声源定位时选取不共面的四支传声器的组合,分别有(M1,M3,M4,M5)、(M1,M3,M4,M6)、(M1,M3,M5,M6)、(M1,M4,M5,M6)、(M2,M3,M4,M5)、(M2,M3,M4,M6)、(M2,M3,M5,M6)、(M2,M4,M5,M6)。
下面以(M1,M3,M4,M5)为例进行求解声源方位角及俯仰角。解方程组
Figure GDA0002771381680000048
其中0≤α≤360,-90≤β≤90,r为目标S到原点O之间的距离。
解方程组得
Figure GDA0002771381680000049
Figure GDA00027713816800000410
考虑到实际应用中,本发明可以使用的传声器间距为30厘米。故可以认为di1<<d1,因此
Figure GDA00027713816800000411
同理
Figure GDA0002771381680000053
由上式可见,只要我们知道声源到达传声器之间的时延差便可以得到声源的方位角和俯仰角。
S104,根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果,对静止声源进行距离感知估计,得到静止声源的定位结果。
作为本发明实施例的一个可选实施方式,根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果包括:将运动声源和静止声源延时结果代入传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将声源面网格和静止声源方位角和俯仰角代入偏差矩阵,计算得到运动声源的定位结果。
具体地,参见图2,考虑到matlab求取
Figure GDA0002771381680000051
时,结果在(-90,90)度范围内,所以,结合象限,进行计算最后结果,如果t35>0、t46>0、t34>0且t56>0,则声源位于XOY平面的第二象限,所以α1=180-|α1|;t35>0、t46>0、t34<0且t56<0,则声源位于XOY平面的第三象限,所以α1=270-|α1|;t35<0、t46<0、t34<0且t56<0,则声源位于XOY平面的第四象限,所以α1=360-|α1|;
双正四棱锥则融合(M1,M3,M4,M5)、(M1,M3,M4,M6)、(M1,M3,M5,M6)、(M1,M4,M5,M6)、(M2,M3,M4,M5)、(M2,M3,M4,M6)、(M2,M3,M5,M6)、(M2,M4,M5,M6)的定位结果,取平均,即
Figure GDA0002771381680000052
作为本发明实施例的一个可选实施方式,对静止声源进行距离感知估计,得到静止声源的定位结果包括:提取静止声源的声学参数,代入距离感知估计模型计算得到静止声源的声源距离,根据静止声源的声源距离,得到静止声源的定位结果。由此可以利用距离感知估计模型对静止声源的声音距离进行估计。作为本发明实施例的一个可选实施方式,对静止声源进行距离感知估计,得到静止声源的定位结果之前,录音定位方法还包括:利用传声器阵列获取录音素材信息,生成录音素材库;提取录音素材库的录音素材的声音特征参数,确定距离感知估计模型。由此可以利用传声器阵列获取不同的录音信息以生成录音素材库,以此来进行机器学习,确定距离感知估计模型。之后获取的全部录音信息可以补充进录音素材库以便使得距离感知估计模型可以更加精确。
由此可见,通过本发明实施例提供的录音定位方法,提供了一种新的传声器阵列设计,兼顾水平面以及高度面的空间高度解析以及垂直空间的录音信息高效保留,同时通过提取不同的声学特征来进行运动声源以及静止声源的区别,对运动声源或静止声源进行时延定位算法,并对运动声源进行定位轨迹以及静止声源的距离感知估计,由此可以精确到定位录音信息。
作为本发明实施例的一个可选实施方式,录音定位方法还包括:采用多声道重放系统结合运动声源的定位结果和静止声源的定位结果,对运动声源和静止声源进行重放。由此可以保证在精确到定位录音信息的基础上,进一步以便于多声道重放系统对运动声源以及静止录音声源的精确重放。
图3示出了本发明实施例提供的录音定位装置的结构示意图,本发明实施例提供的录音定位装置应用上述方法,以下仅对本发明实施例提供的录音定位装置的结构进行简要说明,其他未尽事宜,参考上述录音定位方法的相关描述,参见图3,本发明实施例提供的录音定位装置,包括:
传声器阵列301,其中,传声器阵列包括六个传声器,六个传声器形成两个正四棱锥,两个正四棱锥包括相同的四个不共面的传声器;
提取模块302,用于利用传声器阵列获取录音信息,从录音信息中提取运动声源以及静止声源;
计算模块303,用于对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果;
定位模块304,用于根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果,对静止声源进行距离感知估计,得到静止声源的定位结果。
由此可见,通过本发明实施例提供的录音定位装置,提供了一种新的传声器阵列设计,兼顾水平面以及高度面的空间高度解析以及垂直空间的录音信息高效保留,同时通过提取不同的声学特征来进行运动声源以及静止声源的区别,对运动声源或静止声源进行时延定位算法,并对运动声源进行定位轨迹以及静止声源的距离感知估计,由此可以精确到定位录音信息。
作为本发明实施例的一个可选实施方式,计算模块303用于通过如下方式对运动声源和静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果:计算模块303,具体用于将运动声源划分声源面网格,并计算运动声源的声速,利用声源面网格和声速进行多普勒解除计算,得到运动声源的多普勒解除之后的声压信号;利用时延估计算法对多普勒解除之后的声压信号与静止声源的声压信号进行计算,得到运动声源和静止声源延时结果;定位模块304用于通过如下方式根据运动声源和静止声源延时结果对运动声源进行轨迹定位,得到运动声源的定位结果:定位模块304,具体用于将运动声源和静止声源延时结果代入传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将声源面网格和静止声源方位角和俯仰角代入偏差矩阵,计算得到运动声源的定位结果。
作为本发明实施例的一个可选实施方式,定位模块304用于通过如下方式对静止声源进行距离感知估计,得到静止声源的定位结果:定位模块304,具体用于提取静止声源的声学参数,代入距离感知估计模型计算得到静止声源的声源距离,根据静止声源的声源距离,得到静止声源的定位结果。由此可以利用距离感知估计模型对静止声源的声音距离进行估计。作为本发明实施例的一个可选实施方式,录音定位装置还包括:模型确定模块;模型确定模块,用于在定位模块对静止声源进行距离感知估计,得到静止声源的定位结果之前,利用传声器阵列获取录音素材信息,生成录音素材库;提取录音素材库的录音素材的声音特征参数,确定距离感知估计模型。由此可以利用传声器阵列获取不同的录音信息以生成录音素材库,以此来进行机器学习,确定距离感知估计模型。之后获取的全部录音信息可以补充进录音素材库以便使得距离感知估计模型可以更加精确。
作为本发明实施例的一个可选实施方式,录音定位装置还包括:重放模块;重放模块,用于采用多声道重放系统结合运动声源的定位结果和静止声源的定位结果,对运动声源和静止声源进行重放。由此可以保证在精确到定位录音信息的基础上,进一步以便于多声道重放系统对运动声源以及静止录音声源的精确重放。
以下,提供一种录音定位方法的具体实现方案,但本发明并不局限于此:
参见图4,本发明实施例提供的一种具体的录音定位方法中,可以预先通过传声器阵列获取录音素材库,从录音素材库中提取出静止声源,并对静止声源进行提取声学参数,进而进行机器学习后得到距离感知估计模型,由此来通过距离感知估计模型进行静止声源的距离感知估计。之后,可以通过传声器阵列获得的其他录音信息,不断补充录音素材库,可以更好的迭代距离感知估计模型。
在进行录音信息定位过程中,将传声器阵列获得的录音信息进行根据不同的声学特性提取出运动声源和静止声源,将运动声源划分声源面网格,对运动声源的升压信号进行时间分段,计算运动声源的声速V0,利用声源面网格和声速V0进行多普勒解除计算,得到运动声源的多普勒解除之后的声压信号;利用时延估计算法(GCC-PHAT)对多普勒解除之后的声压信号与静止声源的声压信号进行计算,得到运动声源和静止声源延时结果,之后将运动声源和静止声源延时结果代入传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将声源面网格和静止声源方位角和俯仰角代入偏差矩阵,计算得到运动声源的定位结果,由此可以得到运动声源的定位结果以及静止声源的定位结果,在得到运动声源的定位结果以及静止声源的定位结果后,可以利用多声道重放系统结合运动声源的定位结果和静止声源的定位结果,对运动声源和静止声源进行重放。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种录音定位方法,其特征在于,包括:
设置传声器阵列,其中,所述传声器阵列包括六个传声器,所述六个传声器形成两个正四棱锥,两个所述正四棱锥包括相同的四个不共面的传声器;
利用所述传声器阵列获取录音信息,从所述录音信息中提取运动声源以及静止声源;
对所述运动声源和所述静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果;
根据所述运动声源和静止声源延时结果对所述运动声源进行轨迹定位,得到所述运动声源的定位结果,对所述静止声源进行距离感知估计,得到所述静止声源的定位结果;
其中:
所述对所述运动声源和所述静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果包括:
将所述运动声源划分声源面网格,并计算所述运动声源的声速,利用所述声源面网格和所述声速进行多普勒解除计算,得到所述运动声源的多普勒解除之后的声压信号;
利用时延估计算法对所述多普勒解除之后的声压信号与所述静止声源的声压信号进行计算,得到所述运动声源和静止声源延时结果;
所述根据所述运动声源和静止声源延时结果对所述运动声源进行轨迹定位,得到所述运动声源的定位结果包括:
将所述运动声源和静止声源延时结果代入所述传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将所述声源面网格和所述静止声源方位角和俯仰角代入偏差矩阵,计算得到所述运动声源的定位结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述静止声源进行距离感知估计,得到所述静止声源的定位结果包括:
提取所述静止声源的声学参数,代入距离感知估计模型计算得到所述静止声源的声源距离,根据所述静止声源的声源距离,得到所述静止声源的定位结果。
3.根据权利要求1所述的方法,其特征在于,还包括:
采用多声道重放系统结合所述运动声源的定位结果和所述静止声源的定位结果,对所述运动声源和所述静止声源进行重放。
4.根据权利要求2所述的方法,其特征在于,所述对所述静止声源进行距离感知估计,得到所述静止声源的定位结果之前,还包括:
利用所述传声器阵列获取录音素材信息,生成录音素材库;
提取所述录音素材库的录音素材的声音特征参数,确定所述距离感知估计模型。
5.一种录音定位装置,其特征在于,包括:
传声器阵列,其中,所述传声器阵列包括六个传声器,所述六个传声器形成两个正四棱锥,两个所述正四棱锥包括相同的四个不共面的传声器;
提取模块,用于利用所述传声器阵列获取录音信息,从所述录音信息中提取运动声源以及静止声源;
计算模块,用于对所述运动声源和所述静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果;
定位模块,用于根据所述运动声源和静止声源延时结果对所述运动声源进行轨迹定位,得到所述运动声源的定位结果,对所述静止声源进行距离感知估计,得到所述静止声源的定位结果;
其中:
所述计算模块用于通过如下方式对所述运动声源和所述静止声源通过延时定位算法进行计算,得到运动声源和静止声源延时结果:
所述计算模块,具体用于将所述运动声源划分声源面网格,并计算所述运动声源的声速,利用所述声源面网格和所述声速进行多普勒解除计算,得到所述运动声源的多普勒解除之后的声压信号;利用时延估计算法对所述多普勒解除之后的声压信号与所述静止声源的声压信号进行计算,得到所述运动声源和静止声源延时结果;
所述定位模块用于通过如下方式根据所述运动声源和静止声源延时结果对所述运动声源进行轨迹定位,得到所述运动声源的定位结果:
所述定位模块,具体用于将所述运动声源和静止声源延时结果代入所述传声器阵列的定位模型进行融合定位算法计算,获取静止声源方位角和俯仰角,将所述声源面网格和所述静止声源方位角和俯仰角代入偏差矩阵,计算得到所述运动声源的定位结果。
6.根据权利要求5所述的装置,其特征在于,所述定位模块用于通过如下方式对所述静止声源进行距离感知估计,得到所述静止声源的定位结果:
所述定位模块,具体用于提取所述静止声源的声学参数,代入距离感知估计模型计算得到所述静止声源的声源距离,根据所述静止声源的声源距离,得到所述静止声源的定位结果。
7.根据权利要求5所述的装置,其特征在于,还包括:重放模块;
所述重放模块,用于采用多声道重放系统结合所述运动声源的定位结果和所述静止声源的定位结果,对所述运动声源和所述静止声源进行重放。
8.根据权利要求6所述的装置,其特征在于,还包括:模型确定模块;
所述模型确定模块,用于在所述定位模块所述对所述静止声源进行距离感知估计,得到所述静止声源的定位结果之前,利用所述传声器阵列获取录音素材信息,生成录音素材库;提取所述录音素材库的录音素材的声音特征参数,确定所述距离感知估计模型。
CN201811266750.8A 2018-10-29 2018-10-29 一种录音定位方法及装置 Active CN109525929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811266750.8A CN109525929B (zh) 2018-10-29 2018-10-29 一种录音定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811266750.8A CN109525929B (zh) 2018-10-29 2018-10-29 一种录音定位方法及装置

Publications (2)

Publication Number Publication Date
CN109525929A CN109525929A (zh) 2019-03-26
CN109525929B true CN109525929B (zh) 2021-01-05

Family

ID=65773130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811266750.8A Active CN109525929B (zh) 2018-10-29 2018-10-29 一种录音定位方法及装置

Country Status (1)

Country Link
CN (1) CN109525929B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188428B (zh) * 2019-05-20 2021-09-03 武汉大学 一种基于有限元法的扬声器联合仿真方法
CN115295021B (zh) * 2022-09-29 2022-12-30 杭州兆华电子股份有限公司 一种定位录音中有效信号的方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539455B (zh) * 2009-04-22 2010-09-01 合肥工业大学 采用移动等效源法重建移动声源的方法
CA2765116C (en) * 2009-06-23 2020-06-16 Nokia Corporation Method and apparatus for processing audio signals
US9560446B1 (en) * 2012-06-27 2017-01-31 Amazon Technologies, Inc. Sound source locator with distributed microphone array
CN104422922A (zh) * 2013-08-19 2015-03-18 中兴通讯股份有限公司 一种移动终端实现声源定位的方法及装置
US9554208B1 (en) * 2014-03-28 2017-01-24 Marvell International Ltd. Concurrent sound source localization of multiple speakers
CN104237849B (zh) * 2014-09-26 2017-04-12 哈尔滨工业大学 一种双五元十字阵被动声定位融合方法
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
CN104360308B (zh) * 2014-11-28 2017-03-01 北京智谷睿拓技术服务有限公司 移动声源信息确定方法及确定装置、用户设备
CN104765038A (zh) * 2015-03-27 2015-07-08 江苏大学 一种基于内积相关性原理追踪运动点声源轨迹的方法
US20170134853A1 (en) * 2015-11-09 2017-05-11 Stretch Tech Llc Compact sound location microphone
CN105719682A (zh) * 2016-01-15 2016-06-29 珠海格力电器股份有限公司 一种立体音录制回放的方法及系统
US10063965B2 (en) * 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
CN106454686A (zh) * 2016-08-18 2017-02-22 华南理工大学 一种基于体感摄像头的多通路环绕声动态双耳重放方法
WO2018119910A1 (zh) * 2016-12-29 2018-07-05 清华大学 一种运动声源的定位方法和定位装置
CN107346014A (zh) * 2017-06-09 2017-11-14 宇龙计算机通信科技(深圳)有限公司 一种定位方法、装置及终端
CN107390176A (zh) * 2017-06-15 2017-11-24 重庆锐纳达自动化技术有限公司 一种声源定位导航装置
CN108538320B (zh) * 2018-03-30 2020-09-11 Oppo广东移动通信有限公司 录音控制方法和装置、可读存储介质、终端

Also Published As

Publication number Publication date
CN109525929A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
US11528576B2 (en) Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
KR102507476B1 (ko) 헤드셋을 통한 공간 오디오 렌더링을 위한 룸 특성 수정 시스템 및 방법
JP2020509492A5 (zh)
Li et al. Scene-aware audio for 360 videos
WO2022105519A1 (zh) 音效调整方法、装置、设备、存储介质及计算机程序产品
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
CN109906616A (zh) 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
CN109525929B (zh) 一种录音定位方法及装置
CN112005556B (zh) 确定声源的位置的方法、声源定位系统以及存储介质
US11122381B2 (en) Spatial audio signal processing
US11622072B2 (en) Systems and methods for suggesting video framing
US20190289418A1 (en) Method and apparatus for reproducing audio signal based on movement of user in virtual space
JP4498280B2 (ja) 再生位置を決定するための装置及び方法
CN114173256B (zh) 一种还原声场空间及姿态追踪的方法、装置和设备
CN109286888B (zh) 一种音视频在线检测与虚拟声像生成方法及装置
CN114554268A (zh) 音视频数据的处理方法及装置、电子设备、存储介质
CN111726732A (zh) 高保真度环绕声格式的音效处理系统及音效处理方法
CN109391896A (zh) 一种音效生成方法及装置
US10405122B1 (en) Stereophonic sound generating method and apparatus using multi-rendering scheme and stereophonic sound reproducing method and apparatus using multi-rendering scheme
US11638114B2 (en) Method, system and computer program product for recording and interpolation of ambisonic sound fields
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2009049873A (ja) 情報処理装置
Braithwaite 2020 Sound
WO2019235193A1 (ja) 音場信号推定装置、音場信号推定方法、プログラム
WO2020183202A1 (en) Image processing method and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant