CN113608167B - 声源定位方法、装置及设备 - Google Patents

声源定位方法、装置及设备 Download PDF

Info

Publication number
CN113608167B
CN113608167B CN202111173456.4A CN202111173456A CN113608167B CN 113608167 B CN113608167 B CN 113608167B CN 202111173456 A CN202111173456 A CN 202111173456A CN 113608167 B CN113608167 B CN 113608167B
Authority
CN
China
Prior art keywords
determining
information
sound source
array
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111173456.4A
Other languages
English (en)
Other versions
CN113608167A (zh
Inventor
陈维广
黄伟隆
冯津伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202111173456.4A priority Critical patent/CN113608167B/zh
Publication of CN113608167A publication Critical patent/CN113608167A/zh
Application granted granted Critical
Publication of CN113608167B publication Critical patent/CN113608167B/zh
Priority to PCT/CN2022/123555 priority patent/WO2023056905A1/zh
Priority to EP22877924.5A priority patent/EP4375695A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了会议发言展示系统,声源定位方法和装置,会议系统,拾音设备。其中,所述方法包括:通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升声源定位的准确度。

Description

声源定位方法、装置及设备
技术领域
本申请涉及语音处理技术领域,具体涉及会议发言展示系统,声源定位方法和装置,会议系统,拾音设备。
背景技术
会议场景中的音视频设备的基本功能包括发言者跟踪功能。要实现发言者跟踪功能,就需要对发言者进行实时定位。声源定位(Sound Localization)是对声源空间位置的判定,声源定位的准确度直接影响着发言者跟踪的准确度。
一种典型的声源定位方法是基于麦克风的波达方向估计(DirectionofArrival,DOA)方法。基于麦克风的DOA方法包括两类:基于全向性麦克风的DOA方法和基于指向性麦克风阵列的DOA方法。由于基于全向性麦克风阵列的DOA方法受混响影响大,而基于指向性麦克风阵列的DOA方法的鲁棒性更高,因此基于指向性麦克风阵列的DOA方法得到了广泛应用。基于指向性麦克风阵列的DOA现有方法是,采用呈圆形的指向性麦克风阵列,在可控响应功率(Steered-Response Power,SRP)声源定位算法基础上增加权重函数(WeightingFunction),利用部分面向声源的麦克风拾取的信号估计声源方向。
然而,在实现本发明过程中,发明人发现基于指向性麦克风阵列的DOA现有方案至少存在如下问题:由于只利用了部分面向声源的麦克风拾取的信号,且没有充分利用振幅信息,因此声源定位准确度较低。
发明内容
本申请提供声源定位方法,以解决现有技术存在的声源定位准确度较低的问题。本申请另外提供会议发言展示系统,声源定位装置,会议系统,拾音设备。
本申请提供一种会议发言展示系统,包括:
终端设备,用于通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;以及,展示服务端回送的不同会议发言用户的会议发言文本;
服务端,用于通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本。
本申请还提供一种声源定位方法,包括:
通过指向性麦克风阵列采集多通道语音信号;
根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;
根据所述导向矢量和所述语音信号,确定声源方向信息。
可选的,所述根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量,包括:
根据阵列形状信息,确定相位差;
根据麦克风指向方向信息,确定振幅响应;
根据相位差和振幅响应,确定所述导向矢量。
可选的,所述阵列包括线性阵列;
所述阵列形状信息包括麦克风之间的距离;
所述麦克风指向方向包括垂直于阵列指向一侧。
可选的,所述阵列包括圆形阵列;
所述阵列形状信息包括圆形阵列半径;
所述麦克风指向方向为麦克风相对圆形阵列圆心的方向。
可选的,所述根据所述导向矢量和所述语音信号,确定声源方向信息,包括:
根据所述导向矢量和所述语音信号,确定空间谱;
根据所述空间谱,确定所述声源方向信息。
可选的,所述根据所述空间谱,确定所述声源方向信息,包括:
将能量响应数据排在前面的方向作为声源方向。
本申请还提供一种声源定位装置,包括:
声音采集单元,用于通过指向性麦克风阵列采集多通道语音信号;
导向矢量确定单元,用于根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;
声源方向确定单元,用于根据所述导向矢量和所述语音信号,确定声源方向信息。
本申请还提供一种会议系统,包括:声源定位装置和发言者跟踪装置。
本申请还提供一种拾音设备,包括:
指向性麦克风阵列;
处理器和存储器;存储器,用于存储实现上述方法的程序,该设备通电并通过所述处理器运行该方法的程序。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的声源定位方法,通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升声源定位的准确度。
本申请实施例提供的会议发言展示系统,终端设备通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;服务端通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本;终端设备展示不同会议发言用户的会议发言文本。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升会议发言用户定位的准确度,进而提升会议发言展示的准确度。
附图说明
图1本申请提供的声源定位方法的实施例的流程示意图;
图2本申请提供的声源定位方法的实施例的线性阵列示意图;
图3本申请提供的声源定位方法的实施例的具体流程示意图;
图4本申请提供的会议发言展示系统实施例的应用场景示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了会议发言展示系统,声源定位方法和装置,会议系统,拾音设备。在下面的实施例中逐一对各种方案进行详细说明。
第一实施例
本申请实施例提供了声源定位方法,可用于拾音设备、音视频会议终端等,所述设备包括指向性麦克风阵列,而非全向性麦克风阵列。
请参看图1,其为本申请的声源定位方法的实施例的流程示意图。在本实施例中,所述方法可包括如下步骤:
步骤S101:通过指向性麦克风阵列采集多通道语音信号。
所述指向性麦克风,包括但不限于:心形,超心形,枪型,双指向式。
所述麦克风阵列,可以是圆形阵列或者线性阵列,也可以是其它几何形状的阵列,如方形阵列、三角形阵列等,还可以是不规则几何形状的阵列。
步骤S103:根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量。
本申请实施例提供的方法的处理流程采用了与现有技术中基于全向性麦克风的DOA方法相同的处理流程,但对其中的导向矢量的确定方式进行了改进,本步骤S103即为改进后的导向矢量确定方式。
具体实施时,可以采用联合可控响应功率和相位变换(Steered-Response Power-Phase Transform,SRP-PHAT)、MUSIC以及MVDR等DOA定位方法。以SRP-PHAT定位方法为例,该方法通过扫描不同角度(0-360度),根据导向矢量以及麦克风阵列接收到的信号,计算每个角度的能量响应,进而得到空间谱;在获得空间谱后,可选取空间谱中较高能量响应的角度作为声源定位结果。这些DOA方法的不同之处在于,根据导向矢量和多通道语音信号计算空间谱的方式不同。
所述阵列形状信息,与阵列的几何形状有关。以线性阵列为例,阵列形状信息可包括麦克风之间的距离等信息。以圆形阵列为例,阵列形状信息可包括圆形阵列半径等信息。
所述麦克风指向方向信息,也与阵列的几何形状有关。以线性阵列为例,麦克风指向方向为垂直于阵列指向一侧。以圆形阵列为例,麦克风指向方向为麦克风相对阵列圆心的方向。
在现有技术中,当使用全向麦克风阵列时,导向矢量只表示入射信号在麦克风阵列中每个阵元上的相位关系。在本申请提供的方法中,当阵列中的麦克风为指向性麦克风时,导向矢量还考虑麦克风的指向性,即要计算方向上的振幅响应。也就是说,本申请实施例所述的导向矢量包括了相位信息和振幅信息。因此,对于不同方向的信号,可以同时使用相位信息和振幅信息进行定位。
在本实施例中,步骤S103可包括如下子步骤:根据阵列形状信息,确定相位差;根据麦克风指向方向信息,确定振幅响应;根据相位差和振幅响应,确定所述导向矢量。
如图2所示,在一个示例中,指向性麦克风阵列为线性阵列,可采用如下公式计算振幅响应:
Figure 95512DEST_PATH_IMAGE001
在该公式中,p(θm,θ)表示第m个指向性麦克风的振幅响应,θ表示信号入射方向,θm是第m个指向性麦克风的指向方向,α是一阶指向性麦克风的系数。
相应的,所述导向矢量的可采用如下公式:
Figure 714712DEST_PATH_IMAGE002
由该公式可见,指向性麦克风阵列包括m个指向性麦克风,相邻麦克风之间的距离为d,d即为所述阵列形状信息。其中,v(w)表示所述导向矢量,该导向矢量包括相位差和振幅响应两部分;p(θi,θ)表示第i个指向性麦克风在方向θ上的振幅响应,e-jwd/c cosθ表示指向性麦克风在方向θ上的相位差。对于第一个麦克风而言,距离差为0,相位差为1;对于第二个麦克风而言,距离差为d,相位差为e-jwd/c cosθ;以此类推,对于第m个麦克风而言,距离差为(m-1)d,相位差为e-jw(m-1)d/c cosθ
而现有技术中,全向麦克风指向性麦克风导向矢量的计算可采用如下公式:
Figure 794795DEST_PATH_IMAGE003
由该公式可见,现有技术在计算导向矢量时并没有考虑振幅信息,因此导向矢量不够准确。
在另一个示例中,指向性麦克风阵列为圆形阵列,导向矢量可采用如下公式:
Figure 321591DEST_PATH_IMAGE004
在该公式中,θ表示信号入射方向,θm是第m个指向性麦克风的指向方向,R是圆形阵列的半径。
步骤S105:根据所述导向矢量和所述语音信号,确定声源方向信息。
在确定包括相位信息和振幅信息的导向矢量后,就可以采用DOA方法,根据所述导向矢量和所述语音信号,确定声源方向信息。
如图3所示,指向性麦克风阵列可以是圆形阵列或者线性阵列。具体实施时,步骤S105可包括如下子步骤:根据所述导向矢量和所述语音信号,确定空间谱;根据所述空间谱,确定所述声源方向信息。具体实施时,在获得空间谱后,可选取空间谱中较高能量响应的角度作为声源定位结果。由于SRP-PHAT、MUSIC以及MVDR等DOA方法属于较为成熟的现有技术,因此此处不再赘述。
从上述实施例可见,本申请实施例提供的声源定位方法,通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升声源定位的准确度。
第二实施例
在上述的实施例中,提供了一种声源定位方法,与之相对应的,本申请还提供一种声源定位装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种声源定位装置,包括:
声音采集单元,用于通过指向性麦克风阵列采集多通道语音信号;
导向矢量确定单元,用于根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;
声源方向确定单元,用于根据所述导向矢量和所述语音信号,确定声源方向信息。
可选的,所述导向矢量确定单元包括:
确定相位差子单元,用于根据阵列形状信息,确定相位差;
确定振幅响应子单元,用于根据麦克风指向方向信息,确定振幅响应;
确定导向矢量子单元,用于根据相位差和振幅响应,确定所述导向矢量。
可选的,所述阵列包括线性阵列;
所述阵列形状信息包括麦克风之间的距离;
所述麦克风指向方向包括垂直于阵列指向一侧。
可选的,所述阵列包括圆形阵列;
所述阵列形状信息包括圆形阵列半径;
所述麦克风指向方向为麦克风相对圆形阵列圆心的方向。
可选的,所述声源方向确定单元包括:
确定空间谱子单元,用于根据所述导向矢量和所述语音信号,确定空间谱;
确定声源方向子单元,用于根据所述空间谱,确定所述声源方向信息。
可选的,所述确定声源方向子单元,具体用于将能量响应数据排在前面的方向作为声源方向。
第三实施例
与上述的声源定位方法相对应,本申请还提供一种会议系统。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种会议系统包括:声源定位装置和发言者跟踪装置。
音视频会议系统是两个或两个以上不同地方的个人或群体,通过传输线路及会议终端等设备,将声音、影像及文件资料互传,实现即时且互动的沟通,以实现同时进行会议的系统设备。
其中,所述声源定位装置与第一实施例相对应,因此不再赘述,请参见实施例一中的相应部分。所述发言者跟踪装置用于根据所述声源定位装置输出的声源方向信息,确定发言者的活动轨迹信息。由于发言者跟踪属于较为成熟的现有技术,因此此处不再赘述。
从上述实施例可见,本申请实施例提供的会议系统,包括声源定位装置和发言者跟踪装置,所述声源定位装置用于通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息;所述发言者跟踪装置用于根据所述声源定位装置输出的声源方向信息,确定发言者的活动轨迹信息。该系统在确定导向矢量时同时考虑相位信息和振幅信息,因此可以有效提升声源定位的准确度,进而提升发言者跟踪的准度度。
第四实施例
与上述的声源定位方法相对应,本申请还提供一种会议发言展示系统。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种会议系统包括:终端设备和服务端。
请参考图4,其为本申请的会议发言展示系统的场景示意图。在本实施例中,终端设备部署在会议现场,服务端部署在云端服务器上,此外会议现场还可部署大屏幕,用于实时显示会议发言文本及对应的发言用户,供用户观看。服务端、终端设备间可通过网络连接,如终端设备可通过GPRS\4G\WIFI等方式联网。其中,所述终端设备用于通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;所述服务端用于通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本;所述终端设备在大屏幕上显示会议发言文本及对应的发言用户信息。
从上述实施例可见,本申请实施例提供的会议发言展示系统,终端设备通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;服务端通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本;终端设备展示不同会议发言用户的会议发言文本。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升会议发言用户定位的准确度,进而提升会议发言展示的准确度。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (9)

1.一种会议发言展示系统,其特征在于,包括:
终端设备,用于通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息,确定各指向性麦克风在语音信号的入射方向上的相位差;根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息,确定各指向性麦克风的振幅响应;根据相位差和振幅响应之间的乘积,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;以及,展示服务端回送的不同会议发言用户的会议发言文本;
服务端,用于通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本。
2.一种声源定位方法,其特征在于,包括:
通过指向性麦克风阵列采集多通道语音信号;
根据阵列形状信息,确定各指向性麦克风在语音信号的入射方向上的相位差;
根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息,确定各指向性麦克风的振幅响应;
根据相位差和振幅响应之间的乘积,确定包括相位信息和振幅信息的导向矢量;
根据所述导向矢量和所述语音信号,确定声源方向信息。
3.根据权利要求2所述 的方法,其特征在于,
所述阵列包括线性阵列;
所述阵列形状信息包括麦克风之间的距离;
所述麦克风的指向方向包括垂直于阵列指向一侧。
4.根据权利要求2所述 的方法,其特征在于,
所述阵列包括圆形阵列;
所述阵列形状信息包括圆形阵列半径;
所述麦克风的指向方向为麦克风相对圆形阵列圆心的方向。
5.根据权利要求2所述 的方法,其特征在于,
所述根据所述导向矢量和所述语音信号,确定声源方向信息,包括:
根据所述导向矢量和所述语音信号,确定空间谱;
根据所述空间谱,确定所述声源方向信息。
6.根据权利要求5所述 的方法,其特征在于,
所述根据所述空间谱,确定所述声源方向信息,包括:
将能量响应数据排在前面的方向作为声源方向。
7.一种声源定位装置,其特征在于,包括:
声音采集单元,用于通过指向性麦克风阵列采集多通道语音信号;
相位差确定单元,用于根据阵列形状信息,确定各指向性麦克风在语音信号的入射方向上的相位差;
振幅响应确定单元,用于根据各指向性麦克风的指向方向的指向方向与所述入射方向之间的夹角信息,确定各指向性麦克风的振幅响应;
导向矢量确定单元,用于根据相位差和振幅响应之间的乘积,确定所述导向矢量;
声源方向确定单元,用于根据所述导向矢量和所述语音信号,确定声源方向信息。
8.一种拾音设备,其特征在于,包括:
指向性麦克风阵列;
处理器;以及
存储器,用于存储实现声源定位方法的程序,该设备通电并通过所述处理器运行该方法的程序;所述声源定位方法包括如下步骤:
通过指向性麦克风阵列采集多通道语音信号;
根据阵列形状信息,确定各指向性麦克风在语音信号的入射方向上的相位差;
根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息,确定各指向性麦克风的振幅响应;
根据相位差和振幅响应之间的乘积,确定包括相位信息和振幅信息的导向矢量;
根据所述导向矢量和所述语音信号,确定声源方向信息。
9.一种会议系统,其特征在于,包括:
声源定位装置和发言者跟踪装置;
所述声源定位装置,用于通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息,确定各指向性麦克风在语音信号的入射方向上的相位差;根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息,确定各指向性麦克风的振幅响应;根据相位差和振幅响应之间的乘积,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。
CN202111173456.4A 2021-10-09 2021-10-09 声源定位方法、装置及设备 Active CN113608167B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111173456.4A CN113608167B (zh) 2021-10-09 2021-10-09 声源定位方法、装置及设备
PCT/CN2022/123555 WO2023056905A1 (zh) 2021-10-09 2022-09-30 声源定位方法、装置及设备
EP22877924.5A EP4375695A1 (en) 2021-10-09 2022-09-30 Sound source localization method and apparatus, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111173456.4A CN113608167B (zh) 2021-10-09 2021-10-09 声源定位方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113608167A CN113608167A (zh) 2021-11-05
CN113608167B true CN113608167B (zh) 2022-02-08

Family

ID=78310828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111173456.4A Active CN113608167B (zh) 2021-10-09 2021-10-09 声源定位方法、装置及设备

Country Status (3)

Country Link
EP (1) EP4375695A1 (zh)
CN (1) CN113608167B (zh)
WO (1) WO2023056905A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608167B (zh) * 2021-10-09 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声源定位方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176167A (zh) * 2013-03-21 2013-06-26 徐华中 一种基于锁相放大器的强干扰下声源定位方法
CN108630222A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理系统、信号处理方法以及信号处理程序
CN109788382A (zh) * 2019-01-25 2019-05-21 深圳大学 一种分布式麦克风阵列拾音系统及方法
CN110047507A (zh) * 2019-03-01 2019-07-23 北京交通大学 一种声源识别方法及装置
CN110049270A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN111986692A (zh) * 2019-05-24 2020-11-24 腾讯科技(深圳)有限公司 基于麦克风阵列的声源跟踪与拾音的方法和装置
CN112558004A (zh) * 2021-02-22 2021-03-26 北京远鉴信息技术有限公司 一种波束信息波达方向的确定方法、装置、及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2159593B1 (en) * 2008-08-26 2012-05-02 Nuance Communications, Inc. Method and device for locating a sound source
JP2010283676A (ja) * 2009-06-05 2010-12-16 Sony Corp 音声検出装置、音声検出方法及び撮像システム
CN107356943B (zh) * 2017-06-01 2020-04-28 西南电子技术研究所(中国电子科技集团公司第十研究所) 数字波束形成和相位拟合方法
CN108375763B (zh) * 2018-01-03 2021-08-20 北京大学 一种应用于多声源环境的分频定位方法
CN108419168A (zh) * 2018-01-19 2018-08-17 广东小天才科技有限公司 拾音设备的指向性拾音方法、装置、拾音设备及存储介质
CN111741404B (zh) * 2020-07-24 2021-01-22 支付宝(杭州)信息技术有限公司 拾音设备、拾音系统和声音信号采集的方法
CN112995838B (zh) * 2021-03-01 2022-10-25 支付宝(杭州)信息技术有限公司 拾音设备、拾音系统和音频处理方法
CN113608167B (zh) * 2021-10-09 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声源定位方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176167A (zh) * 2013-03-21 2013-06-26 徐华中 一种基于锁相放大器的强干扰下声源定位方法
CN108630222A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理系统、信号处理方法以及信号处理程序
CN109788382A (zh) * 2019-01-25 2019-05-21 深圳大学 一种分布式麦克风阵列拾音系统及方法
CN110047507A (zh) * 2019-03-01 2019-07-23 北京交通大学 一种声源识别方法及装置
CN110049270A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN111986692A (zh) * 2019-05-24 2020-11-24 腾讯科技(深圳)有限公司 基于麦克风阵列的声源跟踪与拾音的方法和装置
CN112558004A (zh) * 2021-02-22 2021-03-26 北京远鉴信息技术有限公司 一种波束信息波达方向的确定方法、装置、及存储介质

Also Published As

Publication number Publication date
WO2023056905A1 (zh) 2023-04-13
CN113608167A (zh) 2021-11-05
EP4375695A1 (en) 2024-05-29

Similar Documents

Publication Publication Date Title
CN109804559B (zh) 空间音频系统中的增益控制
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US10785565B2 (en) Distributed audio capture and mixing controlling
CN104246878B (zh) 音频用户交互辨识和上下文精炼
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
US11659349B2 (en) Audio distance estimation for spatial audio processing
US20160044410A1 (en) Audio Apparatus
CN110875056A (zh) 语音转录设备、系统、方法、及电子设备
KR20210035725A (ko) 혼합 오디오 신호를 저장하고 지향성 오디오를 재생하기 위한 방법 및 시스템
CN113608167B (zh) 声源定位方法、装置及设备
US9195740B2 (en) Audio scene selection apparatus
CN112492207A (zh) 一种基于声源定位控制摄像头转动的方法和装置
CN108781310A (zh) 使用视频的图像来选择要增强的视频的音频流
CN110719545B (zh) 音频播放设备及用于播放音频的方法
WO2022183968A1 (zh) 音频信号处理方法、设备、系统及存储介质
CN112311999A (zh) 智能视频音箱设备及其摄像头视角调整方法
Bergh et al. Multi-speaker voice activity detection using a camera-assisted microphone array
CN110418242B (zh) 声源定向方法、装置及系统
US20240137720A1 (en) Generating restored spatial audio signals for occluded microphones
WO2023065317A1 (zh) 会议终端及回声消除方法
CN111627425B (zh) 一种语音识别方法及系统
US20240073571A1 (en) Generating microphone arrays from user devices
CN114927136A (zh) 会议发言用户定位系统、方法、装置及设备
Takashima et al. Monaural sound-source-direction estimation using the acoustic transfer function of a parabolic reflection board

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant