CN113223544B - 音频的方向定位侦测装置及方法以及音频处理系统 - Google Patents

音频的方向定位侦测装置及方法以及音频处理系统 Download PDF

Info

Publication number
CN113223544B
CN113223544B CN202010071344.7A CN202010071344A CN113223544B CN 113223544 B CN113223544 B CN 113223544B CN 202010071344 A CN202010071344 A CN 202010071344A CN 113223544 B CN113223544 B CN 113223544B
Authority
CN
China
Prior art keywords
audio
beams
information
impulse response
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010071344.7A
Other languages
English (en)
Other versions
CN113223544A (zh
Inventor
位庆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Xuanyang Technology Co ltd
Original Assignee
Zhuhai Xuanyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Xuanyang Technology Co ltd filed Critical Zhuhai Xuanyang Technology Co ltd
Priority to CN202010071344.7A priority Critical patent/CN113223544B/zh
Priority to US16/914,463 priority patent/US11415658B2/en
Publication of CN113223544A publication Critical patent/CN113223544A/zh
Application granted granted Critical
Publication of CN113223544B publication Critical patent/CN113223544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/803Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
    • G01S3/8034Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics wherein the signals are derived simultaneously
    • G01S3/8038Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics wherein the signals are derived simultaneously derived from different combinations of signals from separate transducers comparing sum with difference
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/86Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种音频的方向定位侦测装置及方法以及音频处理系统。方向定位侦测装置包括第一滤波器、绝对值运算器、第二滤波器以及方向定位处理器。第一滤波器对各个第一音频波束进行第一无限脉冲响应操作,以产生多个第二音频波束。绝对值运算器对各个第二音频波束的振幅进行绝对值运算,以产生多个第三音频波束。第二滤波器将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束,以产生多个第四音频波束。方向定位处理器将多个第四音频波束区分为多个音频波束组,依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择经选择音频波束,以输出经选择音频波束对应的波束信息,且波束信息用于语音识别及判断语音方向。

Description

音频的方向定位侦测装置及方法以及音频处理系统
技术领域
本发明是有关于一种音频处理的技术,且特别是有关于一种音频的方向定位侦测装置、方法以及音频处理系统。
背景技术
语音辨识技术是自动将人类的语音内容转化为相应文字,为目前的热门技术之一。随着科技的发展与网路的普及,语音辨识系统已广泛应用于可携式装置等多项电子装置中,从而达到语音拨号、语音导航、室内装置控制或语音文件检索等功能。
然而在语音辨识系统获取声源信号时,不可避免会受到环境杂讯、混响、回声以及他人说话等因素的干扰,此些因素会严重影响语音辨识的正确率。为此,如何实现杂讯抑制并提取纯净声源信号便成为此领域的重要课题之一。
发明内容
本发明提供一种音频的方向定位侦测装置及方法以及音频处理系统,可抑制杂讯并透过音频方向的定位技术而提取纯净的声源信号,以提升语音辨识的正确率。
本发明揭露一种音频的方向定位侦测装置。音频的方向定位侦测装置包括第一滤波器、绝对值运算器、第二滤波器以及方向定位处理器。第一滤波器接收多个第一音频波束并对各个第一音频波束进行第一无限脉冲响应操作,以产生多个第二音频波束。绝对值运算器耦接第一滤波器,绝对值运算器对各个第二音频波束的振幅进行绝对值运算,以产生多个第三音频波束。第二滤波器耦接绝对值运算器,第二滤波器将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束,以产生多个第四音频波束。方向定位处理器耦接第二滤波器,方向定位处理器将多个第四音频波束区分为多个音频波束组,依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择一经选择音频波束,以输出经选择音频波束对应的波束信息,且波束信息用于语音识别及判断语音方向。
本发明揭露一种音频处理系统。音频处理系统包括噪声消除装置、波束成形装置、方向定位侦测装置以及语音辨识器。噪声消除装置接收麦克风信息及扬声器播放信息,依序将麦克风信息及扬声器播放信息进行滤波操作、取样率转换操作以及回声消除操作,以产生经回声消除音频数据。波束成形装置耦接噪声消除装置以依据经回声消除音频数据产生多个第一音频波束。方向定位侦测装置接收多个第一音频波束,依序将第一音频波束进行第一无限脉冲响应操作、绝对值运算以及第二无限脉冲响应操作以产生多个经处理音频波束,并选出部分的多个经处理音频波束产生多个波束信息,多个波束信息对应至少一特定方向。语音辨识器耦接方向定位侦测装置,语音辨识器依据多个波束信息进行语音识别及判断语音方向。
本发明揭露一种音频的方向定位侦测方法。音频的方向定位侦测方法包括下列步骤。接收多个第一音频波束并对各个第一音频波束进行第一无限脉冲响应操作,以产生多个第二音频波束。对各个第二音频波束的振幅进行一绝对值运算,以产生多个第三音频波束。将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束,以产生多个第四音频波束。以及,将所述多个第四音频波束区分为多个音频波束组,依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择一经选择音频波束,以输出经选择音频波束对应的波束信息,波束信息用于语音识别及判断语音方向。
基于上述,本发明实施例接收来自麦克风阵列中多个麦克风的音频信息,并在判断麦克风信息中有人声时,启动音频处理系统的后续操作,并在后续操作中利用多种无限脉冲响应操作以从这些麦克风消息对应的音频波束中准确地获得语音的来源方向。后续操作还包括对麦克风信息及扬声器播放信息进行噪声和回声消除。藉此,音频处理系统便可依据上述方式而抑制杂讯并提取纯净声源信号,以提升语音辨识的正确率。此外,本实施例的音频处理系统大部份皆可由硬体实现,在保证效能的同时不占用中央处理器的(CPU)资源。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
附图说明
图1是依照本发明一实施例所绘示的音频处理系统的方块图。
图2是依照本发明一实施例所绘示的噪声消除装置的详细方块图。
图3是依照本发明一实施例所绘示的波束成形装置的详细方块图。
图4是依照本发明一实施例所绘示的方向定位侦测装置的详细方块图。
图5是依照本发明一实施例所绘示的麦克风阵列的范例。
图6是依照本发明另一实施例所绘示的音频处理系统的方块图。
图7是依照本发明一实施例所绘示的音频的方向定位侦测方法的流程图。
附图标记说明
100、600:音频处理系统
110、200:噪声消除装置
120、300:波束成形装置
130、400:方向定位侦测装置
140:语音辨识器
150:麦克风阵列
160:语音活性检测器
170:音频处理器
180:扬声器
210、212:有限脉冲响应滤波器
220、222:取样率转换器
230:回声消除器
310:双线性插值器
320:波束运算处理器
410、430:滤波器
420:绝对值运算器
440:方向定位处理器
500:圆形阵列
610:输出缓冲器
620:乘法器
700:流程图
AD1、AD1’、AD2、AD2’:音频数据
b0~b7:波束方向
BEAM、BEAM1~BEAMn、BEAM’、BEAM”、BEAM”’:音频波束
BEAM_DATA_CH1~BEAM_DATA_CHk:输出波束通道数据
BEAM_INDEX_CH1~BEAM_INDEX_CHk:输出波束通道索引
BEAM_INFO:波束信息
ECD:经回声消除音频数据
ECD_MIC1~ECD_MICm:经回声消除的音频信息
m0~m2:麦克风位置
MD:麦克风信息
PD:扬声器播放信息
S710、S720、S730、S740:步骤
WS:语音命令信号
具体实施方式
图1是依照本发明一实施例所绘示之音频处理系统的方块图。请参照图1,本实施例的音频处理系统100主要包括噪声消除装置110、波束成形装置120、方向定位(DirectionOf Arrival;DOA)侦测装置130以及语音辨识器140。波束成形装置120耦接噪声消除装置110,方向定位侦测装置130耦接波束成形装置120,语音辨识器140耦接方向定位侦测装置130。本实施例的音频处理系统100是以智慧音箱或相关的消费型电子装置来实现。
在本实施例中,噪声消除装置110接收麦克风信息MD及扬声器播放信息PD,并且依序将麦克风信息MD及扬声器播放信息PD进行滤波操作、取样率转换操作以及回声消除操作,以产生经回声消除音频数据ECD。藉此,噪声消除装置110用以消除噪声和回声。在一实施例中,此处所指的回声也可以是从扬声器180产生的自噪声,本发明并不加以限制。噪声消除装置110的详细操作方式将于图2中进一步描述。
波束成形装置120接收经回声消除音频数据ECD,并且依据经回声消除音频数据ECD产生多个音频波束BEAM。基此,由于噪声消除装置110中可具备有限脉冲响应滤波器,因此波束成形装置120与噪声消除装置110可一同实现滤波和波束成形(Filter-and-SumBeamforming;FSB)的功能。也就是说,本实施例的波束成形装置120自身可以不具备滤波功能。波束成形装置120的详细操作方式将于图3中进一步描述。
方向定位侦测装置130接收多个音频波束BEAM,且依序将音频波束BEAM进行第一无限脉冲响应操作、绝对值运算以及第二无限脉冲响应操作以产生多个经处理音频波束,并从上述的经处理音频波束中选出部分经处理音频波束以产生多个波束信息BEAM_INFO。值得注意的是,多个波束信息BEAM_INFO对应至少一特定方向。由此,方向定位侦测装置130可以输出多个声源及每个声源的方向信息。方向定位侦测装置130的详细操作方式将于图4中进一步描述。
最后,语音辨识器140接收多个波束信息BEAM_INFO,并且依据多个波束信息BEAM_INFO进行语音识别及判断语音方向,以将声源所发出的语音内容转换为相应的语音命令信号WS并进行输出。
在一实施例中,音频处理系统100更包括麦克风阵列150,麦克风阵列150耦接至噪声消除装置110。麦克风阵列150包括在空间上分离的多个麦克风(例如,下述图5所示以3个麦克风组成的麦克风阵列)。本系统可支援1至8个麦克风,并可支援麦克风采用圆型或线型等阵列阵形,本发明实施例并不限制麦可风阵列150中麦克风的数量及排列方式,应用本实施例者可依其需求适应性调整。每个麦克风分别产生音频信息,且麦克风信息MD包括每个麦克风的音频信息。在另一实施例中,音频处理系统100更包括语音活性检测器(VoiceActivity Detection;VAD)160,语音活性检测器160耦接于麦克风阵列150与噪声消除装置110之间。语音活性检测器160判断麦克风信息MD中是否有人声,并且,在语音活性检测器160判断麦克风信息MD中有人声的情况下启动噪声消除装置110,并将麦克风信息MD传递至噪声消除装置110,以使音频处理系统100进行语音识别及判断语音方向。另一方面,在语音活性检测器160判断麦克风信息MD中没有人声的情况下将关闭噪声消除装置110及后续的相关元件,从而实现省电功能。
在一实施例中,音频处理系统100更包括音频处理器170及扬声器180,扬声器180耦接音频处理器170。音频处理器170产生扬声器播放信息PD,且扬声器180依据扬声器播放信息PD来播放音频。值得注意的是,因为音频处理系统100可实现为智慧音箱,且扬声器播放信息PD为设备本身播放通道的音频信息,对于有播放功能的设备,需要回采音频信息,以消除设备本身发出的音频干扰。
图2是依照本发明一实施例所绘示之噪声消除装置的详细方块图。本实施例的噪声消除装置200用以进一步说明图1噪声消除装置110的详细操作方式。请参照图2,噪声消除装置200包括有限脉冲响应滤波器210、有限脉冲响应滤波器212、取样率转换器220、取样率转换器222以及回声消除器230。取样率转换器220耦接有限脉冲响应滤波器210,取样率转换器222耦接有限脉冲响应滤波器212,回声消除器230耦接取样率转换器220以及取样率转换器222。
在本实施例中,有限脉冲响应滤波器210接收麦克风信息MD并将其转换为音频数据AD1,取样率转换器220将音频数据AD1转换为符合一取样频率(比如16KHz)的音频数据AD1’。且有限脉冲响应滤波器212接收扬声器播放信息PD并将其转换为音频数据AD2,取样率转换器222将音频数据AD2转换为符合所述取样频率(比如16KHz)的音频数据AD2’。最后,回声消除器230依据音频数据AD2’以对音频数据AD1’进行回声消除,以产生经回声消除音频数据ECD。
藉此,有限脉冲响应滤波器210、有限脉冲响应滤波器212、取样率转换器220及取样率转换器222完成低失真率取样速率转换,使后续模组工作在指定的取样速率上(比如16KHz)。此外,回声消除器230接收播放通道和麦克风通道两路数据并进行回声消除。
图3是依照本发明一实施例所绘示之波束成形装置的详细方块图。本实施例的波束成形装置300用以进一步说明图1波束成形装置120的详细操作方式。请参照图3,波束成形装置300包括双线性插值器310以及波束运算处理器320。波束运算处理器320耦接双线性插值器310。
在本实施例中,双线性插值器310分别对麦克风信息中的多个麦克风的经回声消除的音频信息ECD_MIC1~ECD_MICm进行延迟,以使经回声消除的音频信息ECD_MIC1~ECD_MICm依据信息波形来对齐。接着,波束运算处理器320依据滤波和波束成形演算法以依据经延迟的多个音频信息产生多个音频波束BEAM1~BEAMn。举例而言,m可为8,n可为32,即可支持8个麦克风的输入,并输出32个波束,然而本发明不以此为限。
在一些实施例中,波束运算处理器320亦可使用其他波束成形演算法来产生多个音频波束BEAM1~BEAMn,本发明并不加以限制。
图4是依照本发明一实施例所绘示之方向定位侦测装置的详细方块图。本实施例的方向定位侦测装置400用以进一步说明图1方向定位侦测装置130的详细操作方式。请参照图4,方向定位侦测装置400包括滤波器410、绝对值运算器420、滤波器430以及方向定位处理器440。绝对值运算器420耦接滤波器410,滤波器430耦接绝对值运算器420,方向定位处理器440耦接滤波器430。
在本实施例中,滤波器410接收多个音频波束BEAM1~BEAMn,并且对各个音频波束BEAM1~BEAMn进行第一无限脉冲响应操作,以产生多个音频波束BEAM1’~BEAMn’(图4中仅以BEAM’表示)。值得注意的是,滤波器410对各个音频波束BEAM1~BEAMn进行第一无限脉冲响应操作,其目的是选择出人声所处频段的音频数据,并降低非人声频段中的噪声对于语音信息的干扰。第一无限脉冲响应操作例如是二阶无限脉冲响应(second order IIR)操作。
接着,绝对值运算器420接收音频波束BEAM’,并且对各个音频波束BEAM’的振幅进行一绝对值运算,以产生多个音频波束BEAM1”~BEAMn”(图4中仅以BEAM”表示)。需注意的是,绝对值运算器420对各个音频波束BEAM’的振幅进行绝对值运算,藉此降低后续运算的复杂度。
再者,滤波器430接收多个音频波束BEAM”,并且将各个音频波束BEAM”进行第二无限脉冲响应操作来平滑各个音频波束BEAM”,以产生多个音频波束BEAM1”’~BEAMn”’(图4中仅以BEAM”’表示)。值得一提的是,滤波器430可进行低通滤波以平滑各个音频波束BEAM”的包络(envelope),以避免方向定位处理器440在选择判断语音方向时不断地选择相邻的音频波束BEAM”’。第二无限脉冲响应操作例如是一阶无限脉冲响应(first order IIR)操作。在符合本发明的一些实施例中,第一无限脉冲响应(如,二阶无限脉冲响应)操作的阶数大于第二无限脉冲响应(如,一阶无限脉冲响应)操作的阶数。
方向定位处理器440接收多个音频波束BEAM”’,并且将多个音频波束BEAM”’区分为多个音频波束组,依据各个音频波束组中各个音频波束BEAM”’的能量而从各个音频波束组中选择一经选择音频波束,以输出经选择音频波束对应的波束信息,且波束信息用于语音识别及判断语音方向。具体而言,方向定位处理器440在各个音频波束组中选择各个音频波束BEAM”’的包络具备振幅最大者(即为能量最大者)作为经选择音频波束。此外,每个音频波束组分别对应一通道,波束信息包括通道的输出波束通道数据(DATA)以及通道的输出波束通道索引(INDEX),且输出波束通道数据用于语音识别以获得至少一个语音信息,输出波束通道索引用于判断所述至少一个语音信息所对应的传递方向。
举例来说,方向定位处理器440将接收到的音频波束BEAM1”’~BEAMn”’均分为k组(k为整数,例如4),每组音频波束分别处理并选出每组中具备能量最大者的一个音频波束作为一个通道输出,输出的信息包括用于语音识别的输出波束通道数据BEAM_DATA_CH1~BEAM_DATA_CHk和用于声源方向判断的输出波束通道索引BEAM_INDEX_CH1~BEAM_INDEX_CHk。利用将音频波束分组并选出各组中具有能量最大者的方式,对于单声源或多声源的情况,本实施例的方向定位处理器440都可有效提取出各声源对应的音频信息和方向信息。
值得注意的是,进行一阶滤波器滤波操作的目的是提取音频资料包络并作平滑处理,因声音的幅度是不断跳变的,经平滑处理后可避免相邻样本间选择声源方向时不断跳变。方向定位侦测装置400最终根据处理后的音频资料幅度大小选择当前音频波束分组中哪个音频波束为声源,并输出其音频信息和方向信息,以实现多声源分离提取。
图5是依照本发明一实施例所绘示之麦克风阵列的范例。请参照图5,以3个麦克风和8个波束的圆形阵列500为例,m0~m2为3个麦克风位置,b0~b7为8个波束方向。本发明即是基于麦克风阵列实现语音增强和声源测向的硬体系统。
图6是依照本发明另一实施例所绘示之音频处理系统的方块图。本实施例的音频处理系统600用以进一步说明图1音频处理系统100的详细操作方式。请参照图6,音频处理系统600还包括输出缓冲器610。有限脉冲响应滤波器210、取样率转换器220、有限脉冲响应滤波器212、取样率转换器222、回声消除器230、波束成形装置120、方向定位侦测装置130以及语音辨识器140共用输出缓冲器610。举例而言,有限脉冲响应滤波器210将处理后的数据写入输出缓冲器610,取样率转换器220工作时直接从输出缓冲器610读取有限脉冲响应滤波器210写入输出缓冲器610的数据,完成处理后同样写入输出缓冲器610供后续模组使用,这样所有模组共用一块输出缓冲器610。在一实施例中,输出缓冲器610例如是静态随机存取记忆体(Static Random Access Memory;SRAM),本发明并不加以限制。
在一实施例中,音频处理系统600更包括乘法器620。有限脉冲响应滤波器210、取样率转换器220、有限脉冲响应滤波器212、取样率转换器222、回声消除器230、波束成形装置120、方向定位侦测装置130以及语音辨识器140以管线排序方式共用乘法器620(也就是说,依序使用乘法器620进行运算)。
图7是依照本发明一实施例所绘示之音频的方向定位侦测方法的流程图。并同时参考图4的方向定位侦测装置400及图7的流程图700,于步骤S710中,方向定位侦测装置400的滤波器410接收多个音频波束BEAM1~BEAMn并对各个音频波束BEAM1~BEAMn进行第一无限脉冲响应操作,以产生多个音频波束BEAM’。于步骤S720中,绝对值运算器420对各个音频波束BEAM’的振幅进行绝对值运算,以产生多个音频波束BEAM”。于步骤S730中,滤波器430将各个音频波束BEAM”进行第二无限脉冲响应操作来平滑各个音频波束BEAM”,以产生多个音频波束BEAM”’。于步骤S740中,方向定位处理器440将多个音频波束BEAM”’区分为多个音频波束组,依据各个音频波束组中各个音频波束BEAM”’的能量而从各个音频波束组中选择一个经选择音频波束,以输出经选择音频波束对应的波束信息。此处的波束信息用于让图1的语音辨识器140进行语音识别及判断语音方向。图7中的详细硬体与操作已揭露于上述实施例中。
本实施例的音频处理系统在上电后,驱动器会根据具体的应用场景配置相关信息,例如麦克风数量、波束数量等,同时将每个波束对应的麦克风时延估计(Time DelayEstimation;TDE)信息配置给波束成形装置。接着,在语音活性检测器检测到人声后,将每个麦克风通道的信息传送至有限脉冲响应滤波器,有限脉冲响应滤波器、取样率转换器将麦克风信息转化为指定的取样速率,再由回声消除器处理消除设备本身的音频回声干扰。消除回声后的数据再由波束成形装置进行语音增强处理形成波束,并由方向定位侦测装置确定声源,且输出其音频数据和方向信息。最后由语音辨识器接收声源音频数据和方向信息,并且进行语音识别及判断语音方向,以输出语音辨识结果。
综上所述,本发明实施例接收来自麦克风阵列中多个麦克风的音频信息,并在判断麦克风信息中有人声时,启动音频处理系统的后续操作,并在后续操作中利用多种无限脉冲响应操作以从这些麦克风消息对应的音频波束中准确地获得语音的来源方向。后续操作还包括对麦克风信息及扬声器播放信息进行噪声和回声消除。藉此,音频处理系统便可依据上述方式而抑制杂讯并提取纯净声源信号,以提升语音辨识的正确率。此外,本实施例的音频处理系统大部份皆可由硬体实现,在保证效能的同时不占用CPU资源。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视后附的权利要求所界定者为准。

Claims (10)

1.一种音频的方向定位侦测装置,其特征在于,包括:
第一滤波器,接收多个第一音频波束并对各个第一音频波束进行第一无限脉冲响应操作,以产生多个第二音频波束;
绝对值运算器,耦接所述第一滤波器,所述绝对值运算器对各个第二音频波束的振幅进行一绝对值运算,以产生多个第三音频波束;
第二滤波器,耦接所述绝对值运算器,所述第二滤波器将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束,以产生多个第四音频波束;以及
方向定位处理器,耦接所述第二滤波器,所述方向定位处理器将所述多个第四音频波束区分为多个音频波束组,依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择一经选择音频波束,以输出所述经选择音频波束对应的波束信息,其中所述波束信息用于语音识别及判断语音方向。
2.如权利要求1所述的音频的方向定位侦测装置,其特征在于,每个音频波束组分别对应一通道,
所述波束信息包括所述通道的输出波束通道数据以及所述通道的输出波束通道索引,其中所述输出波束通道数据用于语音识别以获得至少一个语音信息,且所述输出波束通道索引用于判断所述至少一个语音信息所对应的传递方向。
3.如权利要求1所述的音频的方向定位侦测装置,其特征在于,所述方向定位处理器在各个音频波束组中选择各个第四音频波束的包络具备振幅最大者作为所述经选择音频波束。
4.如权利要求1所述的音频的方向定位侦测装置,其特征在于,所述第一无限脉冲响应操作的阶数大于所述第二无限脉冲响应操作的阶数。
5.一种音频处理系统,其特征在于,包括:
噪声消除装置,接收一麦克风信息及一扬声器播放信息,依序将所述麦克风信息及所述扬声器播放信息进行滤波操作、取样率转换操作以及回声消除操作,以产生经回声消除音频数据;
波束成形装置,耦接所述噪声消除装置以依据所述经回声消除音频数据产生多个第一音频波束;
方向定位侦测装置,接收所述多个第一音频波束,依序将所述第一音频波束进行第一无限脉冲响应操作、绝对值运算以及第二无限脉冲响应操作以产生多个经处理音频波束,并选出部分的所述多个经处理音频波束产生多个波束信息,其中所述多个波束信息对应至少一特定方向;以及
语音辨识器,耦接所述方向定位侦测装置,所述语音辨识器依据所述多个波束信息进行语音识别及判断语音方向。
6.如权利要求5所述的音频处理系统,其特征在于,所述方向定位侦测装置包括:
第一滤波器,接收所述多个第一音频波束并对各个第一音频波束进行所述第一无限脉冲响应操作,以产生多个第二音频波束;
绝对值运算器,耦接所述第一滤波器,所述绝对值运算器对各个第二音频波束的振幅进行一绝对值运算,以产生多个第三音频波束;
第二滤波器,耦接所述绝对值运算器,所述第二滤波器将各个第三音频波束进行所述第二无限脉冲响应操作来平滑各个第三音频波束,以产生多个经处理音频波束;以及
方向定位处理器,耦接所述第二滤波器,所述方向定位处理器将所述多个经处理音频波束区分为多个音频波束组,依据各个音频波束组中各个经处理音频波束的能量而从各个音频波束组中选择一经选择音频波束,以输出所述经选择音频波束对应的波束信息,其中所述波束信息用于语音识别及判断语音方向。
7.如权利要求6所述的音频处理系统,其特征在于,每个音频波束组分别对应一通道,
所述波束信息包括所述通道的输出波束通道数据以及所述通道的输出波束通道索引,其中所述输出波束通道数据用于语音识别以获得至少一个语音信息,且所述输出波束通道索引用于判断所述至少一个语音信息所对应的传递方向,
其中所述方向定位处理器在各个音频波束组中选择各个经处理音频波束的包络具备振幅最大者作为所述经选择音频波束。
8.如权利要求5所述的音频处理系统,其特征在于,所述噪声消除装置包括:
第一有限脉冲响应滤波器,接收所述麦克风信息并将其转换为第一音频数据;
第一取样率转换器,耦接所述第一有限脉冲响应滤波器,所述第一取样率转换器将所述第一音频数据转换为符合一取样频率的所述第一音频数据;
第二有限脉冲响应滤波器,接收所述扬声器播放信息并将其转换为第二音频数据;
第二取样率转换器,耦接所述第二有限脉冲响应滤波器,所述第二取样率转换器将所述第二音频数据转换为符合所述取样频率的所述第二音频数据;以及
回声消除器,耦接所述第一取样率转换器以及所述第二取样率转换器,依据所述第二音频数据以对所述第一音频数据进行回声消除,以产生所述经回声消除音频数据。
9.如权利要求8所述的音频处理系统,其特征在于,更包括:
输出缓冲器,其中所述第一有限脉冲响应滤波器、所述第一取样率转换器、所述第二有限脉冲响应滤波器、所述第二取样率转换器、所述回声消除器、所述波束成形装置、所述方向定位侦测装置以及所述语音辨识器共用所述输出缓冲器;以及
乘法器,其中所述第一有限脉冲响应滤波器、所述第一取样率转换器、所述第二有限脉冲响应滤波器、所述第二取样率转换器、所述回声消除器、所述波束成形装置、所述方向定位侦测装置以及所述语音辨识器以管线排序方式共用所述乘法器。
10.一种音频的方向定位侦测方法,其特征在于,包括:
接收多个第一音频波束并对各个第一音频波束进行第一无限脉冲响应操作,以产生多个第二音频波束;
对各个第二音频波束的振幅进行一绝对值运算,以产生多个第三音频波束;
将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束,以产生多个第四音频波束;以及
将所述多个第四音频波束区分为多个音频波束组,依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择一经选择音频波束,以输出所述经选择音频波束对应的波束信息,其中所述波束信息用于语音识别及判断语音方向。
CN202010071344.7A 2020-01-21 2020-01-21 音频的方向定位侦测装置及方法以及音频处理系统 Active CN113223544B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010071344.7A CN113223544B (zh) 2020-01-21 2020-01-21 音频的方向定位侦测装置及方法以及音频处理系统
US16/914,463 US11415658B2 (en) 2020-01-21 2020-06-28 Detection device and method for audio direction orientation and audio processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010071344.7A CN113223544B (zh) 2020-01-21 2020-01-21 音频的方向定位侦测装置及方法以及音频处理系统

Publications (2)

Publication Number Publication Date
CN113223544A CN113223544A (zh) 2021-08-06
CN113223544B true CN113223544B (zh) 2024-04-02

Family

ID=76856992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010071344.7A Active CN113223544B (zh) 2020-01-21 2020-01-21 音频的方向定位侦测装置及方法以及音频处理系统

Country Status (2)

Country Link
US (1) US11415658B2 (zh)
CN (1) CN113223544B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11388670B2 (en) * 2019-09-16 2022-07-12 TriSpace Technologies (OPC) Pvt. Ltd. System and method for optimizing power consumption in voice communications in mobile devices
US20230050677A1 (en) * 2021-08-14 2023-02-16 Clearone, Inc. Wideband DOA Improvements for Fixed and Dynamic Beamformers

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209490A (ja) * 2007-02-23 2008-09-11 Sony Corp 音響処理装置及び音響処理方法
EP1983799A1 (en) * 2007-04-17 2008-10-22 Harman Becker Automotive Systems GmbH Acoustic localization of a speaker
CN101800051A (zh) * 2009-02-09 2010-08-11 美国博通公司 处理信号的方法和处理音频信号的系统
CN102047326A (zh) * 2008-05-29 2011-05-04 高通股份有限公司 用于频谱对比加强的系统、方法、设备及计算机程序产品
CN102473405A (zh) * 2009-07-10 2012-05-23 高通股份有限公司 用于自适应主动噪声消除的系统、方法、设备与计算机可读媒体
CN102572675A (zh) * 2010-12-02 2012-07-11 富士通天株式会社 信号处理方法、信号处理装置以及再现装置
CN103443649A (zh) * 2011-03-03 2013-12-11 高通股份有限公司 用于使用可听声音和超声进行源定位的系统、方法、设备和计算机可读媒体
CN103917886A (zh) * 2011-08-31 2014-07-09 弗兰霍菲尔运输应用研究公司 使用附水印音频信号和麦克风阵列的到达方向估计
JP2014137392A (ja) * 2013-01-15 2014-07-28 Nippon Hoso Kyokai <Nhk> 信号処理装置、その方法及びそのプログラム
CN104220896A (zh) * 2012-04-13 2014-12-17 高通股份有限公司 用于估计到达方向的系统、方法和设备
CN104254819A (zh) * 2012-05-11 2014-12-31 高通股份有限公司 音频用户交互辨识和上下文精炼
CA3005457A1 (en) * 2015-11-25 2017-06-01 The University Of Rochester Systems and methods for audio scene generation by effecting spatial and temporal control of the vibrations of a panel
CN107113528A (zh) * 2015-01-02 2017-08-29 高通股份有限公司 处理空间音频的方法,系统及制品
CN107301869A (zh) * 2017-08-17 2017-10-27 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN109326301A (zh) * 2017-07-27 2019-02-12 哈曼贝克自动系统股份有限公司 自适应后滤波
CN109524016A (zh) * 2018-10-16 2019-03-26 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质
CN109952135A (zh) * 2016-09-30 2019-06-28 索尼互动娱乐股份有限公司 具有差分渲染和声音定位的无线头戴式显示器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639499B2 (en) * 2010-07-28 2014-01-28 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
US20140003635A1 (en) * 2012-07-02 2014-01-02 Qualcomm Incorporated Audio signal processing device calibration
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
US9595997B1 (en) * 2013-01-02 2017-03-14 Amazon Technologies, Inc. Adaption-based reduction of echo and noise
US9813808B1 (en) 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
US10204622B2 (en) * 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US11062727B2 (en) * 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
US11276397B2 (en) * 2019-03-01 2022-03-15 DSP Concepts, Inc. Narrowband direction of arrival for full band beamformer
US10976991B2 (en) * 2019-06-05 2021-04-13 Facebook Technologies, Llc Audio profile for personalized audio enhancement

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209490A (ja) * 2007-02-23 2008-09-11 Sony Corp 音響処理装置及び音響処理方法
EP1983799A1 (en) * 2007-04-17 2008-10-22 Harman Becker Automotive Systems GmbH Acoustic localization of a speaker
CN102047326A (zh) * 2008-05-29 2011-05-04 高通股份有限公司 用于频谱对比加强的系统、方法、设备及计算机程序产品
CN101800051A (zh) * 2009-02-09 2010-08-11 美国博通公司 处理信号的方法和处理音频信号的系统
CN102473405A (zh) * 2009-07-10 2012-05-23 高通股份有限公司 用于自适应主动噪声消除的系统、方法、设备与计算机可读媒体
CN102572675A (zh) * 2010-12-02 2012-07-11 富士通天株式会社 信号处理方法、信号处理装置以及再现装置
CN103443649A (zh) * 2011-03-03 2013-12-11 高通股份有限公司 用于使用可听声音和超声进行源定位的系统、方法、设备和计算机可读媒体
CN103917886A (zh) * 2011-08-31 2014-07-09 弗兰霍菲尔运输应用研究公司 使用附水印音频信号和麦克风阵列的到达方向估计
CN104220896A (zh) * 2012-04-13 2014-12-17 高通股份有限公司 用于估计到达方向的系统、方法和设备
CN104254819A (zh) * 2012-05-11 2014-12-31 高通股份有限公司 音频用户交互辨识和上下文精炼
JP2014137392A (ja) * 2013-01-15 2014-07-28 Nippon Hoso Kyokai <Nhk> 信号処理装置、その方法及びそのプログラム
CN107113528A (zh) * 2015-01-02 2017-08-29 高通股份有限公司 处理空间音频的方法,系统及制品
CA3005457A1 (en) * 2015-11-25 2017-06-01 The University Of Rochester Systems and methods for audio scene generation by effecting spatial and temporal control of the vibrations of a panel
CN109952135A (zh) * 2016-09-30 2019-06-28 索尼互动娱乐股份有限公司 具有差分渲染和声音定位的无线头戴式显示器
CN109326301A (zh) * 2017-07-27 2019-02-12 哈曼贝克自动系统股份有限公司 自适应后滤波
CN107301869A (zh) * 2017-08-17 2017-10-27 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN109524016A (zh) * 2018-10-16 2019-03-26 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种树形结构宽带波束形成器的设计与研究;康宁;《中国优秀硕士学位论文全文数据库信息科技辑》(第2期);第21-29页 *
基于麦克风阵列的语音增强与干扰抑制算法;王义圆;张曦文;周贻能;黄际彦;;电声技术(第02期);第1-2页 *

Also Published As

Publication number Publication date
US11415658B2 (en) 2022-08-16
US20210223349A1 (en) 2021-07-22
CN113223544A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
US10382849B2 (en) Spatial audio processing apparatus
US6192134B1 (en) System and method for a monolithic directional microphone array
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
US7099821B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
EP2984852B1 (en) Method and apparatus for recording spatial audio
CN112424863B (zh) 语音感知音频系统及方法
US20070154031A1 (en) System and method for utilizing inter-microphone level differences for speech enhancement
WO2018091776A1 (en) Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
WO2014090277A1 (en) Spatial audio apparatus
CN107889001B (zh) 可扩展麦克风阵列及其建立方法
JP5259622B2 (ja) 収音装置、収音方法、収音プログラム、および集積回路
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
CN113223544B (zh) 音频的方向定位侦测装置及方法以及音频处理系统
CN115474121A (zh) 主动降噪方法、装置、芯片、耳机及存储介质
CN110890100B (zh) 语音增强、多媒体数据采集、播放方法、装置及监控系统
CA3146517A1 (en) Speech-tracking listening device
JP5105336B2 (ja) 音源分離装置、プログラム及び方法
Yang et al. Binaural Angular Separation Network
Liu et al. Sound source localization and speech enhancement algorithm based on fixed beamforming
CN109036451A (zh) 一种基于人工智能的同声翻译终端及其同声翻译系统
Kowalczyk et al. Embedded system for acquisition and enhancement of audio signals
Hioka et al. Estimating power spectral density for spatial audio signal separation: An effective approach for practical applications
Sawada et al. Improvement of speech recognition performance for spoken-oriented robot dialog system using end-fire array
Adebisi et al. Acoustic signal gain enhancement and speech recognition improvement in smartphones using the REF beamforming algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant