CN1963916A

CN1963916A - 声音输入阵列集音装置

Info

Publication number: CN1963916A
Application number: CNA2005101156535A
Authority: CN
Inventors: 韩旭
Original assignee: Gssharp Corp
Current assignee: Gssharp Corp
Priority date: 2005-11-09
Filing date: 2005-11-09
Publication date: 2007-05-16

Abstract

本发明涉及一种声音输入阵列集音装置，公开了一种利用复数个声音输入装置所构成的声音输入阵列集音装置。为降低硬件及软件成本，本发明提出的声音输入阵列集音装置包含：复数个声音输入装置，用以输入音源，并产生复数点的声音信号；复数个副处理器，复数个副中央处理器，分别对应且电连接于所述复数个声音输入装置，以处理该复数点的声音信号，产生该复数点的声音处理信号；一个主中央处理器，与所述复数个副中央处理器电连接，接收所述复数点的声音处理信号并对信号进行处理，并能够控制所述复数个副中央处理器做同步取样的动作。本发明提出的声音输入阵列集音装置能够降低硬件及软件成本，为语音识别系统提供一个更可靠的音源，提升识别效果。

Description

声音输入阵列集音装置

技术领域

本发明涉及一种声音输入阵列集音装置，尤其是指利用复数个声音输入装置所构成的声音输入阵列集音装置。

背景技术

语音辨识在未来很可能成为取代键盘的一种输入方法，因此这方面的研究已如火如荼的展开。语音辨识最主要的目的是希望电器、计算机或其它数字装置听懂人类说话的声音，加以辨识其语音的内涵，进而令其执行相对应的工作。声音是一模拟讯号，牵涉到音质、音量、音源、音距、背景音等复杂的数据，如何将声音不失真且顺利地转成数字信号加以输入和储存后，再进行语音辨识是一个重要课题。试想如果能够将语音顺利辨识出来其正确的音质、音量、音源、音距、背景音，进而分析找出声音所对应的文字，那么对生活将提供更多的便利。

语音辨识第一步就是如何正确精准无误的取得音源。提到声音输入装置，大家都会想到麦克风，但单独一支麦克风最多只能做到回音的改良，噪声的过滤，音质的提升等。然而对于发声的位置及声音距离等立体空间的数据，单靠一支麦克风仍无法完成。因此有人提出麦克风阵列的概念，即利用一组麦克风来接收音源，如此透过每点正确接收麦克风接收声音的数据，即可更准确的判断声音的位置及距离等数据，也能使噪音频率消除、提升语音质量，获得一个干净语音。

音速是340.29m/s，即声音在空气中以每秒340.29米的速度传递。利用二点声音接收的时间差即可很容易判断出发声者的位置。以二支麦克风相距10公分(0.1米)为例，如果发声者处于这二支麦克风连线的延长线上，那么第一支麦克风接收到的声音讯号，与第二支麦克风收到的相同声音讯号将有0.2938ms的时差。当然，如果发声者位于这二支麦克风的连线的垂直线上且成为一边长为10公分的等腰三角形，那么二支麦克风接收到相同声音的时差为零。其它声音的数据，则可借助更复杂的数理推导得到。

如图1为现有的麦克风阵列架构示意图，是利用一个中央处理器(CPU)来对声音进行取样分析及辨识。复数个麦克风11将音源经过模/数转换模块(AD)输入中央处理器。由于发声位置的不同，因此同一声音进入每支麦克风的时间将会有误差，必须进行由延迟补偿模块12进行延迟补偿；然后由阵列信号处理(Delay-and-Sum Beamforming)模块13进行消除背景噪声；在频谱分析方面，可用快速傅立叶变换模块14进行快速傅立叶变换(FFT，Fast Fourier Transfer)找出声音的频谱；然后通过杂音及回音消除处理模块15，利用信号的比对方式可找出杂音及回音，并将杂音及回音滤除；然后通过语音处理与加强模块16将信号放大，并做语音输出模块17将语音输出，作为完整的语音信号输入到语音辨识模块18。

声音信号通常利用取样(Sampling)的方式取得，再以数字信号处理(DSP)的方式来加以处理。例如，取样频率为8KHz，即每秒取连续(Sequential)的8千点数据，而后进行处理。也就是说，对麦克风阵列而言，如果有十支麦克风，每秒需要取8万点数据。在截取声音数据时，每点之间(即相邻二支麦克风之间)会有1/80000秒的时间误差。这些微小的时间误差，对后段的语音辨识运作，无疑将产生某些程度的影响。为了减少时间的误差，虽然可以通过提高取样频率或更复杂的算法来改进，但所相对应的硬件或软件成本将大幅增加。

因此，如何构思一个可以用最少成本，最简单的硬件，达到最精准的声音截取及最有效率的同步且分散的计算方式是本发明关注的重点。

发明内容

本发明的目的是设计一种新颖、进步且实用的声音输入阵列集音装置，能够精确无误地取得麦克风的声音信号，降低硬件及软件成本，为语音识别系统提供一个更可靠的音源，提升识别效果。

为达到以上目的，本发明采用如下技术方案：

该声音输入阵列集音装置，包含：

复数个声音输入装置，用来输入音源，并产生复数点的声音信号；

复数个副中央处理器，分别对应且电连接于所述复数个声音输入装置，以处理该复数点的声音信号，并产生该复数点的声音处理信号；

一个主中央处理器，与所述复数个副中央处理器电连接，接收所述复数点的声音处理信号并对信号进行处理，并能够控制所述复数个副中央处理器做同步取样的动作。

其中，所述复数个声音输入装置，是每隔一定间距排列成一直线、或不规则排列、或成对排列。

其中，所述复数个声音输入装置为麦克风。

其中，所述主中央处理器能够产生回授信号及干净语音信号，并传输至所述复数个副中央处理器，作为该复数个副中央处理器处理信号的参考。

其中，所述主中央处理器能够产生同步处理信号，传输到所述复数个副中央处理器，控制所述复数个副中央处理器处理信号做同步取样的动作。

本发明提出的声音输入阵列集音装置能够提供一个精确的声音输入，能够使后段的声音处理更为精准，其输出的结果更可应用到诸如数字模拟信号的转换、音效加强处理器、麦克风输出、数字语音储存、由USB对计算机传送或其它方式给予语音数据、汽车导航等等语音辨识基础领域。

综上所述，本发明是针对现有技术的缺点，而提出的一种声音输入阵列集音装置，本发明的优点如下：

1、由于每个麦克风的声音同步由每个副中央处理器来取样，因此取样的音源没有时间基准(Time Base)的差别；

2、硬件的配置单纯，架构变得更为简单，不用高级的硬件与复杂且耗时的运算，让设计难度减低许多；

3、用复数个小的副中央处理器(CPU)来做前段处理，提升运算效率，整体的硬件价格也会降低；

4、得到好的声音输入质量之后，可以用来做更精确的声音方向的辨识及相关的处理及控制；

5、采用单个副中央处理器取样有助于提升系统的可靠度，当其中有取样点产生错误，可以借助整体的平均值来找出有问题的点，去除最大值或最小值，以免影响前置处理的效能，能够提升系统的稳定度。

附图说明

图1为现有的麦克风阵列架构示意图；

图2为本发明优选实施例示意图。

具体实施方式

下面结合附图对本发明作进一步的详细描述。

图2为本发明优选实施例示意图，包括：复数个麦克风11、与所述麦克风11对应且电连接的复数个副中央处理器22，及一主中央处理器20。麦克风11的声音模拟信号经过模拟数字转换器进行模/数转换之后产生数字信号，分别输入副中央处理器22做前置处理(Pre-process)进行声音数据的取样。由于每个麦克风11系单独配置一个负责取样的副中央处理器22，因此取样的时间基准点(Time Base)相同，不会有时间的误差。取样频率取8KHz、16KHz或32KHz，一个速度较慢且便宜的中央处理器即可支持。以本发明的架构能够以最少的取样频率就能够达到最佳的语音输入效果。

声音输入没有时间误差后，能够以声音能量大小的变化、声波进入的快慢、前后连续语音的变化来判断发声的位置，其所得的数据再输入速度较快的主中央处理器做后段处理(Post-Process)，例如阵列信号处理(Delay-and-SumBeamforming)模块13、快速傅立叶变换模块14、杂音及回音消除处理模块15、语音处理与加强模块16、语音输出模块17以此能够使语音辨识18的效果达到最佳的效果。作为优选，如果主中央处理器20能够处理更多的运算，就可利用处理完成的结果产生回授信号s21及干净语音信号s22，并传输到复数个副中央处理器22，供副中央处理器22做正确的语音基础参数，再将语音参考比重加权处理。另一方面，主中央处理器20可发出同步处理信号s23，要求每一个副中央处理器22进行同步取样，以确保每个取样点的时间基准一致。

Claims

1、一种声音输入阵列集音装置，包括：

复数个声音输入装置，用以输入音源，并产生复数点的声音信号；

2、如权利要求1所述的声音输入阵列集音装置，其特征在于，所述复数个声音输入装置为麦克风。

3、如权利要求1所述的声音输入阵列集音装置，其特征在于，所述复数个声音输入装置，是每隔一定间距排列成一直线、或不规则排列、或成对排列。

4、如权利要求3所述的声音输入阵列集音装置，其特征在于，所述复数个声音输入装置为麦克风。

5、如权利要求1所述的声音输入阵列集音装置，其特征在于，所述主中央处理器能够产生回授信号及干净语音信号，并传输至所述复数个副中央处理器，作为该复数个副中央处理器处理信号的参考。

6、如权利要求1所述的声音输入阵列集音装置，其特征在于，所述主中央处理器能够产生同步处理信号，传输到所述复数个副中央处理器，控制所述复数个副中央处理器处理信号做同步取样的动作。