CN116390008B

CN116390008B - 一种实现特定区域内免提式的无感扩音系统

Info

Publication number: CN116390008B
Application number: CN202310631287.7A
Authority: CN
Inventors: 郑珊珊; 郑典郎
Original assignee: Quanzhou Note Operator Technology Co ltd
Current assignee: Quanzhou Note Operator Technology Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-09-01
Anticipated expiration: 2043-05-31
Also published as: CN116390008A

Abstract

本发明公开的是一种实现特定区域内免提式的无感扩音系统，扩音系统包括声纹识别模块、匹配声纹模块、声纹处理模块以及播放模块，扩音系统的实现方法包括以下具体步骤：声纹模块识别提取与校正注册、端点检测、计算声源的位置、判断声源位置的角度和距离的对应关系、合成数据、盲源分离处理、匹配声纹模块、降噪处理、滤波处理、合成音频和播放音频。本发明不仅可以实现免提式扩音，在固定区域范围内自由走动演讲，实现扩音效果，而且可以实现无感扩音，即无延时地扩音，使扩音达到从演讲者口中说出来，听者觉察不到在扩音，同时，只有演讲者的声音才会扩大，非演讲者的声音直接分离并且过滤掉。

Description

一种实现特定区域内免提式的无感扩音系统

技术领域

本发明涉及的是语音分析或合成、语音识别、语音或声音处理、语音或音频编码或解码的技术领域，更具体地说是一种实现特定区域内免提式的无感扩音系统。

背景技术

扩声系统是指讲话者和听者在同一个声学环境中，实现把讲话者的声音实时放大给听者的系统。高质量的扩声系统必须要具有足够响度(足够的声增益)和足够的还原度(低的语言子音还原度损失百分率)，并且能使声音均匀地覆盖听众，而同时又不覆盖没有听众的区域。参考文献：https://baike.baidu.com/item/扩音系统/3012936。

现有的扩音系统主要是由数字会议发音单元、音频处理设备、功放及扬声器系统组成。数字会议发音单元一般包括无线话筒、会议话筒等；音频处理设备是会议扩声系统中的核心设备，可实现多路音频信号混合放大、切换、效果补偿控制、放音使用；功放及扬声器系统则决定整个扩声系统的音质及声场均匀性，主要取决于扬声器的品质和布置方式，不同类型的扬声器需要配置不同的功放。

由于数字会议发音单元一般需要话简参与，对于老师来说，常规配置的“小蜜蜂”、鹅颈麦与手持话筒虽然使用方便，但在使用过程中也存在不少痛点。在使用“小蜜蜂”时,会很容易产生刺耳的啸叫；在使用鹅颈麦时，必须离麦克风很近，限制老师的移动范围；使用手持话筒，则会束缚了老师的双手，无法发挥肢体语言在课堂上的表现力。此外，“小蜜蜂”扩音不均匀，前排学生声音太大，后排学生声音又太小；容易忘记携带、需要定时充电，若没有携带，需要提高嗓门演讲，声带易受损，导致老师容易造成慢性咽喉炎（参考文献：周小军。教师咽喉炎发病情况调查分析及防护措施[J]，中文科技期刊数据库(文摘版) 医药卫生2015(11): 00174-00174。）、听力下降，学生听不太清楚等情况。

现在虽然有些免提式扩音系统，但存在啸叫、噪声、声音还原性差或者非演讲者的声音被放大等问题造成听感不适，其次价格也不菲，因此离商业化和实用性，有较大差距。

为此，本文提供一种实现特定区域内免提式无感扩音系统。免提式是指用户无需携带话简，在固定区域范围内可自由走动演讲，即可达到扩音效果：无感是指几乎无延时，扩音似乎是从演讲者嘴里说出来的。觉察不到在扩音，只有演讲者的声音才会扩大，非演讲者的声音直接分离并且被过滤掉。

发明内容

本发明公开的是一种实现特定区域内免提式的无感扩音系统，其主要目的在于克服现有技术存在的上述不足和缺点。

为了克服使用不便、声音忽大忽小、回声混响、增强无用噪声或放大非演讲者的声音等问题，本文提出一种特定区域内免提式可自由走动使用、提高演讲者的音质、低延时的均匀扩声系统。核心思想是注册和识别演讲者的声纹、麦克风阵列确认方向和距离、波束形成、盲源分离、权重参数降噪、均衡游波等多种技术融合的无感扩音系统，可以大大的缓解演讲者或教育工作者的职业病，提高授课和教育质量。

本发明采用的技术方案如下：

一种实现特定区域内免提式的无感扩音系统，所述扩音系统包括声纹识别模块、匹配声纹模块、声纹处理模块以及播放模块，所述声纹识别模块用于识别提取声纹数据，所述匹配声纹模块用于比对判断声纹信息并进行输出，所述声纹处理模块用于对输出声纹进行降噪、滤波和合成，所述播放模块用于音频的扩音播放；所述扩音系统的实现方法包括以下具体步骤：

S1、声纹模块识别提取与校正注册：演讲者对着麦克风阵列说同一个文本三次，声纹识别模块进行声纹模块提取与相互校正，模块校正成功则将该声纹模块存入数据库，完成无依赖文本注册，系统进入到S2步骤；如果模块校正失败，则提示用户重新进行识别注册；

S2、端点检测：通过M麦环阵获取语音数据,该语音数据为d=[M,L],然后，该语音数据d通过快速傅里叶变换后为：d＝[L/N，N，M，1]，其中：M表示M麦环阵，L表示采样点，N表示N个点的傅里叶变换；

S3、计算声源的位置：通过多频谱分辨算法，计算得到声源的位置，确定声源的角度与距离，

角度 =[-90°，-60°，-30°,0°,30°,60°,90°]；

距离；

其中，假设以椭圆的长轴长为2a，短轴长为2b划取扩音范围，2a表示椭圆的长轴长，2b表示椭圆的短轴长；

S4、判断声源位置的角度和距离的对应关系：如果声源位置定位后其角度和距离在对应和/>数值范围内，则进入到步骤S5；如果不在数值范围内，则不输出；

S5、合成数据：将步骤S4拾取到的多通道数据进行波束形成，合成单一通道数据，然后进入步骤S6；

S6、盲源分离处理：将步骤S5得到的单一通道数据进行盲源分离处理，得到音频帧数据；

S7、匹配声纹模块：将步骤S6分离后的音频帧分别进行声纹提取，然后查询数据库，将提取的声纹与数据库中的声纹模块进行匹配，如果找到匹配的声纹模块，则进入步骤S8；如果没有找到对应的声纹模块，则不输出；

S8、降噪处理：将步骤S7得到的匹配声纹的那一路音频帧，进行权重参数降噪处理，得到降噪后的频谱数据；

S9、滤波处理：将步骤S8降噪后的频谱数据进行均衡滤波处理，调整高中低频的增益，使其音量控制在设定的范围内；

S10、合成音频：将步骤S9滤波处理后得到的频谱数据进行快速傅里叶逆变换，然后加窗叠加，合成音频；

S11、播放音频：将步骤S10得到的合成音频通过喇叭播放，实现扩音效果。

更进一步，所述S1步骤中，演讲者对着麦克风阵列说的文本内容在4~6个字节之间。

更进一步，所述步骤S4中的对应数据范围所满足的条件具体如下：

所述角度如果在60°~90°之间，那么所述距离要满足以下条件：

。

通过上述对本发明的描述可知，和现有技术相比，本发明的优点在于：

优点一：本发明可以实现演讲者免提话筒，可以在讲台自由走动，以正常的音量达到扩音效果。

优点二：本发明可以实现演讲者和扩音喇叭同时发出声音，听者感觉不到是喇叭发出的，提高音质的真实性，使听者身临其境。

优点三：本发明可以实现非演讲者的声音被自动过滤掉，该声音无扩音效果。

优点四：本发明可以实现音质中的嘀咕声、动作声、以及其它嘈杂声音的过滤，扩音后的音质清晰无噪声。

优点五：本发明可以保证听者全方位无障碍地听课，缓解和降低演讲者的职业病风险。

附图说明

图1是本发明系统的流程结构示意图。

图2是本发明根据实验参数计算对应的角度与距离的结构示意图。

图3是本发明的实验安装结构示意图。

具体实施方式

下面参照附图说明来进一步地说明本发明的具体实施方式。

如图1所示，一种实现特定区域内免提式的无感扩音系统，扩音系统包括声纹识别模块、匹配声纹模块、声纹处理模块以及播放模块，所述声纹识别模块用于识别提取声纹数据，所述匹配声纹模块用于比对判断声纹信息并进行输出，所述声纹处理模块用于对输出声纹进行降噪、滤波和合成，所述播放模块用于音频的扩音播放；所述扩音系统的实现方法包括以下具体步骤所述扩音系统的实现方法包括以下具体步骤：

以M麦环阵、半径为R厘米、2N个点的傅里叶变换、L 个采样点、平面空间分为180°,假设以椭圆的长轴长为 2a,短轴长为 2 划取扩音范围,根据这些参数为例描述工程化方案(此方法适配任意麦克风阵列拾音麦个数、傅里叶变换点数，[X，···]代表对应矩阵数据的形状)。

S1、声纹模块识别提取与校正注册：演讲者对着麦克风阵列说同一个文本三次，演讲者对着麦克风阵列说的文本内容在4~6个字节之间；声纹识别模块进行声纹模块提取与相互校正，模块校正成功则将该声纹模块存入数据库，完成无依赖文本注册，系统进入到S2步骤；如果模块校正失败，则提示用户重新进行识别注册；声纹识别就是把声信号转化成电信号，再通过计算机进行识别判断。

角度=[-90°，-60°，-30°,0°,30°,60°,90°]；

距离；

其中，以椭圆的长轴长为2a，短轴长为2b划取扩音范围，2a表示椭圆的长轴长，2b表示椭圆的短轴长；多频谱分辨算法的参考文件为：（

[1] H. Wang and M. Kaveh,"Coherent signal-subspace processing for thedetection and estimation of angles ofarival of multiple wide-band sources",IEEE Transactions on Acoustics Speech, and Signal Processing (Volume33.Issue: 4. August 1985)。

[2] Schmidt. R. 0.. "Multiple emitter location and signal parameterestimation"EEE Trans. Antennas Propag34.276 - 280(1986)。）；

S4、判断声源位置的角度和距离的对应关系：如果声源位置定位后其角度和距离在对应和/>数值范围内，例如，所述角度如果在60°~90°之间，那么所述距离/>要满足以下条件：/>，则进入到步骤S5；如果不在数值范围内，则不输出；

S5、合成数据：将步骤S4拾取到的多通道数据进行波束形成，合成单一通道数据，然后进入步骤S6，其中，波束形成的参考文件为：（Israel Cohen.Analysis of two-channel generalized sidelobe canceller (GSC) with post-filtering",IEEETransactions on Speech and Audio Processing ( Volume: 11, Issue: 6,November 2003)）；

S6、盲源分离处理：将步骤S5得到的单一通道数据进行盲源分离处理，得到音频帧数据，其中，盲源分离处理的参考文件为：（梅铁民.盲源分离理论与算法.西安:电子科技大学出版社.2013.）；

S7、匹配声纹模块：将步骤S6分离后的音频帧分别进行声纹提取，然后查询数据库，将提取的的声纹与数据库中的声纹模块进行匹配，如果找到匹配的声纹模块，则进入步骤S8；如果没有找到对应的声纹模块，则不输出；

以下是本具体实施方式的实施例：

一：实验的参数：256个点傅里叶变换，8麦克风线阵列，麦克风间距为40毫米，二维平面180°，16K采样，讲台长 4米，宽 1.5米，教室长 8米，宽 5.5米。

实验的硬件:瑞芯微 RK3308 系列的芯片 (CPU 1.5GHZ，DRAM 64M)。

二：实验的方法：C 语言工程化算法，DSP 软件串口烧入芯片。根据实验参数计算对应的角度和距离，如图 2 所示:

角度=[-90°，-60°，-30°,0°,30°,60°,90°]，以O为圆心，两侧分别为-90°和90°，

距离=[2,1.8,1.32,1,1.32,1.8,2]，以O为圆心,长轴长为 4 米，短轴长为 1.5米。

三：实验测试的结果：用示波器测量输入和输出延时大概有 32ms，频谱仪测试频率响应在 20HZ~8000HZ。

实验安装如图3所示，实验的结果：

固定范围内免提式说话有效性: 已经注册的演讲者在讲台范围内自由移动说话，可以清晰地扩音，相反，未注册者即非演讲者无法将说话内容扩出去，扩音范围外的其它声音，无法被扩音出去。

扩声均匀: 用分贝仪测试，坐在教室的前后排，听到的音量大小基本一致。

几乎无延时: 察觉不到延时，演讲者的声音和喇叭扩音几乎同时发出，体验自然舒适)。

音质清晰: 动作声、嘀咕声等此类嘈杂声被过滤掉，无法扩出来。

上述仅为本发明的具体实施方式，但本发明的设计构思并不仅局限于此，凡是利用此构思对本发明进行非实质性地改进，均应该属于侵犯本发明保护范围的行为。

Claims

1.一种实现特定区域内免提式的无感扩音系统，其特征在于：所述扩音系统包括声纹识别模块、匹配声纹模块、声纹处理模块以及播放模块，所述声纹识别模块用于识别提取声纹数据，所述匹配声纹模块用于比对判断声纹信息并进行输出，所述声纹处理模块用于对输出声纹进行降噪、滤波和合成，所述播放模块用于音频的扩音播放；所述扩音系统的实现方法包括以下具体步骤：

角度 =[-90°，-60°，-30°,0°,30°,60°,90°]；

距离；

其中，以椭圆的长轴长为2a，短轴长为2b划取扩音范围，2a表示椭圆的长轴长，2b表示椭圆的短轴长；

S11、播放音频：将步骤S10得到的合成音频通过喇叭播放，实现扩音效果；

所述S1步骤中，演讲者对着麦克风阵列说的文本内容在4~6个字节之间；

所述S4步骤中，声源位置的