CN111276150A

CN111276150A - 一种基于麦克风阵列的智能语音转文字及同声翻译系统

Info

Publication number: CN111276150A
Application number: CN202010065716.5A
Authority: CN
Inventors: 宫琴; 潘长勇; 宋健; 丁鸫翔
Original assignee: Hangzhou Erqingcong Technology Co Ltd; Tsinghua University
Current assignee: Hangzhou Erqingcong Technology Co Ltd; Tsinghua University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12
Anticipated expiration: 2040-01-20
Also published as: CN111276150B

Abstract

本发明提供一种基于麦克风阵列的智能语音转文字及同声翻译系统，其可以实时去除或降低多个竞争性干扰噪声；智能地识别目标声源，实现对目标语音信号的增强处理；然后进一步实现语音转文字及同声翻译功能；且设备体积较小容易携带。本发明的技术方案中，基于核心硬件双麦克风（麦克风阵列）构成的拾音系统用以进行语音信号的拾取，基于数字信号处理（DSP）的模块智能地实时选择目标语音且实时去除或降低竞争性干扰噪声的语音增强系统，匹配上能进行语音转文字和翻译功能的手机使用，实现在多竞争性干扰噪声环境中智能实时地辨识目标语音信号、对目标语音的增强，最后实现语音转文字及同声翻译功能。

Description

一种基于麦克风阵列的智能语音转文字及同声翻译系统

技术领域

本发明涉及语音识别技术领域，具体为一种基于麦克风阵列的智能语音转文字及同声翻译系统。

背景技术

在现在的国际化背景下，我们与国际友人沟通的契机越来越多，然而不同国籍的人的母语不同，不同的语言是沟通中的一个巨大障碍；尽管翻译软件、同声翻译软件都已经出现，但是在嘈杂环境中，因为竞争声源的存在，低信噪比(SNR)的声源使得语音转文字的效果、同声翻译软件的翻译效果一直不是很理想。

国内已经有了一些相关的发明专利、以及相关的应用软件。在前端去噪方面，桂林电子科技大学的曾庆宁等人发明了《一种应用于噪声环境下语音识别的语音增强方法》(专利公开号为CN108831495A)，该方法构建了一个基于时频掩蔽的MVDR波束形成器；由于该方法采用的四元麦克风阵列的硬件电路比较复杂，占用空间大，因此并没有小型化和便携性设备产生，在同声翻译领域的实际应用中是有限制的。杭州诺尔康公司的王宁远等人发明了《人工耳蜗及助听器的双麦克风降噪系统和方法》(专利公开号为CN106658323A)，该方法以传统的双麦克风波束形成法为基础，通过对前向的目标信号进行估算以及维纳滤波，获得增强的语音信号，但是若环境中存在多个竞争性语音噪声，该方法的性能将无法保证。目前市面上已有的语音识别APP，如：讯飞、百度等公司的语音转写产品虽然能很好的识别单目标声源的人声并进行转写，但是一旦出现竞争性声源，则无法辨别目标声源，竞争声源的存在导致对目标声源的识别便产生紊乱，无法进行语音到文字的转写和翻译。

发明内容

为了解决现有同声翻译设备中存在的竞争性声源中辨别目标声源困难、设备体积过大不易携带的问题，本发明提供一种基于麦克风阵列的智能语音转文字及同声翻译系统，其可以智能识别目标声源，去除或降低竞争性噪声，对目标声源进行语音增强后进行语音到文字的转写和翻译，且设备体积较小容易携带。

本发明的技术方案是这样的：一种基于麦克风阵列的智能语音转文字及同声翻译系统，其包括：声音采集模块、音频转换模块、语音增强模块、翻译模块；所述声音采集模块智能地选取目标声源，将数据送入所述音频转换模块，进行模拟语音数据和数字语音数据之间的转换；所述语音增强模块通过数字信号处理器向所述音频转换模块中的音频编解码芯片发送控制信号，将所述音频转换模块传输过来的语音信号进行处理及其控制语音信号的传输；最后处理过的数字语音信号送入所述翻译模块，按照用户选择的目标语言进行实时翻译；翻译后的文字数据、声音数据通过文字或者音频的方式传递给用户；

其特征在于：

所述声音采集模块包括麦克风阵列、信号放大电路、带通滤波器、电源管理电路；所述麦克风阵列包括两个麦克风，两个麦克风之间的间隔设置为15mm；所述信号放大电路包括两级放大电路，其中一级放大电路设置在所述麦克风阵列与所述带通滤波器之间，二级放大电路设置在所述带通滤波器之后；所述带通滤波器包括由二阶低通电路、二阶高通电路组成，所述一级放大电路传入的声信号，经过所述带通滤波器滤波后，声信号通过所述二级放大电路进行放大，使滤波后的信号达到预设的电压范围；由所述麦克风阵列采集的声信号通过所述一级放大电路、所述带通滤波器、所述二级放大电路进行放大、工频滤波处理、放大升压处理后送入所述音频转换模块中进行数模转换；所述电压管理电路同时为所述声音采集模块、所述音频转换模块、所述语音增强模块供电；

所述语音增强模块中通过预先植入的语音增强算法对所述音频转换模块传入的声信号进行增强处理；所述语音增强算法包括以下步骤：

S1：定义所述麦克风阵列中与目标声源s₁接近的麦克风为前向麦克风mic₁，其采集到的声信号为m₁(n)，另一个麦克风mic₂采集到的声信号为m₂(n)；对声信号m₁(n)、m₂(n)进行分帧与加窗之后，再进行时频变换即得到时频分布信号M₁(l,k)和M₂(l,k)，其中：l和k分别是频率点和时间窗的序号；

S2：因为同一个声源的声信号到达两个麦克风mic₁、mic₂的时间存在延迟，计算延迟系数t(l,k)；

S3：将所述延迟系数与所述目标声源的理想延迟时间δ₁进行比较，确定所述目标声源的能量所占成分；

S4：基于所述延迟系数与所述目标声源的理想延迟时间δ₁的比较结果，计算M₁(l,k)的掩蔽权重B(l,k)，得到增强信号的时频分布表达式：

S5：对目标声源对应的所述增强信号

进行傅里叶反变换，然后利用重叠相加法，可以得到增强后的信号

此时获得的信号

中方向性的竞争语音噪声已经被抑制。

其进一步特征在于：

所述一级放大电路包括：放大器U1、电容C5、C6、C7、C8、电阻R5、R10，所述放大器U1的1脚连接所述电阻R10的一端，所述放大器U1的2脚连接所述电阻R10的另一端后接地，所述放大器U1的3脚和16脚分别连接所述电阻R5的两端，所述放大器U1的7脚、所述电容C8的负极、所述电容C6的一端连接后接入电源，所述电容C6的另一端、所述电容C5的一端连接后接地，所述放大器U1的8脚所述电容C7的正极、所述电容C5的另一端互相连接后接入电源，所述电容C7的负极连接所述电容C8的正极；

所述带通滤波器的电路和所述二级放大电路包括：放大器U2、电阻R1～R4、R6～R9、电容C1～C4，所述放大器U2的1脚与所述电阻R1的一端、所述电阻R3的一端、所述电阻R6的一端互相连接，所述放大器U2的2脚连接所述电阻R1的另一端、所述电阻R2的一端，所述电阻R2的另一端接地，所述放大器U2的3脚连接所述电阻R4的一端、所述电容C3的一端，所述电阻R4的另一端接地，所述电容C3的另一端连接所述电阻R3的另一端、所述电容C2的一端，所述电容C2的另一端连接所述放大器U1的9脚、10脚，所述放大器U2的5脚连接所述电容C4的一端、所述电阻R7的一端，所述放大器U2的6脚连接所述电阻R8的一端、所述电阻R9的一端，所述电阻R8的另一端接地，所述电容C4的另一端接地，所述电阻R7的另一端连接所述电阻R6的另一端、所述电容C1的一端，所述放大器U2的7脚连接所述电阻R9的另一端、所述电容C1的另一端；

所述电源管理电路包括：升压转换器U3、稳压电源U4、稳压器U5、插座J1、开关J2、电感L1、L2,、电容C9～C21、电阻R11～R13，所述升压转换器U3的1脚、2脚连接后接入所述电感L1的一端，所述升压转换器U3的11脚接地，所述升压转换器U3的3脚、4脚连接后与所述电阻R11的一端、所述电阻R12的一端、所述电容C13的一端、所述电容C9的一端、所述电容C10的一端、所述电容C11的一端连接后接入到电源，所述升压转换器U3的5脚连接所述电阻R11的另一端，所述电容C9的另一端、所述电容C10的另一端、所述电容C11的另一端互相连接后接地；所述升压转换器U3的6脚连接所述电容C12的一端，所述电容C12的另一端连接所述电阻R13的一端后接地，所述升压转换器U3的7脚、所述电阻R13的另一端、所述电阻R12的另一端、所述电容C13的另一端互相连接，所述升压转换器U3的9脚、10脚、所述电容C14的一端、所述电容C15的正极、所述电容C16的一端、所述电感L2的一端、所述电感L1的另一端互相连接，所述电容C14的另一端、所述电容C15的负极、所述电容C16的另一端互相连接后接地，所述电感L2的另一端连接所述开关J2的3脚，所述开关J2的2脚连接所述插座J1的2脚，所述插座J1的1脚接地；所述稳压电源U4的1脚连接所述电容C19的一端后接入电源，所述稳压电源U4的2脚连接所述电容C19的另一端后接地，所述稳压电源U4的3脚连接所述电容C20的一端后接入电源，所述稳压电源U4的4脚连接所述电容C21的一端后接入电源，所述稳压电源U4的5脚接地，所述电容C20的另一端接地，所述电容C21的另一端接地；所述稳压器U5的1脚连接所述电容C17的负极、所述电容C18的一端后接地，所述稳压器U5的2脚连接所述电容C17的正极、所述电容C18的另一端后接入电源，所述稳压器U5的3脚接入电源；

所述音频转换模块包括音频解码器和音频接口，所述语音增强模块包括数字信号处理器；所述语音增强模块通过所述数字信号处理器芯片的I2C接口向所述音频解码器发送控制信号，通过所述数字信号处理器芯片的McASP接口连接所述音频解码器，交换数字音频信号的数据；

所述翻译模块包括两个模式：普通模式和噪声模式；所述普通模式适用于环境噪音小、只有一个目标声源的情况，此模式下进行同声翻译时，不启动所述声音采集模块、所述音频转换模块、所述语音增强模块中针对多个竞争声源的去噪功能，采集到的声音信号直接进行数模转换后进行实时翻译流程；所述噪声模式下，启动针对多个竞争声源的去噪功能，通过所述声音采集模块采集的声音信号经过所述音频转换模块、语音增强模块中的去噪、语音增强后，进行实时翻译流程；所述翻译模块中对于翻译后的结果的确认方式，支持通过文本显示和语音播放两种形式通知给用户；

所述翻译模块通过实时语音转写接口与翻译引擎通信实现实时翻译，其流程包括：

a1：通过读转写模块建立与翻译引擎的通信；

a2：通信建立后，通过读转写模块基于客户选择的源语言、目标语言、口音参数，将传入的声音信号转换成文本数据；

a3：将所述文本数据通过实时翻译模块传给所述翻译引擎进行翻译，得到目标语言的文本信息后，传送给结果确认模块；

a4：所述结果确认模块按照用户的预设的翻译结果确认方式，将所述目标语言的文本信息以文本的形式显示给用户，或者将得到的所述目标语言的文本信息通过语音合成模块转换为音频数据后，通过播放软件将所述音频数据实时播放给用户；

所述翻译模块单独安装在移动设备上，在所述普通模式下，基于其所在移动设备的声音采集模块采集目标声源的声信号；

步骤S3中，所述延迟系数t(l,k)的计算方法包括如下步骤：

b1：设目标声源存在竞争性语音噪声：干扰噪声源1、干扰噪声源2...干扰噪声源Num-1，其中，Num取值为自然数，所述目标声源偏离正向的角度为θ₁，所述干扰噪声源1、干扰噪声源2...干扰噪声源Num-1偏离正向的角度为θ₂、θ₃...θ_Num；

则：所述前向麦克风mic₁采集到的混合信号m₁(n)为：

m₁(n)＝s₁(n)+s₂(n)+s₃(n)+...+s_Num(n)

其中：s₁(n)、s₂(n)、s₃(n)、s_Num(n)分别为通过麦克风mic₁采集到的所述目标声源、所述干扰噪声源1、所述干扰噪声源2、所述干扰噪声源Num-1发出的声音信号；

因为所述前向麦克风mic₁更接近所述目标声源s₁，所以麦克风mic₂采集到的信号相对于所述前向麦克风mic₁采集到的信号会有一定的延迟，则根据集合关系，可得麦克风mic₂采集到的混合信号m₂(n)：

其中，d为所述前向麦克风mic₁和麦克风mic₂质检的距离，c为声速，f_s为采样频率；

b2：在混合信号的一个时频单元内，所述目标声源的信号占主导时，有如下关系：

其中，δ₁为所述目标声源的理想延迟时间，l和k分别是频率点和时间窗的序号；

设，

当所述目标声源占主导时，有如下关系：

其中，l和k分别是频率点和时间窗的序号，Pi为圆周率π；

令：约等式右边的代数式为t(l,k)，则，根据两个麦克风mic₁、mic₂采集到的数据可计算得到每个频域点的t(l,k)；

所述目标声源的理想延迟时间δ₁的表达式为：

步骤S4中的所述掩蔽权重B(l,k)的表达式为：

其中，式中a₁、a₂、a₃的取值范围是0～1之间的实数。

本发明提供的一种基于麦克风阵列的智能语音转文字及同声翻译系统，通过声音采集模块中的双麦克风结构的麦克风阵列、信号放大电路、带通滤波器实现针对多竞争声源的去噪功能，同时利用语音增强模块中的语音增强算法实现语音信号的去噪和增强处理；在本发明的技术方案中，通过双麦克风即可实现声音信号采集，采用极少的电器元件即可准确的在竞争声源中识别竞争声源，确保了本发明技术方案中的翻译设备的硬件体积更小，使本产品适于用户随身携带使用，更具实用性；通过语音增强算法实现了在收到混合声音的20ms内即可识别出干净的目标声源，确保了实时去噪的功能的实现，使本发明的技术方案适用于不同的同声翻译应用场景。

附图说明

图1为本发明的语音转文字及同声翻译系统的系统组成框图；

图2为本发明中的声音采集模块的结构框图；

图3为本发明中的麦克风与声源位置的实施例的示意图；

图4为本发明实施例中的一级放大电路的电路结构示意图；

图5为本发明实施例中的二级放大电路和带通滤波器的电路结构示意图；

图6为本发明实施例中的电源管理电路的电路结构示意图。

具体实施方式

如图1所示，本发明一种基于麦克风阵列的智能语音转文字及同声翻译系统，其包括：声音采集模块、音频转换模块、语音增强模块、翻译模块；声音采集模块智能地选取目标声源，将数据送入音频转换模块，进行模拟语音数据和数字语音数据之间的转换；语音增强模块通过数字信号处理器向音频转换模块中的音频编解码芯片发送控制信号，将音频转换模块传输过来的语音信号进行处理及其控制语音信号的传输；最后处理过的数字语音信号送入翻译模块，按照用户选择的目标语言进行实时翻译；翻译后的文字数据、声音数据通过文字或者音频的方式传递给用户。

如图2、图3所示，声音采集模块包括麦克风阵列、信号放大电路、带通滤波器、电源管理电路；麦克风阵列包括两个麦克风，两个麦克风之间的间隔设置为15mm；信号放大电路包括两级放大电路，其中一级放大电路设置在麦克风阵列与带通滤波器之间，二级放大电路设置在带通滤波器之后；带通滤波器包括由二阶低通电路、二阶高通电路组成，一级放大电路传入的声信号，经过带通滤波器滤波后，声信号通过二级放大电路进行放大，使滤波后的信号达到预设的电压范围；由麦克风阵列采集的声信号通过一级放大电路、带通滤波器、二级放大电路进行放大、工频滤波处理、放大升压处理后送入音频转换模块中进行数模转换；电压管理电路同时为声音采集模块、音频转换模块、语音增强模块供电；本发明实施例中，音频转换模块包括音频解码器和3.5mm的音频接口，语音增强模块基于数字信号处理器DSP实现；语音增强模块通过数字信号处理器芯片的I2C接口向音频解码器发送控制信号，通过数字信号处理器芯片的McASP接口连接音频解码器，交换数字音频信号的数据。

如图3所示，语音增强模块中通过预先植入的语音增强算法对音频转换模块传入的声信号进行增强处理；语音增强算法包括以下步骤：

S1：定义麦克风阵列中与目标声源s₁接近的麦克风为前向麦克风mic₁，其采集到的声信号为m₁(n)，另一个麦克风mic₂采集到的声信号为m₂(n)；

对声信号m₁(n)、m₂(n)进行分帧与加窗之后，再进行时频变换即得到频域信号M₁(l,k)和M₂(l,k)，其中：l和k分别是频率点和时间窗的序号；

S3：将延迟系数与目标声源的理想延迟时间δ₁进行比较，确定目标声源的能量所占成分；

延迟系数t(l,k)的计算方法包括如下步骤：

设目标声源存在竞争性语音噪声：干扰噪声源1、干扰噪声源2...干扰噪声源Num-1，其中，Num取值为自然数；目标声源偏离正向的角度为θ₁，θ₁的值为0°或非常接近0°；干扰噪声源1、干扰噪声源2...干扰噪声源Num-1偏离正向的角度为θ₂、θ₃...θ_Num；本实施例中，Num取值为3，即有两个竞争声源，则mic₁采到的目标声源、干扰噪声源1、干扰噪声源2分别记作s₁(n)、s₂(n)和s₃(n)；

则：前向麦克风mic₁采集到的混合信号m₁(n)为：

m₁(n)＝s₁(n)+s₂(n)+s₃(n)

其中：s₁(n)、s₂(n)、s₃(n)分别为通过麦克风mic₁采集到的目标声源、干扰噪声源1、干扰噪声源2发出的声音信号；

因为前向麦克风mic₁更接近目标声源s₁，所以麦克风mic₂采集到的信号相对于前向麦克风mic₁采集到的信号会有一定的延迟，则根据集合关系，可得麦克风mic₂采集到的混合信号m₂(n)：

其中，d为前向麦克风mic₁和麦克风mic₂之间的距离，本实施例中d的取值为15mm；c为声速，f_s为采样频率；

对时域信号进行分帧、加窗后再进行时频变换可得M₁(l,k)和M₂(l,k)：

如果在混合信号的一个时频单元内，当目标信号的能量占了主导，即在这个时频单元内存在如下关系：|S₁(l,k)|＞＞|S₂(l,k)|并且|S₁(l,k)|＞＞|S₃(l,k)|

式中：l和k分别是频率点和时间窗的序号；

则此混合信号的一个时频单元内，目标声源的信号占主导时，混合信号与目标信号的关系可以近似表示为：

其中，δ₁为目标声源的理想延迟时间；δ₁的表达式为：

设，

当目标声源占主导时，有如下关系：

其中，l和k分别是频率点和时间窗的序号，Pi为圆周率π；

令：约等式右边的代数式为t(l,k)，则，根据两个麦克风mic₁、mic₂采集到的数据可计算得到每个频域点的t(l,k)；当数值越接近d₁，则表示在对应的频率点，目标声源的能量在带噪信号中占主导的成分越多。

S4：基于延迟系数与目标声源的理想延迟时间δ₁的比较结果，计算M₁(l,k)的掩蔽权重B(l,k)，得到增强信号的时频分布表达式：

采用720种声源组合分别对系统进行试验，分别进行短时傅里叶变换，统计t(l,k)在一定数值范围内时频单元块的个数，记做N₁，以及这些时频单元块中满足|S₁(l,k)|＞＞|S₂(l,k)|并且|S₁(l,k)|＞＞|S₃(l,k)|的个数，记做N₂；将延迟系数t(l,k)与目标声源的理想延迟时间δ₁进行比较，为了较好地平衡干扰噪声的引入和目标信号的能量损失，当延迟系数t(l,k)在a₂×δ₁～a₁×δ₁的范围内时，

目标信号在这些视频单元内占主导，对这一部分的时频单元的能量全部予以保留；当延迟系数t(l,k)在a₃×δ₁～a₂×δ₁的范围内时，

目标信号在这些视频单元内仍然占据很大成分，对延迟系数t(l,k)在这一范围内的时频单元的能量进行部分保留；当延迟系数t(l,k)在a₃×δ₁以下时，

目标信号在这些视频单元内占据成分较低，则对延迟系数t(l,k)在这个范围内的时频单元中的能量进行舍弃；

最终设计了一个掩蔽权重矩阵，掩蔽权重B(l，k)的表达式为：

其中，掩蔽矩阵B(l,k)的维度与M₁、M₂的维度相同，式中a₁、a₂、a₃的取值范围是在0～1间的实数；综上，通过本发明技术方案获得的掩蔽矩阵会更好的保留原始信号，并且去除噪声。对于同声传译系统来说，可以更好的提升系统的精度。

S5：对增强信号

此时获得的信号

中方向性的竞争语音噪声已经被抑制。

本实施例选用DSP作为核心处理器来实现上述算法。数据传输协议为IIS协议，一个采样周期内同时传输左右声道的数据，数据长度为16bit；本实施例的系统采样频率为16kHz，每次传输的采样数据为左右声道各256点，DSP实际处理的数据由上次采集数据和本次采集数据拼接而成，音频处理的帧移为16ms，帧长为32ms。

如图4所示，一级放大电路包括：放大器U1、电容C5、C6、C7、C8、电阻R5、R10，放大器U1的1脚连接电阻R10的一端，放大器U1的2脚连接电阻R10的另一端后接地，放大器U1的3脚和16脚分别连接电阻R5的两端，放大器U1的7脚、电容C8的负极、电容C6的一端连接后接入电源，电容C6的另一端、电容C5的一端连接后接地，放大器U1的8脚电容C7的正极、电容C5的另一端互相连接后接入电源，电容C7的负极连接电容C8的正极；

本实施例中，一级放大电路选用具有低噪声系数，高线性度等优点的型号为AD624的仪表放大器芯片实现，该芯片是高分辨率信号采集系统的理想器件；其放大功能主要是在其RG1和RG2引脚串联一个电阻来调节电路的放大倍数，本实施例中的一级放大电路的放大倍数为10倍；麦克风阵列连接放大器U1的1脚，将采集的声信号输入到一级放大电路。

如图5所示，面向前向麦克风mic₁的带通滤波器的电路和二级放大电路包括：放大器U2、电阻R1～R4、R6～R9、电容C1～C4，放大器U2的1脚与电阻R1的一端、电阻R3的一端、电阻R6的一端互相连接，放大器U2的2脚连接电阻R1的另一端、电阻R2的一端，电阻R2的另一端接地，放大器U2的3脚连接电阻R4的一端、电容C3的一端，电阻R4的另一端接地，电容C3的另一端连接电阻R3的另一端、电容C2的一端，电容C2的另一端连接放大器U1的9脚、10脚，放大器U2的5脚连接电容C4的一端、电阻R7的一端，放大器U2的6脚连接电阻R8的一端、电阻R9的一端，电阻R8的另一端接地，电容C4的另一端接地，电阻R7的另一端连接电阻R6的另一端、电容C1的一端，放大器U2的7脚连接电阻R9的另一端、电容C1的另一端；

二级带通滤波电路由型号为OP275的运算放大器和贴片电阻电容组成，通过构建二阶低通电路和二阶高通电路形成带通滤波，最后使得系统的理论通带为160-12000Hz，该频带满足CI滤波器组的频带要求同时省去50Hz陷波电路的设计，在确保滤波、放大功能的同时，进一步减小了系统的硬件体积。

如图6所示，电源管理电路包括：升压转换器U3、稳压电源U4、稳压器U5、插座J1、开关J2、电感L1、L2,、电容C9～C21、电阻R11～R13，升压转换器U3的1脚、2脚连接后接入电感L1的一端，升压转换器U3的11脚接地，升压转换器U3的3脚、4脚连接后与电阻R11的一端、电阻R12的一端、电容C13的一端、电容C9的一端、电容C10的一端、电容C11的一端连接后接入到电源，升压转换器U3的5脚连接电阻R11的另一端，电容C9的另一端、电容C10的另一端、电容C11的另一端互相连接后接地；升压转换器U3的6脚连接电容C12的一端，电容C12的另一端连接电阻R13的一端后接地，升压转换器U3的7脚、电阻R13的另一端、电阻R12的另一端、电容C13的另一端互相连接，升压转换器U3的9脚、10脚、电容C14的一端、电容C15的正极、电容C16的一端、电感L2的一端、电感L1的另一端互相连接，电容C14的另一端、电容C15的负极、电容C16的另一端互相连接后接地，所述电感L2的另一端连接开关J2的3脚，开关J2的2脚连接插座J1的2脚，插座J1的1脚接地；稳压电源U4的1脚连接电容C19的一端后接入电源，稳压电源U4的2脚连接电容C19的另一端后接地，稳压电源U4的3脚连接电容C20的一端后接入电源，稳压电源U4的4脚连接电容C21的一端后接入电源，稳压电源U4的5脚接地，电容C20的另一端接地，电容C21的另一端接地；稳压器U5的1脚连接电容C17的负极、电容C18的一端后接地，稳压器U5的2脚连接电容C17的正极、电容C18的另一端后接入电源，稳压器U5的3脚接入电源；

本实施例中，电源管理电路主要是提供系统所需的3.3V，5V以及正负12V电压；如图6所示：系统的输入电源由4.2V的锂电池提供，升压转换器U3采用TPS61230芯片实现，将电压升压至5V，给音频转换模块、语音增强模块供电；稳压器U5使用型号为SPX1117-3.3的稳压芯片实现，其将5V电压转至3.3V，给麦克风阵列供电；稳压电源U4使用型号为NR5D12的稳压电源实现，其将5V为±12V，为线放芯片和功放芯片供电；本发明的实施例中，在芯片对电压转换完成以后，为了减少电路本身引入的噪声，改善系统电源的稳定性，在每个芯片的电源输入和输出引脚外接旁路电容进行滤波。整个电源的接地划分为两部分，一块是纹波较大的电源供电电路的接地，另一块是麦克风模块和放大器芯片的接地，两部分的接地通过一个0欧电阻连接起来。

翻译模块包括两个模式：普通模式和噪声模式；普通模式适用于环境噪音小、只有一个目标声源的情况，此模式下进行同声翻译时，不启动声音采集模块、音频转换模块、语音增强模块中针对多个竞争声源的去噪功能，采集到的声音信号直接进行数模转换后进行实时翻译流程；噪声模式下，启动针对多个竞争声源的去噪功能，通过声音采集模块采集的声音信号经过音频转换模块、语音增强模块中的去噪、语音增强后，进行实时翻译流程；翻译模块中对于翻译后的结果的确认方式，支持通过文本显示和语音播放两种形式通知给用户；

翻译模块通过实时语音转写接口与翻译引擎通信实现实时翻译，其流程包括：

a1：通过读转写模块建立与翻译引擎的通信；

a3：将文本数据通过实时翻译模块传给翻译引擎进行翻译，得到目标语言的文本信息后，传送给结果确认模块；

a4：结果确认模块按照用户的预设的翻译结果确认方式，将目标语言的文本信息以文本的形式显示给用户，或者将得到的目标语言的文本信息通过语音合成模块转换为音频数据后，通过播放软件将音频数据实时播放给用户；

翻译模块单独安装在移动设备上，如手机、pad等设备，在普通模式下，基于其所在移动设备的声音采集模块采集目标声源的声信号，然后送入翻译模块进行实时翻译。

本实施例中，翻译模块为使用Java语言通过Android Studio开发环境开发，作为软件安装在手机中，通过无线方式与语音增强模块进行通信；翻译模块中通过三个子功能模块实现实时翻译流程：

读转写模块：实现实时语音转文字功能；

实时翻译模块：基于现有的翻译引擎实现实时翻译功能；

语音合成模块：实现将文本数据转为音频数据的语音合成功能；

读转写模块的实时语音转文字功能通过讯飞开放平台的语音转写技术实现；支持采样率为16k，位长为16bits，格式为pcm_s16le的单声道音频；字符编码为UTF-8，响应格式采用统一的JSON格式；实时语音转写接口的调用过程分为两个阶段，第一个阶段为握手阶段，第二个阶段为实时通信阶段。握手阶段需要生成signal，在握手阶段完成之后，进入实时通信阶段，此时客户端可以主动上传数据以及结束标识，之后即可接收转写结果。实时转写时，向服务端发送二进制的音频数据，音频发送的时间间隔为15秒。在完成音频数据发送之后，需发送内容为{“end”:true}的binary message到服务端表示发送结束；在此之后服务端将转写的文字结果返回到翻译模块。使用实时语音转写功能时，转写的文本会显示在源语言的文本框内。

实时翻译模块的编写基于百度AI开放平台的通用翻译的机器翻译实现，翻译模块通过调用机器翻译的API，将所需翻译的内容以及目标语种传送给百度翻译引擎，即可获得所需的翻译结果。具体实现时，通过GET或POST发送字符串来访问所需服务；实时翻译模块确保大小在6000bytes以内的文本翻译的准确性，文本的编码为UTF-8编码，翻译的结果为json格式。完成实时翻译功能后，翻译的文本将显示在目标语言的文本框内。

语音合成模块的语音合成功能基于百度AI开放平台的语音合成技术实现；基于HTTP请求的REST API接口，将小于1024字节的文本转化为mp3、pcm(8k和16k)、wav(16k)格式的可播放的音频文件后，调用手机内的播放软件进行实时播放。

本发明的技术方案中，基于双麦克风阵列以及声音采集模块相关的电路布线设计，使本发明的产品硬件电路体积非常小，适于用户随身携带，与设置在手机中的翻译模块配合使用，适用于各种不同的场所；非实时去噪需要将声音保存下来进行处理，之后才能获得干净的声音；与非实时去噪相比，基于语音增强算法实现的实时去噪功能，可以在接收到混合声音的后，获得干净的增强的目标语音信号；经试验确认，本发明技术方案中，从接收到混合声音到获得干净的增强的目标语音信号，二者的时间间隔在20ms以内。

Claims

1.一种基于麦克风阵列的智能语音转文字及同声翻译系统，其包括：声音采集模块、音频转换模块、语音增强模块、翻译模块；所述声音采集模块智能地选取目标声源，将数据送入所述音频转换模块，进行模拟语音数据和数字语音数据之间的转换；所述语音增强模块通过数字信号处理器向所述音频转换模块中的音频编解码芯片发送控制信号，将所述音频转换模块传输过来的语音信号进行处理及其控制语音信号的传输；最后处理过的数字语音信号送入所述翻译模块，按照用户选择的目标语言进行实时翻译；翻译后的文字数据、声音数据通过文字或者音频的方式传递给用户；

其特征在于：

S5：对目标声源对应的所述增强信号

此时获得的信号

中方向性的竞争语音噪声已经被抑制。

2.根据权利要求1所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：所述一级放大电路包括：放大器U1、电容C5、C6、C7、C8、电阻R5、R10，所述放大器U1的1脚连接所述电阻R10的一端，所述放大器U1的2脚连接所述电阻R10的另一端后接地，所述放大器U1的3脚和16脚分别连接所述电阻R5的两端，所述放大器U1的7脚、所述电容C8的负极、所述电容C6的一端连接后接入电源，所述电容C6的另一端、所述电容C5的一端连接后接地，所述放大器U1的8脚所述电容C7的正极、所述电容C5的另一端互相连接后接入电源，所述电容C7的负极连接所述电容C8的正极。

3.根据权利要求2所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：所述带通滤波器的电路和所述二级放大电路包括：放大器U2、电阻R1～R4、R6～R9、电容C1～C4，所述放大器U2的1脚与所述电阻R1的一端、所述电阻R3的一端、所述电阻R6的一端互相连接，所述放大器U2的2脚连接所述电阻R1的另一端、所述电阻R2的一端，所述电阻R2的另一端接地，所述放大器U2的3脚连接所述电阻R4的一端、所述电容C3的一端，所述电阻R4的另一端接地，所述电容C3的另一端连接所述电阻R3的另一端、所述电容C2的一端，所述电容C2的另一端连接所述放大器U1的9脚、10脚，所述放大器U2的5脚连接所述电容C4的一端、所述电阻R7的一端，所述放大器U2的6脚连接所述电阻R8的一端、所述电阻R9的一端，所述电阻R8的另一端接地，所述电容C4的另一端接地，所述电阻R7的另一端连接所述电阻R6的另一端、所述电容C1的一端，所述放大器U2的7脚连接所述电阻R9的另一端、所述电容C1的另一端。

4.根据权利要求3所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：所述电源管理电路包括：升压转换器U3、稳压电源U4、稳压器U5、插座J1、开关J2、电感L1、L2,、电容C9～C21、电阻R11～R13，所述升压转换器U3的1脚、2脚连接后接入所述电感L1的一端，所述升压转换器U3的11脚接地，所述升压转换器U3的3脚、4脚连接后与所述电阻R11的一端、所述电阻R12的一端、所述电容C13的一端、所述电容C9的一端、所述电容C10的一端、所述电容C11的一端连接后接入到电源，所述升压转换器U3的5脚连接所述电阻R11的另一端，所述电容C9的另一端、所述电容C10的另一端、所述电容C11的另一端互相连接后接地；所述升压转换器U3的6脚连接所述电容C12的一端，所述电容C12的另一端连接所述电阻R13的一端后接地，所述升压转换器U3的7脚、所述电阻R13的另一端、所述电阻R12的另一端、所述电容C13的另一端互相连接，所述升压转换器U3的9脚、10脚、所述电容C14的一端、所述电容C15的正极、所述电容C16的一端、所述电感L2的一端、所述电感L1的另一端互相连接，所述电容C14的另一端、所述电容C15的负极、所述电容C16的另一端互相连接后接地，所述电感L2的另一端连接所述开关J2的3脚，所述开关J2的2脚连接所述插座J1的2脚，所述插座J1的1脚接地；所述稳压电源U4的1脚连接所述电容C19的一端后接入电源，所述稳压电源U4的2脚连接所述电容C19的另一端后接地，所述稳压电源U4的3脚连接所述电容C20的一端后接入电源，所述稳压电源U4的4脚连接所述电容C21的一端后接入电源，所述稳压电源U4的5脚接地，所述电容C20的另一端接地，所述电容C21的另一端接地；所述稳压器U5的1脚连接所述电容C17的负极、所述电容C18的一端后接地，所述稳压器U5的2脚连接所述电容C17的正极、所述电容C18的另一端后接入电源，所述稳压器U5的3脚接入电源。

5.根据权利要求1所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：所述音频转换模块包括音频解码器和音频接口，所述语音增强模块包括数字信号处理器；所述语音增强模块通过所述数字信号处理器芯片的I2C接口向所述音频解码器发送控制信号，通过所述数字信号处理器芯片的McASP接口连接所述音频解码器，交换数字音频信号的数据。

6.根据权利要求1所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：所述翻译模块包括两个模式：普通模式和噪声模式；所述普通模式适用于环境噪音小、只有一个目标声源的情况，此模式下进行同声翻译时，不启动所述声音采集模块、所述音频转换模块、所述语音增强模块中针对多个竞争声源的去噪功能，采集到的声音信号直接进行数模转换后进行实时翻译流程；所述噪声模式下，启动针对多个竞争声源的去噪功能，通过所述声音采集模块采集的声音信号经过所述音频转换模块、语音增强模块中的去噪、语音增强后，进行实时翻译流程；所述翻译模块中对于翻译后的结果的确认方式，支持通过文本显示和语音播放两种形式通知给用户；

a1：通过读转写模块建立与翻译引擎的通信；

a4：所述结果确认模块按照用户的预设的翻译结果确认方式，将所述目标语言的文本信息以文本的形式显示给用户，或者将得到的所述目标语言的文本信息通过语音合成模块转换为音频数据后，通过播放软件将所述音频数据实时播放给用户。

7.根据权利要求6所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：所述翻译模块单独安装在移动设备上，在所述普通模式下，基于其所在移动设备的声音采集模块采集目标声源的声信号。

8.根据权利要求1所述一种基于麦克风阵列的智能语音转文字及同声翻译系统，其特征在于：步骤S3中，所述延迟系数t(l,k)的计算方法包括如下步骤：

则：所述前向麦克风mic₁采集到的混合信号m₁(n)为：

m₁(n)＝s₁(n)+s₂(n)+s₃(n)+...+s_Num(n)