CN109920443A

CN109920443A - 一种语音处理机器

Info

Publication number: CN109920443A
Application number: CN201910223373.8A
Authority: CN
Inventors: 张琛雨
Original assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Current assignee: Netease Youdao (Hangzhou) Intelligent Technology Co.,Ltd.
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-06-21

Abstract

本发明涉及到电通信技术领域，公开了一种语音处理机器，包括壳体、四个麦克风、分析模块以及指示模块，其中：两个麦克风位于壳体上部，另外两个麦克风位于壳体下部；分析模块与四个麦克风信号相连，用于根据声音到达四个麦克风的时延计算声音频率和来源角度，在声音频率落入预置的人声频率范围内、声音来源角度在预置的角度范围之外时发出调整信号，在声音频率落入预置的人声频率范围、声音来源角度落入到预置的角度范围内时发出正确拾取信号；指示模块与分析模块信号相连，根据接收到的调整信号进行报警，根据接收到的正确拾取信号显示声音正确拾取，上述语音处理机器能够在最佳位置拾音，且在拾音过程中语音识别准确，拾音效果较好。

Description

一种语音处理机器

技术领域

本发明涉及到电通信技术领域，尤其涉及到一种语音处理机器。

背景技术

随着全球化的推进，在商业、生活中不同语种之间的交流变得日益频繁，而为了避免外语能力对人们交流的限制，例如翻译机的语音处理机器在商业和生活的面对面交谈中变得至关重要。

目前，一般的语音处理机器设置有用来接收用户的声音信息的麦克风。根据麦克风的数目包括两种形式的语音处理机器：第一种，具有一主麦克风、一降噪麦克风的两个麦克风语音处理机器，通过声音信息到达两个麦克风的相差去除噪音和保留人声，但是在使用中语音处理机器相对于人嘴的位置不定，常常会将人声误处理，而使得拾取人声的效果不好；第二种，四个麦克风语音处理机器通过四个麦克风的时延，自动追踪音源，使得使用者无论对准语音处理机器的哪个方位说话，都可以跟踪拾取，但是在比较复杂的场景，如火车站、户外景点、人流量大或者许多人说话的情况下，声源来源非常嘈杂，声音拾取受到不同方向、不同音量的声音干扰，经常出现定位方向错乱，在拾取过程中如果出现更大的音量声源，拾取方向自动切过去，而真正的音源声音被过滤掉，拾取声音的音源不对。

因此，设计一种拾音效果较好、且语音识别准确的语音处理机器显得尤为重要。

发明内容

本发明提供了一种语音处理机器，该语音处理机器能够在最佳位置拾音，且在拾音过程中语音识别准确，拾音效果较好。

为实现上述目的，本发明提供如下的技术方案：

一种语音处理机器，包括壳体、四个麦克风、分析模块以及指示模块，其中：

两个所述麦克风位于所述壳体上部，另外两个麦克风位于所述壳体下部；

所述分析模块与所述四个麦克风信号相连，用于根据声音到达四个麦克风的时延计算声音频率和来源角度，在声音频率落入预置的人声频率范围内、声音来源角度在预置的角度范围之外时发出调整信号，在声音频率落入预置的人声频率范围、声音来源角度落入到预置的角度范围内时发出正确拾取信号；

所述指示模块与所述分析模块信号相连，根据接收到的调整信号进行报警，根据接收到的正确拾取信号显示声音正确拾取。

在上述语音处理机器中，四个麦克风采集声音数据，并将声音数据传输到分析模块，分析模块根据接收到的四组声音数据计算出声音的频率以及声音到达两个麦克风的时延，并根据四个时延以及各麦克风之间预设的间距，计算出声音来源的角度，然后分析模块检测声音的频率是否落入预置的人声频率范围内，当声音的频率没有落入预置的人声频率范围内，判定此时的声音不是人声语音发出，语音处理机器拾音结束；当声音的频率落入预置的人声频率范围内，判定此时的声音是人声语音发出，语音处理机器拾音继续，分析模块检测声音来源角度是否在预置的角度范围内，当声音来源角度不在预置的角度范围内时，分析模块判定需要调整语音处理机器的拾音角度，向指示模块发出调整信号，指示模块根据接收到的调整信号进行报警,提示用户调整语音处理机器的位置，重新拾取，当声音来源角度在预置的角度范围内时，分析模块判定语音处理机器的拾音角度恰当，向指示模块发出正确拾取信号，指示模块根据接收到的正确拾取信号显示声音正确拾取,提示用户语音处理机器的位置恰当，可以继续拾取，并且此时语音处理机器拾取的声音为预置的角度范围的人声语音，其他角度的声音均被相对抑制。

因此，上述语音处理机器能够在最佳位置拾音，且在拾音过程中语音识别准确，拾音效果较好。

可选地，位于所述壳体上部的两个麦克风包括第一麦和第二麦，所述第一麦和第二麦沿所述壳体的轴线对称设置、且所述第一麦和第二麦成第一设定角度倾斜设置。

可选地，位于所述壳体下部的两个麦克风包括第三麦和第四麦，所述第三麦和第四麦沿所述壳体的轴线对称设置、且所述第三麦和第四麦成第二设定角度倾斜设置。

可选地，所述预置的角度范围沿所述壳体的轴线对称设置，所述预置的角度范围落入到所述第一设定角度内；或，所述预置的角度范围落入到所述第二设定角度内。

可选地，所述第一设定角度与所述第二设定角度相同。

可选地，所述第一设定角度为40°-50°。

可选地，所述第一麦和第二麦之间的间距不小于2cm；和/或，所述第三麦和第四麦之间的间距不小于2cm。

可选地，所述分析模块包括信号相连的语音前处理算法模块和数据处理单元，其中：

所述语音前处理算法模块，与所述四个麦克风信号相连，用于接收所述四个麦克风发送的声音数据，并根据接收到的声音数据计算声音的频率和每两个所述麦克风的时延、且根据每两个所述麦克风的时延计算出声音的频率和来源角度，并将获取的声音的频率和来源角度传送至所述数据处理单元；

所述数据处理单元与所述指示模块信号相连，将声音的频率与预置的人声频率范围相比对，在声音频率落入预置的人声频率范围内时，将声音来源角度与预置的角度范围相比对，当声音来源角度在预置的角度范围之外时向所述指示模块发出调整信号，当声音来源角度落入到预置的角度范围内时向所述指示模块发出正确拾取信号。

可选地，所述指示模块为LED指示灯。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种语音处理机器的结构示意图；

图2为本发明提供的一种语音处理机器的另一结构示意图；

图3为本发明提供的一种语音处理机器拾音原理示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

下面结合附图介绍本发明实施例提供的技术方案。

为了便于理解，首先介绍一下语音处理机器的应用场景，语音处理机器的一端正对声音的来源，另一端握持在用户的手中，语音处理机器内具有多个麦克风，多个麦克风采用波束成形的技术能够采集到一定角度范围内的声音，当然这些声音较为噪杂，现有技术中的语音处理机器并不能够准确拾取到人声，本发明实施例提供的语音处理机器通过在预设拾取较多的基础上设置反馈设计，以使得能够在最佳的状态拾取声音，拾音效果较好；其次说明一下本发明实施例中的几个名词，时延是指声源发出的声音传输到两个麦克风所用的时间差，声音频率是指声源在一秒钟内振动的次数，其中人声频率范围是指500Hz-3kHz，也即是说当声音频率在500Hz-3k H时判定该声音为人声，声音来源角度是指声源相对于语音处理机器的中轴线的偏转角度，声源定位是指通过声音到达不同麦克风的时延不同根据已知的麦克风之间的相对距离计算声音来源角度，声源锁定是指通过多个麦克风只拾取预设角度范围内的声音，预设范围外的声音被过滤掉。另外，为了方便实施例的描述，限定语音处理机器靠近声源的方向为语音处理机器的上部，用户手持的位置为语音处理机器的下部，并且限定从语音处理机器的下部指向上部的方向为Y轴方向，语音处理机器的宽度方向为X轴方向。

如图1、图2以及图3所示，图1示出了语音处理机器的具体结构，图2示出了语音处理机器的内部结构，图3示出了语音处理机器的拾音原理，本发明实施了提供了一种语音处理机器，该语音处理机器包括壳体100、该壳体100的横截面可以如图2所示的长圆形结构，为了便于描述，该长圆形结构设定为对称形状，中轴线为oo，当然壳体100也可以为其他形状。如图1所示，在壳体100内设置有采集声音的麦克风200、与麦克风信号相连用于声源定位和声源锁定的分析模块300、与分析模块300信号相连用于指示语音处理机器拾音状态的指示模块400，本发明实施例提供的麦克风200包括分为两组共四个麦克风，如图2所示，位于壳体100上部的第一组麦克风210和位于壳体100下部的第二组麦克风220，第一组麦克风210靠近壳体100的上部，包括第一麦211和第二麦212，第二组麦克风220靠近壳体100的下部，包括第三麦221和第四麦222，在具体设置时，分析模块300分别与第一麦211、第二麦212、第三麦221以及第四麦222信号相连。分析模块300能够根据接收到的声音数据进行声源定位，具体过程如下：第一麦211、第二麦212、第三麦221以及第四麦222采集到的声音数据传输到分析模块300，分析模块300根据接收到的四组声音数据，该声音数据包括声音在一秒钟内的振动次数以及声音到达的时间，从而可以计算出声音的频率以及声音到达两个麦克风的时延，并根据四个时延以及各麦克风之间预设的间距，计算出声音来源的角度，如图3所示，设定声源S与第一麦211之间的距离为r₁，时间为t₁，声源S与第二麦212之间的距离为r₂，时间为t₂，第一麦211和第二麦212之间的距离为d，声源S的声音来源角度为C，通过公式：

Δr＝r₁-r₂ (1)

r₁＝t₁×c (2)

r₂＝t₂×c (3)

Δr＝d×sin C (4)

其中，c为声音在空气中传播的速度，是一常数；

由上述公式可知，因此，分析模块300能够根据接收到的第一组声音数据和第二组声音数据计算对应的该第一麦211和第二麦212的时延，进而计算出声音来源的角度，即声源S相对与第一麦211和第二麦212的角度，而基于同样的原理可以计算出声源S相对与第一麦211和第三麦221的角度，声源S相对与第一麦211和第四麦222的角度，声源S相对与第二麦212和第三麦221的角度，声源S相对与第二麦212和第四麦222的角度，声源S相对与第三麦221和第四麦222的角度，从而能够在三维空间范围内定位出声源的位置及来源角度。以便于语音处理机器三维空间内的任意角度的声音进行拾音，提高了拾音的范围。

在确定出声音频率和声音的来源角度后分析模块300首先判断采集到的声音是否为人声，只有在判断出声源为人时才继续判定声音是否准确的拾取，具体过程如下：

分析模块300检测声音的频率是否落入预置的人声频率范围内，当声音的频率没有落入预置的人声频率范围内，判定此时的声音不是人声语音发出，语音处理机器拾音结束；当声音的频率落入预置的人声频率范围内，判定此时的声音是人声语音发出，语音处理机器拾音继续，分析模块300检测声音来源角度是否在预置的角度范围内，当声音来源角度不在预置的角度范围内时，分析模块300判定需要调整语音处理机器的拾音角度，向指示模块400发出调整信号，指示模块400根据接收到的调整信号进行报警,提示用户调整语音处理机器的位置，用户在调整了语音处理机器的位置后，语音处理机器重新拾取声音，重复上述过程直至当声音来源角度在预置的角度范围内时，在语音处理机器具体拾音过程中，只要是多个声音来源角度中的任一个落入到预置的角度范围内时，分析模块300判定语音处理机器的拾音角度恰当，向指示模块400发出正确拾取信号，指示模块400根据接收到的正确拾取信号显示声音正确拾取,提示用户语音处理机器的位置恰当，可以继续拾取，并且此时语音处理机器拾取的声音为预置的角度范围的人声语音，其他角度的声音均被相对抑制。

为了便于分析计算，在具体设置第一组麦克风210时，如图2所示，位于壳体100上部的第一麦211和第二麦212沿壳体100的中轴线oo对称设置、且第一麦211和第二麦212成第一设定角度A倾斜设置。

在上述语音处理机器中，第一麦211和第二麦212沿壳体100的中轴线oo对称设置使得在第一设定角度A内的声音数据均能够被拾取到，并且位于语音处理机器中轴线两侧的声音拾取的效果相似，使得声音采集效果较好，在分析模块300根据采集的声音数据进行计算时，所需建立的声音模型较为简单，使得计算过程较为简单，能够方便快捷地计算出声音的频率及来源角度。

同样，为了便于分析计算，在具体设置第二组麦克风220时，如图2所示，位于壳体100下部的第三麦221和第四麦222沿壳体100的中轴线oo对称设置、且第三麦221和第四麦222成第二设定角度B倾斜设置。

在上述语音处理机器中，第三麦221和第四麦222沿壳体100的中轴线oo对称设置使得在第二设定角度B内的声音数据均能够被拾取到，并且位于语音处理机器中轴线两侧的声音拾取的效果相似，使得声音采集效果较好，在分析模块300根据采集的声音数据进行计算时，所需建立的声音模型较为简单，使得计算过程较为简单，能够方便快捷地计算出声音的频率及来源角度。

在具体设置第一组麦克风210时，进一步地，预置的角度范围沿壳体100的轴线对称设置，预置的角度范围落入到第一设定角度A内；较佳地，预置的角度范围可以与第一设定角度A相重合，如图3所示，A＝180°-2C，以使得第一设定角度A内的声音数据都可以精确地拾取到；同样，在具体设置第二组麦克风220时，进一步地，预置的角度范围落入到第二设定角度B内；较佳地，预置的角度范围可以与第二设定角度B相重合，以使得第二设定角度B内的声音数据都可以精确地拾取到。

更进一步地，第一设定角度A可以与第二设定角度B相同，并且具体设置时第一设定角度A可以为40°-50°，较佳地，第一设定角度A和第二设定角度B为40°、42°、44°、45°、46°、48°、50°。当然第一设定角度A也可以与第二设定角度B不同，此时，第一设定角度A和第二设定角度B的具体数值根据语音处理机器的实际情况确定。

为了便于声音的采集，第一麦211和第二麦212之间的间距不小于2cm，第一麦211和第二麦212之间的间距可以为2cm、3cm、4cm以及更大的数值，而第一麦211和第二麦212之间的间距的具体数值根据语音处理机器的实际情况确定；同样，第三麦221和第四麦222之间的间距不小于2cm，第三麦221和第四麦222之间的间距可以为2cm、3cm、4cm以及更大的数值，而第三麦221和第四麦222之间的间距的具体数值根据语音处理机器实际情况确定。当然第一麦211和第二麦212之间的间距和第三麦221和第四麦222之间的间距可以相同，也可以不同，二者之间的关系根据语音处理机器的实际情况确定。

在具体设置分析模块300时，分析模块300包括两部分，语音前处理算法模块和数据处理单元,并且语音前处理算法模块和数据处理单元，其中：

语音前处理算法模块，分别与第一麦211、第二麦212、第三麦221以及第四麦222信号相连，用于接收上述四个麦克风发送的声音数据，并根据接收到的声音数据计算声音的频率和两个麦克风的时延、且根据两个麦克风的时延计算出声音的频率和来源角度，并将获取的声音的频率和来源角度传送至数据处理单元，也就数说语音前处理算法模块执行上述的公式(1)、公式(2)、公式(3)、公式(4)，从而根据输入的声音数据输出声音的频率和来源角度。

数据处理单元与指示模块400信号相连，用于将声音的频率与预置的人声频率范围相比对，在声音频率落入预置的人声频率范围内时，将声音来源角度与预置的角度范围相比对，当声音来源角度在预置的角度范围之外时向指示模块400发出调整信号，当声音来源角度落入到预置的角度范围内时向指示模块400发出正确拾取信号。

一种优选实施方式中，指示模块400可以包括位于语音处理机器上部的LED指示灯410，还可以包括位于语音处理机器下部的声光报警器420，当然指示模块400包括但并不局限于LED指示灯410和声光报警器420，指示模块400可以采用同一种部件，如均为LED指示灯410，在接收到调整信号时红灯闪烁，在接收到正确拾取信号时绿灯闪烁。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种语音处理机器，其特征在于，包括壳体、四个麦克风、分析模块以及指示模块，其中：

2.根据权利要求1所述的语音处理机器，其特征在于，位于所述壳体上部的两个麦克风包括第一麦和第二麦，所述第一麦和第二麦沿所述壳体的轴线对称设置、且所述第一麦和第二麦成第一设定角度倾斜设置。

3.根据权利要求2所述的语音处理机器，其特征在于，位于所述壳体下部的两个麦克风包括第三麦和第四麦，所述第三麦和第四麦沿所述壳体的轴线对称设置、且所述第三麦和第四麦成第二设定角度倾斜设置。

4.根据权利要求3所述的语音处理机器，其特征在于，所述预置的角度范围沿所述壳体的轴线对称设置，所述预置的角度范围落入到所述第一设定角度内；或，所述预置的角度范围落入到所述第二设定角度内。

5.根据权利要求3所述的语音处理机器，其特征在于，所述第一设定角度与所述第二设定角度相同。

6.根据权利要求5所述的语音处理机器，其特征在于，所述第一设定角度为40°-50°。

7.根据权利要求2所述的语音处理机器，其特征在于，所述第一麦和第二麦之间的间距不小于2cm；和/或，所述第三麦和第四麦之间的间距不小于2cm。

8.根据权利要求1所述的语音处理机器，其特征在于，所述分析模块包括信号相连的语音前处理算法模块和数据处理单元，其中：

所述语音前处理算法模块，与所述四个麦克风信号相连，用于接收所述四个麦克风发送的声音数据，并根据接收到的声音数据计算声音的频率和每两个所述麦克风的时延、且根据每两个所述麦克风的时延计算出声音的来源角度，并将获取的声音的频率和来源角度传送至所述数据处理单元；

9.根据权利要求1所述的语音处理机器，其特征在于，所述指示模块为LED指示灯。