CN108597533B - 一种增强智能终端的语音输入信号的方法和系统 - Google Patents

一种增强智能终端的语音输入信号的方法和系统 Download PDF

Info

Publication number
CN108597533B
CN108597533B CN201810316048.1A CN201810316048A CN108597533B CN 108597533 B CN108597533 B CN 108597533B CN 201810316048 A CN201810316048 A CN 201810316048A CN 108597533 B CN108597533 B CN 108597533B
Authority
CN
China
Prior art keywords
voice signal
system delay
delay
modified
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810316048.1A
Other languages
English (en)
Other versions
CN108597533A (zh
Inventor
代金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SINWT SCIENCE & TECHNOLOGY Co.,Ltd.
Original Assignee
Beijing Sinwt Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinwt Science & Technology Co ltd filed Critical Beijing Sinwt Science & Technology Co ltd
Priority to CN201810316048.1A priority Critical patent/CN108597533B/zh
Publication of CN108597533A publication Critical patent/CN108597533A/zh
Application granted granted Critical
Publication of CN108597533B publication Critical patent/CN108597533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种增强智能终端的语音输入信号的方法和系统。该方法包括:步骤一,获取智能终端上原生麦克风采集的第一语音信号及第一语音信号的第一系统延迟和智能终端外部麦克风采集的第二语音信号及第二语音信号的第二系统延迟;步骤二,基于第一系统延迟和第二系统延迟,计算修正的系统延迟,并基于修正的系统延迟确定修正的第一语音信号和第二语音信号;步骤三,对修正的第一语音信号和修正的第二语音信号进行语音信号增强,获得增强的语音信号。采用本发明的方法和系统,能有效屏蔽室外环境中干扰噪声强烈的问题,大大改善室外直播或通话时的音频质量,提升用户体验。

Description

一种增强智能终端的语音输入信号的方法和系统
技术领域
本发明涉及语音处理技术领域,尤其涉及一种增强智能终端的语音输入信号的方法和系统。
背景技术
目前的智能终端,例如手机,都是在底部设置一颗麦克风以对用户的声音进行拾音。这种方式的最大缺点是受限于单通道信号增强算法的性能,无法有效屏蔽周围的环境噪声,从而影响用户的通话体验。近年来也有厂商尝试在手机上放置两颗麦克风以采用双通道语音增强的技术,但两颗麦克风位置都是在手机底部,相互位置非常靠近,双通道语音增强的效果也会大打折扣。
而目前很多手机的应用场景,例如视频的移动直播等场景对手机的语音增强技术提出了较高的要求。视频直播是一种广受人们欢迎的业务模式,但是通常是在室内、使用特制的麦克风作为声音输入的装备进行直播,尽管手机摄像头或者手机直播客户端均已支持直播业务的需求,但受限于手机现有麦克风不具备抵抗户外环境噪声的能力,所以随时随地的移动直播无法像室内直播那么流行。即使存在这种应用场景,因为户外的环境噪声往往非常大,会严重影响观看者的观看体验。
此外,手机用户在使用免提通话也需要有效屏蔽环境噪声对通话质量的影响。
因此,目前的智能终端,尤其是体积较小的智能终端,例如手机无法在嘈杂的环境下实现高效的定向采音。
发明内容
为了解决现有技术中智能终端高效定向采音的问题,提出了增强智能终端的语音输入信号的方法和系统。
根据本发明的一个方面,提供了一种增强智能终端的语音输入信号的方法,所述方法包括:
步骤一,获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟;
步骤二,基于所述第一系统延迟和所述第二系统延迟,计算修正的系统延迟,并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号;
步骤三,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强,获得增强的语音信号。
其中,所述步骤一包括通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟:
方式一,所述智能终端上原生扬声器播放一设定语音信号,分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号;
获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离;
确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟;
确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟;
方式二,获取预存的原生麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第一系统延迟;
获取预存的外部麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第二系统延迟。
其中,所述步骤二包括通过下述方式计算修正的系统延迟:
修正的系统延迟=C1*第一系统延迟+C2*第二系统延迟,
其中C1+C2=1,0≤C1≤1,0≤C2≤1。
其中,所述步骤三包括:
基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
其中,所述步骤三还包括:
基于所述修正的第一语音信号和所述修正的第二语音信号,使用波达方向估计法获取所述声源方向;
基于所述声源方向,通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
根据本发明的另一方面,还提供了一种增强智能终端的语音输入信号的系统,所述系统包括:
获取模块,用于获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟;
修正模块,用于基于所述第一系统延迟和所述第二系统延迟,计算修正的系统延迟,并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号;
增强模块,用于对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强,获得增强的语音信号。
其中,所述获取模块还用于通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟:
方式一,所述智能终端上原生扬声器播放一设定语音信号,分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号;
获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离;
确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟;
确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟;
方式二,获取预存的原生麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第一系统延迟;
获取预存的外部麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第二系统延迟。
其中,所述修正模块还用于基于下述公式修正系统延迟:
修正的系统延迟=C1*第一系统延迟+C2*第二系统延迟,
其中C1+C2=1,0≤C1≤1,0≤C2≤1。
其中,所述增强模块用于:
基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
其中,所述增强模块还用于:
基于所述修正的第一语音信号和所述修正的第二语音信号,使用波达方向估计法获取所述声源方向;
基于所述声源方向,通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
本发明主要提供一种基于现有的智能设备(如手机、PAD等)扩展麦克风阵列的方法和装置,扩展后的智能设备可以使用基于麦克风阵列的波束成形技术来实现定向拾音的功能,从而能够有效降低环境噪声带来的干扰。具体地,本发明的方法和装置,通过声源定向和波束成形算法,获得强指向性拾音的效果,只有在指向范围内的声源才会进行拾音,这样就能有效屏蔽室外环境中干扰噪声强烈的问题,大大改善室外直播或通话时的音频质量,提升用户体验。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的增强语音输入信号的方法的流程图;
图2是根据本发明的包括有原生麦克风和外部麦克风的智能终端的示意图;
图3是根据本发明的增强语音输入信号的系统的模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明提供了一种增强智能终端的语音信号的方法,所述方法包括:
步骤101,获取智能终端上原生麦克风采集的第一语音信号及第一语音信号的第一系统延迟和智能终端外部麦克风采集的第二语音信号及第二语音信号的第二系统延迟;
步骤102,基于第一系统延迟和第二系统延迟,计算修正的系统延迟,并基于修正的系统延迟确定修正的第一语音信号和第二语音信号;
步骤103,对修正的第一语音信号和修正的第二语音信号进行语音信号增强,获得增强的语音信号。
这里,原生麦克风是指集成在智能终端上的麦克风,外部麦克风是设置在智能终端外部且通过连接设备(例如USB接口、音频接口)或无线连接(例如蓝牙连接)与智能终端相连接的麦克风。外部麦克风可以仅由一个麦克风组成,也可以是由多个(如两个)麦克风组成的麦克风阵列。
系统延迟是指运行在操作系统之上的应用层程序通过操作系统的API或者更低层的驱动接口从声卡或者其他数据接口读取麦克风采集的声音信号,相对于声音信号在物理世界中实际发生的时间的延迟。因为外部麦克风和原生麦克风可能是从两个不同的数据接口读入数据的,所以两者的系统延迟可能不同,因此就需要对两种不同的系统延迟进行修正,使其相等。这是因为后面进行处理时,需要外部麦克风采集的信号和原生麦克风采集的信号之间不存在系统延迟。
需要说明的是,外部麦克风可以包括一个麦克风或者多个麦克风。后续计算系统延迟、估计声源方向和信号增强对于一个麦克风或多个麦克风的操作来说,实质的方法都是相同的。计算系统延迟时,一个或多个外部麦克风都是通过一个接口与智能终端进行数据通信,所以系统延迟在几个外部麦克风之间是相同的。估计声源方向和信号增强时,当外部麦克风包括一个麦克风或多个麦克风时,只影响构成麦克风阵列的构型,因此,估计声源方向和使用波束成形进行信号增强时,只是算法细节可能不同,但是基础算法没有变化。
步骤101包括通过下述方式获取所述第一系统延迟和所述第二系统延迟:
所述智能终端上原生扬声器播放一设定语音信号,分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号;
获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离;
确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟;
确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟。
以计算原生麦克风的系统延迟例,在开始时,通过智能设备原生扬声器播放一段声音(如标准正弦波或者双音多频信号),然后读取原生麦克风采集到的扬声器播放的声音,通过互相关法计算扬声器播放的原始信号和麦克风采集到的声音信号之间的延迟。另外,对于给定智能设备机型来说,其原生扬声器和原生麦克风之间的位置是已知的,声音信号从扬声器到麦克风的理论传输时间可以计算出来,从通过互相关法计算出的声音延迟中减去声音信号从扬声器到麦克风的理论传输时间导致的延迟即可得到原生麦克风的系统延迟。计算外部麦克风的系统延迟的方法类似。另外,在计算播放的设定语音信号与原生麦克风采集的语音信号以及播放的设定语音信号与外部麦克风采集的语音信号时,除采用互相关算法外,也可以采用其他的时延计算方法,在此不再赘述。
具体地,计算系统延迟时,可以采用下述公式计算:系统延迟=估计出的总延迟-麦克风与扬声器之间距离/声速。因此,
第一系统延迟=设定语音信号与第一语音信号的延迟-第一距离/声速;
第二系统延迟=设定语音信号与第二语音信号的延迟-第二距离/声速。
需要说明的是,本发明实施例中,通过连接设备与智能终端相连接的外部麦克风与原生扬声器之间的距离是固定的,即保证使用时外部麦克风与原生扬声器之间的距离固定,即在使用过程中,上述第二距离是固定的。
另外,即使外部麦克风有两个或多个,但是由一套时钟控制,所以该两个或多个麦克风的系统延迟是一样的,任意选择(或者固定指定)该麦克风阵列中一个麦克风计算系统延迟即可,其余麦克风的系统延迟与选择的麦克风的系统延迟相同。从多个外部麦克风中选择一个麦克风的方法可以采用下述中之一:
方式一,可以固定采用多个外部麦克风中的某一个麦克风,如从左数第n个,n为麦克风序号。因为麦克风的位置是固定的,所以一旦选定某一个麦克风,如图2所示,选择外部麦克风M1,根据预先获取的,例如存储至云端或者内存中的手机机型的尺寸信息,可以得到下图中原生麦克风M0和扬声器S之间的距离,也可以得到选择的麦克风与原生麦克风之间的距离。该距离可以通过预先测量的方式获得,或者利用外部麦克风部件的长度和原生麦克风在手机上的位置通过计算的方法获得,这种计算可以采用几何方法进行,不再赘述。然后,通过几何方法即可得到选择的麦克风M1与扬声器S之间的距离,这个距离就是所述的第二距离,这个第二距离同样可以预先存储至云端或者内存中,从而无需每次都重新计算。
方式二,随机选择一个麦克风,预先把每个麦克风与原生麦克风的距离存储至云端或者手机内存中,随机选择某个麦克风后,根据所选择的麦克风的序号即可得到预存的该麦克风与原生麦克风之间的距离,进而结合原生麦克风和扬声器之间的距离,即可得到第二距离。
另外,还可以通过下述方法,即静态配置的方法得到系统延迟:获取预存的原生麦克风采集的语音信号的系统延迟,将该系统延迟作为第一系统延迟;获取预存的外部麦克风采集的语音信号的系统延迟,将该系统延迟作为第二系统延迟。
在智能设备机型已知的条件下,通过实测的办法获得该机型上原生麦克风采集的声音信号的系统延迟和该机型上本发明所述的外部麦克风采集的声音信号的系统延迟,把两者的延迟数据或者延迟差数据保存在某个位置(如机身存储器中、APP中或者云端),在计算需要时从以上位置读取该数据,用作该机型的系统延迟数据。
步骤102包括通过下述方式计算修正的系统延迟:修正的系统延迟=C1*第一系统延迟+C2*第二系统延迟,其中C1+C2=1,0≤C1≤1,0≤C2≤1。
这里的对第一系统延迟和第二系统延迟进行修正,是指将第一系统延迟和第二系统延迟修正为相等的值。修正时,可以对延迟较小的声音信号加入额外的延迟(较大的系统延迟与较小的系统延迟的差值),也可以对延迟较大的信号减去一定的延迟(该方式可以通过数学方法实现,但是从物理意义的角度,不可能让未来的事情提前发生,即在物理上是不可实现的。),以使第一系统延迟与第二系统延迟相等,如上面的公式所描述的。例如,实际操作时,可以以第一系统延迟和第二系统延迟中较大的一个作为修正后的系统延迟,对两者中较小的一个加上一个额外的延迟值,从而使其中较小的系统修正后等于该较大的系统延迟。例如,第一系统延迟大于第二系统延迟,则在这种情况下,C1=1,C2=0。
在计算得到修正的系统延迟后,基于计算修正的系统延迟的方式,计算修正的第一语音信号和第二语音信号。其计算方法示例如下:
原生麦克风采集的第一语音信号为(xt,xt+1,xt+2,xt+3,xt+4,xt+5,xt+6,xt+7),其中t表示时间,其第一系统延迟为2;
外部麦克风采集的第二语音信号为(yt,yt+1,yt+2,yt+3,yt+4,yt+5,yt+6,yt+7),其中t表示时间,其第二系统延迟为3。
其中第二语音信号的系统延迟,即第二系统延迟较大,选择第二系统延迟为修正的系统延迟,即将第一系统延迟修正为3。因此,修正的第二语音信号即为原第二语音信号;修正的第一语音信号为原第一语音信号加上一个时间点的系统延迟,即为(xt-1,xt,xt+1,xt+2,xt+3,xt+4,xt+5,xt+6)。步骤103包括:基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
因此,修正的第一语音信号是(xt-1,xt,xt+1,xt+2,xt+3,xt+4,xt+5,xt+6),修正的第二语音信号是(yt,yt+1,yt+2,yt+3,yt+4,yt+5,yt+6,yt+7)(即为原第二语音信号)。
步骤103包括:基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
这里,在获得声源方向后,基于该声源方向进行语音信号增强,可以获得更好的增强效果。
步骤103还包括:基于所述修正的第一语音信号和所述修正的第二语音信号,使用波达方向估计法获取声源方向;基于所述声源方向,通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
下面详细描述根据本发明的具体实施例。
步骤1,获取原生麦克风采集的第一语音信号(xt,xt+1,xt+2,xt+3,xt+4,xt+5,xt+6,xt+7)及其第一系统延迟2,以及外部麦克风采集的第二语音信号为(yt,yt+1,yt+2,yt+3,yt+4,yt+5,yt+6,yt+7)及其第二系统延迟3。
步骤2,选择第二系统延迟为修正的系统延迟,因此,修正的第一语音信号是(xt-1,xt,xt+1,xt+2,xt+3,xt+4,xt+5,xt+6),修正的第二语音信号是(yt,yt+1,yt+2,yt+3,yt+4,yt+5,yt+6,yt+7)。
步骤3,基于修正的第一语音信号和第二语音信号采用波达方向估计法,获取声源方向。
步骤4,基于上述声源方向,通过波束成形算法对上述修正的第一语音信号和修正的第二语音信号进行语音信号增强,其中的波束成形算法可以采用延迟相加算法、最小方差畸变法(MVDR算法)、线性约束最小方差法(LCMV算法)等。
本发明还提供了一种增强智能终端的语音信号的系统,如图3所示,所述系统包括:
获取模块301,用于获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟;
修正模块302,用于基于所述第一系统延迟和所述第二系统延迟,计算修正的系统延迟,并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号;
增强模块303,用于对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强,获得增强的语音信号。
其中,所述获取模块301还用于通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟:
方式一,所述智能终端上原生扬声器播放一设定语音信号,分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号;
获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离;
确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟;
确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟;
方式二,获取预存的原生麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第一系统延迟;
获取预存的外部麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第二系统延迟。
其中,所述修正模块302还用于基于下述公式修正系统延迟:
修正的系统延迟=C1*第一系统延迟+C2*第二系统延迟,
其中C1+C2=1,0≤C1≤1,0≤C2≤1。
其中,所述增强模块303用于:
基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
其中,所述增强模块303还用于:
基于所述修正的第一语音信号和所述修正的第二语音信号,使用波达方向估计法获取所述声源方向;
基于所述声源方向,通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
本发明主要提供一种基于现有的智能设备(如手机、PAD等)扩展麦克风阵列的方法和装置,扩展后的智能设备可以使用基于麦克风阵列的波束成形技术来实现定向拾音的功能,从而能够有效降低环境噪声带来的干扰。具体地,本发明的方法和装置,通过声源定向和波束成形算法,获得强指向性拾音的效果,只有在指向范围内的声源才会进行拾音,这样就能有效屏蔽室外环境中干扰噪声强烈的问题,大大改善室外直播或通话时的音频质量,提升用户体验。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种增强智能终端的语音输入信号的方法,其特征在于,所述方法包括:
步骤一,获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟;
步骤二,基于所述第一系统延迟和所述第二系统延迟,计算修正的系统延迟,并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号;
步骤三,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强,获得增强的语音信号;
其中,所述系统延迟是指运行在操作系统之上的应用层程序通过所述操作系统的API或者更低层的驱动接口从声卡或者其他数据接口读取麦克风采集的声音信号;
所述步骤二包括通过下述方式计算修正的系统延迟:
以所述第一系统延迟和所述第二系统延迟中大的作为修正后的系统延迟,对两者中小的一个加上一个额外的延迟值,使其中小的系统延迟修正后等于大的系统延迟。
2.如权利要求1所述的方法,其特征在于,所述步骤一包括通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟:
方式一,所述智能终端上原生扬声器播放一设定语音信号,分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号;
获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离;
确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟;
确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟;
方式二,获取预存的原生麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第一系统延迟;
获取预存的外部麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第二系统延迟。
3.如权利要求1所述的方法,其特征在于,所述步骤三包括:
基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
4.如权利要求3所述的方法,其特征在于,所述步骤三还包括:
基于所述修正的第一语音信号和所述修正的第二语音信号,使用波达方向估计法获取所述声源方向;
基于所述声源方向,通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
5.一种增强智能终端的语音输入信号的系统,其特征在于,所述系统包括:
获取模块,用于获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟;
修正模块,用于基于所述第一系统延迟和所述第二系统延迟,计算修正的系统延迟,并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号;
增强模块,用于对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强,获得增强的语音信号;
其中,所述系统延迟是指运行在操作系统之上的应用层程序通过所述操作系统的API或者更低层的驱动接口从声卡或者其他数据接口读取麦克风采集的声音信号;
通过下述方式计算修正的系统延迟:
以所述第一系统延迟和所述第二系统延迟中大的作为修正后的系统延迟,对两者中小的一个加上一个额外的延迟值,使其中小的系统延迟修正后等于大的系统延迟。
6.如权利要求5所述的系统,其特征在于,所述获取模块还用于通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟:
方式一,所述智能终端上原生扬声器播放一设定语音信号,分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号;
获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离;
确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟;
确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟;
方式二,获取预存的原生麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第一系统延迟;
获取预存的外部麦克风采集的语音信号的系统延迟,将该系统延迟作为所述第二系统延迟。
7.如权利要求5所述的系统,其特征在于,所述增强模块用于:
基于所述修正的第一语音信号和所述修正的第二语音信号,获取声源方向,并基于所述声源方向,对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
8.如权利要求7所述的系统,其特征在于,所述增强模块还用于:
基于所述修正的第一语音信号和所述修正的第二语音信号,使用波达方向估计法获取所述声源方向;
基于所述声源方向,通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。
CN201810316048.1A 2018-04-10 2018-04-10 一种增强智能终端的语音输入信号的方法和系统 Active CN108597533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810316048.1A CN108597533B (zh) 2018-04-10 2018-04-10 一种增强智能终端的语音输入信号的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810316048.1A CN108597533B (zh) 2018-04-10 2018-04-10 一种增强智能终端的语音输入信号的方法和系统

Publications (2)

Publication Number Publication Date
CN108597533A CN108597533A (zh) 2018-09-28
CN108597533B true CN108597533B (zh) 2021-11-23

Family

ID=63621606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810316048.1A Active CN108597533B (zh) 2018-04-10 2018-04-10 一种增强智能终端的语音输入信号的方法和系统

Country Status (1)

Country Link
CN (1) CN108597533B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113965801A (zh) * 2021-10-11 2022-01-21 Oppo广东移动通信有限公司 播放控制方法、装置以及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157964A (zh) * 2016-07-14 2016-11-23 西安元智系统技术有限责任公司 一种确定回声消除中系统延时的方法
CN106230553A (zh) * 2016-07-27 2016-12-14 块互动(北京)科技有限公司 数据传输方法及接收方法、数据发送终端及接收终端
CN107636485A (zh) * 2015-04-02 2018-01-26 三星电子株式会社 用于测量距离和位置的装置和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983849B2 (en) * 2012-10-17 2015-03-17 Nuance Communications, Inc. Multiple device intelligent language model synchronization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636485A (zh) * 2015-04-02 2018-01-26 三星电子株式会社 用于测量距离和位置的装置和方法
CN106157964A (zh) * 2016-07-14 2016-11-23 西安元智系统技术有限责任公司 一种确定回声消除中系统延时的方法
CN106230553A (zh) * 2016-07-27 2016-12-14 块互动(北京)科技有限公司 数据传输方法及接收方法、数据发送终端及接收终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于麦克风阵列的声源定位技术研究;vovsave;《道客巴巴http:www.doc88.com/p-997286671951.html》;20130114;第54-57页 *

Also Published As

Publication number Publication date
CN108597533A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN107534725B (zh) 一种语音信号处理方法及装置
CN108777732B (zh) 多麦克风的音频捕获
CN109845288B (zh) 用于麦克风之间的输出信号均衡的方法和装置
US8868413B2 (en) Accelerometer vector controlled noise cancelling method
CN113129917A (zh) 基于场景识别的语音处理方法及其装置、介质和系统
US9877108B2 (en) User experience oriented audio signal processing
US11575988B2 (en) Apparatus, method and computer program for obtaining audio signals
CN111883160B (zh) 一种定向麦克风阵列拾音降噪方法及装置
US9271076B2 (en) Enhanced stereophonic audio recordings in handheld devices
CN108597533B (zh) 一种增强智能终端的语音输入信号的方法和系统
US10991392B2 (en) Apparatus, electronic device, system, method and computer program for capturing audio signals
CN114220454B (zh) 一种音频降噪方法、介质和电子设备
CN113542466A (zh) 音频处理方法、电子设备及存储介质
CN116741194B (zh) 空间局域降噪方法、装置、设备、系统和存储介质
US20240040317A1 (en) Determining Spatial Audio Parameters
CN111147655A (zh) 模型生成方法和装置
CN114758669B (zh) 音频处理模型的训练、音频处理方法、装置及电子设备
US11363374B2 (en) Signal processing apparatus, method of controlling signal processing apparatus, and non-transitory computer-readable storage medium
WO2023125537A1 (zh) 声音信号处理方法、装置、设备及存储介质
CN111145793B (zh) 音频处理方法和装置
CN117636928A (zh) 一种拾音装置及相关音频增强方法
CN114449341A (zh) 音频处理方法、装置、可读介质及电子设备
CN113709288A (zh) 降噪方法、装置、电子设备及计算机可读存储介质
WO2024036113A1 (en) Spatial enhancement for user-generated content
WO2022232458A1 (en) Context aware soundscape control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211028

Address after: 100176 kc015, 8th floor, building 3, No. 5, Rongchang East Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing (centralized office area)

Applicant after: BEIJING SINWT SCIENCE & TECHNOLOGY Co.,Ltd.

Address before: 100176 Unit 302, Building No. 16, Haizifu, No. 1 Sihai Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant before: Jin Liang Dai

GR01 Patent grant
GR01 Patent grant