CN106601227A

CN106601227A - 音频采集方法和装置

Info

Publication number: CN106601227A
Application number: CN201611035414.3A
Authority: CN
Inventors: 武巍; 朱华明; 陈鑫; 雒利滨; 姚业海; 苗江龙
Original assignee: Beijing Jinruidelu Technology Co Ltd
Current assignee: Beijing Jinruidelu Technology Co Ltd
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-04-26
Also published as: CN107071647A; CN107071647B

Abstract

本发明提供了一种音频采集方法和装置。其中，该方法包括：利用压电传感器采集由于用户身体的振动产生的机械波，并以机械波作为第一音频信号；利用麦克风采集机械波生成的时间范围内环境中的声波，并以环境中的声波作为第二音频信号；提取第一音频信号和第二音频信号中的语音信息，根据语音信息生成语音信号。通过本发明，能够分别从用户身体的振动产生的机械波和周围环境中的声波提取出环境中的语音信息，解决了相关技术中音频采集不稳定的问题，提升了语音信号的质量，提高用户体验。

Description

音频采集方法和装置

技术领域

本发明涉及音频处理领域，具体而言，涉及一种音频采集方法和装置。

背景技术

基于声音通过固体传播的原理，人的声带发出的声音会借助人体骨骼传播，引起骨骼的机械振动。即可认为发声过程中头部骨骼振动产生的机械波，本质上是人声的声波透过骨骼的扩散。并且这种机械波中几乎不加带通过空气传播的环境噪声，是一种较纯粹的人声信号。

骨传声麦克风采集的正是上述这种机械波。所以其被认为是一种噪声过滤性能良好的音频采集组件，能够高质量采集人声。骨传声麦克风的核心元器件可以是压电传感器。压电传感器需要紧贴用户的头部或者面部工作，通过压电陶瓷片感知骨骼振动产生的机械波所带来的不断变化的压力，来输出能够描述上述机械波的音频信号，实现音频的采集。

骨传声麦克风虽然采集人声的效果比较理想，但局限在于必须紧贴用户的头部或面部才能够达到采集效果。所以在一些特殊的应用场景下，例如佩戴位置不正确，或者运动导致贴合不严密时，骨传声麦克风就很难发挥作用。单一的利用骨传声麦克风采集音频，没有冗余的设计，功能单一，在特定场景下性能不稳定。

发明内容

有鉴于此，本发明提供一种音频采集方法及装置。所述方法利用压电传感器和普通麦克风分别采集音频信号，并提取两路音频信号中的语音信息进行融合处理，得到更加准确的语音信号。

根据本发明的一个方面，提供了一种音频采集方法，包括：

利用压电传感器采集由于用户身体的振动产生的机械波，并以所述机械波作为第一音频信号；

利用麦克风采集所述机械波生成的时间范围内环境中的声波，并以所述环境中的声波作为第二音频信号；

提取所述第一音频信号和所述第二音频信号中的语音信息，根据所述语音信息生成语音信号。

可选地，所述提取语音信息包括：

提取音频信号中的音频帧，并计算所述音频帧的特征参数，根据所述特征参数判断所述音频帧是否为语音帧；当所述音频帧为语音帧，则将所述语音帧作为语音信息；

所述音频信号包括第一音频信号和第二音频信号；

所述特征参数包括平均能量、过零率和/或短时相关性。

可选地，所述音频帧的类型包括语音帧、环境音帧和无效帧，则所述根据所述特征参数判断所述音频帧是否为语音帧具体为：

根据特征参数分别计算所述音频帧的类型为语音帧、环境音帧和无效帧的概率；并将所述音频帧的类型为语音帧的概率作为参考概率；

当所述参考概率大于所述音频帧的类型为环境音帧的概率；且所述参考概率大于所述音频帧的类型为无效帧的概率时，将所述音频帧判定为语音帧。

可选地，所述判断所述音频帧是否为语音帧还包括：

当所述参考概率大于预设的判定阈值，则将所述音频帧判定为语音帧。

可选地，所述提取音频信号中的音频帧包括，提取所述第一音频信号中的音频帧作为第一音频帧；并提取所述第二音频信号中，与所述第一音频帧处于同一时刻的音频帧作为第二音频帧；则所述将所述语音帧作为语音信息包括：

当所述第一音频帧和第二音频帧中，有且仅有一者的类型为语音帧时，则将类型为语音帧的音频帧作为语音信息；

当所述第一音频帧和第二音频帧的类型均为语音帧时，则对比所述第一音频帧和第二音频帧的参考概率，并将参考概率相对较高的音频帧作为语音信息。

可选地，当所述第一音频帧和第二音频帧的类型均为语音帧时，还包括：

利用参考概率相对较低的音频帧，对所述参考概率相对较高的音频帧进行正向补偿。

可选地，所述根据所述语音信息生成语音信号包括：

将所述作为语音信息的语音帧按照时间顺序拼接，生成所述语音信号。

可选地，所述方法还包括：

对所述语音信号进行风噪过滤；和/或对所述语音信号进行环境噪声过滤。

根据本发明的另一个方面，还提供了一种音频采集装置，包括：

压电传感器，用于采集由于用户身体的振动产生的机械波，并以所述机械波作为第一音频号；

麦克风，用于采集所述机械波生成的时间范围内环境中的声波，并以所述环境中的声波作为第二音频信号；

处理模块，用于提取所述第一音频信号和所述第二音频信号中的语音信息，根据所述语音信息生成语音信号。

可选地，所述处理模块包括：

判定单元，用于提取音频信号中的音频帧，并计算所述音频帧的特征参数，根据所述特征参数判断所述音频帧是否为语音帧；所述音频信号包括第一音频信号和第二音频信号；所述特征参数包括平均能量、过零率和/或短时相关性；

合成单元，用于在所述音频帧为语音帧时，将所述语音帧作为语音信息；根据所述语音信息生成语音信号。

可选地，所述音频帧的类型包括语音帧、环境音帧和无效帧；所述判定单元包括：

概率计算子单元，用于根据特征参数分别计算所述音频帧的类型为语音帧、环境音帧和无效帧的概率；并将所述音频帧的类型为语音帧的概率作为参考概率；

概率对比子单元，用于在所述参考概率大于所述音频帧的类型为环境音帧的概率；且所述参考概率大于所述音频帧的类型为无效帧的概率时，将所述音频帧判定为语音帧；或用于在所述参考概率大于预设的判定阈值，则将所述音频帧判定为语音帧。

可选地，所述提取音频信号中的音频帧包括，提取所述第一音频信号中的音频帧作为第一音频帧；并提取所述第二音频信号中，与所述第一音频帧处于同一时刻的音频帧作为第二音频帧；则所述合成单元包括：

语音信息子单元，用于在所述第一音频帧和第二音频帧中，有且仅有一者的类型为语音帧时，将类型为语音帧的音频帧作为语音信息；或用于在所述第一音频帧和第二音频帧的类型均为语音帧时，对比所述第一音频帧和第二音频帧的参考概率，并将参考概率相对较高的音频帧作为语音信息；

信息合成子单元，用于将所述作为语音信息的语音帧按照时间顺序拼接，生成所述语音信号。

通过以上技术方案可知，本发明存在的有益效果是：通过对所述第一音频信号和第二音频信号中的语音帧进行互补，结合生成语音信号的方式，使本发明中所述语音信息的来源更加多样化，增加了冗余的设计；按照所述方法，声音采集不必再受到压电传感器使用方式的限制，即便特殊的应用场景下压电传感器与用户头部贴合不严密，按照所述方法依然能够得到良好的语音信号；使得所述方法中语音采集的性能更加稳定，适用性更广泛；同时所述的两种语音信息可以相互进行正向补偿，并结合风噪过滤及环境噪声过滤等降噪技术，能够进一步的提升语音信号的质量，提高用户体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的音频采集方法的流程图；

图2是根据本发明实施例的音频采集装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

根据前述已知，压电传感器虽然在通常的情况下采集人声语音的效果良好，但在无法紧密贴合用户头部或面部的情况下很难达到应有的效果。例如压电传感器在作为耳麦、耳机或其他头戴设备上的骨传声麦克风使用时，可能由于运动、佩戴位置，或者用户脸型等各类因素，导致贴合不严密，不能有效的采集语音。

在本发明中，提供一种音频采集方法，可以应用在上述的场景中，解决这一技术问题。所述方法当中通过普通麦克风，以及以压电传感器作为核心的骨传声麦克风协同使用，分别采集音频信号并结合相应的合成处理，从而更加稳定、不受限制的得到高质量语音信号。图1是根据本发明实施例的音频采集方法的流程图，如图1所示，本实施例所述的方法包括如下步骤：

步骤S101，利用压电传感器采集由于用户身体的振动产生的机械波，并以机械波作为第一音频信号。

步骤S102，利用麦克风采集机械波生成的时间范围内环境中的声波，并以环境中的声波作为第二音频信号。

步骤S103，提取第一音频信号和第二音频信号中的语音信息，根据语音信息生成语音信号。

上述步骤中，分别采集用户身体的振动产生的机械波和环境中声波作为音频信号。

例如当用户通过声带发声而产生语音时，引起身体(特别是骨骼)振动形成机械波。所述机械波本质上是语音声波透过骨骼的扩散。所述压电传感器可以采集此类固体中的机械波，优选为压电陶瓷加速计。所述压电陶瓷加速计的原理如下：

当被测物体带加速度运动时，会产生基于加速度变化的压力F。在压电效应的影响下，压力F导致陶瓷片的上下电极有电压输出。此电压与压力F成正比，即是与加速度成正比。因而输出的电压信号可以描述加速度的情况。再结合机械振动的原理，亦可认为所述电压信号可以描述机械波。即意味着实现了机械波的采集。

正常情况下，压电传感器贴合在用户的头部或面部，通过头部骨骼直接采集到所述机械波。所述机械波在固体中传播，所以不加带空气中的环境噪声，意味着纯粹的人声。在特殊的情况下，压电传感器与头部骨骼贴合不严密，或未有效的贴合，或贴合在人体的其他位置上，都会导致采集的所述机械波的强度不够，甚至采集不到。

在同一时间范围内，用户发出的语音声波也会在空气中扩散。本实施例中利用普通的麦克风，即步骤S102中所述的麦克风对扩散在空气中的语音声波进行采集。所述麦克风的使用更为灵活，采集声波受限制比较小，不要求特定佩戴位置或佩戴方式。但是其采集的空气中传播的语音声波会与空气中各类其他声波混在一起，携带较多噪声。

本实施例将在同一时间范围内，采集所述由于用户身体的振动产生的机械波作为第一音频信号，并采集所述环境中的声波作为第二音频信号。进而通过相应的处理手段将二者相结合，得到更加准确并且稳定的语音信号。

需要说明的是，所述第一音频信号和第二音频信号来自同一时间范围内，意味着二者当中所包括的语音声波来自用户声带的同一次发声。

所述第一音频信号和第二音频信号，从数据处理的角度来说二者本质是类似的。所以分别从二者当中提取语音信息的过程也相同。下述过程中涉及的语音信号，涵盖了所述第一音频信号和第二音频信号，不再区别进行叙述。具体为：

提取音频信号中的音频帧，并计算所述音频帧的特征参数，根据所述特征参数判断所述音频帧是否为语音帧。

音频信号描述的是随时间变量连续变化的声波。但在本领域中认为，在20毫秒(ms)之内，信号是稳定的。所以通常将时间长度为20ms的一段音频信号视为一个音频帧，将音频帧作为后续分析的基本单元。

分析所述音频帧的特征参数，可以判断出所述音频帧的类型。例如，所述特征参数可包括，平均能量、过零率和/或短时相关性。其中平均能量与声波的振幅相关，一般为振幅的平方和；过零率与声波的频率相关；短时相关性能够衡量声波特征的稳定性。本实施例中，不对所述特征参数的具体内容和计算方式作出限定。

所述音频帧的类型可以包括：语音帧、环境音帧和无效帧。如果一个音频帧的类型是语音帧，代表这一帧描述的声波主要内容是语音。同理，环境音帧主要内容是环境音，而无效帧中主要内容可是静默，或无需关注的信息。所述语音帧是本实施例中需要进行处理的目标。

判断一个音频帧是否为语音帧，需要根据特征参数分别计算所述音频帧的类型为语音帧、环境音帧和无效帧的概率。如果音频帧类型为语音帧的概率最大，大于所述音频帧的类型为环境音帧的概率，且大于所述音频帧的类型为无效帧的概率时，则可以将所述音频帧判定为语音帧。或者，也可以在所述音频帧类型为语音帧的概率大于预设的判定阈值时，将所述音频帧判定为语音帧。同时，本实施例中将所述音频帧的类型为语音帧的概率定义为参考概率。

需要说明的是，通过特征参数计算相关概率的数学算法在本实施例中不做具体的限定。本领域中针对特定的特征参数进行运算，并能够实现相同或类似效果的任何算法，均可结合在本实施例的整体技术方案之下。

以上描述了从音频信号中提取到代表语音的语音帧的过程。本实施例中所述的音频信号包括第一音频信号和第二音频信号，按照上述的方式可以分别的得到第一音频信号和第二音频信号中的语音帧。然后针对所述第一音频信号和第二音频信号中的语音帧还将进行进一步的选择，将其中能够更好表达语音的语音帧作为语音信息。

具体的，提取所述第一音频信号中的音频帧作为第一音频帧；并提取所述第二音频信号中，与所述第一音频帧处于同一时刻的音频帧作为第二音频帧；这样确保了所述第一音频帧和第二音频帧所描述的是同一时刻的声波，二者之间具有对比和参照的意义，可以择一来代表这一时刻出现的语音。

如果所述第一音频帧和第二音频帧中，有且仅有一者的类型为语音帧时，则将类型为语音帧的音频帧作为语音信息。例如同一时刻中，压电传感器正常工作，获得的第一音频帧为质量良好的语音帧；但麦克风获得的第二音频帧携带了大量环境音(噪声)，导致第二音频帧的类型被判断为环境音帧；则此时选择第一音频帧作为语音信息。或者反之，同一时刻中压电传感器未正常工作，导致获得的第一音频帧被判定为无效帧；但麦克风获得的第二音频帧被判定为语音帧；则选择第二音频帧作为语音信息。

可见，本实施例在所述压电传感器或麦克风中任意一者不能够正常采集语音时，仍然可以通过另一者得到语音信息，所以性能更加稳定，针对特殊情况的适应性明显的加强。

在另一类情况下，如果所述第一音频帧和第二音频帧的类型均为语音帧时，则对比所述第一音频帧和第二音频帧的参考概率，并将参考概率相对较高的音频帧作为语音信息。

本实施例中，认为参考概率越高则语音帧描述语音的效果越好。所以从第一音频帧和第二音频帧中，选择参考概率更高的一者作为语音信息，能够提高语音质量。优选的，还可以利用参考概率相对较低的另一者，对所述参考概率相对较高者进行正向补偿。进一步的提高语音音质。可见本实施例中所述方法，不仅能够加强针对特殊情况的适应性，同时也可以增强语音音质，得到更优质的语音。

得到语音信息之后，将所述作为语音信息的语音帧按照时间顺序拼接，生成时间范围内完整的音频，即所述语音信号。通过上述的描述可知，语音信号来自第一音频信号和第二音频信号的互补和优化，其中的任意一个音频帧都选自同时刻上两者中较优的一个。所以合成得到的语音信号的语音效果和准确性，显然优于第一音频信号和第二音频信号。

优选的，还可以对所述语音信号进行风噪过滤；和/或对所述语音信号进行环境噪声过滤，进一步的进行优化。例如，预先设定一些风噪和环境噪声的特征波形，在检测到生成的语音信号中存在风噪或者环境噪声特征相同的波形时，通过产生与这些风噪或者环境噪声特征波形相反的波形，将语音信号中的风噪或者环境噪声抵消，实现消音。该降噪方式只会对预先设定的噪声进行消除，因此能够保证语音信号不被抵消。

通过以上技术方案可知，本实施例存在的有益效果是：通过对所述第一音频信号和第二音频信号中的语音帧进行互补，结合生成语音信号的方式，使本发明中所述语音信息的来源更加多样化，增加了冗余的设计；按照所述方法，声音采集不必再受到压电传感器使用方式的限制，即便特殊的应用场景下压电传感器与用户头部贴合不严密，按照所述方法依然能够得到良好的语音信号；使得所述方法中语音采集的性能更加稳定，适用性更广泛；同时所述的两种语音信息可以相互进行正向补偿，并结合风噪过滤及环境噪声过滤等降噪技术，能够进一步的提升语音信号的质量，提高用户体验。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种音频采集装置，该装置用于实现上述实施例及优选实施中所述的方法，上述实施例中的相应描述同样适用于本实施例中，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的音频采集装置的结构框图，如图2所示，该装置包括：压电传感器21、麦克风22和处理模块23，其中，

压电传感器21，用于采集由于用户身体的振动产生的机械波，并以机械波作为第一音频号；麦克风22，用于采集机械波生成的时间范围内环境中的声波，并以环境中的声波作为第二音频信号；处理模块23，用于提取第一音频信号和第二音频信号中的语音信息，根据语音信息生成语音信号。

可选地，处理模块23包括：判定单元，用于提取音频信号中的音频帧，并计算音频帧的特征参数，根据特征参数判断音频帧是否为语音帧；音频信号包括第一音频信号和第二音频信号；特征参数包括平均能量、过零率和/或短时相关性；合成单元，用于在音频帧为语音帧时，将语音帧作为语音信息；根据语音信息生成语音信号。

可选地，音频帧的类型包括语音帧、环境音帧和无效帧；上述的判定单元包括：概率计算子单元，用于根据特征参数分别计算音频帧的类型为语音帧、环境音帧和无效帧的概率；并将音频帧的类型为语音帧的概率作为参考概率；概率对比子单元，用于在参考概率大于音频帧的类型为环境音帧的概率；且参考概率大于音频帧的类型为无效帧的概率时，将音频帧判定为语音帧；或用于在参考概率大于预设的判定阈值，则将音频帧判定为语音帧。

可选地，处理模块23提取音频信号中的音频帧包括，提取第一音频信号中的音频帧作为第一音频帧；并提取第二音频信号中，与第一音频帧处于同一时刻的音频帧作为第二音频帧；则合成单元包括：语音信息子单元，用于在第一音频帧和第二音频帧中，有且仅有一者的类型为语音帧时，将类型为语音帧的音频帧作为语音信息；或用于在第一音频帧和第二音频帧的类型均为语音帧时，对比第一音频帧和第二音频帧的参考概率，并将参考概率相对较高的音频帧作为语音信息；信息合成子单元，用于将作为语音信息的语音帧按照时间顺序拼接，生成语音信号。

可选地，当第一音频帧和第二音频帧的类型均为语音帧时，合成单元还可以包括：音频正向补偿子单元，用于利用参考概率相对较低的音频帧，对参考概率相对较高的音频帧进行正向补偿。

可选地，装置还可以包括：降噪模块，用于对语音信号进行风噪过滤；和/或用于对语音信号进行环境噪声过滤。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述模块分别位于多个处理器中。

本发明的实施例还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

本发明的实施例还提供了一种存储介质。在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

步骤S101，利用压电传感器采集由于用户身体的振动产生的机械波，并以机械波作为第一音频信号；

步骤S102，利用麦克风采集机械波生成的时间范围内环境中的声波，并以环境中的声波作为第二音频信号；

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

综上所述，通过本发明的上述实施例或者优选实施例，能够分别从用户身体的振动产生的机械波和周围环境中的声波提取出环境中的语音信息，解决了相关技术中音频采集不稳定的问题，提升了语音信号的质量，提高用户体验。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频采集方法，其特征在于，所述方法包括：

2.根据权利要求1所述方法，其特征在于，所述提取语音信息包括：

所述音频信号包括第一音频信号和第二音频信号；

所述特征参数包括平均能量、过零率和/或短时相关性。

3.根据权利要求2所述方法，其特征在于，所述音频帧的类型包括语音帧、环境音帧和无效帧，则所述根据所述特征参数判断所述音频帧是否为语音帧具体为：

4.根据权利要求3所述方法，其特征在于，所述判断所述音频帧是否为语音帧还包括：

5.根据权利要求3所述方法，其特征在于，所述提取音频信号中的音频帧包括，提取所述第一音频信号中的音频帧作为第一音频帧；并提取所述第二音频信号中，与所述第一音频帧处于同一时刻的音频帧作为第二音频帧；则所述将所述语音帧作为语音信息包括：

6.根据权利要求5所述方法，其特征在于，当所述第一音频帧和第二音频帧的类型均为语音帧时，还包括：

7.根据权利要求2～6任意一项所述方法，其特征在于，所述根据所述语音信息生成语音信号包括：

8.根据权利要求1～6任意一项所述方法，其特征在于，所述方法还包括：

9.一种音频采集装置，其特征在于，所述装置包括：

10.根据权利要求9所述装置，其特征在于，所述处理模块包括：

合成单元，用于在所述音频帧为语音帧时，将所述语音帧作为语音信息；根据所述语音信息生成语音信号；

所述音频帧的类型包括语音帧、环境音帧和无效帧；所述判定单元包括：

概率对比子单元，用于在所述参考概率大于所述音频帧的类型为环境音帧的概率；且所述参考概率大于所述音频帧的类型为无效帧的概率时，将所述音频帧判定为语音帧；或用于在所述参考概率大于预设的判定阈值，则将所述音频帧判定为语音帧；

所述提取音频信号中的音频帧包括，提取所述第一音频信号中的音频帧作为第一音频帧；并提取所述第二音频信号中，与所述第一音频帧处于同一时刻的音频帧作为第二音频帧；则所述合成单元包括：