CN113810819B

CN113810819B - 一种基于耳腔振动的静默语音采集处理方法及设备

Info

Publication number: CN113810819B
Application number: CN202111118423.XA
Authority: CN
Inventors: 刘杰; 盖鑫; 戴国忠; 田丰
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2022-06-28
Anticipated expiration: 2041-09-23
Also published as: CN113810819A

Abstract

本发明公开了一种基于耳腔振动的静默语音采集处理方法及设备。本方法为：1)静默语音采集单元持续监测佩戴者耳腔的震动信号，当震动信号的震动幅度或频率变化高于设定阈值时，该静默语音采集单元中的空气振动传感器、骨振动传感器同时开始进行信号采集，并将采集的信号发送到数据处理端；2)数据处理端接收到信号后，以设定时间长度为基本单位，将采集的连续语音信号、震动信号分别划分为若干帧，并计算每一帧的平均能量及平均频率，然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入；3)对于传统语音输入，调用端到端语音识别模型进行语音内容识别；对于静默语音输入，则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。

Description

一种基于耳腔振动的静默语音采集处理方法及设备

技术领域

本发明属于人机交互领域，涉及一种适用于多种不同的噪音环境中的静默语音输入，具体为一种基于耳腔振动的静默语音采集处理方法及设备。

背景技术

一直以来，语音输入是人机交互领域研究的关键问题之一。传统的语音输入因为对环境有较高的要求，因此它有显而易见的缺点，比如在公众场合因为隐私问题而不方便使用正常音量的语音进行文本输入以及在嘈杂的环境中使用传统的语音进行输入时文本识别效果不佳等。所以传统的语音输入只适合在相对安静(无杂音)且私密的环境下使用，这完全不能满足用户在多种不同的噪音环境中进行语音输入的需求。目前，为了避免采集到用户语音输入时周围的各种环境杂音，已经出现了基于骨传导的语音采集方法，这些方法尽管在一定程度上不会采集环境噪音，但因为采集信号源头仍然为高分贝的传统语音输入，所以这些方法采集的语音准确性受到用户发音准确性的影响较大。而基于耳腔的低分贝的静默语音采集及识别目前仍未有相关技术及研究。

发明内容

为了克服现有技术的不足,本发明提供一种基于耳腔振动的静默语音采集处理方法及设备。可采集人在轻声默读、默念时语音输入采集的信号源头为静默语音，基于耳机中的振动传感器来匹配用户因发出目标静默语音而带来的肌肉运动，从而识别目标静默语音。

本发明将语音输入采集的信号源为低分贝的静默语音，克服了传统的语音输入对环境有较高要求的不足，同时也避免了语音输入时因环境及他人产生的干扰问题。基于耳机中的振动传感器来匹配用户因发出低分贝静默语音时而带来的耳腔内的空气振动及耳腔内的骨传导振动，从而实现静默语音的耳腔空气振动及耳腔内的骨振动的采集。由于振动传感器对周围空气介质中的振动不敏感，而只对人体组织的振动敏感，所以本发明具有较为优良的抗环境噪声的能力。

本发明解决其技术问题所采用的技术方案是：系统将静默语音作为文本输入通道，用户发出低分贝的静默语音时，会产生具体的肌肉运动形态(即针对每个词产生对应的肌肉振动频率)，所以静默语音以振动的形式产生信号源，信号源由口腔、脑腔传递至耳腔，再通过耳膜振动所导致的耳腔空气振动、耳腔内的骨振动传导到到内耳中的耳机，耳机中的振动传感器识别产生的肌肉振动频率，从而得到用户输入的目标静默语音。

本发明的技术方案为：

一种基于耳腔振动的静默语音采集处理方法，其步骤包括：

1)静默语音采集单元持续监测佩戴者耳腔的震动信号，当震动信号的震动幅度或频率变化高于设定阈值时，该静默语音采集单元中的空气振动传感器、骨振动传感器同时开始进行信号采集，并将采集的信号发送到数据处理端；其中，该静默语音采集单元佩戴于用户耳腔中；

2)数据处理端接收到信号后，以设定时间长度为基本单位，将采集的连续语音信号、震动信号分别划分为若干帧，并计算每一帧的平均能量及平均频率，然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入；

3)对于传统语音输入，调用端到端语音识别模型进行语音内容识别；对于静默语音输入，

则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。

进一步的，通过信号的幅值及频率计算每一帧的平均能量及平均频率。

进一步的，所述静默语音采集单元以低功耗模式持续监测震动信号。

进一步的，通过蓝牙通信将采集到的信息发送到所述数据处理端。

进一步的，当震动信号的震动幅度或频率变化高于设定阈值时，该静默语音采集单元发送激活信号给空气振动传感器、骨振动传感器，对其进行激活；然后空气振动传感器、骨振动传感器采集同时开始进行信号采集。

一种静默语音采集处理设备，其特征在于，包括静默语音采集单元和数据处理端；其中，静默语音采集单元包括骨振动传感器、空气振动传感器；

该静默语音采集单元佩戴于用户耳腔中，用于持续监测佩戴者耳腔的震动信号，当震动信号的震动幅度或频率变化高于设定阈值时，激活空气振动传感器、骨振动传感器同时开始进行信号采集，并将采集的信号发送到数据处理端；

数据处理端，用于以设定时间长度为基本单位，将采集的连续语音信号、震动信号分别划分为若干帧，并计算每一帧的平均能量及平均频率，然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入；对于传统语音输入，调用端到端语音识别模型进行语音内容识别；对于静默语音输入，则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。

本发明的优点和有益效果如下：

1)基于耳腔振动的静默语音采集方法可以支持低分贝的静默语音及高分贝的传统语音输入，在保持语音输入自然性的同时提高输入的效率。

2)基于耳腔振动的静默语音采集方法适用于多种不同的噪音环境，具有更优良的抗环境噪声的能力。本输入方法克服了传统的语音输入对环境有较高要求的不足，避免了因为环境噪音干扰所导致的识别结果不准确的问题。

3)低分贝的静默语音输入方法适合于在开会等不适合出声也不方便长时间利用手指进行输入的场合，具有非常好的隐秘性。

附图说明

图1是本发明用户发声后的采集原理图。

图2是本发明对采集到的语音信号的处理过程。

具体实施方式

为了使本技术领域的人员更好的理解本发明，下面结合附图和实施方式对本发明作进一步的详细说明。

一种基于耳腔振动的静默语音采集方法(如图1和图2所示)，其步骤为：

1)用户由喉部产生语音输入振动，产生的肌肉振动作为信号源，振动通口腔、脑腔传递到耳腔。

2)一般情况下，静默语音采集设备处于休眠状态，采集设备以低功耗模式持续监测震动信号，当震动信号的震动幅度、频率变化高于一定的阈值时，静默语音采集设备中集成的空气振动传感器、骨振动传感器同时激活达到被唤醒的状态，分别进行耳腔内空气中语音信号、肌肉震动及骨震动的信号采集，并通过蓝牙通信将采集到的信息发送到数据处理端，如手机。其中，空气振动传感器采集了耳腔内空气中语音信号，骨振动传感器采集了肌肉振动及骨振动的信号。

3)数据处理端接收到语音信号后，以一定时间长度为基本单位，将连续语音、震动信号分别划分为若干帧，通过信号的幅值及频率逐帧计算其单帧的平均能量及平均频率，根据能量阈值判断用户嘴部发生振动是传统语音输入或静默语音输入。

4)调用不同的处理方法，对传统语音输入或静默语音输入进行信号处理及识别。对于传统语音输入，调用基于神经网络训练的端到端语音识别模型进行识别。对于静默语音输入，则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变换和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于耳腔振动的静默语音采集处理方法，其步骤包括：

3)对于传统语音输入，调用端到端语音识别模型进行语音内容识别；对于静默语音输入，则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。

2.如权利要求1所述的方法，其特征在于，通过信号的幅值及频率计算每一帧的平均能量及平均频率。

3.如权利要求1或2所述的方法，其特征在于，所述静默语音采集单元以低功耗模式持续监测震动信号。

4.如权利要求1或2所述的方法，其特征在于，通过蓝牙通信将采集到的信息发送到所述数据处理端。

5.如权利要求1或2所述的方法，其特征在于，当震动信号的震动幅度或频率变化高于设定阈值时，该静默语音采集单元发送激活信号给空气振动传感器、骨振动传感器，对其进行激活；然后空气振动传感器、骨振动传感器采集同时开始进行信号采集。

6.一种静默语音采集处理设备，其特征在于，包括静默语音采集单元和数据处理端；其中，静默语音采集单元包括骨振动传感器、空气振动传感器；

7.如权利要求6所述的静默语音采集处理设备，其特征在于，所述数据处理端通过信号的幅值及频率计算每一帧的平均能量及平均频率。

8.如权利要求6所述的静默语音采集处理设备，其特征在于，所述静默语音采集单元以低功耗模式持续监测震动信号。

9.如权利要求6所述的静默语音采集处理设备，其特征在于，所述骨振动传感器、空气振动传感器分别通过蓝牙通信将采集到的信息发送到所述数据处理端。