CN110956949B

CN110956949B - 一种口含式缄默通信方法与系统

Info

Publication number: CN110956949B
Application number: CN201911018967.1A
Authority: CN
Inventors: 闫野; 赵涛; 印二威; 鲁金朋; 谢良; 邓宝松
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-10-04
Anticipated expiration: 2039-10-24
Also published as: CN110956949A

Abstract

本申请公开了一种口含式缄默通信方法与系统，包括：采集口内第一信号和口内第二信号；根据所述口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息；使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息；使用语音信息合成语音。通过采集口内第一信号和口内第二信号，根据口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息，能够减少背景噪音干扰、保密性能高，且无创伤；使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，使用语音信息合成语音，学习成本低、使用方便且舒适度高。

Description

一种口含式缄默通信方法与系统

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种口含式缄默通信方法与系统。

背景技术

虽然基于声学信号分析的语音识别技术已经发展得较为成熟了，但是也存在一些技术限制场景。比如，在嘈杂的环境中，不可能准确的将语音信号与背景噪声完全分开。另一方面，在需要保持静音或者保护隐私时，不可能使用语音通信，如在军事指挥作战中或人对机器发出的指令中一般是要保密的。因此，缄默通信具有非常重要的意义。

缄默通信对于后天病理性发音障碍的人群也有着重要意义，他们无法正常发音，但他们的舌、齿、唇等组织及声道本身并未受损，这些失声患者迫切需要一种能够帮助他们发声的系统。虽然有研究者研制出电子喉以帮助患者恢复语言功能，但有明显的缺陷，需要手术植入，当患者想说出一句较长的话时，需要不断的换气，并且有较大的学习成本，给患者带来使用上的不便。另一方面，在1988年Nakamura,Hiroyuki的论文中，使用唇部图像进行简单的孤立词识别。然而此方法需要使用外部设备进行识别，使用不方便。在无声语音识别方面，2005年戴立梅等用5个通道的肌电信号识别10个汉语数0～9获得了85％的识别率，电极越多,提供有关发音的肌电信号的时空信息就越多,越有利于肌电信号的识别，研究者多采用3个通道以上的肌电采集电路，但由于电极贴在面部和喉部,常常给实验对象带来不舒适的感觉，电极越多,不舒适的感觉越强烈。

综上所述，需要提供一种能够减少背景噪音干扰、具有保密功能、无创伤、学习成本低、使用方便且舒适度高的通信方法与系统。

发明内容

为解决以上问题，本申请提出了一种口含式缄默通信方法与系统。

一方面，本申请提出一种口含式缄默通信方法，包括：

采集口内第一信号和口内第二信号；

根据所述口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息；

使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息；

使用语音信息合成语音。

优选地，所述使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，包括：

对振动特征信息进行处理，提取特征，得到第一特征；

提取形态位置信息的特征，得到第二特征；

将第一特征和第二特征进行融合后，输入至双向长短期记忆神经网络进行识别；

得到语音信息。

优选地，所述对振动特征信息进行处理，提取特征，得到第一特征，包括：

使用加窗分帧对振动特征信息进行处理；

对处理后的振动特征信息进行频域变换；

对进行频域变换后的振动特征信息进行特征提取，得到第一特征。

优选地，所述根据所述口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息，包括：

对口内第一信号进行滤波和信号放大，得到振动特征信息；

对口内第二信号进行滤波和信号放大，得到形态位置信息。

优选地，在所述采集口内第一信号和口内第二信号之前，还包括：

采集训练第一信号和训练第二信号；

根据所述训练第一信号确定振动特征训练信息，根据所述训练第二信号确定形态位置训练信息；

使用振动特征训练信息、形态位置训练信息和标签信号训练双向长短期记忆神经网络；

将训练好的双向长短期记忆神经网络作为语音预测模型。

优选地，所述口内第一信号包括声带振动特征信号，通过多个拾音器获取。

优选地，所述口内第二信号包括舌部组织的位置和形态变化信号，通过多个惯性测量单元获取。

优选地，在所述使用语音信息合成语音之后，还包括：

播放语音。

第二方面，本申请提出一种口含式缄默通信系统，包括：

拾音器模块，用于采集口内第一信号，根据所述口内第一信号确定振动特征信息；

惯性测量模块，用于采集口内第二信号，根据所述口内第二信号确定形态位置信息；

处理模块，用于使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息；

通信模块，用于发送语音信息至接收模块；

接收模块，用于使用语音信息合成语音，接入放音设备，播放语音。

第三方面，本申请提出一种口含式缄默通信系统，包括：

处理模块，用于使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，使用语音信息合成语音；

通信模块，用于发送语音至接收模块；

接收模块，用于接入放音设备，播放接收到的语音。

本申请的优点在于：通过采集口内第一信号和口内第二信号，根据口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息，能够减少背景噪音干扰、保密性能高，且无创伤；使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，使用语音信息合成语音，学习成本低、使用方便且舒适度高。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种口含式缄默通信方法的步骤示意图；

图2是本申请提供的一种口含式缄默通信系统的示意图；

图3是本申请提供的一种口含式缄默通信系统的应用场景示意图

图4是本申请提供的一种口含式缄默通信系统的通信流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种口含式缄默通信方法，如图1所示，包括：

S101，采集口内第一信号和口内第二信号；

S102，根据口内第一信号确定振动特征信息，根据口内第二信号确定形态位置信息；

S103，使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息；

S104，使用语音信息合成语音。

使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，包括：

对振动特征信息进行处理，提取特征，得到第一特征；

提取形态位置信息的特征，得到第二特征；

得到语音信息。

对振动特征信息进行处理，提取特征，得到第一特征，包括：

使用加窗分帧对振动特征信息进行处理；

对处理后的振动特征信息进行频域变换；

根据所述口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息，包括：

对口内第一信号进行滤波和信号放大，得到振动特征信息；

对口内第二信号进行滤波和信号放大，得到形态位置信息。

在采集口内第一信号和口内第二信号之前，还包括：

采集训练第一信号和训练第二信号；

将训练好的双向长短期记忆神经网络作为语音预测模型。

口内第一信号包括声带振动特征信号，通过多个拾音器获取。

口内第二信号包括舌部组织的位置和形态变化信号，通过多个惯性测量单元获取。

在使用语音信息合成语音之后，还包括：

播放语音。

提取形态位置信息的特征，得到第二特征，具体地，可以提取形态位置信息的绝对平均值(Mean Absolute Value，MAV)、方差(Variance)和/或均方根(Root Mean Square，RMS)等特征，得到第二特征。

对处理后的振动特征信息进行频域变换，包括傅里叶变换、短时傅里叶变换等各种将时域信息变为频域信息的变换。

本申请的实施方式通过采口内拾音器采集到的声带振动特征信号与惯性测量单元采集到的舌部组织的位置和形态变化信号重建出语音，用户在进行语音表达的过程中无需发声也可以进行重建，从而满足了一些特定场景下的信息沟通需求。

下面，结合语音预测模型的训练过程对本发明实施例进行进一步说明。

对于形态位置信息，可以提取形态位置信息的绝对平均值(Mean AbsoluteValue，MAV)、方差(Variance)和/或均方根(Root Mean S_quare，RMS)等特征，得到训练用第二特征，因为它的数值所代表的是所需的形态位置变化信息；而针对振动特征信息，首先对其进行加窗分帧，进行短时傅立叶变换提取梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCCs)特征，得到训练用第一特征。而后将训练用第一特征、训练用第二特征和说话内容的标签信号输入双向长短期记忆(Bi-directionalLong Short-TermMemory，BLSTM)神经网络中进行训练学习。

具体过程如下：

将进行训练的输入序列标记为x，把x分割成从τ₀到τ_t的时间序列；

x^<t>表示t时刻的输入向量，a^<t>是t时刻的激活值，y^<t>是说话内容的标签值序列，

是t时刻训练后的输出值，

为记忆神经元(Cells)的候选值，c^<t>为输出状态值；

长短期记忆(Long Short-Term Memory，LSTM)方程仅针对单个记忆神经元，可以任何顺序重复每个记忆神经元的计算，在每个记忆神经元中，可以使用后缀f，u，o分别表示遗忘门、更新门和输出门。

正向传递：

将初始激活值a^<0>置为0；输入序列x从τ₀运行到τ_t，并更新激活值，在每个时间步将所有隐含层和输出层激活值存储。

将序列的所有输入数据(所有x^<t>)送到双向长短期记忆神经网络并确定所有预测输出。

对于每个长短期记忆的记忆神经元，激活更新如下：

遗忘门：

其中，W_f是控制遗忘门的权值矩阵，b_f是其偏置，σ是sigmoid函数。

更新门：

其中，W_u是控制更新门的权值矩阵，b_u是其偏置。

记忆神经元：

其中，W_c是控制记忆单元的权值矩阵，b_c是其偏置，tanh是函数。

输出门：

其中，W_o是控制输出门的权值矩阵，b_o是其偏置。

反向传递：

计算用于正向传递的序列的误差函数导数。

对输出神经元进行反向传递。

使用用于softmax输出层的标准基于时间的反向传播算法(Back PropagationTrough Time，BPTT)方程和交叉熵误差函数，通过展开的网络将输出误差向后传播(反向传递)。

定义单个样本损失(误差)函数为：

其中，k为输出单元个数。

所有m个样本数的损失函数为：

根据梯度下降，反向传播方程如下：

各个权重矩阵的偏导如下：

权值更新：

在序列呈现后，利用学习速率α和梯度下降的标准等式更新所有权重：

本发明实施例中，语音预测模型为3层BLSTM，再利用上述处理后的形态位置信息和振动特征信息，得到语音预测模型，用于实际运用中的声学表示特征(语音信息)预测，语音预测模型中包含有第一特征和第二特征与语音信息之间的对应关系。

根据本申请的实施方式，还提出一种口含式缄默通信系统，如图2所示，包括：

拾音器模块101，用于采集口内第一信号，根据所述口内第一信号确定振动特征信息；

惯性测量模块102，用于采集口内第二信号，根据所述口内第二信号确定形态位置信息；

处理模块103，用于使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息；

通信模块104，用于发送语音信息至接收模块；

接收模块105，用于使用语音信息合成语音，接入放音设备，播放语音。

拾音器模块，包括多个拾音器单元，耦合到口含式缄默通信系统，以捕获口内气流振动信息经处理后传入处理模块。

惯性测量模块，包括多个惯性测量单元。

处理模块可以分为两个工作模式，一个训练模式，另外一个是使用模式。

在训练模式下，采集的口内第一信号和口内第二信号用于训练语音预测模型。

在使用模式下，采集的口内第一信号和口内第二信号用于识别其表示的语音信息。

处理模块的模式可以根据需要进行切换。

通信模块可以使用蓝牙、WIFI、4G、5G等无线方式，将语音信息发送至接收模块。

放音设备包括：使用有线和/或无线连接的耳机、音箱等放音设备。

本申请的实施方式还包括电源模块，用于给拾音器模块、惯性测量模块、处理模块以及通信模块供电。

本申请的实施方式还可以包括无线耳机，用于接收提示音。

提示音包括：语音提示和/或响铃提示。

通信模块还能够发送提示音至无线耳机。

在本申请的另一种实施方式中，还可以包括振动模块，用于提示用户。

可以使用处理模块或通信模块将当前状态信息发送至振动模块，振动模块通过振动时间和/或振动强度，对用户进行提示。

如图3所示，为本申请实施方式的应用场景示意图，将包括拾音器模块、惯性测量模块和具有通信功能的处理芯片以及含有微型电池的供电模块集成于小球内，并固定在小球内壁，具体实施时，用户可以将小球其含在口腔内，从而进行缄默通信。

由于用户在将口含式缄默通信装置放入口内后，无法观察到口内的口含式缄默通信装置的状态，所以，可以通过佩戴无线耳机，通过无线耳机发送的提示音获取装置当前的状态。

也可以通过使用在口内振动的方式，提醒用户装置当前的状态。

可选地，还能够使用移动设备获取口含式缄默通信装置的当前状态。

通过将移动设备与通信模块进行连接，通信模块将口含式缄默通信装置的当前状态发送至移动设备进行提示。

移动设备包括：手机和平板电脑等设备。

拾音器模块和惯性测量模块中的单元数量以及在小球内放置的位置可以根据实际需要确定。

根据本申请的另一种实施方式，还提出一种口含式缄默通信系统，如图2所示，包括：

处理模块103，用于使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，使用语音信息合成语音；

通信模块104，用于发送语音至接收模块；

接收模块105，用于接入放音设备，播放接收到的语音。

惯性测量模块，包括多个惯性测量单元。

处理模块的模式可以根据需要进行切换。

通信模块可以使用蓝牙、WIFI、4G、5G等无线方式，将语音发送至接收模块。

本申请的实施方式还可以包括无线耳机，用于接收提示音。

提示音包括：语音提示和/或响铃提示。

通信模块还能够发送提示音至无线耳机。

如图3所示，为本申请实施方式的应用场景示意图，将包括采集模块(拾音器模块和惯性测量模块)和具有通信功能的处理芯片(处理与通信芯片)以及含有微型电池的供电模块集成于小球内，并固定在小球内壁，具体实施时，用户可以将小球其含在口腔内，从而进行缄默通信。

移动设备包括：手机和平板电脑等设备。

如图4所示，以与1人或多人进行通信为例，对本申请实施例的实施方式进行进一步说明。

S401、检测是否开启惯性测量模块、拾音器模块和通信模块，如果是，执行步骤S402，否则执行步骤S403。

S402、检测双方或者多方通信是否正常，如果是，执行步骤S44，如果否，执行步骤S405。

S403、提示用户开启惯性测量模块、拾音器模块和通信模块，并执行步骤S401。

具体实施时，可以通过耳机或移动设备等，接收声音提示和/或信息提示，也可以在口含装置中集成振动设备进行提示。

S404、监测用户是否开始交流，如果是，执行步骤S406，否则，继续监测。

具体实施中，可以根据是否检测到口内第一信号和/或口内第二信号等，来判断用户是否开始交流，如果检测到口内第一信号和/或口内第二信号，则可以确定用户已开始交流，否则，判定用户未开始交流。

S405、检测交流双方或者多方的通信环境，报告给用户，并执行步骤S402。

S406、根据所述口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息后，使用语音预测模型进行处理，得到语音信息。

具体地，根据检测到的口内第二信号确定舌部组织的定形态位置信，根据检测到的口内第一信号确定声带的振动特征信息，将形态位置信息和振动特征信息输入到语音预测模型中得到对应的声学表示特征信息(语音信息)。

S407、将得到的声学表示特征信息合成为语音。

具体地，可以利用已有的合成编码器，对声学表示特征信息进行编码，输出对应语音。

S408、通信模块将得到的语音传输给一个接收模块或多个接收模块。

可选地，也可以将得到的声学表示特征信息合成为语音后，通过通信模块发送给一个接收模块或多个接收模块，并通过接收模块具体接入的放音设备播放语音。

S409、判断在预设持续时长内是否检测到口内第一信号和/或口内第二信号，如果是，执行步骤S406，否则执行步骤S410。

S410、检测通信环境是否异常，如果是，则执行步骤S411，如果否，则执行步骤S412。

S411、提示用户当前通信环境异常，重复之前所说内容，并返回执行步骤S404。

具体实施时，步骤S411可以通过用户佩戴的耳机或者使用的移动设备，提醒用户当前通信环境异常。

S412、检测用户是否关闭通信模块，如果是，执行步骤S413，否则，执行步骤S414。

S413、关闭惯性测量模块和拾音器模块，提示用户退出程序，流程结束。

S414、控制程序进入休眠状态，等待唤醒，执行步骤S404。

接收模块可以为独立的硬件设备，也可以作为软件，安装或嵌入在能够接入放音设备的设备上。

本申请实施例的方法中，通过采集口内第一信号和口内第二信号，根据口内第一信号确定振动特征信息，根据所述口内第二信号确定形态位置信息，能够减少背景噪音干扰、保密性能高，且无创伤；使用语音预测模型，根据振动特征信息和形态位置信息，确定语音信息，使用语音信息合成语音，学习成本低、使用方便且舒适度高。在帮助发音困难的人群发音、解决军事机密泄露的问题、解决在公共场所保护个人隐私的问题、解决在静音条件下进行交流的问题、解决在嘈杂的环境中进行语音交流的问题以及降低音频编码率等方面都具有重大意义。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。