CN111681636B

CN111681636B - 基于脑机接口技术语音生成方法及医疗系统和终端

Info

Publication number: CN111681636B
Application number: CN202010550033.9A
Authority: CN
Inventors: 郑敏; 黄小玲
Original assignee: Shenzhen Huachuang Technology Co ltd
Current assignee: Shenzhen Huachuang Technology Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2022-02-18
Anticipated expiration: 2040-06-16
Also published as: CN111681636A

Abstract

本发明提供了基于脑机接口技术语音生成方法及医疗系统和终端。语音生成方法包括采集反映大脑活动信息的脑电信号、外界的音频信号和视频图像信号，经过特征提取后，通过多个神经网络的非线性计算和学习，加上外界的上下文语境信息和反馈输入，从大脑信号中直接解码出大脑所表达的意图和语言内容，最后通过对抗神经网络完成语音生成，实现脑机接口技术的语音生成。本发明的方法将大脑活动转化成声音，实现脑机接口技术的语音生成，满足失去语言能力的患者实现说话的需求。

Description

基于脑机接口技术语音生成方法及医疗系统和终端

技术领域

本发明涉及智慧医疗与人工智能技术领域，具体地，涉及基于脑机接口技术语音生成方法及医疗系统和终端。

背景技术

脑卒中如今已成为中老年人身体健康的最大威胁之一，其中，有30％以上的人患有语言障碍，脑卒中患者的语言障碍使得他们无法表达自己的意图，给患者的治疗与生活带来巨大的困难。因此，如果能够实现让这样的患者进行语言表达，将是社会的一大福音。

发明内容

为了解决上述问题，本公开提供了一种基于脑机接口技术的语音生成方法，包括以下步骤：

步骤S1：通过多种信号采集设备分别采集脑电信号、外界环境中的音频信号和视频图像信号，得到多个对应的多个维度的信号x_n(t)、y_m(t)、z_k(t)；

步骤S2：对所述脑电信号、所述音频信号和所述视频图像信号x_n(t)、y_m(t)、z_k(t)分别进行特征提取处理，所述脑电信号的特征提取得到脑电特征向量F_n(n)，所述音频信号的特征提取得到音频特征向量F_m(n)，所述视频图像信号的特征提取得到图像特征向量F_k(n)；

步骤S3：将所述脑电特征向量F_n(n)、所述音频特征向量F_m(n)和所述图像特征向量F_k(n)拼接成完整的固定维度的高层次抽象特征向量F(n)；

步骤S4：通过分层结构的神经网络(CNN-FCN)在局部和全局两个角度上对所述特征向量F(n)进行高层次的特征提取，得到提取的特征向量；

步骤S5：通过Bi-LSTM网络对步骤S4提取的高层次抽象特征向量进行处理，得到音节与拼音序列，其中，所述Bi-LSTM网络具有正向输入和反向输入；

步骤S6：将所述音节和拼音序列输入到机器翻译网络(transformer)，进行输入序列到输出序列的转换，以进行脑电信号的意图解析和语言文本表达；

步骤S7：生成语音信号，通过基于生成对抗网络(GAN,GenerativeAdversarialNetwork)的文本语音转换模型，通过步骤S6输出的意图解析和语言文本信息生成语音波形信号，实现脑机接口的语音生成；

其中，所述正向输入包括脑机生成语音的声音信号、外界环境中的音频信号、视频图像信息以及伴随的大脑活动信号的脑电信号经特征提取得到的特征向量，所述反向输入包括患者在听到自己脑机生成语音后的反馈输入信息和外界倾听者听到脑机生成语音后被捕捉的音频信号和图像信号。

在上述语音生成方法中，其中，所述脑电信号由非侵入式方式的多个电极实时采集，所述音频信号由麦克风阵列实时采集，所述视频图像信号由多个分散放置的摄像头实时捕捉。

本发明还提供了一种基于脑机接口技术进行语音生成的医疗系统，包括：

无创感知模块，是一种装有电极的头戴式设备，所述无创感知模块包括两个部分，第一部分是脑电信号感知单元，第二部分是外界音频和图像感知单元；

特征提取模块，配置为对脑电信号特征向量和音频与图像信息的特征向量进行拼接，经过分层的深度卷积神经网络和全连接神经网络(CNN-FCN)提取高层次抽象特征信息；

反馈信息模块，配置作为上下文语境信息和错误纠正单元，利用患者在听到脑机生成的语音后的反馈输入信息对模型预测进行矫正和纠错；

信号解释与识别模块，配置为将高层次抽象的特征向量输入到双向长短时记忆网络(Bi-LSTM)中，经过多层非线性表达解码成音节与拼音序列信息；

意图识别与语言组织模块，配置为将所述音节或拼音序列信息加上语言模型和反馈信息模块的内容，经过基于注意力机制的机器翻译网络进行解码以识别患者的表达意图和其对应的语言表达结果，实现脑电转文本的过程；

语音生成模块，配置为利用生成式对抗神经网络(GAN)对所述语言表达结果进行对抗学习与训练，输出语音声波，实现语音的生成。

在上述医疗系统中，还包括：语音播报模块，配置为将脑机接口生成的语音通过扬声器播放出来。

本公开还提供了一种终端，包括：至少一个存储器和至少一个处理器；其中，所述至少一个存储器用于存储程序代码，所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行上述语音生成方法。

本公开还提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述语音生成方法。

采用上述技术方案，至少能够达到如下技术效果：

本发明公开的一种基于脑机接口技术的语音生成方法及医疗系统，患者只需要集中思考“想要说的话”，其脑电波信号会被脑电传感器模块实时收到，加上上下文语境信息和视觉信息输入，通过神经网络转换成患者意图并直接生成语音内容，实现说话表达的能力。相比其他在被限定的词语范围内选择指定的语句或单词，该方法及医疗系统解决了脑卒中说话有障碍的问题，同时也让他们能够实现随意说，获得跟平常人一样的说话能力；除此之外还有一个益处是，通过上下文语境信息和视觉信息，能更准确识别患者意图和纠正表达内容，提升识别准确率。在文字到语音生成上，利用对抗学习的方法实现文本到声音的转换，采用通用多种音色给患者选择，不用根据每个患者进行训练音色，具有更好的普适性和通用性。另外，在体验上，该医疗系统为患者提供头戴式设备，患者只需要带上装有脑电传感器模块的帽子或发带，这种非侵入式的医疗系统具有很好的安全性和便利性。

附图说明

图1示出了根据本公开的一示例性实施例的一种基于脑机接口技术的语音生成方法的流程图。

图2示出了根据本公开的一示例性实施例示的一种基于脑机接口技术的语音生成方法的结构框图。

图3示出了根据本公开的一示例性实施例的一种基于脑机接口技术进行语音生成的医疗系统框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的医疗系统和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着人工智能语音技术和脑机接口技术的不断发展，利用大脑电位信号的分析实现患者语言意图的识别、再结合脑电信号与发声器官的联系，直接实现语音生成，完成患者语言的语音表达输出，让有发声或语言障碍的人重新获得自由说出心声的能力，改善患者的语言沟通能力具有重要的意义。

如图1所示，本发明公开了一种基于脑机接口技术的语音生成方法，可以包括以下多个步骤：

S1：多维度信号采集：通过多种信号采集设备分别采集脑电信号、外界环境中的音频信号和视频图像信号，输出多个对应的多个维度的信号x_n(t)、y_m(t)、z_k(t)。在一些实施例中，脑电信号被非侵入式方式的多个电极实时采集，记录脑部大量神经元活动随时间的变化信息的脑电信号，反应大脑组织的电活动及大脑的功能状态，采集和记录脑电信号包括但不限于采集和记录腹侧感觉运动皮质、颞上回、额下回等多个脑区域表层在患者大声朗读、不出声地说话或倾听别人说话时等不同场景下的连续脑电信号，输出多个不同区域的脑电信号x_n(t)。在一些实施例中，通过麦克风阵列实时拾取患者和外界的音频信号，该音频信号与脑电信号和视频图像信号一起作为输入信号进行特征提取，同时也作为反馈输入信号，经过特征提取后输入到机器翻译网络中，辅助文本表达识别，所述音频信号为y_m(t)。在一些实施例中，通过多个分散放置的摄像头实时捕捉外界环境的图像信号，该视频图像信号与脑电信号和音频信号一起作为输入信号进行特征提取，同时也作为反馈输入信号，经过特征提取后输入到机器翻译网络中，辅助文本表达识别，所述视频图像信号为z_k(t)。在一些实施例中，捕捉的外界环境的图像信号可以包括周围的环境的图像、听话人的表情图像、听话人的嘴唇变化图像等。通过对这些图像信号进行分析，可以帮助判断生成的语音是否正确。例如，当生成的语音是描绘周围的景色时，如果与捕捉的图像中的景色差别太大，则可能生成的语音存在误差。又例如，通过分析生成的语音信息与倾听人的表情反应或嘴唇的动作，可以得知听话人在听到生成的语音信息后的反应，这有助于对生成的语音信息进行检验，对生成的语音进行纠错，进而提高生成语音信息的准确度和精确度。

S2：将采集脑电信号、音频信号和视频图像信号x_n(t)、y_m(t)、z_k(t)分别对应进行特征提取处理。在一些实施例中，对脑电信号进行特征提取包括但不限于提取各电极信号的高γ包络、低频分量特征和电极间的协方差特征，所述电极间的协方差特征的作用，不仅在于利用电极的联合可变性来降低维度，还在于对电极之间的关系和依赖在整个时间区间进行建模。电极间的互协方差(CCV)是一个正的半定矩阵，定义了两个电极c1和c2之间的CCV计算公式如下，所述脑电信号特征提取形成向量F_n(n)。

其中,X^c1(t)为电极c1捕捉的脑电信号，X^c2(t+τ)为电极c2捕捉的脑电信号，τ为相对于c1电极信号的时间偏移，

是X^c1(t)的均值，

是

的均值，Ε为求期望计算，所得结果CCV为两电极信号的互协方差结果。

在一些实施例中，对音频信号进行特征提取包括但不限于将音频的时域信号转变成时频域信号，即通过短时傅里叶变换生成频谱图特征作为音频特征向量输入到神经网络中，所述音频信号特征提取得到向量F_m(n)。在一些实施例中，对视频图像信号进行特征提取是对摄像头捕捉的每帧图片信号进行特征提取，包括但不限于提取代表物体检测的特征、环境色彩的特征等多个特征组成的图像特征向量F_k(n)。

S3：特征拼接：上述S2输出的分别代表不同的多维度的脑电特征向量F_n(n)、音频特征向量F_m(n)和图像特征向量F_k(n)进行拍平并拼接成一个完整的固定维度的特征向量F(n)。

S4：高层次特征提取：S3输出的特征向量F(n)经过由深度卷积神经网络(CNN)和全联接神经网络(FCN)并行组成的分层结构的神经网络(CNN-FCN)，利用CNN的局部感受野学习特性和深层FCN的全局信息非线性表示，输入的特征向量F(n)被分层结构的神经网络在局部和全局两个角度上进行更抽象高层次的特征提取。

S5：S4输出的特征向量经过由双层的双向长短时记忆循环神经网络(bidirectional long short-term memory，Bi-LSTM)组成的Bi-LSTM网络，得到音节与拼音序列。由于脑电信号、音频信号和视频图像信号都是跟时间相关的序列信号，而Bi-LSTM的强项和特点是能跟踪与时间强相关的时序信号，能更充分地表示其时序信息，Bi-LSTM网络中的每一神经元内嵌了精细的记忆门控与传递结构，保证数据能以正反两种顺序输入。在这里，BiLSTM的正向输入包括了脑机生成语音的声音信号、外界环境中音频信号、外界环境中的视频图像信息，以及伴随的大脑活动信号的脑电信号对应的特征向量，反向输入包括了未来的信息，即患者在听到自己脑机生成语音后的反馈输入信息(大脑活动信号和手动反馈输入)和外界倾听者听到脑机生成语音后的反应(包括音频信号和图像信号)，在此步骤中利用BiLSTM对上下文信息跟踪和学习的特点，能更加准确解码识别脑电信号关联的声学信息。

S6：脑电信号的意图解析和语言文本表达：音节和拼音序列输入到机器翻译网络(Transformer)，同时在机器翻译网络上再输入通用的语言模型作为先验知识，同时在解码阶段输入了S2中音频信号特征向量F_m(n)和图像信号特征向量F_m(n)，通过对机器翻译网络进行充分的训练，神经网络输出的脑电信号的意图解析和语言文本表达解码能以很高相似度表达患者实际想要表达的意图。所述脑电信号的意图解析和语言文本表达过程主要是利用机器翻译神经网络实现输入序列到输出序列的转换，所述机器翻译神经网络是由一个编码器块和一个解码器块组成，其实际上是分别由相互堆叠在一起的多个相同的编码器和解码器构成，编码器堆栈和解码器堆栈要求相同数量的单元，每个编码器和解码器都是有前馈神经网络和自注意力模型构成。通过机器翻译神经网络的非线性计算的复杂结构和上下文信息学习进行预测患者的意图和组织成要表达的语言文本序列；另一方面，人的大脑每天进行着复杂的思维活动，其语言表达和意图有时是自发的，也有跟外界听到的声音和看到的事物有关，是一个多模态感知混合决策的过程，因此，在本发明公开的方法中，也强调用外界的音频和视频图像信号等多模态信息输入到机器翻译网络中进行学习和综合决策，实现对预测结果进行纠正，提高识别的准确率。

S7：语音信号生成：通过基于生成对抗网络(GAN,Generative AdversarialNetwork)的文本语音转换模型，将S6输出的意图解析结果和语言文本信息生成语音波形信号，实现脑机接口的语音生成，使患者实现想表达语言的发声能力。所述生成对抗网络是生成器和判别器组成，生成器是使用卷积神经网络的前馈神经网络组成，生成器的输入是S6输出的意图解析结果和语言文本信息，输出是语音波形图，在产生原始语音的时候，使用空洞卷积去保证生成器的感知野足够大，使得能够捕捉长时期的属性，在最后的卷积层采用Tanh激活函数，来生成一个单通道的语音波形图。判别器采用多频率随机窗口判别器集成的方式，使用不同大小的随机窗口对真实和生成样本的随机子采样片段进行操作，可以让神经网络学习和捕捉到语言文本信息特征，同时学习文本内容间的自然连接和停顿，以保证生成的语音有更好的清晰度和更加真实。

在本公开中，通过先将脑电波等信息转换成文本信息，然后将文本信息转换成语音信息，使得该方案的适应度更广，避免了由脑电波直接转换成语音信号所需的大量的训练过程。

另外，本发明中通过利用反向输入进行纠错，能够提高生成的语音的准确度。例如，假设在家庭客厅看电视的场景下，患者家属在聊天，谈论现在看到这个电视节目，带有麦克风或麦克风阵列的脑点感知模块能拾取旁边说话人的声音，并进行实时识别，另外摄像头也会捕捉到当前的客厅场景、正在看的电视节目信息和说话人的脸部表情，患者这时如果想表达“这个电视剧剧情编排的不错，主角都很有名”，这时患者的脑部活动信息由电极装置实时捕获跟踪，将患者想表达的思想转化成语音播放出来，当在BiLSTM的输出结果中是“zhe ge dian shi ju ju qing bian pai de bu cuo，zhu jue dou hen you ming”，这时在Transformer的输出可能有很多种表达方式，如“这歌电视局巨擎匾牌得不错，主角都很有名”、“这个电视剧巨青编派得补错，主角逗恨又明”等多种表达结果，但由于本发明中使用了音频信号和图像信号作为反馈输入，根据语音和图像信息对当前场景的补充信息，使得神经网络能学习到这种场景信息，能在Transformer阶段预测时将意图跟场景进行匹配，把表达纠正为患者想表达的内容“这个电视剧剧情编排的不错，主角都很有名”，提高脑机接口技术的语音生成的准确率，满足患者说话的需求。另外作为优选的，患者在听到发出的语音时，可以根据是否符合患者意愿的表达做出反应，其反应作为医疗系统的反馈输入，可以纠正表达内容的识别结果。

本发明还公开了一种基于脑机接口技术进行语音生成的医疗系统，所述医疗系统包括无创感知模块、特征提取模块、反馈输入模块、信号解释与识别模块、意图识别与语言组织模块、语音生成模块和语音播报模块。

无创感知模块是一种装有电极的头戴式设备，采用非侵入式方式的电子设备，患者只需要带上分布着脑电传感器的帽子或发带，无需患者开颅植入大脑中，安全且便利。所述感知模块包括两个部分，一部分是脑电信号感知单元，另一部分是外界音频和图像感知单元。

特征提取模块主要包括脑电信号的特征和音频与图像信息的特征提取单元，其主要是将脑电信号特征向量和音频与图像信息的特征向量进行拼接，经过分层的深度卷积神经网络和全连接神经网络(CNN-FCN)提取高层次抽象特征信息。

反馈信息模块是一个上下文语境信息和错误纠正单元，包括患者在听到自己脑机生成语音后的反馈输入信息(大脑活动信号和手动反馈输入)，以便对模型预测进行矫正，让模型个性化自适应和更容易理解患者意图和更准确表达患者想说的语音。所述反馈包括：如患者在听到输出的语音后停止注视,此反应是对医疗系统输出结果的反馈。此外，反馈信息模块也包括但不限于对方听到脑机生成语音的反应等，如对所处使用环境的输入反馈。

所述信号解释与识别模块将高层次抽象的特征向量输入到双向长短时记忆网络(Bi-LSTM)中，经过多层非线性表达解码成音节与拼音序列信息。

所述意图识别与语言组织模块将上一个模块输出的音节或拼音特征序列，加上语言模型和反馈信息模块的内容，经过基于注意力机制的机器翻译网络进行解码识别患者的表达意图和其对应的语言表达结果，实现脑电转文本的过程。

所述语音生成模块将前一个模块输出的语言表达结果利用生成式对抗神经网络(GAN)进行对抗学习与训练，输出语音声波，实现语音生成的过程。所述语音播报模块将脑机接口生成的语音通过扬声器播放出来，包括功放单元和喇叭单元，代替患者将想说的话播报出来，实现了患者说话的功能和目的。

本领域技术人员应理解，以上实施例仅是示例性实施例，在不背离本申请的精神和范围的情况下，可以进行多种变化、替换以及改变。

Claims

1.一种基于脑机接口技术的语音生成方法，包括以下步骤：

步骤S3：将所述脑电特征向量F_n(n)、所述音频特征向量F_m(n)和所述图像特征向量F_k(n)拼接成完整的固定维度的特征向量F(n)；

步骤S4：通过由深度卷积神经网络和全联接神经网络并行组成的分层结构的神经网络在局部和全局两个角度上对所述特征向量F(n)进行高层次的特征提取，得到提取的高层次抽象特征向量；

步骤S5：通过双向长短时记忆网络对步骤S4提取的高层次抽象特征向量进行处理，得到音节与拼音序列，其中，所述双向长短时记忆网络具有正向输入和反向输入；

步骤S6：将所述音节与拼音序列输入到机器翻译网络，进行输入序列到输出序列的转换，以进行脑电信号的意图解析和语言文本表达；

步骤S7：生成语音信号，通过基于生成对抗网络的文本语音转换模型，通过步骤S6输出的意图解析和语言文本表达生成语音波形信号，实现脑机接口的语音生成；

其中，所述正向输入包括脑机生成语音的声音信号、外界环境中的音频信号、视频图像信号以及伴随的大脑活动信号的脑电信号经特征提取得到的特征向量，所述反向输入包括患者在听到自己脑机生成语音后的反馈输入信息和外界倾听者听到脑机生成语音后被捕捉的音频信号和视频图像信号。

2.根据权利要求1所述的语音生成方法，其中，所述脑电信号由非侵入式方式的多个电极实时采集，所述音频信号由麦克风阵列实时采集，所述视频图像信号由多个分散放置的摄像头实时捕捉。

3.一种基于脑机接口技术进行语音生成的医疗系统，包括：

特征提取模块，配置为对脑电信号特征向量和音频与视频图像信号的特征向量进行拼接，经过由深度卷积神经网络和全联接神经网络并行组成的分层结构的神经网络提取高层次抽象特征向量；

信号解释与识别模块，配置为将高层次抽象特征向量输入到双向长短时记忆网络中，经过多层非线性表达解码成音节与拼音序列；

意图识别与语言组织模块，配置为将所述音节与拼音序列加上语言模型和反馈信息模块的内容，经过基于注意力机制的机器翻译网络进行解码以识别患者的表达意图和其对应的语言文本表达结果，实现脑电转文本的过程；

语音生成模块，配置为利用生成对抗网络对所述语言文本表达结果进行对抗学习与训练，输出语音声波，实现语音的生成。

4.根据权利要求3所述的医疗系统，还包括：

语音播报模块，配置为将脑机接口生成的语音通过扬声器播放出来。

5.一种终端，包括：

至少一个存储器和至少一个处理器；

其中，所述至少一个存储器用于存储程序代码，所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行权利要求1或2所述的语音生成方法。

6.一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1或2所述的语音生成方法。