CN111681636B - 基于脑机接口技术语音生成方法及医疗系统和终端 - Google Patents
基于脑机接口技术语音生成方法及医疗系统和终端 Download PDFInfo
- Publication number
- CN111681636B CN111681636B CN202010550033.9A CN202010550033A CN111681636B CN 111681636 B CN111681636 B CN 111681636B CN 202010550033 A CN202010550033 A CN 202010550033A CN 111681636 B CN111681636 B CN 111681636B
- Authority
- CN
- China
- Prior art keywords
- brain
- signal
- voice
- signals
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims abstract description 29
- 210000004556 brain Anatomy 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 230000007177 brain activity Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 2
- 230000006403 short-term memory Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 208000006011 Stroke Diseases 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000011977 language disease Diseases 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007428 craniotomy Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/015—Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Dermatology (AREA)
- Neurology (AREA)
- Neurosurgery (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明提供了基于脑机接口技术语音生成方法及医疗系统和终端。语音生成方法包括采集反映大脑活动信息的脑电信号、外界的音频信号和视频图像信号,经过特征提取后,通过多个神经网络的非线性计算和学习,加上外界的上下文语境信息和反馈输入,从大脑信号中直接解码出大脑所表达的意图和语言内容,最后通过对抗神经网络完成语音生成,实现脑机接口技术的语音生成。本发明的方法将大脑活动转化成声音,实现脑机接口技术的语音生成,满足失去语言能力的患者实现说话的需求。
Description
技术领域
本发明涉及智慧医疗与人工智能技术领域,具体地,涉及基于脑机接口技术语音生成方法及医疗系统和终端。
背景技术
脑卒中如今已成为中老年人身体健康的最大威胁之一,其中,有30%以上的人患有语言障碍,脑卒中患者的语言障碍使得他们无法表达自己的意图,给患者的治疗与生活带来巨大的困难。因此,如果能够实现让这样的患者进行语言表达,将是社会的一大福音。
发明内容
为了解决上述问题,本公开提供了一种基于脑机接口技术的语音生成方法,包括以下步骤:
步骤S1:通过多种信号采集设备分别采集脑电信号、外界环境中的音频信号和视频图像信号,得到多个对应的多个维度的信号xn(t)、ym(t)、zk(t);
步骤S2:对所述脑电信号、所述音频信号和所述视频图像信号xn(t)、ym(t)、zk(t)分别进行特征提取处理,所述脑电信号的特征提取得到脑电特征向量Fn(n),所述音频信号的特征提取得到音频特征向量Fm(n),所述视频图像信号的特征提取得到图像特征向量Fk(n);
步骤S3:将所述脑电特征向量Fn(n)、所述音频特征向量Fm(n)和所述图像特征向量Fk(n)拼接成完整的固定维度的高层次抽象特征向量F(n);
步骤S4:通过分层结构的神经网络(CNN-FCN)在局部和全局两个角度上对所述特征向量F(n)进行高层次的特征提取,得到提取的特征向量;
步骤S5:通过Bi-LSTM网络对步骤S4提取的高层次抽象特征向量进行处理,得到音节与拼音序列,其中,所述Bi-LSTM网络具有正向输入和反向输入;
步骤S6:将所述音节和拼音序列输入到机器翻译网络(transformer),进行输入序列到输出序列的转换,以进行脑电信号的意图解析和语言文本表达;
步骤S7:生成语音信号,通过基于生成对抗网络(GAN,GenerativeAdversarialNetwork)的文本语音转换模型,通过步骤S6输出的意图解析和语言文本信息生成语音波形信号,实现脑机接口的语音生成;
其中,所述正向输入包括脑机生成语音的声音信号、外界环境中的音频信号、视频图像信息以及伴随的大脑活动信号的脑电信号经特征提取得到的特征向量,所述反向输入包括患者在听到自己脑机生成语音后的反馈输入信息和外界倾听者听到脑机生成语音后被捕捉的音频信号和图像信号。
在上述语音生成方法中,其中,所述脑电信号由非侵入式方式的多个电极实时采集,所述音频信号由麦克风阵列实时采集,所述视频图像信号由多个分散放置的摄像头实时捕捉。
本发明还提供了一种基于脑机接口技术进行语音生成的医疗系统,包括:
无创感知模块,是一种装有电极的头戴式设备,所述无创感知模块包括两个部分,第一部分是脑电信号感知单元,第二部分是外界音频和图像感知单元;
特征提取模块,配置为对脑电信号特征向量和音频与图像信息的特征向量进行拼接,经过分层的深度卷积神经网络和全连接神经网络(CNN-FCN)提取高层次抽象特征信息;
反馈信息模块,配置作为上下文语境信息和错误纠正单元,利用患者在听到脑机生成的语音后的反馈输入信息对模型预测进行矫正和纠错;
信号解释与识别模块,配置为将高层次抽象的特征向量输入到双向长短时记忆网络(Bi-LSTM)中,经过多层非线性表达解码成音节与拼音序列信息;
意图识别与语言组织模块,配置为将所述音节或拼音序列信息加上语言模型和反馈信息模块的内容,经过基于注意力机制的机器翻译网络进行解码以识别患者的表达意图和其对应的语言表达结果,实现脑电转文本的过程;
语音生成模块,配置为利用生成式对抗神经网络(GAN)对所述语言表达结果进行对抗学习与训练,输出语音声波,实现语音的生成。
在上述医疗系统中,还包括:语音播报模块,配置为将脑机接口生成的语音通过扬声器播放出来。
本公开还提供了一种终端,包括:至少一个存储器和至少一个处理器;其中,所述至少一个存储器用于存储程序代码,所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行上述语音生成方法。
本公开还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述语音生成方法。
采用上述技术方案,至少能够达到如下技术效果:
本发明公开的一种基于脑机接口技术的语音生成方法及医疗系统,患者只需要集中思考“想要说的话”,其脑电波信号会被脑电传感器模块实时收到,加上上下文语境信息和视觉信息输入,通过神经网络转换成患者意图并直接生成语音内容,实现说话表达的能力。相比其他在被限定的词语范围内选择指定的语句或单词,该方法及医疗系统解决了脑卒中说话有障碍的问题,同时也让他们能够实现随意说,获得跟平常人一样的说话能力;除此之外还有一个益处是,通过上下文语境信息和视觉信息,能更准确识别患者意图和纠正表达内容,提升识别准确率。在文字到语音生成上,利用对抗学习的方法实现文本到声音的转换,采用通用多种音色给患者选择,不用根据每个患者进行训练音色,具有更好的普适性和通用性。另外,在体验上,该医疗系统为患者提供头戴式设备,患者只需要带上装有脑电传感器模块的帽子或发带,这种非侵入式的医疗系统具有很好的安全性和便利性。
附图说明
图1示出了根据本公开的一示例性实施例的一种基于脑机接口技术的语音生成方法的流程图。
图2示出了根据本公开的一示例性实施例示的一种基于脑机接口技术的语音生成方法的结构框图。
图3示出了根据本公开的一示例性实施例的一种基于脑机接口技术进行语音生成的医疗系统框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的医疗系统和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着人工智能语音技术和脑机接口技术的不断发展,利用大脑电位信号的分析实现患者语言意图的识别、再结合脑电信号与发声器官的联系,直接实现语音生成,完成患者语言的语音表达输出,让有发声或语言障碍的人重新获得自由说出心声的能力,改善患者的语言沟通能力具有重要的意义。
如图1所示,本发明公开了一种基于脑机接口技术的语音生成方法,可以包括以下多个步骤:
S1:多维度信号采集:通过多种信号采集设备分别采集脑电信号、外界环境中的音频信号和视频图像信号,输出多个对应的多个维度的信号xn(t)、ym(t)、zk(t)。在一些实施例中,脑电信号被非侵入式方式的多个电极实时采集,记录脑部大量神经元活动随时间的变化信息的脑电信号,反应大脑组织的电活动及大脑的功能状态,采集和记录脑电信号包括但不限于采集和记录腹侧感觉运动皮质、颞上回、额下回等多个脑区域表层在患者大声朗读、不出声地说话或倾听别人说话时等不同场景下的连续脑电信号,输出多个不同区域的脑电信号xn(t)。在一些实施例中,通过麦克风阵列实时拾取患者和外界的音频信号,该音频信号与脑电信号和视频图像信号一起作为输入信号进行特征提取,同时也作为反馈输入信号,经过特征提取后输入到机器翻译网络中,辅助文本表达识别,所述音频信号为ym(t)。在一些实施例中,通过多个分散放置的摄像头实时捕捉外界环境的图像信号,该视频图像信号与脑电信号和音频信号一起作为输入信号进行特征提取,同时也作为反馈输入信号,经过特征提取后输入到机器翻译网络中,辅助文本表达识别,所述视频图像信号为zk(t)。在一些实施例中,捕捉的外界环境的图像信号可以包括周围的环境的图像、听话人的表情图像、听话人的嘴唇变化图像等。通过对这些图像信号进行分析,可以帮助判断生成的语音是否正确。例如,当生成的语音是描绘周围的景色时,如果与捕捉的图像中的景色差别太大,则可能生成的语音存在误差。又例如,通过分析生成的语音信息与倾听人的表情反应或嘴唇的动作,可以得知听话人在听到生成的语音信息后的反应,这有助于对生成的语音信息进行检验,对生成的语音进行纠错,进而提高生成语音信息的准确度和精确度。
S2:将采集脑电信号、音频信号和视频图像信号xn(t)、ym(t)、zk(t)分别对应进行特征提取处理。在一些实施例中,对脑电信号进行特征提取包括但不限于提取各电极信号的高γ包络、低频分量特征和电极间的协方差特征,所述电极间的协方差特征的作用,不仅在于利用电极的联合可变性来降低维度,还在于对电极之间的关系和依赖在整个时间区间进行建模。电极间的互协方差(CCV)是一个正的半定矩阵,定义了两个电极c1和c2之间的CCV计算公式如下,所述脑电信号特征提取形成向量Fn(n)。
其中,Xc1(t)为电极c1捕捉的脑电信号,Xc2(t+τ)为电极c2捕捉的脑电信号,τ为相对于c1电极信号的时间偏移,是Xc1(t)的均值,是的均值,Ε为求期望计算,所得结果CCV为两电极信号的互协方差结果。
在一些实施例中,对音频信号进行特征提取包括但不限于将音频的时域信号转变成时频域信号,即通过短时傅里叶变换生成频谱图特征作为音频特征向量输入到神经网络中,所述音频信号特征提取得到向量Fm(n)。在一些实施例中,对视频图像信号进行特征提取是对摄像头捕捉的每帧图片信号进行特征提取,包括但不限于提取代表物体检测的特征、环境色彩的特征等多个特征组成的图像特征向量Fk(n)。
S3:特征拼接:上述S2输出的分别代表不同的多维度的脑电特征向量Fn(n)、音频特征向量Fm(n)和图像特征向量Fk(n)进行拍平并拼接成一个完整的固定维度的特征向量F(n)。
S4:高层次特征提取:S3输出的特征向量F(n)经过由深度卷积神经网络(CNN)和全联接神经网络(FCN)并行组成的分层结构的神经网络(CNN-FCN),利用CNN的局部感受野学习特性和深层FCN的全局信息非线性表示,输入的特征向量F(n)被分层结构的神经网络在局部和全局两个角度上进行更抽象高层次的特征提取。
S5:S4输出的特征向量经过由双层的双向长短时记忆循环神经网络(bidirectional long short-term memory,Bi-LSTM)组成的Bi-LSTM网络,得到音节与拼音序列。由于脑电信号、音频信号和视频图像信号都是跟时间相关的序列信号,而Bi-LSTM的强项和特点是能跟踪与时间强相关的时序信号,能更充分地表示其时序信息,Bi-LSTM网络中的每一神经元内嵌了精细的记忆门控与传递结构,保证数据能以正反两种顺序输入。在这里,BiLSTM的正向输入包括了脑机生成语音的声音信号、外界环境中音频信号、外界环境中的视频图像信息,以及伴随的大脑活动信号的脑电信号对应的特征向量,反向输入包括了未来的信息,即患者在听到自己脑机生成语音后的反馈输入信息(大脑活动信号和手动反馈输入)和外界倾听者听到脑机生成语音后的反应(包括音频信号和图像信号),在此步骤中利用BiLSTM对上下文信息跟踪和学习的特点,能更加准确解码识别脑电信号关联的声学信息。
S6:脑电信号的意图解析和语言文本表达:音节和拼音序列输入到机器翻译网络(Transformer),同时在机器翻译网络上再输入通用的语言模型作为先验知识,同时在解码阶段输入了S2中音频信号特征向量Fm(n)和图像信号特征向量Fm(n),通过对机器翻译网络进行充分的训练,神经网络输出的脑电信号的意图解析和语言文本表达解码能以很高相似度表达患者实际想要表达的意图。所述脑电信号的意图解析和语言文本表达过程主要是利用机器翻译神经网络实现输入序列到输出序列的转换,所述机器翻译神经网络是由一个编码器块和一个解码器块组成,其实际上是分别由相互堆叠在一起的多个相同的编码器和解码器构成,编码器堆栈和解码器堆栈要求相同数量的单元,每个编码器和解码器都是有前馈神经网络和自注意力模型构成。通过机器翻译神经网络的非线性计算的复杂结构和上下文信息学习进行预测患者的意图和组织成要表达的语言文本序列;另一方面,人的大脑每天进行着复杂的思维活动,其语言表达和意图有时是自发的,也有跟外界听到的声音和看到的事物有关,是一个多模态感知混合决策的过程,因此,在本发明公开的方法中,也强调用外界的音频和视频图像信号等多模态信息输入到机器翻译网络中进行学习和综合决策,实现对预测结果进行纠正,提高识别的准确率。
S7:语音信号生成:通过基于生成对抗网络(GAN,Generative AdversarialNetwork)的文本语音转换模型,将S6输出的意图解析结果和语言文本信息生成语音波形信号,实现脑机接口的语音生成,使患者实现想表达语言的发声能力。所述生成对抗网络是生成器和判别器组成,生成器是使用卷积神经网络的前馈神经网络组成,生成器的输入是S6输出的意图解析结果和语言文本信息,输出是语音波形图,在产生原始语音的时候,使用空洞卷积去保证生成器的感知野足够大,使得能够捕捉长时期的属性,在最后的卷积层采用Tanh激活函数,来生成一个单通道的语音波形图。判别器采用多频率随机窗口判别器集成的方式,使用不同大小的随机窗口对真实和生成样本的随机子采样片段进行操作,可以让神经网络学习和捕捉到语言文本信息特征,同时学习文本内容间的自然连接和停顿,以保证生成的语音有更好的清晰度和更加真实。
在本公开中,通过先将脑电波等信息转换成文本信息,然后将文本信息转换成语音信息,使得该方案的适应度更广,避免了由脑电波直接转换成语音信号所需的大量的训练过程。
另外,本发明中通过利用反向输入进行纠错,能够提高生成的语音的准确度。例如,假设在家庭客厅看电视的场景下,患者家属在聊天,谈论现在看到这个电视节目,带有麦克风或麦克风阵列的脑点感知模块能拾取旁边说话人的声音,并进行实时识别,另外摄像头也会捕捉到当前的客厅场景、正在看的电视节目信息和说话人的脸部表情,患者这时如果想表达“这个电视剧剧情编排的不错,主角都很有名”,这时患者的脑部活动信息由电极装置实时捕获跟踪,将患者想表达的思想转化成语音播放出来,当在BiLSTM的输出结果中是“zhe ge dian shi ju ju qing bian pai de bu cuo,zhu jue dou hen you ming”,这时在Transformer的输出可能有很多种表达方式,如“这歌电视局巨擎匾牌得不错,主角都很有名”、“这个电视剧巨青编派得补错,主角逗恨又明”等多种表达结果,但由于本发明中使用了音频信号和图像信号作为反馈输入,根据语音和图像信息对当前场景的补充信息,使得神经网络能学习到这种场景信息,能在Transformer阶段预测时将意图跟场景进行匹配,把表达纠正为患者想表达的内容“这个电视剧剧情编排的不错,主角都很有名”,提高脑机接口技术的语音生成的准确率,满足患者说话的需求。另外作为优选的,患者在听到发出的语音时,可以根据是否符合患者意愿的表达做出反应,其反应作为医疗系统的反馈输入,可以纠正表达内容的识别结果。
本发明还公开了一种基于脑机接口技术进行语音生成的医疗系统,所述医疗系统包括无创感知模块、特征提取模块、反馈输入模块、信号解释与识别模块、意图识别与语言组织模块、语音生成模块和语音播报模块。
无创感知模块是一种装有电极的头戴式设备,采用非侵入式方式的电子设备,患者只需要带上分布着脑电传感器的帽子或发带,无需患者开颅植入大脑中,安全且便利。所述感知模块包括两个部分,一部分是脑电信号感知单元,另一部分是外界音频和图像感知单元。
特征提取模块主要包括脑电信号的特征和音频与图像信息的特征提取单元,其主要是将脑电信号特征向量和音频与图像信息的特征向量进行拼接,经过分层的深度卷积神经网络和全连接神经网络(CNN-FCN)提取高层次抽象特征信息。
反馈信息模块是一个上下文语境信息和错误纠正单元,包括患者在听到自己脑机生成语音后的反馈输入信息(大脑活动信号和手动反馈输入),以便对模型预测进行矫正,让模型个性化自适应和更容易理解患者意图和更准确表达患者想说的语音。所述反馈包括:如患者在听到输出的语音后停止注视,此反应是对医疗系统输出结果的反馈。此外,反馈信息模块也包括但不限于对方听到脑机生成语音的反应等,如对所处使用环境的输入反馈。
所述信号解释与识别模块将高层次抽象的特征向量输入到双向长短时记忆网络(Bi-LSTM)中,经过多层非线性表达解码成音节与拼音序列信息。
所述意图识别与语言组织模块将上一个模块输出的音节或拼音特征序列,加上语言模型和反馈信息模块的内容,经过基于注意力机制的机器翻译网络进行解码识别患者的表达意图和其对应的语言表达结果,实现脑电转文本的过程。
所述语音生成模块将前一个模块输出的语言表达结果利用生成式对抗神经网络(GAN)进行对抗学习与训练,输出语音声波,实现语音生成的过程。所述语音播报模块将脑机接口生成的语音通过扬声器播放出来,包括功放单元和喇叭单元,代替患者将想说的话播报出来,实现了患者说话的功能和目的。
本公开还提供了一种终端,包括:至少一个存储器和至少一个处理器;其中,所述至少一个存储器用于存储程序代码,所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行上述语音生成方法。
本公开还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述语音生成方法。
本领域技术人员应理解,以上实施例仅是示例性实施例,在不背离本申请的精神和范围的情况下,可以进行多种变化、替换以及改变。
Claims (6)
1.一种基于脑机接口技术的语音生成方法,包括以下步骤:
步骤S1:通过多种信号采集设备分别采集脑电信号、外界环境中的音频信号和视频图像信号,得到多个对应的多个维度的信号xn(t)、ym(t)、zk(t);
步骤S2:对所述脑电信号、所述音频信号和所述视频图像信号xn(t)、ym(t)、zk(t)分别进行特征提取处理,所述脑电信号的特征提取得到脑电特征向量Fn(n),所述音频信号的特征提取得到音频特征向量Fm(n),所述视频图像信号的特征提取得到图像特征向量Fk(n);
步骤S3:将所述脑电特征向量Fn(n)、所述音频特征向量Fm(n)和所述图像特征向量Fk(n)拼接成完整的固定维度的特征向量F(n);
步骤S4:通过由深度卷积神经网络和全联接神经网络并行组成的分层结构的神经网络在局部和全局两个角度上对所述特征向量F(n)进行高层次的特征提取,得到提取的高层次抽象特征向量;
步骤S5:通过双向长短时记忆网络对步骤S4提取的高层次抽象特征向量进行处理,得到音节与拼音序列,其中,所述双向长短时记忆网络具有正向输入和反向输入;
步骤S6:将所述音节与拼音序列输入到机器翻译网络,进行输入序列到输出序列的转换,以进行脑电信号的意图解析和语言文本表达;
步骤S7:生成语音信号,通过基于生成对抗网络的文本语音转换模型,通过步骤S6输出的意图解析和语言文本表达生成语音波形信号,实现脑机接口的语音生成;
其中,所述正向输入包括脑机生成语音的声音信号、外界环境中的音频信号、视频图像信号以及伴随的大脑活动信号的脑电信号经特征提取得到的特征向量,所述反向输入包括患者在听到自己脑机生成语音后的反馈输入信息和外界倾听者听到脑机生成语音后被捕捉的音频信号和视频图像信号。
2.根据权利要求1所述的语音生成方法,其中,所述脑电信号由非侵入式方式的多个电极实时采集,所述音频信号由麦克风阵列实时采集,所述视频图像信号由多个分散放置的摄像头实时捕捉。
3.一种基于脑机接口技术进行语音生成的医疗系统,包括:
无创感知模块,是一种装有电极的头戴式设备,所述无创感知模块包括两个部分,第一部分是脑电信号感知单元,第二部分是外界音频和图像感知单元;
特征提取模块,配置为对脑电信号特征向量和音频与视频图像信号的特征向量进行拼接,经过由深度卷积神经网络和全联接神经网络并行组成的分层结构的神经网络提取高层次抽象特征向量;
反馈信息模块,配置作为上下文语境信息和错误纠正单元,利用患者在听到脑机生成的语音后的反馈输入信息对模型预测进行矫正和纠错;
信号解释与识别模块,配置为将高层次抽象特征向量输入到双向长短时记忆网络中,经过多层非线性表达解码成音节与拼音序列;
意图识别与语言组织模块,配置为将所述音节与拼音序列加上语言模型和反馈信息模块的内容,经过基于注意力机制的机器翻译网络进行解码以识别患者的表达意图和其对应的语言文本表达结果,实现脑电转文本的过程;
语音生成模块,配置为利用生成对抗网络对所述语言文本表达结果进行对抗学习与训练,输出语音声波,实现语音的生成。
4.根据权利要求3所述的医疗系统,还包括:
语音播报模块,配置为将脑机接口生成的语音通过扬声器播放出来。
5.一种终端,包括:
至少一个存储器和至少一个处理器;
其中,所述至少一个存储器用于存储程序代码,所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行权利要求1或2所述的语音生成方法。
6.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1或2所述的语音生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550033.9A CN111681636B (zh) | 2020-06-16 | 2020-06-16 | 基于脑机接口技术语音生成方法及医疗系统和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550033.9A CN111681636B (zh) | 2020-06-16 | 2020-06-16 | 基于脑机接口技术语音生成方法及医疗系统和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681636A CN111681636A (zh) | 2020-09-18 |
CN111681636B true CN111681636B (zh) | 2022-02-18 |
Family
ID=72436368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550033.9A Active CN111681636B (zh) | 2020-06-16 | 2020-06-16 | 基于脑机接口技术语音生成方法及医疗系统和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681636B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609988B (zh) * | 2021-08-06 | 2022-04-12 | 太原科技大学 | 一种面向听觉诱发的端到端脑电信号解码方法 |
CN113724687B (zh) * | 2021-08-30 | 2024-04-16 | 深圳市神经科学研究院 | 基于脑电信号的语音生成方法、装置、终端及存储介质 |
CN113763783A (zh) * | 2021-09-09 | 2021-12-07 | 成都视海芯图微电子有限公司 | 一种基于脑机接口的聋哑人辅助系统及方法 |
CN114089834B (zh) * | 2021-12-27 | 2024-07-12 | 杭州电子科技大学 | 一种基于时间-通道级联Transformer网络的脑电识别方法 |
CN114271831B (zh) * | 2022-03-07 | 2022-05-27 | 合肥心之声健康科技有限公司 | 心音图信号转换心电图信号的方法、系统以及设备 |
CN115082986A (zh) * | 2022-06-14 | 2022-09-20 | 上海弗莱特智能医疗科技有限公司 | 重症获得性患者床旁意图识别系统及其控制方法 |
CN115565540B (zh) * | 2022-12-05 | 2023-04-07 | 浙江大学 | 一种侵入式脑机接口汉语发音解码方法 |
CN117930988B (zh) * | 2024-03-25 | 2024-07-23 | 安徽大学 | 一种基于大型语言模型辅助语义纠错的脑控机器人方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285224A (ja) * | 2005-03-09 | 2006-10-19 | Advanced Telecommunication Research Institute International | 発声機能支援装置 |
CN101464729A (zh) * | 2009-01-05 | 2009-06-24 | 清华大学 | 基于听觉认知神经信号的自主意愿表达方法 |
CN104036124A (zh) * | 2014-05-30 | 2014-09-10 | 绍兴市柯桥区柯桥中学 | 一种适用于重症监护或四肢残疾患者的意念控制系统 |
CN105512609A (zh) * | 2015-11-25 | 2016-04-20 | 北京工业大学 | 一种基于核超限学习机的多模融合视频情感识别方法 |
CN105654952A (zh) * | 2014-11-28 | 2016-06-08 | 三星电子株式会社 | 用于输出语音的电子设备、服务器和方法 |
CN106571075A (zh) * | 2016-10-18 | 2017-04-19 | 广东工业大学 | 一种多模态语言康复和学习系统 |
CN107888973A (zh) * | 2017-11-24 | 2018-04-06 | 华南理工大学 | 一种脑电控制的视频输入听觉显示导盲装置及方法 |
CN109065184A (zh) * | 2018-07-12 | 2018-12-21 | 山东建筑大学 | 基于脑机接口的脑卒中患者语音交流看护控制系统及方法 |
CN109104209A (zh) * | 2017-06-20 | 2018-12-28 | 深圳市海洋王照明工程有限公司 | 一种智能穿戴设备 |
CN110309797A (zh) * | 2019-07-05 | 2019-10-08 | 齐鲁工业大学 | 融合CNN-BiLSTM模型和概率协作的运动想象识别方法及系统 |
CN110602852A (zh) * | 2019-09-05 | 2019-12-20 | 佛山市云米电器科技有限公司 | 一种控制家庭影院灯光效果的系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102257371B1 (ko) * | 2018-11-07 | 2021-05-31 | 고려대학교 산학협력단 | 뇌-컴퓨터 인터페이스 시스템 및 그를 이용한 사용자 대화의도 인식 방법 |
-
2020
- 2020-06-16 CN CN202010550033.9A patent/CN111681636B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285224A (ja) * | 2005-03-09 | 2006-10-19 | Advanced Telecommunication Research Institute International | 発声機能支援装置 |
CN101464729A (zh) * | 2009-01-05 | 2009-06-24 | 清华大学 | 基于听觉认知神经信号的自主意愿表达方法 |
CN104036124A (zh) * | 2014-05-30 | 2014-09-10 | 绍兴市柯桥区柯桥中学 | 一种适用于重症监护或四肢残疾患者的意念控制系统 |
CN105654952A (zh) * | 2014-11-28 | 2016-06-08 | 三星电子株式会社 | 用于输出语音的电子设备、服务器和方法 |
CN105512609A (zh) * | 2015-11-25 | 2016-04-20 | 北京工业大学 | 一种基于核超限学习机的多模融合视频情感识别方法 |
CN106571075A (zh) * | 2016-10-18 | 2017-04-19 | 广东工业大学 | 一种多模态语言康复和学习系统 |
CN109104209A (zh) * | 2017-06-20 | 2018-12-28 | 深圳市海洋王照明工程有限公司 | 一种智能穿戴设备 |
CN107888973A (zh) * | 2017-11-24 | 2018-04-06 | 华南理工大学 | 一种脑电控制的视频输入听觉显示导盲装置及方法 |
CN109065184A (zh) * | 2018-07-12 | 2018-12-21 | 山东建筑大学 | 基于脑机接口的脑卒中患者语音交流看护控制系统及方法 |
CN110309797A (zh) * | 2019-07-05 | 2019-10-08 | 齐鲁工业大学 | 融合CNN-BiLSTM模型和概率协作的运动想象识别方法及系统 |
CN110602852A (zh) * | 2019-09-05 | 2019-12-20 | 佛山市云米电器科技有限公司 | 一种控制家庭影院灯光效果的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111681636A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111681636B (zh) | 基于脑机接口技术语音生成方法及医疗系统和终端 | |
Gabbay et al. | Visual speech enhancement | |
CN110992987B (zh) | 语音信号中针对通用特定语音的并联特征提取系统及方法 | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
Shivappa et al. | Audiovisual information fusion in human–computer interfaces and intelligent environments: A survey | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
Zhang et al. | Sensing to hear: Speech enhancement for mobile devices using acoustic signals | |
JP3670180B2 (ja) | 補聴器 | |
CN115153563A (zh) | 基于eeg的普通话听觉注意解码方法及装置 | |
Kumar et al. | Harnessing ai for speech reconstruction using multi-view silent video feed | |
CN111883168A (zh) | 一种语音处理方法及装置 | |
Freitas et al. | An introduction to silent speech interfaces | |
Qu et al. | Multimodal target speech separation with voice and face references | |
Banda et al. | Noise analysis in audio-visual emotion recognition | |
CN116524791A (zh) | 一种基于元宇宙的唇语学习辅助训练系统及其应用 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Gul et al. | A survey of audio enhancement algorithms for music, speech, bioacoustics, biomedical, industrial and environmental sounds by image U-Net | |
Zhang et al. | A multi-stream recurrent neural network for social role detection in multiparty interactions | |
CN117573947A (zh) | 多模态问答交互方法、装置、冰箱及存储介质 | |
Salik et al. | Lipper: Speaker independent speech synthesis using multi-view lipreading | |
CN112466306B (zh) | 会议纪要生成方法、装置、计算机设备及存储介质 | |
Zhou et al. | Improved phoneme-based myoelectric speech recognition | |
CN117594034A (zh) | 多模态语音识别方法、装置、冰箱及存储介质 | |
CN108831472B (zh) | 一种基于唇语识别的人工智能发声系统及发声方法 | |
Freitas et al. | Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |