CN117693315A - 用于从神经活动进行实时单词和语音解码的方法和装置 - Google Patents

用于从神经活动进行实时单词和语音解码的方法和装置 Download PDF

Info

Publication number
CN117693315A
CN117693315A CN202280052326.1A CN202280052326A CN117693315A CN 117693315 A CN117693315 A CN 117693315A CN 202280052326 A CN202280052326 A CN 202280052326A CN 117693315 A CN117693315 A CN 117693315A
Authority
CN
China
Prior art keywords
word
subject
attempted
speech
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280052326.1A
Other languages
English (en)
Inventor
D·摩西
J·刘
S·梅茨格
E·常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN117693315A publication Critical patent/CN117693315A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/37Intracranial electroencephalography [IC-EEG], e.g. electrocorticography [ECoG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/25Bioelectric electrodes therefor
    • A61B5/279Bioelectric electrodes therefor specially adapted for particular uses
    • A61B5/291Bioelectric electrodes therefor specially adapted for particular uses for electroencephalography [EEG]
    • A61B5/293Invasive
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7278Artificial waveform generation or derivation, e.g. synthesising signals from measured signals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7405Details of notification to user or communication with user or patient ; user input means using sound
    • A61B5/741Details of notification to user or communication with user or patient ; user input means using sound using synthesised speech
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Psychology (AREA)
  • Neurosurgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Neurology (AREA)
  • Dermatology (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

提供了用于协助个体进行交流的方法、装置和系统。具体而言,提供了用于直接从个体的神经活动解码单词和句子的方法、装置和系统。当个体尝试说出或拼出单词时,记录来自大脑的参与语音处理的区域的皮层活动。使用深度学习计算模型从记录的大脑活动中检测和分类单词。通过使用预测某些单词序列将出现的可能性的语言模型来辅助从大脑活动中解码语音。此外,可使用从神经活动中解码尝试非语音运动性移动来进一步协助交流。此种神经技术可用于恢复已经失去说话能力的患者的交流,并且具有改善自主性和生活质量的潜力。

Description

用于从神经活动进行实时单词和语音解码的方法和装置
相关申请的交叉引用
本申请根据35 U.S.C.§119(e)主张2021年5月26日提出申请的临时申请63/193,351的权益,所述申请据此通过引用方式整体并入。
政府支持声明
本发明是在美国国立卫生研究院(NIH)授予的资助号为U01 NS098971-01的政府支持下完成的。政府拥有本发明的某些权利。
背景技术
构音障碍是清晰发出语音能力的丧失。它可以由包括中风、创伤性脑损伤和肌萎缩性侧索硬化在内的多种病症引起(Beukelman等人(2007)《增强性和替代性交流(Augmentative and Alternative Communication)》23(3):230-242)。对于患有严重移动障碍的瘫痪个体,它阻碍了与家人、朋友和护理人员的交流,从而降低了自我报告的生活质量(Felgoise等人(2016)《肌萎缩性侧索硬化和额颞叶变性(Amyotrophic LateralSclerosis and Frontotemporal Degeneration)》17(3-4):179-183)。经设计以恢复已经失去说话能力的瘫痪患者交流的神经技术具有改善自主性和生活质量的潜力。然而,与自然语音相比,大多数现有方法既慢又乏味。因此,仍然需要更好的方法来恢复患有构音障碍的患者的交流能力。
发明内容
提供了用于协助个体进行交流的方法、装置和系统。具体而言,提供了用于直接从个体的神经活动解码单词和句子的方法、装置和系统。在所公开的方法中,当个体尝试说出或拼出单词(即使单词或拼读的字母没有发声)时,记录来自参与语音处理的大脑区域的皮层活动。使用深度学习计算模型从记录的大脑活动中检测和分类单词。通过使用预测某些单词序列将出现的可能性的语言模型来辅助从大脑活动中解码语音。此外,可使用从神经活动中解码尝试非语音运动性移动来进一步协助交流。本文描述的神经技术可用于恢复已经失去说话能力的患者的交流,并且具有改善自主性和生活质量的潜力。
在一个方面,提供了一种协助受试者进行交流的方法,方法包括:将包括电极的神经记录装置定位在受试者的大脑的感觉运动皮层区域中的位置处,以记录与受试者的尝试语音相关联的脑电信号数据;将与计算装置通信的接口定位在受试者的头部上的位置处,其中接口连接到神经记录装置;使用神经记录装置记录与受试者的尝试语音相关联的脑电信号数据,其中接口从神经记录装置接收脑电信号数据,并且将脑电信号数据传输到处理器;以及使用处理器从记录的脑电信号数据中解码单词、短语或句子。
在某些实施例中,受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有交流方面的困难。在一些实施例中,受试者是瘫痪的。
在某些实施例中,神经记录装置的位置在腹侧感觉运动皮层中。例如,电极可以定位在感觉运动皮层区域的表面上或感觉运动皮层区域内。在一些实施例中,电极定位在硬膜下腔中的大脑的感觉运动皮层区域的表面上。
在某些实施例中,方法包括记录来自选自中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合的感觉运动皮层区域的脑电信号数据。
在某些实施例中,神经记录装置包括脑穿透电极阵列或脑皮层电图(ECoG)电极阵列。
在某些实施例中,电极是深度电极或表面电极。
在某些实施例中,处理器使用的特征是电信号数据中包含的高γ频率内容特征。在一些实施例中,高γ频率电信号数据可以包括在70Hz至150Hz范围内的神经振荡。
在某些实施例中,方法进一步包括对受试者的大脑进行绘图,以识别用于定位电极的最佳位置,以用于记录与受试者的尝试语音相关联的脑电信号。
在某些实施例中,接口包括附接到受试者的颅骨的经皮基座连接器。在一些实施例中,接口进一步包括连接到经皮基座连接器的可移除前端。
在某些实施例中,处理器由计算机或手持装置(例如,手机或平板电脑)提供。
在某些实施例中,处理器经编程以使用机器学习算法基于对与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号的神经活动模式的识别而使语音检测、单词分类和句子解码自动化。在一些实施例中,机器学习算法使用人工神经网络(ANN)模型进行语音检测和单词分类,并且使用自然语言处理技术(诸如但不限于隐马尔可夫模型(HMM)或维特比解码模型)进行句子解码。
在某些实施例中,处理器经编程以在受试者的尝试语音期间使单词产生的开始和结束的检测自动化。在一些实施例中,方法进一步包括在记录脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。在一些实施例中,处理器经编程以在所检测的单词分类开始周围的时间窗口内使用记录的脑电信号数据。
在某些实施例中,受试者被限制于尝试语音的指定单词集。
在某些实施例中,处理器经编程以计算单词集中的单词是受试者在尝试语音期间试图产生的预期单词的概率。在一些实施例中,处理器经编程以针对单词集中的每个单词,计算单词集中的单词是受试者在尝试语音期间试图产生的预期单词的概率,并且选择单词集中具有是受试者在尝试语音期间试图产生的预期单词的最高概率的单词。
在某些实施例中,单词集包括:是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
在某些实施例中,受试者可无限制地使用单词集中的单词来创建句子。在其他实施例中,受试者被限制于尝试语音的指定句子集。
在某些实施例中,处理器经编程以计算单词序列是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以针对句子集中的每个句子,计算句子集中的句子是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以计算完全由来自指定单词集中的单词构成的许多可能句子是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以维持最可能的句子以及其他不太可能的句子,这些句子完全由来自受试者在尝试语音期间试图产生的指定单词集中的单词构成。在一些实施例中,处理器经编程以在任何给定的时间点及时跟踪第一最可能、第二最可能和第三最可能的句子概率。当处理新的单词事件时,最可能的句子可能会改变。例如,基于单词事件的处理的第二最可能的句子然后可以在处理一个或多个附加单词事件之后变成最可能的句子。
在某些实施例中,句子集包括可经选择以与护理人员关于受试者希望护理人员执行的任务进行交流的句子。在一些实施例中,可以完全由指定单词集中的单词构成的句子包括可用于与护理人员关于受试者希望护理人员执行的任务进行交流的句子。
在某些实施例中,句子集包括:你要出去吗;你累了吗;把我的眼镜拿过来;请把我的眼镜拿来;不要难过;你感觉舒服吗;信心是好的;喂,你好吗;这是我的计算机;你感觉如何;你觉得我的音乐怎么样;我要出去;我不去;我不饿;我不好;我还好;我在外面;我渴了;我感觉不舒服;我感觉很舒服;我感觉很饿;我希望它是干净的;我喜欢我的护士;我需要我的眼镜;我需要你;很舒适;很好;还好;就在这里;我的计算机是干净的;我的家人在这里;我的家人在外面;我的家庭很温馨;我的眼镜是干净的;我的眼镜很舒适;我的护士在外面;我的护士就在外面;否;请把我的眼镜拿过来;请清洁一下它;请告诉我的家人;非常干净;他们要来这里;他们出来了;他们要出去;他们有信心;你是做什么的;它在哪里;是;和你是不对的。
在某些实施例中,处理器经编程以使用语言模型,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码。例如,根据语言模型,较频繁出现的单词被分配比较不频繁出现的单词更大的权重。
在某些实施例中,处理器经编程以使用隐马尔可夫模型(HMM)或维特比解码模型,在给定与尝试语音相关联的脑电信号数据、使用机器学习算法从单词分类预测的单词概率和使用语言模型得到的单词序列概率的情况下,确定受试者的预期语音中最可能的单词序列。
在某些实施例中,方法进一步包括:记录与受试者的尝试非语音运动性移动相关联的脑电信号数据,其中受试者进行尝试非语音运动性移动以指示尝试语音的起始或终止或控制外部装置;以及使用非语音运动性移动分类模型来分析脑电信号数据,非语音运动性移动分类模型识别与尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算受试者尝试非语音运动性移动的概率。在一些实施例中,尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
在某些实施例中,处理器进一步经编程以基于对与尝试非语音运动性移动相关联的记录的脑电信号数据中电信号的神经活动模式的识别,使受试者的尝试非语音运动性移动的检测自动化。在一些实施例中,处理器进一步经编程以在记录脑电信号数据期间将用于尝试非语音运动性移动的事件标签分配给时间点。
在某些实施例中,方法进一步包括评估解码的准确度。
在另一方面,提供了一种计算机实现的方法,方法用于从与受试者的尝试语音相关联的记录的脑电信号数据中解码句子,计算机执行的步骤包括:a)从受试者接收记录的脑电信号数据;b)使用语音检测模型分析记录的脑电信号数据,以计算在记录脑电信号数据期间的任何时间点出现尝试语音的概率,并检测在受试者的尝试语音期间单词产生的开始和结束;c)使用单词分类模型分析脑电信号数据,单词分类模型识别与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;d)通过使用从单词分类模型计算的单词概率并结合使用语言模型在句子中预测的单词序列概率来执行句子解码,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以计算预测的单词序列概率,并且基于使用单词分类模型和语言模型确定的预测的单词概率来确定句子中最可能的单词序列;以及e)显示从记录的脑电信号数据解码的句子。
在某些实施例中,处理器经编程以使用机器学习算法基于对与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号的神经活动模式的识别而使语音检测、单词分类和句子解码自动化。在一些实施例中,机器学习算法使用人工神经网络(ANN)模型进行语音检测和单词分类,并且使用自然语言处理技术(诸如但不限于隐马尔可夫模型(HMM)或维特比解码模型)进行句子解码。
在某些实施例中,受试者被限制于尝试语音的指定单词集。在一些实施例中,处理器进一步经编程以针对单词集中的每个单词,计算单词集中的单词是受试者在尝试语音期间试图产生的预期单词的概率,并且选择单词集中具有是受试者在尝试语音期间试图产生的预期单词的最高概率的单词。
在某些实施例中,受试者可无限制地使用单词集中的单词来创建句子。在其他实施例中,受试者被限制于尝试语音的指定句子集。在一些实施例中,处理器进一步经编程以计算单词序列是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器进一步经编程以计算句子集中的句子是受试者在尝试语音期间试图产生的预期句子的概率。
在某些实施例中,计算机实现的方法进一步包括在记录脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
在某些实施例中,计算机实现的方法进一步包括分析在所检测的单词分类开始周围的时间窗口内(例如,从所检测的单词分类开始之前的1秒到所检测的单词分类开始之后的3秒)的记录的脑电信号数据。
在某些实施例中,计算机实现的方法进一步包括根据语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
在某些实施例中,计算机实现的方法进一步包括:接收与受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中受试者进行尝试非语音运动性移动以指示尝试语音的起始或终止或控制外部装置;以及使用非语音运动性移动分类模型来分析脑电信号数据,非语音运动性移动分类模型识别与尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算受试者尝试非语音运动性移动的概率。在一些实施例中,尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。在一些实施例中,计算机实现的方法进一步包括在记录脑电信号数据期间将用于尝试非语音运动性移动的事件标签分配给时间点。
在某些实施例中,计算机实现的方法进一步包括存储受试者的使用者档案,使用者档案包括关于与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号模式的信息。
在另一方面,提供了一种非暂时性计算机可读介质,非暂时性计算机可读介质包括程序指令,当由计算机中的处理器执行时,程序指令使处理器执行本文描述的计算机实现的方法,用于从与受试者的尝试语音相关联的记录的脑电信号数据中解码句子。
在另一方面,提供了一种套件,套件包括非暂时性计算机可读介质和用于解码与受试者的尝试语音相关联的脑电信号数据的指令。
在另一方面,提供了一种用于协助受试者进行交流的系统,系统包括:包括电极的神经记录装置,适于定位在受试者的大脑的感觉运动皮层区域中的位置处,以记录与受试者的尝试语音相关联的脑电信号数据;处理器,经编程以根据本文描述的计算机实现的方法从记录的脑电信号数据中解码句子;与计算装置通信的接口,适于定位在受试者的头部上的位置处,其中接口从神经记录装置接收脑电信号数据并且将脑电信号数据传输到处理器;以及显示器组件,用于显示从记录的脑电信号数据解码的句子。
在某些实施例中,受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有交流方面的困难。
在某些实施例中,神经记录装置的位置在腹侧感觉运动皮层中。
在某些实施例中,电极适于定位在感觉运动皮层区域的表面上或感觉运动皮层区域内。在一些实施例中,电极适于定位在硬膜下腔中的大脑的感觉运动皮层区域的表面上。
在某些实施例中,神经记录装置包括脑穿透电极阵列或脑皮层电图(ECoG)电极阵列。
在某些实施例中,电极是深度电极或表面电极。
在某些实施例中,电信号数据包括高γ频率内容特征。在一些实施例中,高γ频率电信号数据包括在70Hz至150Hz范围内的神经振荡。
在某些实施例中,接口包括附接到受试者的颅骨的经皮基座连接器。在一些实施例中,接口进一步包括可连接到经皮基座连接器的前端。
在某些实施例中,处理器由计算机或手持装置(例如,手机或平板电脑)提供。
在某些实施例中,处理器经编程以使用机器学习算法基于对与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号的神经活动模式的识别而使语音检测、单词分类和句子解码自动化。在一些实施例中,机器学习算法使用人工神经网络(ANN)模型进行语音检测和单词分类,并且使用自然语言处理技术(诸如但不限于隐马尔可夫模型(HMM)或维特比解码模型)进行句子解码。
在某些实施例中,处理器进一步经编程以在记录脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。在一些实施例中,处理器进一步经编程以在所检测的单词分类开始周围的时间窗口内使用记录的脑电信号数据。
在某些实施例中,受试者被限制于尝试语音的指定单词集。在一些实施例中,处理器进一步经编程以针对单词集中的每个单词,计算单词集中的单词是受试者在尝试语音期间试图产生的预期单词的概率,并且选择单词集中具有是受试者在尝试语音期间试图产生的预期单词的最高概率的单词。
在某些实施例中,单词集包括:是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
在某些实施例中,受试者可无限制地使用单词集中的单词来创建句子。在其他实施例中,受试者被限制于尝试语音的指定句子集。在一些实施例中,处理器进一步经编程以计算单词序列是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器进一步经编程以计算句子集中的句子是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,句子集包括可经选择以与护理人员关于受试者希望护理人员执行的任务进行交流的句子。
在某些实施例中,句子集包括:你要出去吗;你累了吗;把我的眼镜拿过来;请把我的眼镜拿来;不要难过;你感觉舒服吗;信心是好的;喂,你好吗;这是我的计算机;你感觉如何;你觉得我的音乐怎么样;我要出去;我不去;我不饿;我不好;我还好;我在外面;我渴了;我感觉不舒服;我感觉很舒服;我感觉很饿;我希望它是干净的;我喜欢我的护士;我需要我的眼镜;我需要你;很舒适;很好;还好;就在这里;我的计算机是干净的;我的家人在这里;我的家人在外面;我的家庭很温馨;我的眼镜是干净的;我的眼镜很舒适;我的护士在外面;我的护士就在外面;否;请把我的眼镜拿过来;请清洁一下它;请告诉我的家人;非常干净;他们要来这里;他们出来了;他们要出去;他们有信心;你是做什么的;它在哪里;是;和你是不对的。
在某些实施例中,处理器进一步经编程以基于对与尝试非语音运动性移动相关联的记录的脑电信号数据中电信号的神经活动模式的识别,使受试者的尝试非语音运动性移动的检测自动化。在一些实施例中,处理器进一步经编程以在记录脑电信号数据期间将用于尝试非语音运动性移动的事件标签分配给时间点。
在另一方面,提供了一种套件,套件包括本文描述的用于协助受试者进行交流的系统以及使用系统记录和解码与受试者的尝试语音相关联的脑电信号数据的指令。
在另一方面,提供了一种协助受试者进行交流的方法,方法包括:将包括电极的神经记录装置定位在受试者的大脑的感觉运动皮层区域中的位置处,以记录与受试者的尝试拼读预期句子的单词的字母相关联的脑电信号数据;将与计算装置通信的接口定位在受试者的头部上的位置处,其中接口连接到神经记录装置;使用神经记录装置记录与受试者的所述尝试拼读相关联的脑电信号数据,其中接口从神经记录装置接收脑电信号数据,并且将脑电信号数据传输到计算装置的处理器;以及使用处理器从记录的脑电信号数据中解码预期句子的拼读单词。
在某些实施例中,电信号数据包括高γ频率内容特征(例如,70Hz至150Hz)和低频率内容特征(例如,0.3Hz至100Hz)。
在某些实施例中,记录脑电信号数据包括记录来自选自中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合的感觉运动皮层区域的脑电信号数据。
在某些实施例中,方法进一步包括对受试者的大脑进行绘图,以识别用于定位电极的最佳位置,以用于记录与受试者的尝试拼读单词相关联的脑电信号。
在某些实施例中,处理器经编程以基于对与受试者的尝试拼读单词相关联的记录的脑电信号数据中电信号的神经活动模式的识别来使与尝试拼读相关联的大脑活动的检测、字母分类、单词分类和句子解码自动化。
在某些实施例中,处理器经编程以使用机器学习算法进行语音检测、字母分类、单词分类和句子解码。在一些实施例中,机器学习算法可以使用自然语言处理技术。
在某些实施例中,处理器进一步经编程以将从与受试者的尝试拼读单词相关联的神经活动中解码的字母序列中的单词分类局限于仅在受试者使用的语言词汇表内的单词。
在某些实施例中,处理器经编程以在受试者的尝试拼读期间使字母产生的开始和结束的检测自动化。
在某些实施例中,处理器进一步经编程以在记录脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
在某些实施例中,处理器经编程以在所检测的受试者的尝试拼读字母开始周围的时间窗口内使用记录的脑电信号数据。
在某些实施例中,方法进一步包括向受试者提供一系列go提示,指示受试者何时应起始预期句子的单词的每个字母的尝试拼读。在一些实施例中,一系列go提示被视觉提供在显示器上。在一些实施例中,每个go提示之前是呈现go提示的倒计时,其中下一个拼读的字母的倒计时被视觉提供在显示器上,并且在每个go提示之后自动开始。在一些实施例中,一系列go提示在每个go提示之间提供有设定的时间间隔。在一些实施例中,受试者可以控制每个go提示之间的设定的时间间隔。在一些实施例中,处理器经编程以在go提示之后的时间窗口内使用记录的脑电信号数据。
在某些实施例中,处理器经编程以计算来自解码字母序列的经解码单词序列是受试者在受试者的尝试拼读预期句子的单词的字母期间试图产生的预期句子的概率。
在某些实施例中,处理器经编程以使用语言模型,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码。在一些实施例中,根据语言模型,较频繁出现的单词被分配比较不频繁出现的单词更大的权重。
在某些实施例中,处理器进一步经编程以使用预测的字母概率序列来计算潜在的候选句子,并自动将空格插入候选句子中预测的单词之间的字母序列中。
在某些实施例中,方法进一步包括:记录与受试者的尝试非语音运动性移动相关联的脑电信号数据,其中受试者进行尝试非语音运动性移动以指示尝试拼读预期句子的单词的起始或终止或控制外部装置;以及使用分类模型来分析脑电信号数据,分类模型识别与尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算受试者尝试非语音运动性移动的概率。
在某些实施例中,尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。在一些实施例中,尝试手移动包括想象的手势或想象的握手。
在某些实施例中,处理器经编程以基于对与尝试非语音运动性移动相关联的记录的脑电信号数据中电信号的神经活动模式的识别,使受试者的尝试非语音运动性移动的检测自动化,从而发出受试者的尝试拼读结束的信号。在一些实施例中,处理器进一步经编程以在记录脑电信号数据期间将用于尝试非语音运动性移动的事件标签分配给时间点。
在某些实施例中,方法进一步包括:使用神经记录装置记录与受试者的尝试语音相关联的脑电信号数据,其中接口从神经记录装置接收脑电信号数据,并且将脑电信号数据传输到计算装置的处理器;以及使用处理器从与受试者的尝试语音相关联的记录的脑电信号数据中解码单词、短语或句子,如本文所述。
在某些实施例中,方法进一步包括评估解码的准确度。
在另一方面,提供了一种计算机实现的方法,方法用于从与受试者尝试拼读预期句子的单词的字母相关联的记录的脑电信号数据中解码句子,计算机执行的步骤包括:a)接收与受试者的尝试拼读预期句子的单词的字母相关联的记录的脑电信号数据;b)使用语音检测模型分析记录的脑电信号数据,以计算在任何时间点出现尝试拼读的概率,并且检测在受试者的尝试拼读期间字母产生的开始和结束;c)使用字母分类模型分析脑电信号数据,字母分类模型识别与受试者的尝试字母产生相关联的记录的脑电信号数据中的电信号模式,并且计算预测的字母概率序列;d)基于预测的字母概率序列计算潜在的候选句子,并且自动将空格插入在候选句子中的预测单词之间的字母序列中,其中字母序列中的经解码单词被局限于仅受试者使用的语言词汇表内的单词;e)使用语言模型分析潜在的候选句子,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以计算预测的单词序列概率,并且确定句子中最可能的单词序列;以及f)显示从记录的脑电信号数据解码的句子。
在某些实施例中,记录的脑电信号数据仅在所检测的受试者的尝试拼读字母开始周围的时间窗口内使用。
在某些实施例中,方法进一步包括向受试者显示一系列go提示,指示受试者何时应起始预期句子的单词的每个字母的尝试拼读。在一些实施例中,每个go提示之前是显示呈现go提示的倒计时,其中下一个拼读的字母的倒计时在每个go提示之后自动开始。在一些实施例中,一系列go提示在每个go提示之间提供有设定的时间间隔。在一些实施例中,受试者可以控制每个go提示之间的设定的时间间隔。在一些实施例中,在go提示之后的时间窗口内的记录的脑电信号数据用于字母分类。
在某些实施例中,计算机实现的方法进一步包括:接收与受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中受试者进行尝试非语音运动性移动以指示尝试拼读预期句子的单词的起始或终止或控制外部装置;以及使用运动性移动分类模型来分析脑电信号数据,运动性移动分类模型识别与尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算受试者尝试非语音运动性移动的概率。在一些实施例中,尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。在一些实施例中,尝试手移动包括想象的手势或想象的握手。
在某些实施例中,使用机器学习算法进行语音检测和字母分类。
在某些实施例中,计算机实现的方法进一步包括根据语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
在某些实施例中,计算机实现的方法进一步包括存储受试者的使用者档案,使用者档案包括关于与在受试者的尝试拼读期间字母产生相关联的记录的脑电信号数据中的电信号模式的信息。
在某些实施例中,电信号数据包括高γ频率内容特征(例如,70Hz至150Hz)和低频率内容特征(例如,0.3Hz至100Hz)。
在某些实施例中,计算机实现的方法进一步包括评估解码的准确度。
在某些实施例中,计算机实现的方法进一步包括从与受试者的尝试语音相关联的记录的脑电信号数据中解码句子,计算机进一步执行的步骤包括:a)接收与受试者的尝试语音相关联的记录的脑电信号数据;b)使用语音检测模型分析记录的脑电信号数据,以计算在任何时间点出现尝试语音的概率,并且检测在受试者的尝试语音期间单词产生的开始和结束;c)使用单词分类模型分析脑电信号数据,单词分类模型识别与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;d)通过使用从单词分类模型计算的单词概率并结合使用语言模型在句子中预测的单词序列概率来执行句子解码,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以计算预测的单词序列概率,并且基于使用单词分类模型和语言模型确定的预测的单词概率来确定句子中最可能的单词序列;以及e)显示从记录的脑电信号数据解码的句子。在一些实施例中,使用机器学习算法进行语音检测、单词分类和句子解码。在一些实施例中,使用人工神经网络(ANN)模型进行语音检测和单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行句子解码。
在另一方面,提供了一种非暂时性计算机可读介质,非暂时性计算机可读介质包括程序指令,当由计算机中的处理器执行时,程序指令使处理器执行本文描述的计算机实现的方法。
在另一方面,提供了一种套件,套件包括非暂时性计算机可读介质和用于解码与受试者的尝试拼读预期句子的单词的字母相关联的脑电信号数据的指令。
在另一方面,提供了一种用于协助受试者进行交流的系统,系统包括:包括电极的神经记录装置,适于定位在受试者的大脑的感觉运动皮层区域中的位置处,以记录与受试者的尝试语音、尝试拼读预期句子的单词的字母或尝试非语音运动性移动或其组合相关联的脑电信号数据;处理器,经编程以根据本文描述的计算机实现的方法从记录的脑电信号数据中解码句子;与计算装置通信的接口,所述接口适于定位在受试者的头部上的位置处,其中接口从神经记录装置接收脑电信号数据并且将脑电信号数据传输到处理器;以及显示器组件,用于显示从记录的脑电信号数据解码的句子。
在某些实施例中,电极适于定位在感觉运动皮层区域的表面上或感觉运动皮层区域内。
在某些实施例中,电极适于定位在硬膜下腔中的大脑的感觉运动皮层区域的表面上。
在某些实施例中,神经记录装置包括脑穿透电极阵列。
在某些实施例中,神经记录装置包括脑皮层电图(ECoG)电极阵列。
在某些实施例中,电极是深度电极或表面电极。
在某些实施例中,电信号数据包括高γ频率内容特征(例如,70Hz至150Hz)和低频率内容特征(例如,0.3Hz至100Hz)。
在某些实施例中,接口包括附接到受试者的颅骨的经皮基座连接器。
在某些实施例中,接口进一步包括可连接到经皮基座连接器的前端。
在某些实施例中,处理器由计算机或手持装置(例如,手机或平板电脑)提供。
在另一方面,一种套件包括本文所述的系统和用于使用系统记录和解码与受试者的尝试语音、尝试拼读单词或尝试非语音运动性移动或其组合相关联的脑电信号数据的指令。
通过解码与尝试语音、尝试拼读单词或尝试非语音运动性移动相关联的神经活动来协助受试者进行交流的方法可以组合。这些技术是互补的。在一些情况下,解码尝试拼读可以使得能够比解码尝试语音使用更大的词汇表。然而,对于受试者来说,解码尝试语音可能更容易和更方便,因为它允许更快速的直接单词解码,这对于表达频繁使用的单词可能是优选的。为了协助解码,可以使用尝试非语音运动性移动来发信号通知受试者正在起始或结束尝试语音或拼出预期消息。
附图说明
图1.直接语音BCI的示意图。使用从植入患有严重瘫痪的临床试验参与者中的研究性脑皮层电图(ECoG)电极阵列获取的神经活动来实时地直接解码单词和句子。在对话演示中,参与者被视觉提示一个问题(A),并且被指示尝试使用来自预定义的50个单词的词汇表的单词作出响应。同时,经由ECoG装置从大脑的表面获取皮层信号(B),并对这些信号进行实时处理(C)。语音检测模型逐个样本地分析经处理的神经信号,以检测参与者的说话尝试(D)。分类器从相关神经活动的每个检测窗口计算单词概率(跨越50个可能的单词)(E)。维特比解码算法使用这些概率并结合来自单独训练的语言模型的单词序列概率来解码给定ECoG数据情况下的最可能的句子(F)。每次单词被解码时更新的预测的句子作为反馈向参与者显示(G)。
图2A至图2E.神经信号处理和语言建模使得能够实时地解码各种句子。图2A示出了在句子任务块期间从参与者的皮层活动解码的单词序列的单词错误率。单词错误率量化了解码错误发生的频率(单词错误率越低指示性能越好)。单词错误率显著低于在使用和不使用语言模型(LM)对单词进行解码时的偶然性,并且在解码期间使用LM时,性能显著改善(*所有P<0.001,3向Holm-Bonferroni校正)。图2B示出了当包括或排除不正确解码的单词时,跨所有试验的每分钟经解码单词值。每个小提琴分布都是使用具有Scott带宽估计的核密度估计创建的,并伴有描绘中位数的粗水平线和描绘范围的较小水平线(排除低于或高于平均值的多于4个标准偏差的异常值)。图2C示出了每次试验中所检测的单词数量与实际单词数量之间的差异的汇总,其中具有正确句子长度的试验的百分比以黑色示出,而不正确句子长度以深红色示出。图2D示出了跨所有试验和所有50个句子目标,使用和不使用LM的经解码句子的编辑距离(产生的解码错误的数量),这些距离通过使用LM的预测的升序编辑距离进行排序(编辑距离越小指示性能越好)。每个小的垂直破折号代表单次试验的编辑距离(每个目标句子存在3次试验;出于可视化目的,相同编辑距离的标记水平交错)。每个点代表该目标句子的平均编辑距离。底部的直方图示出了跨所有试验的编辑距离计数。图2E示出了对于七次不同试验使用和不使用LM的目标句子和经解码句子。正确解码的单词以黑色示出,并且不正确的单词以红色示出。
图3A至图3C.不同的神经活动模式是单词产生尝试的基础。图3A示出了使用在参与者的孤立单词产生尝试期间记录的皮层活动,训练数据量对单词分类准确度的影响。每个点描绘跨10个交叉验证折叠的平均值±标准偏差。偶然性准确度以水平虚线描绘。图3B示出了被植入式电极的位置覆盖的参与者的大脑重建以及它们对语音检测和单词分类模型的贡献。绘制的电极大小(面积)和不透明度通过相对贡献来比例缩放(重要的电极看起来比其他电极更大且更不透明)。每组贡献被归一化为总和为1。作为解剖学参考,中央前回以浅蓝色突出。图3C示出了来自分类结果的单词混淆,描绘了在给定参与者尝试说出的目标单词的身份的情况下,分类器预测50个单词中的每个单词的频率(沿着对角线的值对应于正确的分类)。
图4A至图4B.在尝试语音期间记录的神经活动表现出长期稳定性。图4A示出了跨越18个月的记录,在孤立单词任务期间跨所有参与者尝试说出单词“再见”来自单个电极的神经活动。图4B示出了根据从四个非重叠日期范围采样的孤立单词数据子集训练和测试检测器和分类器所带来的单词分类结果。每个子集含有每个单词的20次尝试产生的数据。每个实心条描绘来自单个子集内的交叉验证评估的结果,并且每个点状条描绘根据除了正在评估的子集之外的所有子集中的数据进行训练的结果。每个条描绘了跨10个评估折叠的平均值±标准误差。偶然性准确度以水平虚线描绘。还示出了四个相同子集评估之间的显著差异(*P<0.01,双尾Fisher精确测试,10向Holm-Bonferroni校正)以及每个测试子集的两个评估之间的显著差异(*P<0.01,双尾精确McNemar测试,10向Holm-Bonferroni校正)。在单个子集内的交叉验证评估期间计算的电极贡献显示在顶部上(被取向成最背面和最后面的电极位于右上角中)。绘制的电极大小(面积)和不透明度通过相对贡献来比例缩放。每组贡献被归一化为总和为1。
图5A至图5B.参与者的MRI结果。图5A示出了患有由脑桥中风(用红色标记)引起的脑软化和脑干萎缩(用蓝色标记)的参与者的矢状MRI。图5B示出了两个额外的MRI扫描,扫描指示不存在脑萎缩,表明皮层神经元群体(包括本研究中记录的那些)应相对不受参与者病理的影响。
图6.实时神经数据获取硬件基础设施。对从植入阵列和经皮基座连接器获取的脑皮层电图(ECoG)数据进行处理且将其传输到Neuroport数字信号处理器(DSP)。同时,获取麦克风数据、将其放大并传输到DSP。将来自DSP的信号传输到实时计算机。实时计算机控制向参与者显示的任务,包括作为反馈实时提供的任何经解码句子。还将来自实时计算机的扬声器输出发送到DSP,并使其与神经信号(未描绘)同步。在更早的会话中,连接到基座的人类患者缆线获取ECoG信号,然后由前端放大器对这些信号进行处理,然后传输到DSP(人类患者缆线和前端放大器在此处未示出,但它们在其被使用时取代了该流水线中的数字前端和数字中枢)。
图7.实时神经信号处理流水线。使用数据获取前端和成套装备,以30kHz获取参与者的脑皮层电图(ECoG)信号,用宽带滤波器进行滤波,用基于软件的线路噪声消除技术进行调节,以500Hz进行低通滤波,并以1kHz串流至实时计算机。在实时计算机上,使用定制软件对ECoG信号进行共同平均参考、多频带高γ带通滤波、分析振幅估计、多频带平均和运行z评分。然后,使用所得信号作为剩余分析的高γ活性的量度。
图8.数据收集时间线。如果在一天内收集了多于一种数据类型,则条形图会垂直堆叠(任何给定日期的堆叠条形图的高度等于当天收集的试验总数)。数据收集计划的不规则性部分是由与植入装置无关的外部和临床时间约束造成的。55周至88周的间隙是由COVID-19大流行的临床指南引起的。
图9.语音检测模型示意图。通过由三个长短期记忆层(LSTM)和单个致密(完全连接)层的堆叠组成的人工神经网络,对跨所有电极的z评分高γ活性进行逐时间点处理。致密层将最后一个LSTM层的潜在维度投射到针对三个事件类别:语音、准备和休息的概率空间中。对预测的语音事件概率时间序列进行平滑处理,然后用概率和时间阈值进行阈值处理,以产生所检测的语音事件的开始时间(t*)和结束时间。在句子解码期间,每次检测到语音事件时,相对于所检测的开始(t*)从1到3秒时间跨度的神经活动窗口被传递给单词分类器。所示的神经活动、预测的语音概率时间序列(右上)和所检测的语音事件(右下)是其中参与者尝试产生单词“家人”的孤立单词试验的跨7秒时间窗口的实际神经数据和检测结果。
图10.单词分类模型示意图。对于每个分类,由10个人工神经网络(ANN)模型的集成体对高γ活性的4秒时间窗口进行处理。在每个ANN内,高γ活性通过时间卷积来处理,然后是两个双向门控递归单元(GRU)层。致密层将来自最终GRU层的潜在维度投射到概率空间中,概率空间含有来自50个单词的集合的每个单词在与神经时间窗口相关联的语音产生尝试期间是目标单词的概率。来自集成式ANN模型的10个概率分布被一起平均,以获得预测的单词概率的最终向量。
图11.句子解码隐马尔可夫模型。此隐马尔可夫模型(HMM)描述了参与者尝试产生的单词(隐状态qi)与相关联的所检测的神经活动时间窗口(所观察的状态yi)之间的关系。HMM发射概率p(y0|q0)可以简化为(由单词分类器提供的单词可能性),并且HMM转移概率p(qi|qi-1)可以简化为/>(由语言模型提供的单词序列先验概率)。
图12A至图12C.用孤立单词数据的辅助建模结果。图12A示出了使用在参与者的孤立单词产生尝试期间记录的皮层活动,训练数据量对单词分类准确度(左)和交叉熵损失(右)的影响。交叉熵越低指示性能越好。每个点描绘跨10个交叉验证折叠的平均值±标准偏差(交叉熵曲线图中的误差条通常太小,在圆形标记物旁边看不到)。在每个曲线图中,偶然性表现被描绘为水平虚线(偶然性交叉熵损失被计算为单词目标数量的倒数的负对数(以2为底))。在训练数据的前四个小时,性能改善得较快,并且然后在接下来的5个小时,性能改善得较慢,然而它并未稳定下来。当使用所有可用的孤立单词数据时,信息传输速率为每分钟25.1比特(未描绘)。图12B示出了在语音检测和用孤立单词数据的所检测的事件管理期间训练数据量对检测错误的频率的影响。错误率越低指示性能越好。假阳性是所检测的与单词产生尝试无关的事件,并且假阴性是与所检测的事件无关的单词产生尝试。每个点描绘跨10个交叉验证折叠的平均值±标准偏差。并非所有的可用训练数据都用于拟合每个语音检测模型,但每个模型总是使用47分钟与83分钟之间的数据(未描绘)。图12C示出了从跨9000个孤立单词试验的神经活动中检测的相对于go提示(100ms直方图箱元大小)的开始的分布。此直方图是使用学习曲线方案(其中所有可用试验都包括在交叉验证评估中)中的最终分析集的结果创建的。在相关联的go提示之后,所检测的语音开始的分布具有308ms的平均值和1017ms的标准偏差。此种分布可能在某种程度上受到参与者的响应时间的行为可变性的影响。在所检测的事件管理期间,429次试验要求管理以从多个候选物中选择一个所检测的事件(420次试验具有2个候选物,并且9次试验具有3个候选物)。
图13.声学污染调查。每个蓝色曲线描绘了随着频率变化的来自单个电极的光谱图与来自时间校准的麦克风信号的对应光谱图之间的平均相关性。红色曲线描绘麦克风信号的平均功率谱密度(PSD)。垂直虚线标记60Hz线路噪声频率及其谐波。以绿色突出的是高γ频带(70Hz至150Hz),这是我们提取在解码期间使用的神经特征的频带。跨所有频率,电极与麦克风信号之间的相关性都是小的。在高γ频率范围的较低端,存在相关性略微增加,但此种相关性的增加随着麦克风PSD的降低而发生。由于相关性为低,并且不随麦克风PSD而增加或减少,因此所观察的相关性可能是由声学污染以外的因素造成的,诸如共享的电噪声。在将这些结果与描述声学污染的研究(研究为我们在此使用的污染分析提供了信息)[39]中所观察的结果进行比较后,我们得出结论,我们的解码性能并未因我们的电生理记录的声学污染而得到人为改善。
图14A至图14C.语音诱发信号的长期稳定性。图14A示出了跨越81周的记录,在孤立单词任务期间跨所有参与者尝试说出单词“再见”来自单个电极的神经活动。图14B示出了被电极位置覆盖的参与者的大脑重建。图A中示出的电极用黑色填充。作为解剖学参考,中央前回以浅蓝色突出。图14C示出了根据从四个非重叠日期范围采样的孤立单词数据子集训练和测试检测器和分类器所带来的单词分类结果。每个子集含有每个单词的20次尝试产生的数据。每个实心条描绘来自单个子集内的交叉验证评估的结果,并且每个点状条描绘根据除了正在评估的子集之外的所有子集中的数据进行训练的结果。每个误差条示出了跨交叉验证折叠计算的平均值的95%的置信区间。偶然性准确度以水平虚线描绘。在单个子集内的交叉验证评估期间计算的电极贡献显示在顶部上(被取向成最背面和最后面的电极位于右上角中)。绘制的电极大小(面积)和不透明度通过相对贡献来比例缩放。每组贡献被归一化为总和为1。这些结果表明,在整个研究期间,语音诱发的皮层响应保持相对稳定,然而每2个月至3个月进行的模型重新校准可能仍然有益于解码性能。
图15.拼读流水线的示意图。A.在句子拼读试验开始时,参与者尝试无声地说出一个单词,以凭意志激活拼读器。B.从整个任务过程中记录的皮层数据中实时提取神经特征(高γ活性和低频信号)。描绘了来自单个电极(如图19A所示的电极0)的特征。为了可视化,经由与标准偏差为150毫秒的高斯核卷积来对轨迹进行平滑处理。麦克风信号示出在任务期间不存在声音输出。C.由递归神经网络(RNN)和阈值处理操作组成的语音检测模型对神经特征进行逐个样本处理,以检测无声语音尝试。一旦检测到尝试,检测模型变为非活动状态,并且拼读程序开始。D.在拼读程序期间,参与者在每2.5秒发生的整个字母解码循环中拼出预期消息。每一个循环,都向参与者视觉呈现倒计时,并且最后是go提示。在go提示时,参与者尝试无声地说出代表期望字母的码字。E.在整个拼读程序中针对所有电极通道计算高γ活性和低频信号,并且将其打包成与字母解码循环对应的2.5秒的非重叠时间窗口。F.基于RNN的字母分类模型对这些神经时间窗口中的每一个进行处理,以预测参与者尝试无声地说出26个可能的码字中的每一个或尝试执行手部运动命令的概率(参见G)。如果分类器预测参与者以至少80%的概率执行手部运动命令,则拼读程序结束,并且句子最终确定(参见I)。否则,通过束搜索算法实时地对预测的字母概率进行处理,并且向参与者显示最可能的句子。G.在参与者拼读出他的预期消息后,他尝试在下一字母解码循环期间握他的右手以结束拼读程序并最终确定出句子。H.与手部运动命令相关联的神经时间窗口被传递给分类模型。I.如果分类器确认参与者尝试了手部运动命令,则基于神经网络的语言模型(“DistilGPT-2”)对仅由完整单词构成的句子进行重新评分,并且系统使用重新评分后最可能的句子作为最终预测。
图16A至图16F.在复印打字任务期间拼读系统的性能总结。图16A.在实时句子拼读(表示为‘+LM(实时结果)’)和省略拼读系统的部分的离线模拟期间所观察的字符错误率(CER)。在‘偶然性’条件下,通过用随机产生的字母概率取代来自神经分类器的输出而创建句子,而不改变拼读流水线的剩余部分。在‘仅神经解码’的条件下,仅通过在句子试验(不包括任何空白字符)期间将来自每个分类器预测的最可能的字符串联在一起来创建句子。在‘+词汇表约束’条件下,来自神经分类器的预测的字母概率与束搜索一起使用,束搜索将预测的字符序列局限于从1,152个单词的词汇表中形成单词。标记为‘+Lm(实时结果)’的最终条件示出了在对参与者进行测试期间的实时结果,在束搜索期间且在句子最终确定之后结合语言建模。与在其他条件下解码的句子相比,使用完整系统实时解码的句子表现出较低的CER(***P<0.0001,具有6向Holm-Bonferroni校正的双侧Wilcoxon秩和测试)。图16B.来自图16A的实时结果和对应的离线遗漏模拟的单词错误率(WER)。图16C.在实时测试期间每分钟解码的字符数。图16D.在实时测试期间每分钟解码的单词数。在图16A至图16D中,每个箱线图描述的分布是跨n=34个实时块计算的(在每个块中,参与者尝试拼读2个至5个句子),并且每个箱线图描绘具有触须延伸的数据的四分位数以示出分布的其余部分,是四分位数间距的1.5倍的数据点除外。在图16A和图16B中,每个箱线图对应于n=34个块(在这些块的每一个中,参与者尝试拼读二个至五个句子)。在图16C中,每个箱线图对应于n=9个块(在这些块的每一个中,参与者尝试拼读二个至四个对话响应)。图16E.每个经解码句子中的多余字符数。具有0个多余字符的经解码句子指示,在参与者拼读出该句子中的最后一个字母后,立即从其神经活动中成功识别出手部运动命令(以脱离拼读器)。图16F.利用来自每个非偶然性条件的经解码句子进行的示例性句子拼读试验。不正确的字母被涂成红色。1和2标记其中实时解码的句子含有至少一个错误的试验。这两次试验的目标句子在图的底部处给出。所有其他示例性句子不包含任何实时解码错误。
图17A至图17H.在无声语言尝试期间高γ活性(HGA)和低频信号(LFS)的表征。图17A.当单独使用HGA、单独使用LFS以及同时使用HGA+LFS时,关于无声尝试的NATO码字的10倍交叉验证分类准确度。仅使用LFS的分类准确度显著高于仅使用HGA的分类准确度,并且同时使用HGA+LFS得到显著高于单独使用任一特征类型的准确度(**P<0.001,利用3向Holm-Bonferroni校正的双侧Wilcoxon秩和测试)。偶然性准确度为3.7%。每个箱线图描绘了具有触须延伸的数据的四分位数以示出分布的其余部分,是四分位数间距1.5倍的数据点除外。每个箱线图对应于n=10个交叉验证折叠。图17B.来自仅使用HGA特征训练的分类模型的电极贡献。绘制的电极大小和不透明度通过相对贡献来比例缩放;看起来更大和更不透明的电极为分类模型提供了更重要的特征。图17C.与来自使用组合的HGA+LFS特征集训练的分类模型的HGA特征相关联的电极贡献。图17D.来自仅使用LFS特征训练的分类模型的电极贡献。LFS17E.与来自使用组合的HGA+LFS特征集训练的分类模型的LFS特征相关联的电极贡献。在图17B至图17E中,绘制的电极大小和不透明度通过相对贡献来比例缩放;看起来更大和更不透明的电极为分类模型提供了更重要的特征。图17F.在100次自举迭代中,解释每个特征集的空间维度中的多于80%的差异所需的最小主成分(PC)数。每个特征集所需的PC数显著不同(***P<0.0001,利用3向Holm-Bonferroni校正的双侧Wilcoxon秩和测试,*P<.01,利用3向Holm-Bonferroni校正的双侧Wilcoxon秩和测试)。图17G.在100次自举迭代中,解释每个特征集的空间维度中的多于80%的差异所需的最小PC数。在图17F和图17G中,每个特征集所需的PC数被描绘为直方图,其中x轴是需要特定数量的PC的自举迭代的百分比。图17H.时间平滑处理对分类准确度的影响。每个点代表中位数,并且误差条代表中位数的自举估计值周围的99%的置信区间。
图18A至图18C.在尝试无声地说出英语字母和NATO码字期间的神经信号的比较。图18A.使用用HGA+LFS特征训练的模型得到的NATO码字的分类准确度(跨n=10个交叉验证折叠)显著高于英语字母的分类准确度(**P<0.001,双侧Wilcoxon秩和测试)。水平虚线代表偶然性准确度。图18B.对于组合的HGA+LFS特征集,NATO码字的最近类别距离显著大于字母的最近类别距离(箱线图示出跨n=26个码字或字母的值;*P<0.01,双侧Wilcoxon秩和测试)。在图18A和图18B中,每个箱线图描绘了具有触须延伸的数据的四分位数以示出分布的其余部分,是四分位数间距1.5倍的数据点除外。图18C.大多数码字的最近类别距离大于对应字母的最近类别距离。在图18B和图18C中,最近类别距离被计算为试验平均的HGA+LFS特征之间的Frobenius范数。
图19A至图19D.公开语音尝试与无声语音尝试之间的神经信号和分类性能的差异。图19A.被植入电极位置覆盖的参与者大脑的MRI重建。图19B和图19C中使用的电极的位置在覆盖图中被加粗并编号。图19B.在无声尝试(橙色)和公开尝试(绿色)说出NATO码字“千”期间的高γ活性(HGA)事件相关电位。图19C.在无声尝试(橙色)和公开尝试(绿色)说出NATO码字“探戈”期间的高γ活性(HGA)事件相关电位。图19B和图19C中的诱发响应与go提示对齐,go提示在时间0处被标记为垂直虚线。每条曲线描绘了跨n=100次语音尝试的平均值±标准误差。图19D.使用各种模型训练方案得到的码字分类准确度(跨10个交叉验证折叠)。除了标记为‘ns’的那些之外,所有比较均揭示了结果对之间存在显著差异(P<0.01,利用28向Holm-Bonferroni校正的双侧Wilcoxon秩和)。每个箱线图对应于n=10个交叉验证折叠。偶然性准确度为3.84%。
图20A至图20D.拼读方法可以推广到更大的词汇表和对话设置。图20A.来自利用不同词汇表(包括在实时解码期间使用的原始词汇表)的复印打字任务的模拟字符错误率。图20B.来自图20A中对应模拟的单词错误率。图20C.跨在对话任务条件期间实时解码的凭意志选择的响应和消息的字符和单词错误率。在图20A至图20C中,每个箱线图描绘了具有触须延伸的数据的四分位数以示出分布的其余部分,是四分位数间距1.5倍的数据点除外。图20D.从对话任务条件试验中提出的问题(左)以及从参与者的大脑活动解码的对应响应(右)的实例。在最后实例中,参与者在没有问题提示的情况下拼出了其预期消息。
图21.数据收集时间线。每个条描绘了在记录的每一天收集的试验总数。参与者和植入日期与我们之前的工作相同[2]。如果在一天内收集了多于一种类型的数据集,则条会根据收集的每个数据集的比例进行着色。每种颜色代表特定的数据集(如图例中所指定的)。数据集在任务类型(孤立目标或实时句子拼读)、话语集(英语字母、NATO码字(其包括尝试握手)、复印打字句子或对话句子)以及针对实时句子拼读数据集的数据目的(用于超参数优化或用于性能评估)方面各不相同。所有与语音相关的试验都与无声语音尝试相关联,其图例标签中带有“(公开)”的数据集除外。此外,在此公开数据集中,3.06%的试验实际上是在一个版本的参与者尝试公开产生码字的复印打字句子拼读任务期间记录的(关于更多详细信息参见部分S3)。由于与神经植入物无关的外部和临床时间约束,数据集被不规律地收集。55周至88周的间隙具体是由于限制或阻止了现场记录会话的COVID-19大流行开始期间的临床指南。
图22.实时信号处理流水线。附接到经皮基座连接器的可拆卸数据获取前端(CerePlex E,Blackrock Microsystems)将基于硬件的宽带Butterworth滤波器(0.3Hz至7.5kHz)应用于ECoG信号,以16位、250-nV/位分辨率将其数字化,并通过与Neuroport系统(Blackrock Microsystems)的额外连接以30kHz传输这些信号,Neuroport系统使用基于软件的线路噪声消除和抗混叠低通滤波器(500Hz)对信号进行处理。之后,经处理的信号以1kHz串流至单独的计算机进行进一步的实时处理和分析,在此处我们将共同平均参考(跨所有电极通道)应用于ECoG数据的每个时间样本。然后,在两个并行串流中对重新参考的信号进行处理,以提取高γ活性(HGA)和低频信号(LFS)特征。为了计算HGA特征,我们将八个390阶带通有限脉冲响应(FIR)滤波器应用于重新参考的信号(滤波器中心频率在72.0Hz、79.5Hz、87.8Hz、96.9Hz、107.0Hz、118.1Hz、130.4Hz和144.0Hz的高γ带内)。然后,对于每个通道和频带,我们使用170阶FIR滤波器来近似希尔伯特变换。具体而言,对于每个通道和频带,我们将分析信号的实部设定为等于延迟85个样本(滤波器阶数的一半)的原始信号,并且将虚部设定为等于原始信号的希尔伯特变换(由此FIR滤波器近似)[25]。然后,我们计算每第五个时间样本处的每个分析信号的幅值,产生200Hz的分析振幅信号。对于每个通道,我们在每个时间点对跨八个频带的分析振幅值进行平均,以获得该通道的单个高γ分析振幅量度。为了计算LFS特征,在应用截止频率为100Hz的130阶抗混叠低通FIR滤波器后,我们将重新参考的信号下采样至200Hz。然后,我们将来自两个特征串流(高γ分析振幅和下采样信号)的时间同步值组合成单个特征串流。接下来,我们使用具有30秒滑动窗口的Welford方法对每个通道和每个特征类型的值进行z评分[26]。最后,我们实现了一种简单的伪影拒绝方法,以防止具有异常大的z评分大小的样本干扰正在运行的z评分统计或下游解码过程。我们根据我们先前的工作[2,27]调整了此图,这些工作实现了类似的预处理流水线来计算高γ特征。
图23.语音检测模型示意图。为了在实时句子拼读期间从参与者的神经活动中检测无声语音尝试,首先由3个长短期记忆(LSTM)层的堆叠对每个电极的z评分的低频信号(LFS)和高γ活性(HGA)进行连续处理。接下来,单一致密(完全连接)层将最终LSTM的潜在维度投射到4个可能的类别上:语音、语音准备、休息和运动。然后对语音概率串流进行时间平滑处理、概率阈值处理和时间阈值处理,以产生完整语音事件的开始和结束。一旦参与者尝试无声地说些什么,并且该语音尝试被检测到,则拼读系统就被启用,并且定速拼读程序开始。所描绘的神经特征、预测的语音概率时间序列(右上)和所检测的语音事件(右下)是在实时句子复印打字任务试验开始时5秒时间窗口的实际神经数据和检测结果。此图根据我们先前的工作进行调整[2],这些工作实现了类似的语音检测架构。
图24A至图24B.特征选择对码字分类准确度的影响。图24A.当一起使用高γ活性(HGA)和低频信号(LFS)(组合的HGA+LFS特征集)而不是仅使用HGA特征时,每个码字的分类准确度都有改善。图24B.当使用HGA+LFS而不是单独使用LFS时,几乎每个码字的分类准确度都有改善。在图24A和图24B中,码字被表示为小写字母,并且示出了斯皮尔曼秩相关性。相关联的p值经由排列测试进行计算,其中一组观察值(HGA、LFS或HGA+LFS的码字准确度)在重新计算该组观察值与另一组观察值之间的相关性之前被打乱。对于两次比较中的每一个,在排列测试期间使用2000次迭代。
图25.孤立目标试验分类的混淆矩阵。对于每个NATO码字和尝试握手,示出了在孤立目标试验期间记录的神经数据(使用高γ活性和低频信号)的离线分类期间计算的混淆值。每行对应于一个目标码字或尝试握手,并且该行的每列中的值对应于被正确分类为目标(如果值沿着对角线)或被错误分类(“混淆”)为另一个潜在目标(如果值不沿着对角线)的孤立目标任务试验的百分比。每行中的值总和为100%。一般来说,无声语音和握手尝试被可靠地分类。
图26A至图26B.在公开和无声语音尝试期间的神经激活特征。图26A.每个图像示出了参与者的大脑的MRI重建,上面覆盖有电极位置和每个电极的最大神经激活、语音尝试类型(公开或无声)以及特征类型(高γ活性(HGA)或低频信号(LFS)),其被测量为最大峰值码字平均幅值。为了计算这些值,使用孤立目标数据集(对于每次试验,使用go提示后的2.5秒时间窗口)计算每个码字、电极、语音尝试类型和特征类型的试验平均神经特征时间序列。然后,确定这些试验平均时间序列中每一个的峰值幅值(绝对值的最大值)。然后计算每个电极、语音尝试类型和特征类型的最大峰值码字平均幅值,作为跨每个组合的码字的这些峰值幅值的最大值。这两列示出了每种语音尝试类型的值(公开然后无声),并且这两行示出了每种特征类型的值(HGA然后LFS)。图26B.峰值码字平均幅值的标准偏差。此处,计算并绘制了跨每个电极、语音尝试类型和特征类型的码字的峰值平均幅值的标准偏差(而不是图26A中使用的最大值),描绘了幅值跨该组合的语音目标的变化程度。对于图26A和图26B,每个绘制电极的颜色指示该电极的真实关联值,并且每个电极的大小描绘了该电极相对于其他电极的值的关联值(对于给定的语音尝试类型和特征类型)。
具体实施方式
提供了用于协助受试者进行交流的方法、装置和系统。具体而言,提供了用于直接从个体的神经活动解码单词和句子的方法、装置和系统。在所公开的方法中,当个体尝试说出或拼出句子的单词时,记录来自大脑的参与语音处理的区域的皮层活动。使用深度学习计算模型从记录的大脑活动中检测和分类单词。通过使用预测某些单词序列将出现的可能性的语言模型来辅助从大脑活动中解码语音。此外,可使用从神经活动中解码尝试非语音运动性移动来进一步协助交流。
本文公开的方法、装置和系统可用于协助由病症和疾病引起的具有交流困难的个体,病症和疾病包括但不限于中风、创伤性脑损伤、脑肿瘤、肌萎缩性侧索硬化、多发性硬化、亨廷顿氏病、尼曼匹克病、弗里德希氏共济失调、威尔逊氏病、脑性瘫痪、格林-巴利综合征、泰-萨二氏病、脑病、脑桥中央髓鞘溶解,以及导致头、颈或胸部肌肉功能障碍或瘫痪从而导致构音障碍的其他病症。本文公开的方法可用于恢复此类个体的交流,并改善自主性和生活质量。
在描述本发明的示例性实施例之前,应理解,本发明不限于所描述的特定实施例,因为这些实施例当然可以变化。还应理解,本文所用的术语仅是为了描述特定实施例的目的,而非旨在进行限制,因为本发明的范围将仅由所附权利要求来限定。
在提供数值范围的情况下,应当理解,除非上下文另有明确规定,否则该范围的上限与下限之间的每个中间值,直到下限单位的十分之一,也被具体公开。在所述范围内的任何所述值或中间值与该所述范围内的任何其他所述值或中间值之间的每个较小范围都囊括在本发明内。这些较小范围的上限和下限可以在范围内独立地包括或排除,并且其中任一个极限、两个极限都不或两个极限都包括在较小范围内的每个范围也囊括在本发明内,服从在所述范围内的任何具体排除的极限。当所述范围包括极限中的一个或两个时,排除这些所包括的极限中的一个或两个的范围也包括在本发明中。
除非另有定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同含义。尽管在本发明的实践或测试中可以使用类似于或等同于本文所述的任何方法和材料,但现在可描述一些潜在的且示例性的方法和材料。本文提及的任何及所有出版物都通过引用并入本文,以公开和描述与引用的出版物相关的方法和/或材料。应理解,在有矛盾的程度上,本公开取代所结合的出版物的任何公开。
必须注意,除非上下文另有明确规定,否则如本文和所附权利要求中所使用的,单数形式“一(a、an)”及“所述”包括复数指示物。因此,例如,提及“电极”或“所述电极”包括多个此类电极,并且提及“信号”或“所述信号”包括提及一个或多个信号,等等。
还应注意,权利要求可以被起草为排除任何可选的元素。因此,此陈述旨在用作结合权利要求元素的叙述或“负面”限制的使用来使用诸如“单独地”、“仅”等排他性术语的前提基础。
本文讨论的出版物仅仅是为了在本申请的申请日之前公开它们而提供的。本文中的任何内容都不应被解释为承认本发明没有资格凭借先前发明而先于此种公开。此外,所提供的出版日期可能与实际出版日期不同,这可能需要独立确认。在此类出版物可能列出与本公开的明确或隐含定义相冲突的术语定义的程度上,以本公开的定义为准。
如本领域技术人员在阅读本公开时将理解,在不脱离本发明的范围或精神的情况下,本文描述和示出的单独实施例中的每一个具有离散的组件和特征,这些组件和特征可以容易地与任何其他若干实施例的特征分离或组合。任何叙述的方法可以叙述的事件的顺序或逻辑上可能的任何其他顺序来实施。
定义
术语“交流障碍”在本文中用于指影响受试者说话能力的一组病症。交流障碍包括但不限于中风、创伤性脑损伤、脑肿瘤、肌萎缩性侧索硬化、多发性硬化、亨廷顿氏病、尼曼匹克病、弗里德希氏共济失调、威尔逊氏病、脑性瘫痪、格林-巴利综合征、泰-萨二氏病、脑病、脑桥中央髓鞘溶解,以及导致头、颈或胸部肌肉功能障碍或瘫痪从而导致构音障碍的其他病症。
术语“交流”包括基于单词的交流,诸如口头交流,包括说出的语音、拼读单词和产生文本(例如,经由尝试说话来控制个人装置产生电子邮件或文本);以及基于动作的交流,诸如通过尝试非语音运动性移动。尝试语音可以包括可理解或不可理解的发声语音或非发声语音。无声语音尝试是在不发声的情况下凭意志尝试有声语音。无声拼读尝试是在不发声的情况下凭意志尝试拼读字母字符或数字。尝试非语音运动性移动可以包括在没有任何可检测身体移动情况下的想象的移动。尝试非语音运动性移动可以包括但不限于想象的头、臂、手、脚和腿的移动。尝试非语音运动性移动可以用于指示尝试语音或拼读的起始或终止或控制外部装置(例如,用于与个人装置或软件应用通信,或者用于打开或关闭装置)。在所公开的方法中,在尝试交流期间记录神经活动,无论个体是否产生任何声音输出或可检测运动性移动。
术语“受试者”、“个体”、“患者”和“参与者”在本文中可互换使用,并且是指患有交流障碍的患者。患者优选地是可以受益于本文公开的用于恢复交流的系统、装置和方法的人类,例如儿童、青少年、成年人(诸如年轻人、中年人或老年人)。患者可能被诊断为患有构音障碍。
本文使用的术语“使用者”是指与本文公开的装置和/系统交互以执行本文公开的方法的一个或多个步骤的人。使用者可以是接受治疗的患者。使用者可以是医疗保健从业者,诸如患者的医生。
方法
本公开提供了用于协助受试者进行交流的方法。提供了用于直接从个体的神经活动中解码单词和句子的方法。在所公开的方法中,当个体尝试说出或拼出句子的单词时,记录来自大脑的参与语音处理的区域的皮层活动。尝试说出或拼出单词可以包括或不包括发声。也就是说,在尝试说出或拼出单词期间,无论个体是否产生任何声音输出,神经活动都会被记录下来。在一些情况下,当个体尝试说出或拼出单词时,声音输出可能是难以理解的。使用深度学习计算模型从记录的大脑活动中检测和分类单词和/或拼出的字母。通过使用预测某些单词序列出现的可能性的语言模型来辅助从大脑活动中解码语音。本文描述的神经技术可用于恢复已经失去说话能力的患者的交流,并且具有改善自主性和生活质量的潜力。下面将更详细地描述这些方法的各个步骤和方面。
方法包括将包括一个或多个电极的神经记录装置定位在受试者的大脑的感觉运动皮层区域中的位置处,以记录与受试者的尝试语音和/或尝试拼读相关联的脑电信号数据;以及将与计算装置通信的接口定位在受试者的头部上的位置处。使用神经记录装置记录与受试者的尝试语音和/或尝试拼读相关联的脑电信号数据,其中接口从神经记录装置接收脑电信号数据,并且将脑电信号数据传输到处理器,处理器经编程以检测受试者的尝试语音和/或拼读,并且从记录的脑电信号数据中解码拼读的字母、单词、短语或句子。
记录装置可以包括非脑穿透表面电极或脑穿透深度电极。可以使用单个电极、电极对或电极阵列来记录电信号。在一些实施例中,从多于一个位点记录大脑活动。在某些实施例中,从参与语音处理的大脑的感觉运动皮层区域(诸如中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合)记录脑电信号数据。在一些实施例中,电极定位在硬膜下腔中的大脑的感觉运动皮层区域的表面上。
将用于记录大脑活动的电极定位在大脑的指定区域处可以使用放置颅内电极的标准外科手术来实施。如本文所用,短语“电极”或“所述电极”是指单个电极或多个电极,诸如电极阵列。如本文所用,在与大脑区域接触的电极的上下文中使用的术语“接触”是指电极与区域之间的物理关联。换句话说,与大脑区域接触的电极实际上触及大脑区域。与大脑区域接触的电极可用于检测对应于与尝试语音和/或拼读相关联的神经活动的电信号。本文公开的方法中使用的电极可以是单极的(阴极或阳极)或双极的(例如,具有阳极和阴极)。
在某些实施例中,使用一个或多个电极来记录与一个或多个大脑区域中的尝试语音和/或尝试拼读相关联的神经活动的电信号。例如,可以将电极放置在参与语音处理的感觉运动皮层区域中,诸如大脑的中央前回、中央后回、额后中回、额后上回或额后下回区域。在某些情况下,放置电极可能涉及将电极定位在大脑的指定区域的表面上。例如,电极可以放置在大脑表面上的中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合处。电极可以在中央前回、中央后回、额后中回、额后上回或额后下回区域处接触大脑表面的至少一部分。在一些实施例中,电极可以在中央前回、中央后回、额后中回、额后上回或额后下回区域处接触基本上整个表面区域。在一些实施例中,电极可以另外接触与中央前回、中央后回、额后中回、额后上回或额后下回区域邻近的区域。
在一些实施例中,布置在平面支撑基底上的电极阵列可用于检测来自本文指定的脑区域中的一个或多个的神经活动的电信号。电极阵列的表面积可由电极阵列与大脑之间的期望接触面积来确定。用于植入大脑表面上的电极(诸如表面电极或表面电极阵列)可以从商业供应商处获得。商业上获得的电极/电极阵列可经修改以获得期望的接触面积。在一些情况下,可以在本文公开的方法中使用的非脑穿透电极(也称为表面电极)可以是脑皮层电图(ECoG)电极或脑电图(EEG)电极。
在某些情况下,将电极放置在目标区域或位点处(例如,神经记录装置电极)可以涉及将脑穿透电极(也称为深度电极)定位在大脑的指定区域中。例如,可以将深度电极放置在参与语音处理的感觉运动皮层的所选择区域(例如,中央前回、中央后回、额后中回、额后上回或额后下回区域)中。在一些实施例中,电极可以另外接触与参与语音处理的感觉运动皮层的所选择区域邻近(例如,与中央前回、中央后回、额后中回、额后上回或额后下回区域邻近)的区域。在一些实施例中,可使用电极阵列记录如本文所指定参与语音处理的感觉运动皮层的所选择区域(例如,中央前回、中央后回、额后中回、额后上回或额后下回区域)处的电信号。
电极插入到大脑中的深度可以由电极阵列与大脑之间的期望接触水平以及电极将访问以记录电信号的神经群体的类型来确定。可以从商业供应商处获得脑穿透电极阵列。商业上获得的电极阵列可经修改,以实现插入到脑组织的期望深度。
包含在电极阵列中的电极(例如,用于记录与尝试语音相关联的神经活动)的精确数量可以变化。在某些方面,电极阵列可包括两个或更多个电极,诸如3个或更多个、10个或更多个、50个或更多个、100个或更多个、200个或更多个、500个或更多个,包括4个或更多个,例如约3个至6个电极、约6个至12个电极、约12个至18个电极、约18个至24个电极、约24个至30个电极、约30个至48个电极、约48个至72个电极、约72个至96个电极、约96个至128个电极、约128个至196个电极、约196个至294个电极或更多个电极。电极可以布置成规则的重复图案(例如,网格,诸如电极之间间隔约1cm的网格),或者没有图案。可以使用符合目标位点的电极,用于对来自与受试者的尝试语音和/或拼读相关联的神经活动的电信号进行最佳记录。一个此种实例是具有分离21/2mm的八个触点的单个多触点电极。每个触点将具有大约2mm的跨度。另一个实例是具有两个1cm触点的电极,这些触点之间具有2mm的中间间隙。此外,可用于本发明方法的电极的另一个实例是覆盖目标位点的2或3分支电极。这些三叉电极中的每一个都具有四个1mm至2mm的触点,这些触点的中心到中心的间隔为2mm至2.5mm并且跨度为1.5mm。
在一些实施例中,使用高密度ECoG电极阵列来记录来自与受试者的尝试语音和/或拼读相关联的神经活动的电信号。例如,高密度ECoG电极阵列可以包括至少100个电极、至少128个电极、至少196个电极、至少256个电极、至少294个电极、至少500个电极或至少1000个电极或更多。在一些实施例中,高密度ECoG电极阵列中的电极中心到中心间距在250μm到4mm的范围内,包括此范围内的任何电极中心到中心间距,诸如250μm、300μm、350μm、400μm、500μm、550μm、600μm、650μm、700μm、800μm、900μm、1mm、1.5mm、2mm、2.5mm、3mm、3.5mm或4mm。在一些实施例中,使用高密度ECoG微电极阵列。ECoG微电极阵列可以包括直径为250μm或更小、230μm或更小或200μm或更小的电极,包括直径在150μm至250μm范围内(包括此范围内的任何直径,诸如150μm、160μm、170μm、180μm、190μm、200μm、210μm、220μm、230μm、240μm或250μm)的电极。关于高密度ECoG电极阵列和微电极阵列的描述参见例如Muller等人(2015)《IEEE国际医学与生物工程学会年会(Annu Int Conf IEEE Eng Med Biol Soc)》2016:1528-1531;Chiang等人(2020)《神经工程学杂志(J.Neural Eng.)》17:046008;Escabi等人(2014)《神经生理学杂志(J.Neurophysiol.)》112(6):1566-1583;以引用方式并入本文。
每个电极的大小也可以根据诸如阵列中电极的数量、电极的位置、材料、患者的年龄和其他因素等因素而变化。在某些方面,每个电极具有约5mm或更小的大小(例如,直径),诸如约4mm或更小,包括4mm至0.25mm、3mm至0.25mm、2mm至0.25mm、1mm至0.25mm或约3mm、约2mm、约1mm、约0.5mm或约0.25mm。
在某些实施例中,方法进一步包括对受试者的大脑进行绘图以优化电极的定位。优化电极的定位,以检测与受试者的尝试语音相关联的大脑活动特征,并实现对尝试语音的最佳解码。例如,可使用特定频率范围(例如,α、δ、β、γ和/或高γ)的电信号模式来检测尝试语音和/或拼读,并解码受试者预期的单词、短语或句子。因此,可以定位电极以优化特定频率范围内的大脑活动的检测和/或解码,从而恢复患有交流障碍的受试者的交流。
在某些方面,本公开的方法和系统可以包括记录大脑活动,例如,腹侧感觉运动皮层中的电活动,其中可以检测与尝试语音的单词、短语和句子相关联的γ频率神经活动的模式。在某些情况下,可以测量腹侧感觉运动皮层中多个位置的电活动。在一些实施例中,高γ频率范围(诸如70Hz至150Hz)或低频率范围(诸如0.3Hz至100Hz)内的电活动可从中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合来测量。在一些实施例中,高γ频率范围(诸如70Hz至150Hz)和低频率范围(诸如0.3Hz至100Hz)内的电活动可从中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合来测量。
大脑活动的检测可以通过本领域已知的任何方法来执行。例如,神经活动的功能性脑成像可以通过电学方法诸如脑皮层电图(ECoG)、脑电图(EEG)、立体脑电图(sEEG)、脑磁图(MEG)、单光子发射计算机断层扫描(SPECT),以及代谢和血流研究诸如功能性磁共振成像(fMRI)、正电子发射断层扫描(PET)、功能性近红外光谱(fNIRS)和时域功能性近红外光谱来实施。在一些实施例中,对中央前回、中央后回、额后中回、额后上回或额后下回区域进行绘图,以确定电极的最佳定位,从而检测与尝试语音和/或尝试拼读相关联的神经活动。这些区域中的一个或多个可以植入有包括电极的神经记录装置,以测量来自与尝试语音和/或尝试拼读相关联的神经活动的电信号。
在一些情况下,不仅可以在尝试语音或尝试拼读期间,还可以在刚好从尝试语音或尝试拼读之前的时间段(即,准备语音或拼读的时间段)延伸到刚好在尝试语音或拼读之后的时间段(即,尝试语音或拼读之后的休息时间段)期间测量大脑中一个或多个位置的电活动。通过将经解码单词与患者的预期单词进行比较,可以确定从特定位点处的神经活动解码语音或拼读的准确度的评估。例如,患者可以使用协助打字装置来传达正确的预期单词。可以评估语音事件的开始和结束的检测以及来自解码神经活动的单词/字母分类准确度。假阳性包括所检测的与真实单词或字母产生尝试无关的语音事件,并且假阴性包括与所检测的语音事件无关的单词/字母产生尝试。检测语音事件和从神经活动中解码单词或拼读字母的错误率越低,指示性能越好。在某些情况下,可以改变电极的放置或电极的数量,以改善电信号的检测和对受试者的尝试语音和/或拼读的解码。
方法的应用可以包括基于通过对交流障碍的严重性的临床评估所确定的需求和对协助交流的期望来选择用于植入神经记录装置的患者的先决步骤,并且还可以包括认知评估、解剖评估、行为评估和/或神经生理学评估。具有交流困难的患者可被植入神经记录装置以协助交流,如本文所述。
能够与计算装置通信的接口被植入受试者的颅骨中或放置在受试者的头部上,以提供可在外部访问的平台,通过平台可以从神经记录装置获取脑电信号,并且将其传输到数据处理器进行解码。在一些实施例中,接口包括锚定在受试者的颅骨中的经皮基座连接器。接口可以通过可拆卸数字连接器和缆线连接到例如计算装置诸如计算机或手持计算装置(例如,手机或平板电脑)。替代地,接口可以无线连接到计算装置。在一些实施例中,接口包括与包括第二无线通信单元的计算装置通信的第一无线通信单元。在一些实施例中,第一无线通信单元利用使用电磁载波(例如,无线电波、微波或红外载波)或超声波的无线通信协议来将数据从接口传送到包括第二无线通信单元的计算装置。脑机接口是商业上可获得的,包括来自Blackrock Microsystems(Salt Lake City,Utah)的NeuroportTM系统,也参见例如Weiss等人(2019)脑机接口6:106-117;以引用方式并入本文。
处理器可由计算机或手持计算装置(例如,手机或平板电脑)提供,计算机或手持计算装置经编程以从记录的脑电信号数据中解码尝试语音和/或尝试拼读。
分析记录的脑电活动可以包括使用算法或分类器。在一些实施例中,使用机器学习算法,根据对尝试语音或拼读期间记录的大脑活动的分析,使语音检测、字母分类(在尝试拼读的情况下)、单词分类和句子解码自动化。机器学习算法可以包括监督学习算法。监督学习算法的实例可以包括平均单依赖估计量(AODE)、人工神经网络(例如,包括长短期记忆(LSTM)层堆叠的人工神经网络)、贝叶斯统计(例如,朴素贝叶斯分类器、贝叶斯网络、贝叶斯知识库)、基于案例的推理、决策树、归纳逻辑编程、高斯过程回归、数据处理分组方法(GMDH)、学习自动机、学习矢量量化、最小消息长度(决策树、决策图等)、懒惰学习、基于实例的学习最近邻算法、类比建模、可能近似正确(PAC)学习、波纹下降规则、知识获取方法、符号机器学习算法、子符号机器学习算法、支持向量机、随机森林、分类器集成体、自举聚集(装袋)和提升。监督学习可以包括有序分类,诸如回归分析和信息模糊网络(IFN)。替代地,监督学习方法可以包括统计分类,诸如AODE、线性分类器(例如,Fisher线性判别、逻辑回归、朴素贝叶斯分类器、感知机和支持向量机)、二次分类器、k-最近邻、提升、决策树(例如,C4.5、随机森林)、贝叶斯网络和隐马尔可夫模型。
机器学习算法也可以包括无监督学习算法。无监督学习算法的实例可以包括人工神经网络、数据聚类、期望最大化算法、自组织映射、径向基函数网络、矢量量化、生成地形图、信息瓶颈方法和IBSEAD。无监督学习还可以包括关联规则学习算法,诸如Apriori算法、Eclat算法和FP-增长算法。也可以使用分层聚类,诸如单连接聚类和概念聚类。替代地,无监督学习可以包括划分聚类,诸如K-均值算法和模糊聚类。
在一些情况下,机器学习算法包括强化学习算法。强化学习算法的实例包括但不限于即时差分学习、Q学习和学习自动机。替代地,机器学习算法可以包括数据预处理。
在一些情况下,机器学习算法可以使用深度学习。深度学习(例如,深度神经网络、深度信念网络、图形神经网络、递归神经网络和卷积神经网络)可以是监督的、半监督的或无监督的。
在一些实施例中,机器学习算法使用人工神经网络(ANN)模型进行语音检测和单词/字母分类,并且使用自然语言处理技术(诸如但不限于隐马尔可夫模型(HMM)或维特比解码模型)进行句子解码。
在一些实施例中,处理器经编程以使用语音检测模型来确定在记录神经活动期间的任何时间点出现尝试语音或拼读的概率,和/或检测在记录神经活动期间尝试语音或拼读的开始和结束。可使用线性模型或非线性(例如,人工神经网络(ANN))模型来使语音检测自动化。在一些实施例中,使用深度学习模型进行语音检测,特别地,使对受试者的尝试语音期间单词产生或受试者的尝试拼读期间字母产生的开始和结束的检测自动化。处理器可经编程以在记录脑电信号数据期间进一步将用于准备、语音/拼读和休息的语音事件标签分配给时间点。在一些实施例中,使用在所检测的尝试语音/拼读开始周围的时间窗口内(例如,从所检测的语音开始之前的1秒到所检测的语音开始之后的3秒)记录的脑电信号数据进行单词分类或字母分类。
单词分类可以利用机器学习算法使对与受试者的尝试语音期间的尝试单词产生相关联的记录的脑电信号数据中电信号的神经活动模式的识别自动化。字母分类可以利用机器学习算法使对与受试者的尝试拼读期间的尝试字母产生相关联的记录的脑电信号数据中电信号的神经活动模式的识别自动化。
在某些实施例中,向受试者提供一系列go提示,指示受试者何时应起始预期句子的单词的每个字母的尝试拼读。在一些实施例中,一系列go提示被视觉提供在显示器上。每个go提示之前可为呈现go提示的倒计时,其中下一个拼读的字母的倒计时被视觉提供在显示器上,并且在每个go提示之后自动开始。例如,在拼读程序期间,参与者在整个字母解码循环中拼出预期消息。在每一个循环中,都向参与者视觉呈现倒计时,并且最终呈现go提示。在go提示时,参与者尝试无声地说出期望字母。在一些实施例中,一系列go提示在每个go提示之间提供有设定的时间间隔,时间间隔可由使用者来调整。在某些实施例中,处理器经编程以在go提示之后的时间窗口内使用记录的脑电信号数据。
在一些实施例中,处理器经编程以使用单词分类模型来解码所检测的神经活动时间窗口(例如,由语音检测模型识别为在尝试语音或拼读期间出现的时间窗口)中的单词。使用单词分类模型来确定受试者想要跨可能的语音/文本目标的尝试语音中的特定单词的概率。例如,对于使用者可以说出的可能单词的词汇表中的每个单词,单词分类模型确定在使用者尝试说出该单词时收集神经活动的概率。单词分类模型可以使用线性模型或非线性(例如,ANN)模型。
在一些实施例中,处理器经编程以使用字母分类模型来确定受试者在跨受试者使用的语言的所有可能字符(即,字母表中的字母或数字)尝试拼读期间想要特定字母的概率。在某些实施例中,处理器进一步经编程以将从与受试者的尝试拼读单词相关联的神经活动中解码的字母序列中的单词分类局限于仅在受试者使用的语言词汇表内的单词。
在一些实施例中,处理器经编程以使用单词序列解码模型来基于单词序列概率解码句子,以从受试者在尝试语音或拼读期间的对应神经活动中确定与所检测的语音事件相关联的最可能的单词序列。单词序列解码模型使用来自分类模型的概率序列来构建解码序列。这可以涉及使用语言模型将先验字符序列或单词序列概率结合到神经解码流水线中。它还可涉及隐马尔可夫模型(HMM)或维特比解码模型,以处理来自语言模型的概率的结合。此种情况可以使用线性模型或非线性(例如,ANN)模型。在一些实施例中,处理器还经编程以使用语言模型,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码,其中根据语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。此外,可使用来自先前检测的语音事件的经解码信息来辅助解码。关于用于从神经活动中解码尝试语音的语音检测模型、单词分类模型和语言模型的详细讨论参见实例。
可以指示受试者将尝试语音限制于来自预定义词汇表(即,单词集)的单词。所包括的单词的数量优选地足够大以创建有意义的各种句子,但足够小以实现令人满意的基于神经的分类性能。为根据神经活动进行单词分类,指示受试者尝试产生包含在单词集中的每个单词,以确定与每个单词相关联的电信号的模式。可使用在装置植入后对受试者的探索性初步评估来评估单词的选择和单词集的大小,单词集可通过本文所述的方法容易地解码并用于辅助交流。
在一些实施例中,单词集包括至多50个单词、至多100个单词、至多200个单词、至多300个单词、至多400个单词或至多500个单词或更多。例如,单词集可以包括50个单词、55个单词、60个单词、65个单词、70个单词、75个单词、80个单词、85个单词、90个单词、95个单词、100个单词、125个单词、150个单词、175个单词、200个单词、225个单词、250个单词、275个单词、300个单词、325个单词、350个单词、375个单词、400个单词、500个单词、600个单词、700个单词、800个单词、900个单词、1000个单词或这些数值之间的任何数量的单词。在一些实施例中,单词集包括:是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
在一些实施例中,受试者的尝试语音可以包括所选择单词集中单词的任何所选择序列。在其他实施例中,受试者的尝试语音进一步被限制于仅使用所选择单词集中的单词的预定义句子集。可以选择单词集和句子集,以包括可用于与护理人员关于受试者希望护理人员执行的任务进行交流的句子。为根据神经活动进行句子分类,当受试者的神经活动经处理并解码成文本时,受试者被指示尝试产生包含在句子集中的每个句子。连接到接口的处理器经编程以计算单词序列是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以计算完全由来自指定单词集中的单词构成的许多可能句子是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以维持最可能的句子以及其他不太可能的句子,这些句子完全由来自受试者在尝试语音期间试图产生的指定单词集中的单词构成。在一些实施例中,处理器经编程以在任何给定的时间点及时维持第一最可能、第二最可能和第三最可能的句子概率。当处理新的单词事件时,最可能的句子可能会改变。例如,基于单词事件的处理的第二最可能的句子然后可以在处理一个或多个附加单词事件之后变成最可能的句子。
在一些实施例中,句子集包括至多25个句子、至多50个句子、至多100个句子、至多200个句子、至多300个句子、至多400个句子或至多500个句子或更多。例如,句子集可以包括50个句子、100个句子、200个句子、300个句子、400个句子、500个句子、600个句子、700个句子、800个句子、900个句子、1000个句子或者这些数值之间的任何数量的单词。在一些实施例中,句子集包括:你要出去吗;你累了吗;把我的眼镜拿过来;请把我的眼镜拿来;不要难过;你感觉舒服吗;信心是好的;喂,你好吗;这是我的计算机;你感觉如何;你觉得我的音乐怎么样;我要出去;我不去;我不饿;我不好;我还好;我在外面;我渴了;我感觉不舒服;我感觉很舒服;我感觉很饿;我希望它是干净的;我喜欢我的护士;我需要我的眼镜;我需要你;很舒适;很好;还好;就在这里;我的计算机是干净的;我的家人在这里;我的家人在外面;我的家庭很温馨;我的眼镜是干净的;我的眼镜很舒适;我的护士在外面;我的护士就在外面;否;请把我的眼镜拿过来;请清洁一下它;请告诉我的家人;非常干净;他们要来这里;他们出来了;他们要出去;他们有信心;你是做什么的;它在哪里;是;和你是不对的。
在一些实施例中,受试者的尝试语音包括拼出预期消息的单词。尝试语音目标可以包括任何语言的字母表(诸如英语)和/或代表字母表的字母的码字(例如NATO码字,诸如α、好等)。字符概率可以通过语音目标的分类(其可以使用线性或非线性(例如,ANN)模型)来确定,并且使用序列解码技术(例如,语言建模、隐马尔可夫建模、维特比解码等)来处理以从大脑活动中解码完整的句子。
在某些实施例中,方法可以进一步包括从记录的神经活动中解码尝试非语音运动性移动。非语音运动性移动可以包括但不限于想象的头、臂、手、脚和腿的移动。非语音运动性移动可以对使用者有益的任何方式使用。例如,从神经活动中解码非语音运动性移动可以用于控制鼠标光标或者以其他方式与其他装置交互,控制文本解码接口中的错误校正方法,或者选择高级命令来控制系统(诸如“结束句子”或者“返回主菜单”命令)。可以使用分类模型来识别运动命令(例如,想象的手部移动),运动命令可用于向系统指示使用者正在起始或结束尝试语音或拼出预期消息。
通过解码与尝试语音、尝试拼读单词或尝试非语音运动性移动相关联的神经活动来协助受试者进行交流的方法可以组合。这些技术是互补的。在一些情况下,解码尝试拼读可以使得能够比解码尝试语音使用更大的词汇表。然而,对于受试者来说,解码尝试语音可能更容易和更方便,因为它允许更快速的直接单词解码,这对于表达频繁使用的单词可能是优选的。为了协助解码,可以使用尝试非语音运动性移动来发信号通知受试者正在起始或结束尝试语音或拼出预期消息。
用于从大脑活动中解码尝试语音、尝试拼读和/或尝试非语音运动性移动的系统和计算机实现的方法
本公开还提供了可用于实践主题方法的系统。在一些实施例中,系统可以包括a)包括电极的神经记录装置,适于定位在受试者的大脑的感觉运动皮层区域中的位置处,以记录与受试者的尝试语音和/或尝试拼读和/或尝试非语音运动性移动相关联的脑电信号数据;b)处理器,经编程以从记录的脑电信号数据中解码句子;c)与计算装置通信的接口,所述接口适于定位在受试者的头部上的位置处,其中接口从神经记录装置接收脑电信号数据并且将脑电信号数据传输到处理器;以及d)显示器组件,用于显示从记录的脑电信号数据解码的句子。
例如,来自中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合的高γ频率范围(诸如70Hz至150Hz)和/或低频率范围(例如,0.3Hz至100Hz)中的电活动可用使用此种系统的神经记录装置来记录,其中接口从神经记录装置接收脑电信号数据并且将脑电信号数据传输至处理器。处理器可以运行编程以使用一种或多种算法从记录的脑电信号数据中解码字母、单词、短语或句子,如本文所述。
在一些实施例中,使用计算机实现的方法从与受试者的尝试语音相关联的记录的脑电信号数据中解码句子。处理器可以经编程以执行包括以下的计算机实现的方法的步骤:a)接收与受试者的尝试语音相关联的记录的脑电信号数据;b)使用语音检测模型分析记录的脑电信号数据,以计算在任何时间点出现尝试语音的概率,并且检测在受试者的尝试语音期间单词产生的开始和结束;c)使用单词分类模型分析脑电信号数据,单词分类模型识别与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;d)通过使用从单词分类模型计算的单词概率并结合使用语言模型在句子中预测的单词序列概率来执行句子解码,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以计算预测的单词序列概率,并且基于使用单词分类模型和语言模型确定的预测的单词概率来确定句子中最可能的单词序列;以及e)显示从记录的脑电信号数据解码的句子。
在一些实施例中,使用一种计算机实现的方法从与受试者的尝试拼读预期句子的单词的字母相关联的记录的脑电信号数据中解码句子。处理器可以经编程以执行包括以下的计算机实现的方法的步骤:a)接收与受试者的尝试拼读预期句子的单词的字母相关联的记录的脑电信号数据;b)使用语音检测模型分析记录的脑电信号数据,以计算在任何时间点出现尝试拼读的概率,并且检测在受试者的尝试拼读期间字母产生的开始和结束;c)使用字母分类模型分析脑电信号数据,字母分类模型识别与受试者的尝试字母产生相关联的记录的脑电信号数据中的电信号模式,并且计算预测的字母概率序列;d)基于预测的字母概率序列计算潜在的候选句子,并且自动将空格插入在候选句子中的预测单词之间的字母序列中,其中字母序列中的经解码单词被局限于仅受试者使用的语言词汇表内的单词;e)使用语言模型分析潜在的候选句子,语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以计算预测的单词序列概率,并且确定句子中最可能的单词序列;以及f)显示从记录的脑电信号数据解码的句子。
在一些实施例中,使用计算机实现的方法从与受试者的尝试语音和尝试拼读相关联的记录的脑电信号数据中解码句子。
在某些实施例中,系统不仅可以用于从在尝试语音或尝试拼读期间收集的神经活动中解码语音或拼读信息,还可以用于从记录的神经活动中解码尝试非语音运动性移动。非语音运动性移动可以包括但不限于想象的头、臂、手、脚和腿的移动。非语音运动性移动可以对使用者有益的任何方式使用。例如,从神经活动中解码非语音运动性移动可以用于控制鼠标光标或者以其他方式与其他装置交互,控制文本解码接口中的错误校正方法,或者选择高级命令来控制系统(诸如“结束句子”或者“返回主菜单”命令)。可以使用分类模型来识别运动命令(例如,想象的手部移动),运动命令可用于向系统指示使用者正在起始或结束尝试语音或拼出预期消息。
在一些实施例中,计算机实现的方法进一步包括:接收与受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中受试者进行尝试非语音运动性移动以指示尝试语音或尝试拼读预期句子的单词的起始或终止或控制外部装置;以及使用分类模型来分析脑电信号数据,分类模型识别与尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算受试者尝试非语音运动性移动的概率。
在某些实施例中,计算机实现的方法进一步包括存储受试者的使用者档案,使用者档案包括关于与受试者的尝试单词产生相关联的记录的脑电信号数据中的电信号模式的信息。
在一些实施例中,使用人工神经网络(ANN)模型进行语音检测和字母/单词分类,并且使用自然语言处理技术(诸如但不限于隐马尔可夫模型(HMM)或维特比解码模型)进行句子解码。
在某些实施例中,受试者被限制于尝试语音的指定单词集。在一些实施例中,处理器进一步经编程以针对单词集中的每个单词,计算单词集中的单词是受试者在尝试语音期间试图产生的预期单词的概率,并且选择单词集中具有是受试者在尝试语音期间试图产生的预期单词的最高概率的单词。在一些实施例中,受试者的尝试语音可以包括所选择单词集中单词的任何所选择序列。在其他实施例中,受试者被限制于尝试语音的指定句子集。
在一些实施例中,处理器进一步经编程以计算单词序列是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以计算完全由来自指定单词集中的单词构成的许多可能句子是受试者在尝试语音期间试图产生的预期句子的概率。在一些实施例中,处理器经编程以维持最可能的句子以及一个或多个不太可能的句子,这些句子完全由来自受试者在尝试语音期间试图产生的指定单词集中的单词构成。在一些实施例中,处理器经编程以在任何给定的时间点及时跟踪第一最可能、第二最可能和第三最可能的句子概率。当处理新的单词事件时,最可能的句子可能会改变。例如,基于在前一轮中单词事件的处理的第二最可能的句子然后可以在处理一个或多个附加单词事件之后变成最可能的句子。
在某些实施例中,处理器进一步经编程以在记录脑电信号数据期间将用于准备、语音/拼读(完整单词、字母或任何其他语音目标)、非语音运动性移动和休息的事件标签分配给时间点。在一些实施例中,处理器进一步经编程以在所检测的单词或字母分类开始周围的时间窗口内使用记录的脑电信号数据。例如,处理器可以经编程以使用从所检测的开始之前1秒到所检测的开始之后3秒的记录的脑电信号数据来进行单词或字母分类。
在某些实施例中,处理器进一步经编程以根据语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
记录的脑电信号数据可以在解码前以各种方式处理。例如,数据处理可以包括但不限于神经特征串流的实时逐样本处理、跨单独电极通道的共同平均参考的使用、用以执行数字信号滤波的有限脉冲响应(FIR)滤波器的使用、运行滑动窗口归一化程序(例如,使用Welford方法)、自动伪影拒绝以及并行化和线性流水线以改善计算效率。可以实时执行对神经特征的处理,以提取一个或多个特征串流用于语音/文本解码期间使用。有关数据处理方法的描述参见Moses等人(2018)《神经工程学杂志》15(3):036005、Moses等人(2019)《自然交流(Nat.Commun.)》2019 10(1):3096、Moses等人(2021)《新英格兰医学杂志(N.Engl.J.Med.)》385(3):217-227、Sun等人(2020)《神经工程学杂志》17(6)和Makin等人(2020)《自然-神经科学(Nature Neuroscience)》23:575-582;以引用方式全文并入本文。
本文描述的方法可以在数字电子电路系统中实现,或者在计算机软件、固件或硬件中实现。所公开的和其他实施例可以实现为一个或多个计算机程序产品,即编码在计算机可读介质上的计算机程序指令的一个或多个模块,用于由数据处理设备执行或控制数据处理设备的操作。计算机可读介质可以是机器可读存储装置、机器可读存储基底、存储装置、实现机器可读传播信号的物质组合或其任何组合。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以任何形式的编程语言(包括编译或解释语言)书写,并且它可以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本),存储在专用于所讨论的程序的单个文件中,或者存储在多个协作文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以经部署以在一个计算机或位于一个位点处或跨多个位点分布并通过通信网络互连的多个计算机上执行。
在进一步方面,用于执行所描述的计算机实现的方法的系统可以包括计算机,计算机包含处理器、存储组件(即,存储器)、显示器组件和通常存在于通用计算机中的其他组件。存储组件存储可由处理器访问的信息,包括可由处理器执行的指令和可由处理器检索、操纵或存储的数据。
存储组件包括指令。例如,存储组件包括用于从与受试者的尝试语音和/或尝试拼读相关联的记录的脑电信号数据中解码句子的指令。计算机处理器联接到存储组件,并且经配置以执行存储在存储组件中的指令,以便接收与受试者的尝试语音相关联的脑电信号数据,并且根据本文所述的一种或多种算法分析数据。显示器组件显示从记录的脑电信号数据中解码的句子。
存储组件可以是能够存储可由处理器访问的信息的任何类型,诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、USB闪存驱动器、可写和只读存储器。处理器可以是任何公知的处理器,诸如来自Intel Corporation的处理器。替代地,处理器可以是专用控制器,诸如ASIC或FPGA。
指令可以是由处理器直接(诸如机器代码)或间接(诸如脚本)执行的任何指令集。在该方面,术语“指令”、“步骤”和“程序”在本文中可以互换使用。指令可以目标代码形式存储,以便由处理器直接处理,或者以任何其他计算机语言存储,包括根据需要解释或预先编译的独立源代码模块的脚本或集合。
处理器可以根据指令检索、存储或修改数据。例如,尽管系统不受任何特定数据结构的限制,但数据可以存储在计算机寄存器中,存储在关系数据库中作为具有多个不同字段和记录的表格、XML文档或平面文件。数据也可以被格式化为任何计算机可读格式,诸如但不限于二进制值、ASCII或统一码。此外,数据可以包括足以识别相关信息的任何信息,诸如数字、描述性文本、专有代码、指示字、对存储在其他存储器(包括其他网络位置)中的数据的引用或者由函数用来计算相关数据的信息。
在某些实施例中,处理器和存储组件可以包括可以存储在或不可以存储在同一物理外壳内的多个处理器和存储组件。例如,指令和数据中的一些可以存储在可移除CD-ROM上,而其他的可以存储在只读计算机芯片中。指令和数据中的一些和全部可以存储在物理上远离处理器但仍可由处理器访问的位置。类似地,处理器可以包括可以并行操作或不可以并行操作的处理器集合。
系统还包括能够与计算装置通信的接口。接口可被植入受试者的颅骨中或放置在受试者的头部上,以提供可在外部访问的平台,通过平台可以从神经记录装置获取脑电信号,并且将其传输到计算装置进行解码。在一些实施例中,接口包括锚定在受试者的颅骨中的经皮基座连接器。接口可以通过可拆卸数字连接器和缆线连接到例如计算装置诸如计算机或手持计算装置(例如,手机或平板电脑)。替代地,接口可以无线连接到计算装置。在一些实施例中,接口包括与包括第二无线通信单元的计算装置通信的第一无线通信单元。在一些实施例中,第一无线通信单元利用使用电磁载波(例如,无线电波、微波或红外载波)或超声波的无线通信协议来将数据从接口传送到包括第二无线通信单元的计算装置。脑机接口是商业上可获得的,包括来自Blackrock Microsystems(Salt Lake City,Utah)的NeuroportTM系统,也参见例如Weiss等人(2019)脑机接口6:106-117;以引用方式并入本文。
用于实施本公开的方法的系统的组件在下面的实例中进一步描述。
套件
还提供了用于实施本文所述的方法的套件。在一些实施例中,套件包括用于实施计算机实现的方法的软件,方法用于从与受试者的尝试语音和/或尝试拼读相关联的记录的脑电信号数据中解码句子,如本文所述。在一些实施例中,套件包括本文所述用于协助受试者进行交流的系统。此种系统可以包括:包括电极的神经记录装置,适于定位在受试者的感觉运动皮层区域中的位置处,以记录与受试者的尝试语音和/或尝试拼读或尝试非语音运动性移动相关联的脑电信号数据;处理器,经编程以根据本文所述的计算机实现的方法从记录的脑电信号数据中解码句子;能够与计算装置通信的接口,所述接口适于定位在受试者的头部上的位置处,其中接口从神经记录装置接收脑电信号数据并且将脑电信号数据传输到处理器;以及显示器组件,用于显示从记录的脑电信号数据解码的句子。
此外,套件可以进一步包括(在某些实施例中)用于实践主题方法的使用说明。这些使用说明可以多种形式存在于主题套件中,其中一种或多种形式可以存在于套件中。例如,使用说明可以作为印刷信息存在于合适的介质或基底上,例如一张或多张其上印刷有信息的纸上,在套件的包装中,在包装插页中,等等。这些使用说明的另一种形式是其上记录有信息的计算机可读介质,例如磁盘、光盘(CD)、闪存驱动器等。可能存在的这些使用说明的又一种形式是可用于经由互联网访问被移除站点处的信息的网站地址。
实用性
本公开的方法、装置和系统可用于协助个体进行通信。具体而言,提供了用于直接从个体的神经活动解码单词和句子的方法、装置和系统。在所公开的方法中,当个体尝试说出或拼出预期句子的单词时,记录来自大脑的参与语音处理的区域的皮层活动。使用深度学习计算模型从记录的大脑活动中检测和分类字母/单词。通过使用预测某些单词序列将出现的可能性的语言模型来辅助从大脑活动中解码语音。此外,可使用从神经活动中解码尝试非语音运动性移动来进一步协助交流。
本文公开的方法、装置和系统可用于协助由病症和疾病引起的具有交流困难的个体,病症和疾病包括但不限于构音障碍、中风、创伤性脑损伤、脑肿瘤、肌萎缩性侧索硬化、多发性硬化、亨廷顿氏病、尼曼匹克病、弗里德希氏共济失调、威尔逊氏病、脑性瘫痪、格林-巴利综合征、泰-萨二氏病、脑病、脑桥中央髓鞘溶解,以及导致头、颈或胸部肌肉功能障碍或瘫痪从而导致构音障碍的其他病症。本文公开的方法可用于恢复此类个体的交流,并改善自主性和生活质量。
本公开的非限制性方面的实例
上述本发明主题的方面(包括实施例)单独或与一个或多个其他方面或实施例组合可能是有益的。在不限制前述描述的情况下,下文提供编号为1至159的公开内容的某些非限制性方面。如本领域技术人员在阅读本公开后将理解,单独编号的方面中的每个方面可以与任何前面或后面的单独编号的方面一起使用或组合。此旨在为所有此种方面的组合提供支持,并且不限于以下明确提供的方面的组合:
1.一种协助受试者进行交流的方法,所述方法包括:
将包括电极的神经记录装置定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试语音相关联的脑电信号数据;
将与计算装置通信的接口定位在所述受试者的头部上的位置处,其中所述接口连接到所述神经记录装置;
使用所述神经记录装置记录与所述受试者的尝试语音相关联的所述脑电信号数据,其中所述接口从所述神经记录装置接收所述脑电信号数据,并且将所述脑电信号数据传输到所述计算装置的处理器;以及
使用所述处理器从记录的脑电信号数据中解码单词、短语或句子。
2.根据方面1所述的方法,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
3.根据方面1或2所述的方法,其中所述受试者是瘫痪的。
4.根据方面1至3中任一项所述的方法,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
5.根据方面1至4中任一项所述的方法,其中所述电极定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
6.根据方面5所述的方法,其中所述电极定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
7.根据方面1至6中任一项所述的方法,其中所述神经记录装置包括脑穿透电极阵列。
8.根据权利要求1至7中任一项所述的方法,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
9.根据方面1至8中任一项所述的方法,其中所述电极是深度电极或表面电极。
10.根据方面1至9中任一项所述的方法,其中所述电信号数据包括高γ频率内容特征。
11.根据方面10所述的方法,其中所述电信号数据包括在70Hz至150Hz范围内的神经振荡。
12.根据方面1至11中任一项所述的方法,其中所述记录所述脑电信号数据包括记录来自选自中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合的感觉运动皮层区域的所述脑电信号数据。
13.根据方面1至12中任一项所述的方法,所述方法进一步包括对所述受试者的所述大脑进行绘图,以识别用于定位所述电极的最佳位置,以用于记录与所述受试者的所述尝试语音相关联的脑电信号。
14.根据方面1至13中任一项所述的方法,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
15.根据方面14所述的方法,其中所述接口进一步包括连接到所述经皮基座连接器的前端。
16.根据方面1至15中任一项所述的方法,其中所述处理器由计算机或手持装置提供。
17.根据方面16所述的方法,其中所述手持装置是手机或平板电脑。
18.根据方面1至17中任一项所述的方法,其中所述处理器经编程以基于对与尝试单词产生相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别来使语音检测、单词分类和句子解码自动化。
19.根据方面18所述的方法,其中所述处理器经编程以使用机器学习算法进行语音检测、单词分类和句子解码。
20.根据方面19所述的方法,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
21.根据方面1至20中任一项所述的方法,其中所述处理器经编程以在所述受试者的所述尝试语音期间使单词产生的开始和结束的检测自动化。
22.根据方面21所述的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
23.根据方面21或22所述的方法,其中所述处理器经编程以在所检测的单词分类开始周围的时间窗口内使用所述记录的脑电信号数据。
24.根据方面1至23中任一项所述的方法,其中所述受试者被限制于针对所述尝试语音的指定单词集。
25.根据方面24所述的方法,其中所述处理器经编程以计算所述单词集中的单词是所述受试者在所述尝试语音期间试图产生的预期单词的概率。
26.根据方面25所述的方法,其中所述处理器经编程以针对所述单词集中的每个单词,计算所述单词集中的单词是受试者在所述尝试语音期间试图产生的预期单词的概率。
27.根据方面24至26中任一项所述的方法,其中所述单词集包括是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
28.根据方面1至27中任一项所述的方法,其中所述受试者能够无限制地使用所述单词集中的所述单词来创建句子。
29.根据方面28所述的方法,其中所述处理器经编程以计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
30.根据方面1至29中任一项所述的方法,其中所述处理器经编程以使用语言模型,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码。
31.根据方面30所述的方法,其中根据所述语言模型,较频繁出现的单词被分配比较不频繁出现的单词更大的权重。
32.根据方面30或31所述的方法,其中所述处理器经编程以使用维特比解码模型,在给定与所述尝试语音相关联的所述脑电信号数据、使用所述机器学习算法从单词分类模型预测的单词概率和使用所述语言模型得到的单词序列概率的情况下,确定所述受试者的所述预期语音中最可能的单词序列。
33.根据方面1至32中任一项所述的方法,所述方法进一步包括:
记录与所述受试者的尝试非语音运动性移动相关联的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试语音的起始或终止或控制外部装置;以及
使用非语音运动性移动分类模型来分析所述脑电信号数据,所述非语音运动性移动分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
34.根据方面33所述的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
35.根据方面34所述的方法,其中所述尝试手移动包括想象的手势或想象的握手。
36.根据方面33至35中任一项所述的方法,其中所述处理器进一步经编程以基于对与尝试非语音运动性移动相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别,使所述受试者的所述尝试非语音运动性移动的检测自动化,从而发出所述受试者的所述尝试语音结束的信号。
37.根据方面36所述的方法,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间将用于所述尝试非语音运动性移动的事件标签分配给时间点。
38.根据方面1至37中任一项所述的方法,其中所述方法进一步包括评估所述解码的准确度。
39.一种计算机实现的方法,所述方法用于从与受试者的尝试语音相关联的记录的脑电信号数据中解码句子,计算机执行的步骤包括:
a)接收与所述受试者的所述尝试语音相关联的所述记录的脑电信号数据;
b)使用语音检测模型来分析所述记录的脑电信号数据,以计算在记录所述脑电信号数据期间的任何时间点出现尝试语音的概率,并且检测在所述受试者的所述尝试语音期间单词产生的开始和结束;
c)使用单词分类模型分析所述脑电信号数据,所述单词分类模型识别与所述受试者的尝试单词产生相关联的所述记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;
d)通过使用从所述单词分类模型计算的单词概率并结合使用语言模型在所述句子中预测的单词序列概率来执行句子解码,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率以计算预测的单词序列概率,并且基于使用所述单词分类模型和所述语言模型确定的所述预测的单词概率来确定所述句子中最可能的单词序列;以及
e)显示从所述记录的脑电信号数据中解码的所述句子。
40.根据方面39所述的计算机实现的方法,其中使用机器学习算法进行语音检测、单词分类和句子解码。
41.根据方面40所述的计算机实现的方法,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
42.根据方面39至41中任一项所述的计算机实现的方法,其中所述受试者被限制于针对所述尝试语音的指定单词集。
43.根据方面42所述的计算机实现的方法,所述方法进一步包括针对所述单词集中的每个单词,计算所述单词集中的单词是所述受试者在所述尝试语音期间试图产生的预期单词的概率,并且选择所述单词集中具有是所述受试者在所述尝试语音期间试图产生的所述预期单词的最高概率的单词。
44.根据方面39至43中任一项所述的计算机实现的方法,其中所述受试者能够无限制地使用所述单词集中的所述单词来创建句子,或被限制于针对所述尝试语音的指定句子集。
45.根据方面39至44中任一项所述的计算机实现的方法,所述方法进一步包括计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
46.根据方面45所述的计算机实现的方法,所述方法进一步包括维持最可能的句子和一个或多个不太可能的句子,并且在解码每个单词之后,重新计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
47.根据方面46所述的计算机实现的方法,其中所述最可能的句子和所述一个或多个不太可能的句子仅由来自所述受试者用于所述尝试语音的所述单词集的单词构成。
48.根据方面39至47中任一项所述的计算机实现的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
49.根据方面48所述的计算机实现的方法,其中仅在所检测的单词分类开始周围的时间窗口内使用所述记录的脑电信号数据。
50.根据方面39至49中任一项所述的计算机实现的方法,其中根据所述语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
51.根据方面39至50中任一项所述的计算机实现的方法,所述方法进一步包括存储所述受试者的使用者档案,所述使用者档案包括关于与所述受试者的尝试单词产生相关联的所述记录的脑电信号数据中的电信号模式的信息。
52.根据方面39至51中任一项所述的计算机实现的方法,所述方法进一步包括:
接收与所述受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试语音的起始或终止或控制外部装置;以及
使用分类模型来分析所述脑电信号数据,所述分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
53.根据方面52所述的计算机实现的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
54.根据方面53所述的计算机实现的方法,其中所述尝试手移动包括想象的手势或想象的握手。
55.根据方面52至54中任一项所述的计算机实现的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于所述尝试非语音运动性移动的事件标签分配给时间点。
56.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括程序指令,当由计算机中的处理器执行时,所述程序指令使处理器执行根据方面39至55中任一项所述的方法。
57.一种套件,所述套件包括根据方面56所述的非暂时性计算机可读介质和用于解码与受试者的尝试语音相关联的脑电信号数据的指令。
58.一种用于协助受试者进行交流的系统,所述系统包括:
包括电极的神经记录装置,适于定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试语音或尝试非语音运动性移动相关联的脑电信号数据;
处理器,经编程以根据方面39至55中任一项所述的计算机实现的方法从记录的脑电信号数据中解码句子;
与计算装置通信的接口,所述接口适于定位在所述受试者的头部的位置处,其中所述接口从所述神经记录装置接收所述脑电信号数据并且将所述脑电信号数据传输到所述处理器;以及
显示器组件,用于显示从所述记录的脑电信号数据中解码的所述句子。
59.根据方面58所述的系统,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
60.根据方面58或59所述的系统,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
61.根据方面58至60中任一项所述的系统,其中所述电极适于定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
62.根据方面61所述的系统,其中所述电极适于定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
63.根据方面58至62中任一项所述的系统,其中所述神经记录装置包括脑穿透电极阵列。
64.根据方面58至63中任一项所述的系统,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
65.根据方面58至64中任一项所述的方法,其中所述电极是深度电极或表面电极。
66.根据方面58至65中任一项所述的系统,其中所述电信号数据包括高γ频率内容特征。
67.根据方面66所述的系统,其中所述电信号数据包括在70Hz至150Hz范围内的神经振荡。
68.根据方面58至67中任一项所述的系统,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
69.根据方面68所述的系统,其中所述接口进一步包括能够连接到所述经皮基座连接器的前端。
70.根据方面58至69中任一项所述的系统,其中所述处理器由计算机或手持装置提供。
71.根据方面70所述的系统,其中所述手持装置是手机或平板电脑。
72.根据方面58至71中任一项所述的系统,其中使用机器学习算法进行语音检测、单词分类和句子解码。
73.根据方面72所述的系统,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
74.根据方面58至73中任一项所述的系统,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
75.根据方面74所述的系统,其中所述处理器进一步经编程以在所检测的单词分类开始周围的时间窗口内使用所述记录的脑电信号数据。
76.根据方面58至75中任一项所述的系统,其中所述受试者被限制于针对所述尝试语音的指定单词集。
77.根据方面76所述的系统,其中所述处理器进一步经编程以针对所述单词集中的每个单词,计算所述单词集中的单词是所述受试者在所述尝试语音期间试图产生的预期单词的概率,并且选择所述单词集中具有是所述受试者在所述尝试语音期间试图产生的所述预期单词的最高概率的单词。
78.根据方面76或77所述的方法,其中所述单词集包括:是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
79.根据方面76至78中任一项所述的系统,其中所述受试者能够使用所选择单词集中单词的任何所选择序列。
80.根据方面79所述的系统,其中所述处理器经编程以计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
81.根据方面80所述的系统,其中所述处理器经编程以维持最可能的句子和一个或多个不太可能的句子,并且在解码每个单词之后,重新计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
82.根据方面81所述的系统,其中所述最可能的句子和所述一个或多个不太可能的句子仅由来自所述受试者用于所述尝试语音的所述单词集的单词构成。
83.根据方面58至82中任一项所述的系统,其中所述处理器进一步经编程以基于对与尝试非语音运动性移动相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别,使所述受试者的所述尝试非语音运动性移动的检测自动化,从而发出所述受试者的所述尝试语音起始或终止的信号。
84.根据方面83所述的系统,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间将用于所述尝试非语音运动性移动的事件标签分配给时间点。
85.一种套件,所述套件包括根据方面58至84中任一项所述的系统和用于使用所述系统记录和解码与受试者的尝试语音相关联的脑电信号数据的指令。
86.一种协助受试者进行交流的方法,所述方法包括:
将包括电极的神经记录装置定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试拼读预期句子的单词的字母相关联的脑电信号数据;
将与计算装置通信的接口定位在所述受试者的头部上的位置处,其中所述接口连接到所述神经记录装置;
使用所述神经记录装置记录与所述受试者的所述尝试拼读相关联的所述脑电信号数据,其中所述接口从所述神经记录装置接收所述脑电信号数据,并且将所述脑电信号数据传输到所述计算装置的处理器;以及
使用所述处理器从记录的脑电信号数据中解码所述预期句子的拼读的单词。
87.根据方面86所述的方法,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
88.根据方面86或87所述的方法,其中所述受试者是瘫痪的。
89.根据方面86至88中任一项所述的方法,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
90.根据方面86至89中任一项所述的方法,其中所述电极定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
91.根据方面90所述的方法,其中所述电极定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
92.根据方面86至91中任一项所述的方法,其中所述神经记录装置包括脑穿透电极阵列。
93.根据方面86至92中任一项所述的方法,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
94.根据方面86至93中任一项所述的方法,其中所述电极是深度电极或表面电极。
95.根据方面86至94中任一项所述的方法,其中所述电信号数据包括高γ频率内容特征和低频率内容特征。
96.根据方面95所述的方法,其中所述电信号数据包括在70Hz至150Hz的高γ频率范围内和在0.3Hz至100Hz的低频范围内的神经振荡。
97.根据方面86至96中任一项所述的方法,其中所述记录所述脑电信号数据包括记录来自选自中央前回区域、中央后回区域、额后中回区域、额后上回区域或额后下回区域或其任何组合的感觉运动皮层区域的所述脑电信号数据。
98.根据方面86至97中任一项所述的方法,所述方法进一步包括对所述受试者的所述大脑进行绘图,以识别用于定位所述电极的最佳位置,以用于记录与所述受试者的所述尝试拼读单词或尝试非语音运动性移动相关联的脑电信号。
99.根据方面86至98中任一项所述的方法,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
100.根据方面99所述的方法,其中所述接口进一步包括连接到所述经皮基座连接器的前端。
101.根据方面86至100中任一项所述的方法,其中所述处理器由计算机或手持装置提供。
102.根据方面101所述的方法,其中所述手持装置是手机或平板电脑。
103.根据方面86至102中任一项所述的方法,其中所述处理器经编程以基于对与所述受试者的所述尝试拼读单词相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别来使所述尝试拼读的检测、字母分类、单词分类和句子解码自动化。
104.根据方面103所述的方法,其中所述处理器经编程以使用机器学习算法进行所述语音检测、字母分类、单词分类和句子解码。
105.根据方面104所述的方法,其中所述处理器进一步经编程以将从与所述受试者的尝试拼读单词相关联的神经活动中解码的字母序列中的单词分类局限于仅在所述受试者使用的语言词汇表内的单词。
106.根据方面86至105中任一项所述的方法,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间,将用于准备、尝试拼读和休息的事件标签分配给时间点。
107.根据方面106所述的方法,其中所述处理器经编程以在所检测的所述受试者的尝试拼读字母开始周围的时间窗口内使用所述记录的脑电信号数据。
108.根据方面86至107中任一项所述的方法,所述方法进一步包括向所述受试者提供一系列go提示,指示所述受试者何时应起始所述预期句子的所述单词的每个字母的尝试拼读。
109.根据方面108所述的方法,其中所述一系列go提示被视觉提供在显示器上。
110.根据方面109所述的方法,其中每个go提示之前是呈现所述go提示的倒计时,其中下一个拼读的字母的倒计时被视觉提供在所述显示器上,并且在每个go提示之后自动开始。
111.根据方面108至110中任一项所述的方法,其中所述一系列go提示在每个go提示之间提供有设定的时间间隔。
112.根据方面111所述的方法,其中所述受试者能够控制每个go提示之间的所述设定的时间间隔。
113.根据方面108至112中任一项所述的方法,其中所述处理器经编程以在所述go提示之后的时间窗口内使用所述记录的脑电信号数据。
114.根据方面86至113中任一项所述的方法,其中所述处理器经编程以计算来自经解码字母序列的经解码单词序列是所述受试者在所述受试者的所述尝试拼读预期句子的单词的字母期间试图产生的预期句子的概率。
115.根据方面86至114中任一项所述的方法,其中所述处理器经编程以使用语言模型,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码。
116.根据方面115所述的方法,其中根据所述语言模型,较频繁出现的单词被分配比较不频繁出现的单词更大的权重。
117.根据方面86至116中任一项所述的方法,其中所述处理器进一步经编程以使用预测的字母概率序列来计算潜在的候选句子,并自动将空格插入所述候选句子中预测的单词之间的字母序列中。
118.根据方面86至117中任一项所述的方法,所述方法进一步包括:
记录与所述受试者的尝试非语音运动性移动相关联的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试拼读所述预期句子的单词的起始或终止或控制外部装置;以及
使用分类模型来分析所述脑电信号数据,所述分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
119.根据方面118所述的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
120.根据方面119所述的方法,其中所述尝试手移动包括想象的手势或想象的握手。
121.根据方面118至120中任一项所述的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于所述尝试非语音运动性移动的事件标签分配给时间点。
122.根据方面86至121中任一项所述的方法,所述方法进一步包括评估所述解码的准确度。
123.根据方面86至122中任一项所述的方法,所述方法进一步包括:
使用所述神经记录装置记录与所述受试者的尝试语音相关联的脑电信号数据,其中所述接口从所述神经记录装置接收所述脑电信号数据,并且将所述脑电信号数据传输到所述计算装置的所述处理器;以及
使用所述处理器从与所述受试者的尝试语音相关联的所述记录的脑电信号数据中解码单词、短语或句子。
124.一种计算机实现的方法,所述方法用于从与受试者的尝试拼读预期句子的单词的字母相关联的记录的脑电信号数据中解码句子,计算机执行的步骤包括:
a)接收与所述受试者的所述尝试拼读预期句子的单词的字母相关联的所述记录的脑电信号数据;
b)使用语音检测模型来分析所述记录的脑电信号数据,以计算在记录所述脑电信号数据期间的任何时间点出现尝试拼读的概率,并且检测在所述受试者的所述尝试拼读期间字母产生的开始和结束;
c)使用字母分类模型分析所述脑电信号数据,所述单词分类模型识别与所述受试者的尝试字母产生相关联的所述记录的脑电信号数据中的电信号模式,并且计算预测的字母概率序列;
d)基于所述预测的字母概率序列计算潜在的候选句子,并且自动将空格插入所述候选句子中的预测的单词之间的所述字母序列中,其中所述字母序列中的经解码单词被局限于仅所述受试者使用的语言词汇表内的单词;
e)使用在给定单词序列中的前一单词或短语的情况下提供下一单词概率以计算预测的单词序列概率的语言模型分析所述潜在的候选句子,并且确定句子中最可能的单词序列;以及
f)显示从所述记录的脑电信号数据中解码的所述句子。
125.根据方面124所述的计算机实现的方法,其中所述记录的脑电信号数据仅在所检测的所述受试者的尝试拼读字母开始周围的时间窗口内使用。
126.根据方面124或125所述的计算机实现的方法,所述方法进一步包括向所述受试者显示一系列go提示,指示所述受试者何时应起始所述预期句子的所述单词的每个字母的尝试拼读。
127.根据方面126所述的计算机实现的方法,其中每个go提示之前是显示呈现所述go提示的倒计时,其中下一个拼读的字母的倒计时自动在每个go提示之后开始。
128.根据方面126或127所述的计算机实现的方法,其中所述一系列go提示在每个go提示之间提供有设定的时间间隔。
129.根据方面128所述的计算机实现的方法,其中所述受试者能够控制每个go提示之间的所述设定的时间间隔。
130.根据方面122至127中任一项所述的计算机实现的方法,其中在所述go提示之后的时间窗口内的所述记录的脑电信号数据用于字母分类。
131.根据方面124至130中任一项所述的计算机实现的方法,所述方法进一步包括:
接收与所述受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试拼读所述预期句子的单词的起始或终止或控制外部装置;以及
使用分类模型来分析所述脑电信号数据,所述分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
132.根据方面131所述的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
133.根据方面132所述的方法,其中所述尝试手移动包括想象的手势或想象的握手。
134.根据方面124至133中任一项所述的计算机实现的方法,其中使用机器学习算法来检测尝试拼读或尝试非语音运动性移动或字母分类。
135.根据方面124至134中任一项所述的计算机实现的方法,所述方法进一步包括根据所述语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
136.根据方面124至135中任一项所述的计算机实现的方法,所述方法进一步包括存储所述受试者的使用者档案,所述使用者档案包括关于与所述受试者的尝试拼读期间的字母产生相关联的所述记录的脑电信号数据中的电信号模式的信息。
137.根据方面124至136中任一项所述的计算机实现的方法,其中所述电信号数据包括高γ频率内容特征和低频率内容特征。
138.根据方面137所述的计算机实现的方法,其中所述电信号数据包括在70Hz至150Hz的高γ频率范围内和在0.3Hz至100Hz的低频范围内的神经振荡。
139.根据方面124至138中任一项所述的计算机实现的方法,所述方法进一步包括评估所述解码的准确度。
140.根据方面124至139中任一项所述的计算机实现的方法,所述方法进一步包括从与所述受试者的尝试语音相关联的记录的脑电信号数据中解码句子,计算机进一步执行的步骤包括:
a)接收与所述受试者的所述尝试语音相关联的所述记录的脑电信号数据;
b)使用语音检测模型来分析所述记录的脑电信号数据,以计算在任何时间点出现尝试语音的概率,并且检测在所述受试者的所述尝试语音期间单词产生的开始和结束;
c)使用单词分类模型分析所述脑电信号数据,所述单词分类模型识别与所述受试者的尝试单词产生相关联的所述记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;
d)通过使用从所述单词分类模型计算的单词概率并结合使用语言模型在所述句子中预测的单词序列概率来执行句子解码,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率以计算预测的单词序列概率,并且基于使用所述单词分类模型和所述语言模型确定的所述预测的单词概率来确定所述句子中最可能的单词序列;以及
e)显示从所述记录的脑电信号数据中解码的所述句子。
141.根据方面140所述的计算机实现的方法,其中使用机器学习算法进行语音检测、单词分类和句子解码。
142.根据方面141所述的计算机实现的方法,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
143.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括程序指令,当由计算机中的处理器执行时,所述程序指令使处理器执行根据方面124至142中任一项所述的方法。
144.一种套件,所述套件包括根据方面143所述的非暂时性计算机可读介质和用于解码与受试者的尝试拼读预期句子的单词的字母相关联的脑电信号数据的指令。
145.一种用于协助受试者进行交流的系统,所述系统包括:
包括电极的神经记录装置,适于定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试语音、尝试拼读预期句子的单词的字母或尝试非语音运动性移动或其组合相关联的脑电信号数据;
处理器,经编程以根据方面124至142中任一项所述的计算机实现的方法从记录的脑电信号数据中解码句子;
与计算装置通信的接口,所述接口适于定位在所述受试者的头部的位置处,其中所述接口从所述神经记录装置接收所述脑电信号数据并且将所述脑电信号数据传输到所述处理器;以及
显示器组件,用于显示从所述记录的脑电信号数据中解码的所述句子。
146.根据方面145所述的系统,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
147.根据方面145或146所述的系统,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
148.根据方面145至147中任一项所述的系统,其中所述电极适于定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
149.根据方面148所述的系统,其中所述电极适于定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
150.根据方面145至149中任一项所述的系统,其中所述神经记录装置包括脑穿透电极阵列。
151.根据方面145至150中任一项所述的系统,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
152.根据方面145至151中任一项所述的方法,其中所述电极是深度电极或表面电极。
153.根据方面145至152中任一项所述的系统,其中所述电信号数据包括高γ频率内容特征和低频率内容特征。
154.根据方面153所述的系统,其中所述电信号数据包括在70Hz至150Hz的高γ频率范围内和在0.3Hz至100Hz的低频范围内的神经振荡。
155.根据方面145至154中任一项所述的系统,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
156.根据方面155所述的系统,其中所述接口进一步包括能够连接到所述经皮基座连接器的前端。
157.根据方面145至156中任一项所述的系统,其中所述处理器由计算机或手持装置提供。
158.根据方面157所述的系统,其中所述手持装置是手机或平板电脑。
159.一种套件,所述套件包括根据方面145至158中任一项所述的系统和用于使用所述系统记录和解码与受试者的尝试语音、尝试拼读单词或尝试非语音运动性移动或其组合相关联的脑电信号数据的指令。
实例
从上面提供的公开内容可以理解,本公开具有广泛的应用。因此,提出以下实例是为了向本领域普通技术人员提供如何制作和使用本发明的完整公开内容和描述,并且不旨在限制发明人认为是他们的发明的范围,也不旨在表示以下实验是所进行的全部或唯一实验。已努力确保所用数字的准确度(例如,数量、尺寸等),但是应考虑一些实验误差和偏差。本领域的技术人员将容易认识到各种非关键参数,这些参数可以被改变或修改以产生基本上相似的结果。
实例1:用于对患有重度瘫痪的患者的单词进行解码的语音神经假体
介绍
构音障碍是清晰发出语音能力的丧失。它可以由包括中风、创伤性脑损伤和肌萎缩性侧索硬化在内的多种病症引起[1]。对于患有严重移动障碍的瘫痪个体,它阻碍了与家人、朋友和护理人员的交流,从而降低了自我报告的生活质量[2]。
基于打字的脑机接口已经取得了进展,从而允许存在障碍的个体使用光标控制拼出预期消息[3-7]。然而,由神经信号记录驱动的逐字母选择接口可能相对缓慢和乏味。更高效且自然的方法可能是直接从控制语音的大脑区域解码整个单词。在过去的十年中,我们对语音运动皮层如何精心安排声道的快速发音移动的理解已经扩展[8-13]。与此同时,工程努力已经利用这些发现来证明,可以从没有语音障碍的人的大脑活动中解码语音[14-17]。
然而,尚不清楚语音解码方法是否将在不能说话的瘫痪个体中起作用。由于缺乏语音输出,神经活动无法与预期语音精确对齐,这给训练计算模型造成了障碍[18]。此外,尚不清楚在数年或数十年一直无法说话的个体中,以语音控制为基础的神经信号是否仍然完整。在早期研究中,患有闭锁综合征的人使用植入的双通道微电极装置来通过视听接口产生元音音素和音位[19,20]。是否有可能从患有构音障碍的人的神经活动中可靠地解码完整的单词仍然无从知晓。
在这项工作中,我们展示了从因远程脑干中风而导致严重瘫痪和构音障碍的人的神经活动中进行实时单词和句子解码(图1)。我们的发现代表用于通过直接语音脑机接口恢复长期通信的概念验证。
方法
试验概述
这项工作是BRAVO研究(手臂和声音功能的BCI恢复,clinicaltrials.gov,NCT03698149)的一部分,这是一项单机构临床试验,旨在评估脑皮层电图(ECoG;用于直接从大脑的表面记录神经活动的方法)和用于长期通信和移动恢复的定制解码技术的潜力。本研究中使用的ECoG装置获得了美国食品药品监督管理局的研究装置豁免批准。在撰写本文时,仅有一名临床试验参与者(“Bravo-1”;本研究中的参与者)已经植入了ECoG装置。
参与者
参与者是惯用右手的男性,在研究开始时其为36岁。在20岁时,他遭受了与右椎动脉夹层相关联的广泛的双侧脑桥中风,这导致了严重的痉挛性四肢轻瘫和构音障碍(由语音病理医生和神经医生诊断;图5)。他在认知方面完好无损(通过简易精神状态检查进行评估)。他能发出咕噜声和呻吟声,但不能产生可理解的语音。他通常使用辅助性基于计算机的打字接口进行交流,接口由他残存的头部移动来控制,打字速率为约每分钟5个正确单词或18个正确字符(补充方法S1)。
植入物装置
用于从参与者获取脑信号的神经植入物是高密度ECoG电极阵列(PMTCorporation.MN,USA)与基座连接器(Blackrock Microsystems,UT,USA)的定制混合体。ECoG阵列由128个扁平圆盘状电极组成,这些电极的中心至中心间距为4mm。在手术植入期间,经由颅骨切开术暴露语音感觉运动皮层,并且将阵列放置在硬膜下腔中的大脑表面上。缝合闭合硬脑膜,并且更换颅骨瓣。将经皮基座连接器放置在单独的位点处,并用小钛螺钉锚定至颅骨。此基座连接器是可在外部访问的平台,通过平台可以获取脑信号,并且经由可拆卸数字连接器和缆线传输到计算机(图1)。参与者在2019年初接受了装置的手术植入。手术很成功,并且他的康复也很顺利。电极覆盖使得能够从已经涉及语音处理的多个皮层区域(包括部分左侧中央前回、中央后回、额后中回和额后下回)中进行采样,[8,10-12]。
神经数据获取和实时处理
使用数字信号处理单元和外围硬件(NeuroPort系统,Blackrock Microsystems),从植入物装置的所有128个通道获取信号,并且将其传输到运行定制软件的单独计算机用于实时分析(补充方法S2;图6和图7)[16,21]。在此计算机上,我们测量了每个通道的高γ活性(在70Hz至150Hz频率范围内的神经振荡),然后我们在所有后续分析和实时解码期间使用这些活性。
任务设计
参与者参与了两项任务:孤立词任务和句子任务(补充方法S3)。在每项任务的每次试验中,都向参与者视觉呈现了文本目标,并且参与者然后尝试产生(大声说出)该目标。
在孤立词任务中,参与者尝试从50个英语单词的集合中产生单独单词。此单词集包含了可用于创建各种句子的常见英语单词,包括与护理相关的单词和参与者所请求的单词。在每次试验中,都向参与者呈现这50个单词中的一个,并且在短暂的延迟后,当向他呈现视觉go提示时,他会尝试产生该单词。
在句子任务中,参与者尝试从50个英语句子的集合中产生单词序列,这些句子仅由来自50个单词的集合的单词组成(补充方法S4和S5)。在每次试验中,都向参与者呈现目标句子,并且参与者尝试以他能轻松自如的最快速度产生该句子中的单词。在整个试验过程中,从神经活动中解码的单词序列被实时更新,并且作为反馈显示给参与者。
建模
我们使用在任务期间收集的神经活动来训练、优化和评估定制模型(补充方法S6和S7;图8;补充表S1)。具体而言,我们创建了语音检测和单词分类模型,这两个模型都利用深度学习技术从神经活动中进行预测。为了在句子任务期间从参与者的神经活动中实时地解码句子,我们使用了包含这两个模型、语言模型和维特比解码器的解码流水线(图1)。
语音检测器处理任务期间每个时间点的神经活动,并且实时检测尝试单词产生事件的开始和结束(补充方法S8;图9)。我们仅使用来自孤立单词任务的神经数据和任务计时信息来拟合此模型。
对于每个所检测的事件,单词分类器通过处理从所检测的开始之前1秒到之后3秒时间跨度的神经活动来预测一组单词概率(补充方法S9;图10)。与50个单词的集合中的每个单词相关联的经预测概率对参与者在所检测的事件期间尝试说出该单词的可能性进行了量化。我们使用来自孤立单词任务的神经数据来拟合此模型。
在英语中,某些单词序列比其他单词序列更有可能。我们通过使用语言模型来利用此种基础结构,语言模型在给定序列中的前面单词的情况下产生下一单词概率[22,23](补充方法S10)。我们根据仅由来自50个单词的集合的单词组成的句子集合训练了此模型,集合是使用众包平台上的定制任务获得的(补充方法S4)。
我们使用定制维特比解码器作为解码流水线中的最终组件,此为在给定来自单词分类器的经预测单词概率和来自语言模型的单词序列概率的情况下确定最可能的单词序列的一种模型[24](补充方法S11;图11)。通过结合语言模型,维特比解码器能够解码比将通过简单地将来自单词分类器的经预测单词串在一起所产生者更合理的句子。
评估
为了评估我们的解码流水线的性能,我们使用两个指标分析了实时解码的句子:单词错误率和每分钟单词数(补充方法S12)。经解码句子的单词错误率被定义为编辑距离(该句子中的单词错误数)除以目标句子中的单词数。每分钟单词数指标测量每分钟对神经数据解码的单词数。我们还测量了我们的系统在实时解码期间的时延。
为了进一步表征从参与者的神经活动中对单词产生尝试的检测和分类,我们在离线分析中用语音检测器和单词分类器处理了孤立单词数据(参见补充方法S13)。为了评估性能如何受训练数据量的影响,我们使用来自单词分类器的经预测单词概率来测量分类准确度,同时改变训练期间使用的试验次数。此处,分类准确度等于单词分类器正确地将最高概率分配给目标单词的预测的百分比。我们还通过测量神经活动的每个通道对模型预测的影响来测量每个电极对检测和分类的贡献[17,25]。
为了研究我们的方法用于长期应用的临床可行性,我们使用孤立单词数据评估了所获取的ECoG信号随时间的稳定性(补充方法S14)。我们首先确定了在81周的研究期间,在单词产生尝试期间收集的神经响应的幅值是否发生了变化。我们还通过使用从四个不同日期范围(“早期”、“中期”、“晚期”和“非常晚期”)采样的神经数据对模型进行训练和测试并且然后比较所得分类准确度和电极贡献,评估了检测和分类性能在整个研究期间是否稳定。
统计分析
此项工作中使用的统计测试与对应的显著性声明一起陈述,并且在补充方法S15中提供了测试的详细说明。简言之,我们使用了Wilcoxon符号秩测试来比较解码性能和偶然性,并且评估语言模型对性能的影响(使用单词错误率指标),使用线性混合效应建模来评估信号稳定性,使用Fisher精确测试和精确McNemar测试来比较跨不同日期范围的分类准确度,并且使用Wilcoxon符号秩测试来比较跨不同日期范围的电极贡献。对于所有测试,我们使用0.01的α水平。当在相同类型的单独统计测试中使用的神经数据不是相互独立时,我们使用Holm-Bonferroni校正来解释多重比较。
结果
句子解码
在实时句子解码期间,跨句子块(每个块包含10次试验)的中位经解码单词错误率在不利用语言建模的情况下为60.5%,而在利用语言建模的情况下为25.6%(图2A)。针对单个测试块观察到的最低单词错误率为6.98%(利用语言建模)。单词错误率明显好于偶然性,并且在结合语言模型时显著降低(P<0.001,单尾Wilcoxon符号秩测试,3向Holm-Bonferroni校正)。跨所有150次试验,当包括所有经解码单词时,中位解码速率为每分钟15.2个单词,而当仅包括正确解码的单词时,中位解码速率为每分钟12.5个单词(图2B)。在92.0%的试验中,所检测的单词数等于目标句子中的单词数(图2C)。在2.67%的试验中,所检测的句子长度至少短了一个单词,而在5.33%的试验中,至少长了一个单词。跨所有15个句子块,5个语音事件在块中的第一次试验之前被错误地检测到,并且被排除在实时解码和分析之外(包括所有其他所检测的语音事件)。对于几乎每个目标句子,当使用语言模型时,平均编辑距离减小(图2D)。此外,超过一半的句子被毫无错误地解码(150次试验中有80次;利用语言建模;由编辑距离零指示)。在解码期间使用语言模型通过校正语法和语义上不合理的单词预测来改善性能(图2E)。与实时单词预测相关联的平均时延被估计为4.0s(标准偏差为0.91s)。
单词检测和分类
在使用所检测的皮层活动时间窗口对孤立单词产生尝试进行离线分析期间,分类准确度随着训练数据量的增加而增加(当使用所有可用数据时,高达47.1%;图3A)。在训练数据的前四个小时,性能改善得较快,并且然后在接下来的5个小时,性能改善得较慢,然而它并未稳定下来。在孤立单词数据中的9000个单词的产生尝试中,98%被成功检测到(191次尝试与所检测的事件不相关联),并且968个所检测的事件是虚假的(与尝试不相关联;关于附加孤立单词分析结果参见图12和图13)。有助于单词分类性能的电极主要位于腹侧感觉运动皮层(vSMC)的最腹侧,vSMC背侧中的电极有助于语音检测和单词分类性能(图3B)。总的来说,电极对语音检测的贡献比对单词分类的贡献更分散,超过50%的总贡献来自单词分类器的前37个电极和语音检测器的前50个电极。单词混淆分析揭示了跨大多数单词目标一致的分类准确度(图3C;沿着行归一化混淆矩阵对角线的分类准确度的平均值为47.1%且其标准偏差为14.5%)。
长期信号稳定性
在整个81周的研究期间,我们观察到单词产生尝试期间相对稳定的单次试验神经活动模式(图4A)。跨所有电极和孤立单词试验中,植入后的时间对尝试语音期间的神经响应幅值存在轻微的总体负面影响(斜率=-0.00021,SE=0.000011,P<0.001,线性混合效应建模,129向Holm-Bonferroni校正;图14)。然而,单独电极建模揭示了128个电极中仅4个有显著影响(1个正电极,3个负电极;P<0.01,线性混合效应建模,129向Holm-Bonferroni校正)。
通过根据来自不同日期范围的孤立单词数据的子集训练和测试语音检测器和单词分类器,我们发现了最早子集的分类准确度最低,并且跨剩余子集是相对一致的(对于“早”对“晚”比较,P=0.0015,对于所有其他比较,P>0.01,双尾Fisher精确测试,10向Holm-Bonferroni校正;图4B)。当评估这两个最新子集中的数据时,与来自其他子集的数据相对比,当根据来自同一子集内的数据训练模型时,分类准确度显著更高(对于“晚”和“非常晚”子集,P<0.001,并且对于其他子集,P>0.01,双尾精确McNemar测试,10向Holm-Bonferroni校正)。跨四个子集的电极贡献存不在显著变化(所有P>0.32,双尾Wilcoxon符号秩测试,未校正)。
讨论
我们证明了可使用来自严重瘫痪的人的皮层活动的高分辨率记录来实时解码完整的单词和句子。我们的深度学习模型能够从神经活动中检测和分类单词产生尝试,并且我们可以使用这些模型以及语言建模技术来解码各种有意义的句子。从神经接口记录的信号在整个研究期间表现出稳定性,使得即使在手术植入后多达90周也能成功解码。总之,这些结果对瘫痪的人具有直接的实际意义,瘫痪的人可能从语音神经假体技术中受益。
先前对从神经活动中解码单词和句子的展示是在拥有完整语音且不需要协助技术进行交流的参与者中进行的[14-17]。当对无法说话的人的语音进行解码时,预期语音与神经活动之间缺乏精确的时间对齐在模型训练期间提出了重大挑战。此处,我们利用检测技术[16,26,27]和利用机器学习进步(诸如模型集成和数据增强(在补充方法S9中描述))的分类器来管理此种时间对齐问题,以增加对微小时间可变性的容忍度[28,29]。此外,我们的解码模型利用了腹侧感觉运动皮层的神经活动模式,这与使此区域涉及完整语音产生的先前工作一致[8,11,12]。此结果证明,在超过15年的构音障碍后,功能性皮层语音表示仍然存在,类似于四肢瘫痪个体失去移动数年后的肢体相关皮层运动表示的先前发现[30]。
尽管单词分类性能并不完美,但语言建模技术的结合使得超过一半的句子试验能够完美解码。通过利用来自单词分类器的附加概率信息(不仅仅是对于每个所检测的单词产生尝试的最可能的单词身份)并且允许解码器在给定新输入的情况下校正先前错误,来促进此种改善。这些结果证明当从神经记录中解码语音时整合语言信息的好处。语音解码方法通常在单词错误率低于30%时变得可用[31],表明我们的方法可以立即应用于临床环境。
设计长期脑机接口(BCI)的基本考虑因素是神经记录模式的选择(例如,侵入性对非侵入性)以及此种选择对所获取的神经信号的分辨率、空间覆盖范围和稳定性的影响。先前的运动控制BCI研究已经表明,与其他记录模式相比,脑皮层电图(ECoG,本研究中使用的记录模式)在长评估期内具有相对高的信号稳定性[4,32-34],但这些解码工作受到有限通道计数和空间覆盖范围的约束。利用我们的高密度ECoG装置,我们利用广空间覆盖范围和高空间分辨率来可靠地解码单词,同时在整个研究中观察相对稳定的皮层活动(仅3个电极表现出随着时间的推移神经响应幅值显著降低)。离线分类性能得以改善,并且然后在研究的最初几周之后大部分被稳定,这可以潜在地通过植入后早期愈合期间的脑组织沉降来解释[35,36]。与最近关于此种植入物装置和研究参与者的光标控制研究一致[37],我们的结果表明,基于ECoG的BCI可以在偶尔的模型重新校准的情况下保持一致的语音解码性能数月。总的来说,我们的发现增加了基于ECoG的接口对癫痫的响应性神经刺激[35,36]和长期BCI控制[34,37]的长期可行性、安全性和信号稳定性的证明,将这些属性扩展到包括具有高密度ECoG的BCI。
对于健康个体来说,语音通常是最快、最自然且最高效的交流方式[38]。尽管我们目前的解码速率远低于自然说话速率,自然说话速率通常超过每分钟130个单词[38,39],但这些结果证明了在患有构音障碍的瘫痪个人中从皮层信号直接进行语音解码的早期可行性。根据此种原理验证,我们可以开发和评估新型解码器,以使得能够产生具有更大词汇量的更广泛的各种句子。最终,通过未来改善解码准确度、灵活性和速度的工作,我们的目标是为患有严重交流障碍的人实现基于语音的神经假体的充分交流潜力。
参考文献
1.Beukelman DR、Fager S、Ball L、Dietz A患有获得性神经病症的成人的AAC:综述,《增强性和替代性交流》2007;23(3):230-42。
2.Felgoise SH、Zaccheo V、Duff J、Simmons Z口头交流影响患有肌萎缩性侧索硬化的患者的生活质量,《肌萎缩性侧索硬化和额颞叶变性》2016;17(3-4):179-83。
3.Sellers EW、Ryan DB、Hauser CK非侵入性脑机接口使得能够在脑干中风后进行交流,《科学转化医学(Science translational medicine)》2014;6(257):257re7。
4.Vansteensel MJ、Pels EGM、Bleichner MG等人患有ALS的闭锁患者的完全植入脑机接口,《新英格兰医学杂志》2016;375(21):2060-6。
5.Pandarinath C、Nuyujukian P、Blabe CH等人患有瘫痪的人使用皮层内脑机接口进行高性能交流,《ELife》2017;6:1-27。
6.Brumberg JS、Pitt KM、Mantie-Kozlowski A、Burnison JD用于增强性和替代性交流的脑机接口:教程,《美国语言病理学杂志(Am J Speech Lang Pathol)》2018;27(1):1-12。
7.Linse K、Aust E、Joos M、Hermann A、Oliver DJ交流问题-高科技通信装置在患有肌萎缩性侧索硬化的严重肢体残疾患者的姑息治疗中的陷阱和前景,2018;9(7月):1-18。
8.Bouchard KE、Mesgarani N、Johnson K、Chang EF针对语音清晰度的人类感觉运动皮层的功能性组织,《自然(Nature)》2013;495(7441):327-32。
9.Lotte F、Brumberg JS、Brunner P等人连续语音中的分段特征的脑皮层电图表示,《人类神经科学前沿(Frontiers in Human Neuroscience)》2015;09(2月):1-13。
10.Guenther FH、Hickok G运动性语音控制的神经模型,选自:《语言神经生物学(Neurobiology of Language)》,Elsevier;2016.p.725-40。
11.Mugler EM、Tate MC、Livescu K、Templer JW、Goldrick MA、Slutzky MW中央前回和额下回中的发音姿势和音位的不同表示,《神经科学杂志(The Journal ofNeuroscience)》2018;4653:1206-18。
12.Chartier J、Anumanchipalli GK、Johnson K、Chang EF人类语音感觉运动皮层中的发音运动轨迹的编码,《神经元(Neuron)》2018;98(5):10421054.e4。
13.Salari E、Freudenburg ZV、Branco MP、Aarnoutse EJ、Vansteensel MJ、Ramsey NF根据感觉运动皮层活动对发音器移动和移动方向进行分类,《科学报告(SciRep)》2019;9(1):14165。
14.Herff C、Heger D、de Pesters A等人大脑到文本:从大脑中的电话表示中解码说出的短语,《神经科学前沿(Frontiers in Neuroscience)》2015;9(6月):1-11。
15.Anumanchipalli GK、Chartier J、Chang EF从说出的句子的神经解码进行语音合成,《自然》2019;568(7753):493-8。
16.Moses DA、Leonard MK、Makin JG、Chang EF使用人类皮层活动对问答语音对话进行实时解码,《自然通讯(Nat Commun)》2019;10(1):3096。
17.Makin JG、Moses DA、Chang EF用编码器-解码器框架将皮层活动机器翻译成文本,《自然神经科学(Nat Neurosci)》2020;23(4):575-82。
18.Martin S、Iturrate I、Millán J del R、Knight RT、Pasley BN使用脑皮层电图解码内部语音:语音假体的进展和挑战,《神经科学前沿》2018;12:422。
19.Guenther FH、Brumberg JS、Wright EJ等人用于实时语音合成的无线脑机接口,《公共科学图书馆:综合(PLoS ONE)》2009;4(12):e8218。
20.Brumberg JS、Wright EJ、Andreasen DS、Guenther FH、Kennedy PR语音运动性皮层中的长期皮层内微电极记录中预期音位产生的分类,《神经科学前沿》2011;5:65。
21.Moses DA、Leonard MK、Chang EF使用人类的诱发的皮层活动对听觉句子进行实时分类,《神经工程学杂志》2018;15(3):036005。
22.Kneser R、Ney H M元语法语言建模的改进让步,选自:《1995年国际声学、语音和信号处理会议(1995International Conference on Acoustics,Speech,and SignalProcessing)》,Detroit,MI,USA:IEEE;1995.p.181-4。
23.Chen SF、Goodman J用于语言建模的平滑技术的实证研究,《计算机语音和语言(Computer Speech&Language)》1999;13(4):359-93。
24.Viterbi AJ卷积码的错误界限和渐近最佳解码算法,《IEEE信息论汇刊(IEEETransactions on Information Theory)》1967;13(2):260-9。
25.Simonyan K、Vedaldi A、Zisserman A深层卷积网络:可视化图像分类模型和显著性图,选自:Bengio Y、LeCun Y编辑,《学习表示国际会议研讨会(Workshop at theInternational Conference on Learning Representations)》,Banff,Canada:2014。
26.Kanas VG、Mporas I、Benz HL、Sgarbas KN、Bezerianos A、Crone NE基于ECoG的语音脑机接口的实时语音活动检测,选自:《第19届国际数字信号处理会议(19thInternational Conference on Digital Signal Processing)》,2014.p.862-5。
27.Dash D、Ferrari P、Dutta S、Wang J NeuroVAD:从非侵入性神经磁信号进行实时语音活动检测,《传感器(Sensors)》2020;20(8):2248。
28.Sollich P、Krogh A利用集成体进行学习:过度拟合如何有用,选自:TouretzkyDS、Mozer MC、Hasselmo ME编辑,《神经信息处理系统8的进展(Advances inNeural Information Processing Systems 8)》,MIT Press;1996.p.190-196。
29.Krizhevsky A、Sutskever I、Hinton GE基于深度卷积神经网络的ImageNet分类,选自:Pereira F、Burges CJC、Bottou L、Weinberger KQ编辑,《神经信息处理系统25的进展(Advances in Neural Information Processing Systems 25)》,CurranAssociates,Inc.;2012.p.1097-1105。
30.Shoham S、Halgren E、Maynard EM、Normann RA四肢瘫痪患者的运动皮层活动,《自然》2001;413(6858):793-793。
31.Watanabe S、Delcroix M、Metze F、Hershey JR鲁棒语音识别的新时代:利用深度学习,Berlin,Germany:Springer-Verlag;2017。
32.Chao ZC、Nagasaka Y、Fujii N使用猴的脑皮层电图信号对手臂运动进行长期异步解码,《神经工程前沿(FrontNeuroeng)》2010;3:3.。
33.Freudenburg ZV、Branco MP、Leinders S等人用于BCI控制的感觉运动ECoG信号特征:患有闭锁综合征的人与健康对照者的比较,《神经科学前沿》2019;13:1058。
34.Pels EGM、Aarnoutse EJ、Leinders S等人晚期肌萎缩性侧索硬化中的长期植入脑机接口的稳定性,《临床神经生理学(Clinical Neurophysiology)》2019;130(10):1798-803。
35.Rao VR、Leonard MK、Kleen JK、Lucas BA、Mirro EA、Chang EF人类语音皮层的长期动态脑皮层电图,《神经影像(NeuroImage)》2017;153:273-82。
36.Sun FT、Arcot Desai S、Tcheng TK、Morrell MJ人类颅内电极植入后脑皮层电图的变化:植入物效应,《临床神经生理学》2018;129(3):676-86。
37.Silversmith DB、Abiri R、Hardy NF等人通过神经图稳定实现脑机接口的即插即用控制,《自然生物技术(Nat Biotechnol)》2020。
38.Hauptmann AG、Rudnicky AI语音输入和打字输入的比较,选自:语音和自然语言研讨会论文集-HLT’90,Hidden Valley,Pennsylvania:Association forComputational Linguistics;1990.p.219-24。
39.Waller A讲述故事:解锁AAC技术的潜力,《国际语言与交流障碍杂志(International Journal of Language&Communication Disorders)》2019;54(2):159-69。
实例2:用于单词解码的补充方法
方法S1.参与者的协助打字装置
协助打字装置描述
参与者经常使用商业上可获得的触摸屏打字接口(Tobii Dynavox)与他人交流,他通过使用残存的头部和颈部移动,用附接到棒球帽的长(约18英寸)塑料触笔来控制它。装置显示字母、单词和其他选项(诸如标点符号),参与者可以用他的触笔进行选择,使他能够构建文本字符串。在创建期望的文本字符串之后,参与者可以使用其触笔来按压图标,图标将文本字符串合成为可听语音波形。此种拼出期望消息并使装置合成它的过程是参与者与他的护理人员和来访者进行交流的典型方法。
打字速率评估任务设计
为了与我们的系统实现的基于神经的解码速率进行比较,我们测量了参与者在定制任务中使用打字接口时的打字速率。在此项任务的每次试验中,我们在屏幕上呈现一个单词或句子,并且参与者使用他的打字接口打出该单词或句子。我们指示参与者不要在他的接口中使用任何单词建议或完成选项,但允许使用校正功能(诸如退格或撤销选项)。我们测量了目标单词或句子第一次出现在屏幕上时与参与者输入目标的最后一个字母时之间的时间量。然后,我们使用此持续时间和目标单词或话语来测量每次试验的每分钟单词数和每分钟正确字符数。
我们总共使用了35次试验(25个单词和10个句子)。在向参与者呈现时包括标点符号,但参与者被指示在任务期间不要打出标点符号。目标单词和句子是:
1.渴
2.我
3.累
4.是
5.上
6.如何
7.外面
8.你
9.不好
10.干净
11.具有
12.告诉
13.喂
14.离开
15.正确
16.更近
17.什么
18.成功
19.它
20.家人
21.那
22.帮助
23.做
24.我
25.好
26.很好。
27.我渴了。
28.他们要来这里。
29.你要出去吗?
30.我在外面。
31.信心是好的。
32.我的家人在这里。
33.请告诉我的家人。
34.我的眼镜很舒适。
35.他们出来了。
打字速率结果和讨论
跨此项打字任务的所有试验,参与者的打字速率的平均值±标准偏差是每分钟5.03±3.24个正确单词或每分钟17.9±3.47个正确字符。
尽管这些打字速率比我们的方法的实时解码速率慢,但打字接口的无限制词汇量大小是超出我们的方法的一个关键优势。给定参与者能够用打字接口实现的每分钟正确字符数,用来自此项任务的50个单词替换接口中的字母可以产生比用我们的方法实现的解码速率和准确度更高的解码速率和准确度。然而,此种打字接口不太自然,并且似乎比尝试语音需要更多的体力,这表明打字接口可能比我们的方法更疲劳。
方法S2.神经数据获取和实时处理
初始数据获取和预处理步骤
植入的脑皮层电图(ECoG)阵列(PMT Corporation)包含以16乘8网格形式布置的电极,中心到中心的间距为4mm。矩形ECoG阵列具有6.7cm的长度、3.5cm的宽度和0.51mm的厚度,并且电极触点为圆盘形,触点直径为2mm。为了对神经数据进行处理和记录,从ECoG阵列获取信号,并且在涉及多个硬件装置的几个步骤中进行处理(图6和图7)。首先,连接到经皮基座连接器(Blackrock Microsystems)的前端(可拆卸数字链路;BlackrockMicrosystems)从植入的电极阵列获取电势。基座是公连接器,并且前端是母连接器。此种前端使用基于硬件的Butterworth滤波器在0.3Hz与7.5kHz之间对信号执行带通滤波。然后将数字化信号(具有16位、250nV/比特的分辨率)通过HDMI缆线传输到数字中枢(BlackrockMicrosystems),数字中枢然后通过光纤缆线将数据发送到Neuroport系统(BlackrockMicrosystems)。在早期记录会话中,在数字前端被批准用于人类研究之前,我们使用人类患者缆线(Blackrock Microsystems)将基座连接到前端放大器(BlackrockMicrosystems),放大器在信号通过光纤发送到Neuroport系统之前对信号进行放大和数字化。此Neuroport系统以30kHz对所有128个通道的ECoG数据进行采样,应用基于软件的线路噪声消除,以500Hz执行抗混叠低通滤波,并且然后以1kHz将经处理的信号串流传输至单独的实时处理机(Colfax International)。Neuroport系统还以30kHz获取、串流传输和存储相关声学的同步记录(来自实时处理计算机的麦克风输入和扬声器输出)。
进一步预处理和特征提取
实时处理计算机是Linux机器(64位Ubuntu 18.04,48个Intel Xeon Gold61463.20GHz处理器,500GB RAM),使用名为实时神经语音识别(rtNSR)[1,2]的定制软件包来分析和处理输入的神经数据,运行任务,执行实时解码,并且将任务数据和元数据存储到磁盘。使用此软件,我们对所有获取的神经信号实时执行以下预处理步骤:
我们对获取的ECoG数据(跨所有电极)的每个时间样本应用了共同平均参考,这是减少多通道数据中的共享噪声的标准技术[3,4]。
我们应用了八个带通有限脉冲响应(FIR)滤波器,在高γ频带(在72.0Hz、79.5Hz、87.8Hz、96.9Hz、107.0Hz、118.1Hz、130.4Hz和144.0Hz下,四舍五入到最接近的小数位数)中的中心频率呈对数递增。这些390阶滤波器中的每一个都是使用Parks-McClellan算法设计的[5]。
我们使用以Parks-McClellan算法设计的170阶FIR滤波器计算每个频带和通道的分析振幅值,以近似希尔伯特变换。对于每个频带和通道,我们使用原始信号(延迟85个样本,其是滤波器阶数的一半)作为实部,并且使用原始信号的希尔伯特变换(由此FIR滤波器近似)作为虚部来估计分析信号[6]。然后,我们通过计算这些分析信号中每一个的幅值来获得分析振幅值。我们仅对带通信号的每五个样本应用此种分析振幅计算,从而得到抽取至200Hz的分析振幅。
我们通过对跨八个频带的分析振幅值进行平均来计算每个通道的单个高γ分析振幅量度。
我们使用带有30秒滑动窗口的Welford方法对每个通道的高γ分析振幅值进行z评分[7]。
我们在所有分析中和在线解码期间使用这些高γ分析振幅z评分时间序列(以200Hz采样)。
硬件基础设施的可携带性和成本
在此项工作中,所使用的硬件相当大,但仍然是便携式的,大多数硬件组件都位于长度和宽度均为约76cm的移动机架上。我们在参与者的卧室或参与者住所附近的小办公室里执行所有的数据收集和在线解码任务。尽管我们在整个临床试验中监督硬件的所有使用,但开始记录所需的硬件和软件设置程序是简单明了的;经过几个小时的训练和适当的监管批准后,护理人员可以在没有我们直接监督的情况下将我们的系统准备好供参与者使用,这是可行的。为了设置系统以供使用,护理人员将执行以下步骤:
1.取下并清洁经皮连接器帽,帽在系统不使用时保护经皮连接器上的外部电触点
2.清洁经皮连接器、数字链路和经皮连接器周围的头皮区域
3.将数字链路连接到经皮连接器
4.打开计算机并启动软件
5.确保屏幕正确定位在参与者面前,以供使用
之后,为了脱离此系统,护理人员将执行以下步骤:
1.关闭软件,并且关闭计算机
2.断开数字链路与经皮连接器的连接
3.清洁经皮连接器、数字链路和经皮连接器周围的头皮区域
4.将经皮连接器帽放回经皮连接器上
完整的硬件基础设施相当昂贵,主要是因为新的Neuroport系统的成本相对高(与此项工作中使用的其他硬件装置的成本相比)。然而,最近的工作已经证明,可以在不显著降低系统性能的情况下(与包含Blackrock Microsystem装置的典型系统相比,诸如此项工作中使用的系统)部署相对便宜且便携式的脑机接口系统[8]。这项工作中的展示表明,我们的硬件基础设施的未来迭代可以变得更便宜并且更便携,而不会牺牲解码性能。
计算建模基础设施
我们将所收集的数据从实时处理计算机上传到我们实验室的计算和存储服务器基础设施。此处,我们使用多个NVIDIA V100 GPU拟合并优化了解码模型,以减少计算时间。然后将最终确定的模型下载到实时处理计算机进行在线解码。
方法S3.任务设计
所有数据以一系列“块”的形式收集,每个块持续约5分钟或6分钟,并且由多次试验组成。存在两种类型的任务:孤立单词任务和句子任务。
孤立单词任务
在孤立单词任务中,参与者尝试从50个单词的集合中产生单独单词,同时我们记录下他的皮层活动以供离线处理。此单词集是基于以下标准选择的:
1.可以使用这些单词创建各种句子的容易程度。
2.可以使用这些单词对基本护理需求进行交流的容易程度。
3.参与者对包括这些单词的兴趣。我们使用参与者通过其商业上可获得的协助交流技术提供给我们的反馈,迭代了50个单词的集合的几个版本。
4.期望包括大量单词,单词量足够大以创建各种有意义的句子,但足够小以实现令人满意的基于神经的分类性能。后一项标准是通过在装置植入后(在收集此项研究中分析的任何数据之前)对参与者进行的探索性初步评估获知的。在本部分最后提供了此50个单词的集合中包含的单词列表。
为了保持任务块的持续时间短,我们任意地将此单词集分成三个不相交的子集,其中两个子集每个包含20个单词,并且第三个子集包含剩余的10个单词。在此项任务的每个块期间,参与者尝试产生包含在这些子集中的一个中的每个单词两次,导致总共每个块进行40次或20次尝试单词产生(取决于单词子集的大小)。在第三个更小子集的三个块中,参与者尝试产生该子集中的10个单词,各四次(而不是通常的两次)。
此项任务的块中的每次试验都是以具有黑色背景的空白屏幕开始的。1秒后(或者在极少的块中,1.5秒),当前单词子集中的一个单词以白色文本显示在屏幕上,其两侧被四个句点字符包围(例如,如果当前单词是“喂”,则文本“....你好....”将会出现)。对于接下来的2秒,每隔500ms,两侧上的外部句点(所显示的文本字符串的第一个和最后一个字符)将会消失,视觉地表示倒计时。当单词两侧上的最后一个句点消失时,文本将会变成绿色,并且在屏幕上停留4秒。此种从白色到绿色的颜色转变代表了每次试验的go提示,并且参与者被指示在文本变成绿色时尝试产生单词。之后,任务继续到下一次试验。单词呈现顺序在每个任务块中是随机的。参与者从我们在手术前面谈期间向他呈现的一组潜在范式选项中选择了此种倒计时式任务范式,声称他能够在每次试验中使用一致的倒计时计时来更好地将他的产生尝试与go提示对齐。
句子任务
在句子任务中,参与者尝试从50个句子的集合中产生句子,同时他的神经活动被处理并解码成文本。这些句子仅由来自50个单词的集合的单词组成。这50个句子是以半随机的方式从潜在句子的语料库中选择的(参见方法S5)。在本部分最后提供了此50个句子的集合中包含的句子列表。为了保持任务块的持续时间短,我们将此句子集任意分成五个不相交的子集,每个子集包含10个句子。在此项任务的每个块中,参与者尝试产生包含在这些子集中的一个中的每个句子一次,导致总共每个块进行10次尝试句子产生。
此项任务的块中的每次实验都是从水平分成上下两半的空白屏幕开始的,上下两半都具有黑色背景。两秒后,当前句子子集中的一个句子以白色文本显示在屏幕的上半部分中。参与者被指示在文本一出现在屏幕上时,就以他能轻松自如的最快速度尝试产生句子中的单词。当向参与者显示目标句子时,他的皮层活动由语音检测模型实时处理。每次从所获取的神经信号中检测到尝试单词产生时,一组循环省略号(每秒在一个、两个和三个句点字符之间循环的文本字符串)被添加到屏幕的下半部分作为反馈,指示检测到语音事件。给定对应的神经活动和来自当前试验中任何先前所检测的事件的经解码信息,然后使用单词分类、语言和维特比解码模型来解码与当前所检测的语音事件相关联的最可能的单词。每当解码一个新单词时,该单词就会替换屏幕下半部分中相关联的循环省略号文本字符串,从而向参与者提供进一步的反馈。维特比解码模型在给定所观察的神经活动的情况下维持试验中最可能的单词序列,在给定新语音事件的情况下经常更新其对先前语音事件的预测,使得反馈文本字符串中先前解码的单词随着新信息变得可用而改变。在从所检测的最近的语音事件开始经过预定量的时间后,句子目标文本从白色变为蓝色,指示试验的解码部分已经结束,并且该试验的经解码句子已经最终确定。此预定量的时间是9秒或11秒,取决于块的类型(参见下一段)。3秒之后,任务继续到下一次试验。
我们收集了句子任务的两种类型的块:优化块和测试块。这两种类型的块之间的区别是:
1.我们使用优化块来执行超参数优化,并且使用测试块来评估解码系统的性能。
2.我们在收集优化块时使用中间(非优化)模型,并且在收集测试块时使用最终确定的(优化)模型。
3.尽管在此项任务期间,所检测的语音尝试和经解码单词序列总是作为反馈提供给参与者,但是在收集优化块期间,指令他如果错过了一个语音事件就不要重复一个单词,或者使用反馈来改变他尝试产生哪些单词。我们包括这些指令以保护用于超参数优化程序的数据的完整性(如果参与者由于不完善的语音检测而改变了他的行为,则提示的单词序列与参与者实际尝试的单词序列之间的差异可能会阻碍优化程序)。然而,在测试块期间,我们鼓励参与者在尝试产生目标句子时考虑反馈。例如,如果没有检测到尝试单词产生,则参与者可以在继续下一单词之前重复产生尝试。
4.在优化块期间,将控制每次试验中经解码单词序列何时被最终确定的预定时间量(参见上一段)设定为9秒。在测试块期间,将此项任务参数设定为11秒,以给参与者额外的时间来结合从解码流水线提供的反馈。
我们还收集了句子任务的对话变体,以证明解码方法可用于更开放的环境,其中参与者可以从50个单词中产生对问题的定制响应。在任务的此种变体中,参与者不是被提示尝试重复的目标句子,而是被提示模仿对话伙伴的问题或陈述,并且被指示尝试对提示作出响应。除了对话提示和对参与者的任务说明的此种变化,任务的此种变体与常规版本相同。我们没有利用从句子任务的此种变体中收集的数据执行任何分析;它仅用于展示目的。任务的此种变体以主文本示于图1中。
单词和句子列表
此项工作中使用的50个单词的集合是:
1.我
2.是
3.不好
4.拿来
5.干净
6.更近
7.舒适
8.来
9.计算机
10.做
11.信心
12.家人
13.感觉
14.眼镜
15.离开
16.好
17.再见
18.具有
19.喂
20.帮助
21.这里
22.希望
23.如何
24.饥饿
25.我
26.是
27.它
28.喜欢
29.音乐
30.我的
31.需要
32.否
33.不
34.护士
35.好
36.外面
37.请
38.正确
39.成功
40.告诉
41.那
42.他们
43.渴
44.累
45.上
46.很
47.什么
48.哪里
49.是
50.你
此项工作中使用的50个句子的集合是:
1.你要出去吗?
2.你累了吗?
3.把我的眼镜拿过来。
4.请把我的眼镜拿来。
5.不要难过。
6.你感觉舒服吗?
7.信心是好的。
8.喂,你好吗?
9.这是我的计算机。
10.你感觉如何?
11.你觉得我的音乐怎么样?
12.我要出去。
13.我不去。
14.我不饿。
15.我不好。
16.我还好。
17.我在外面。
18.我渴了。
19.我感觉不舒服。
20.我感觉很舒服。
21.我感觉很饿。
22.我希望它是干净的。
23.我喜欢我的护士。
24.我需要我的眼镜。
25.我需要你。
26.很舒适。
27.很好。
28.还好。
29.就在这里。
30.我的计算机是干净的。
31.我的家人在这里。
32.我的家人在外面。
33.我的家庭很温馨。
34.我的眼镜是干净的。
35.我的眼镜很舒适。
36.我的护士在外面。
37.我的护士就在外面。
38.否。
39.请把我的眼镜拿过来。
40.请清洁一下它。
41.请告诉我的家人。
42.非常干净。
43.他们要来这里。
44.他们出来了。
45.他们要出去。
46.他们有信心。
47.你是做什么的?
48.它在哪里?
49.是。
50.你是不对的。
方法S4.句子语料库的收集
为了训练针对句子任务的特定领域语言模型(并且获得用于此项任务的目标句子集),我们使用Amazon Mechanical Turk任务来对自然英语句子的无偏语料库进行众包,语料库仅包含来自50个单词的集合的单词。设计了基于网络的接口来显示这50个单词,并且指示Mechanical Turk工人(称为“Turker”)构建符合以下标准的句子:
每个句子应仅由来自50个单词的集合的单词组成。
对于每个单独的Turker,句子响应中不应存在重复。
每个句子都应在语法上有效。
每个句子应具有8个单词或更少的长度。
此外,鼓励Turker跨不同的句子使用不同的单词(同时总是将单词限制于50个单词的集合)。仅来自美国的Turker被允许进行此项任务,以限制收集的句子中的方言影响。在去除虚假提交和垃圾邮件发送者后,语料库包含了来自187个Turker的3415个句子(1207个独特的句子)。
方法S5.句子目标集的创建
为了从Amazon Mechanical Turk语料库中提取句子任务中用作目标的50个句子的集合(关于此种语料库的更多详细信息,请参考方法S4),我们首先将此选择过程限制为仅考虑在语料库中出现多于一次的句子。我们强加了此种包含标准来阻止为目标集选择独特的句子。之后,我们从剩余的句子中随机采样,如果它们包含语法错误或不期望的内容(诸如“家人不好”),则丢弃一些样本。在创建了50个句子样本的集合之后,执行检查以确保50个单词的集合中至少90%的单词在该句子集中至少出现一次。如果此检查失败,我们再次运行句子采样过程,直到检查通过,从而产生句子任务的目标句子集。
在最终产生此项研究中使用的50个句子的集合的句子采用程序期间,以下22个句子被丢弃:
1.好的家人是成功
2.告诉成功
3.带来计算机
4.告诉那个家人
5.我去外面
6.你饿了
7.我感觉很不好
8.我需要眼镜
9.我需要计算机
10.你需要我的帮助
11.你越来越近
12.告诉你正确
13.我更近
14.外面不好
15.成功不会来到
16.我喜欢护士
17.家人不好
18.我告诉你
19.那个护士渴了
20.需要帮助
21.他们非常渴
22.计算机在哪里
目标句子集包含50个可能的单词中的45个。以下5个单词没有出现在目标句子集中:
1.更近
2.再见
3.帮助
4.成功
5.上
然而,由于单词分类器是根据孤立尝试训练的,以产生50个单词的集合中的每个单词,并且在推断期间计算跨50个单词的概率,因此这5个单词仍然可能出现在从参与者的神经活动解码的句子中。
方法S6.数据组织
孤立单词数据:子集创建
总的来说,我们跨48天的记录,在291个任务块中收集了22小时30分钟的孤立单词任务,每个单词为196次试验(尝试产生)(总共9800次试验)。我们将这些块分成11个不相交的子集:单个优化子集和10个交叉验证子集。优化子集包含每个单词总共16次试验,并且每个交叉验证子集包含每个单词18次试验。
为了创建跨时间相似分布的子集,我们首先按时间顺序对块进行排序。接下来,我们将出现在此有序列表内均匀间隔的索引处的块(从最早的块到最晚的块)分配给优化子集。然后,我们通过在循环遍历交叉验证子集标签的同时迭代这些块而将剩余的块分配给交叉验证子集。我们稍微偏离了此种方法,仅是为了确保每个子集包含每个单词期望的试验次数。此会防止任何单个子集具有来自特定时间段的数据的过度表示,然而我们的不规则记录时间表防止了子集包含在时间上等距的块(参见图8)。
我们在超参数优化期间对优化子集中的数据进行了模型评估(参见方法S7)。除非另有说明,否则我们使用在此过程期间发现的超参数值进行所有孤立单词分析。
使用在此过程期间发现的超参数值,我们对10个交叉验证子集进行了10折交叉验证,根据这些子集中的9个拟合我们的模型,并且对每个折叠中的保留子集进行评估。除非另有说明,否则优化子集中的试验在孤立单词评估期间不直接使用。
孤立单词数据:学习曲线方案
为了评估训练数据的数量如何影响性能,我们使用了10个交叉验证子集来产生学习曲线方案。在此种方案中,使用利用九个不同数量的训练数据的交叉验证来评估语音检测器和单词分类器。具体而言,对于N∈[1,9]的每个整数值,我们使用孤立单词数据执行了10折交叉验证评估,同时仅根据每个折叠中的N个随机选择的子集进行训练。通过此种方法,即使训练数据的数量不同,所有可用试验都针对N的每个值进行了评估,并且在任何单独评估中,训练与测试数据之间不存在重叠。此种学习曲线方案中的最终分析集(N=9)相当于所有可用数据的完整10折交叉验证分析,并且除了学习曲线结果之外,我们仅使用此分析集来计算所有报告的孤立单词结果(包括以主文本示于图3中的电极贡献和混淆矩阵)。在每个子集中每个单词为18次尝试产生的情况下,使用此种学习曲线方案的九个分析集在训练期间按照该顺序包含每个单词18次、36次、54次、72次、90次、108次、126次、144次和162次试验。由于使用经管理的所检测事件来拟合单词分类器,因此不是每次试验都在每个分析集中进行评估(关于更多详细信息参见方法S13和方法S8)。
孤立单词数据:稳定性子集
为了评估驱动单词检测和分类的信号在整个研究期间的稳定性,我们使用孤立单词数据来定义四个日期范围子集,这些子集包含在不同日期范围期间收集的数据。这些日期范围子集被命名为“早期”、“中期”、“晚期”和“非常晚期”,分别包含植入后9周至18周、18周至30周、33周至41周和88周至90周收集的数据。在18周当天收集的数据被认为是“早期”子集的一部分,而不是“中期”子集。这些子集中的每个包含每个单词的20次试验,这些试验是从对应日期范围内的可用数据中随机抽取的(无放回)。试验仅从孤立单词交叉验证子集(而非优化子集)中采样。在图4中的主文本中,这些子集的日期范围是相对于此项研究的数据收集的开始时间来表示的(而不是相对于装置植入日期来表示)。在这些子集的每个中,我们进一步将数据分成10个不相交的子集(在本部分中称为“片段”,以将这些子集与四个日期范围子集区分开来),每个子集包含每个单词的2次试验。使用这四个日期范围子集,我们定义了三种评估方案:子集内方案、跨子集方案和累积子集方案。
子集内方案涉及使用每个日期范围子集内的10个片段进行10折交叉验证。具体而言,日期范围子集中的每个片段都是使用根据来自该日期范围子集中剩余片段的所有数据进行拟合的模型来评估的。我们使用子集内方案来检测单词分类器在训练和测试期间使用的所有语音事件(对于每个日期范围子集和每个评估方案)。每个日期范围子集的每个单独交叉验证折叠中使用的训练数据总是由每个单词18次试验组成。
跨子集方案涉及使用根据来自其他日期范围子集的数据拟合的模型来评估日期范围子集中的数据。在此种方案中,重复了子集内方案,除了日期范围子集中的每一个片段使用根据从其他日期范围子集中的每个随机采样(无放回)的每个词的6次试验进行拟合的模型来评估。每个日期范围子集的每个单独交叉验证折叠中使用的训练数据总是由每个单词18次试验组成。
累积子集方案涉及使用利用不同数据量进行拟合的模型来评估“非常晚期”子集的数据。在此种方案中,执行了四次交叉验证评估(使用针对每个日期范围子集定义的10个片段)。在第一次评估中,来自“非常晚期”子集的数据由单词分类器使用10折交叉验证进行分析(此与“非常晚期”子集内评估相同)。在第二次评估中,重复来自第一次评估的交叉验证分析,除了来自“晚期”子集的所有数据被添加到每个交叉验证折叠的训练数据集中。第三次评估是类似的,除了来自“中期”和“晚期”子集的所有数据也包括在训练期间,并且在第四次评估中,来自“早期”、“中期”和“晚期”子集的所有数据包括在训练期间。
关于如何使用这些方案分析信号稳定性的说明参考方法S14。
句子数据
总的来说,我们跨7天的记录,在25个任务块中收集了2小时4分钟的句子任务,每个句子为5次试验(尝试产生)(总共250次试验)。我们将这些块分成两个不相交的子集:句子优化子集和句子测试子集。在进行在线测试之前,我们使用了包含每个句子为2次试验的句子优化子集来优化我们的句子解码流水线。当收集这些块时,我们使用了非优化模型。之后,我们使用了来自这些模块的数据来优化我们的模型进行在线测试(参考方法S7中描述的超参数优化程序)。这些块仅用于优化,并且不包括在进一步的句子解码分析中。
我们使用了包含每个句子为3次试验的测试子集中所包含的块的结果来评估解码性能。这些块是使用优化模型收集的。
我们没有根据句子任务(来自任一子集)期间收集的神经数据直接拟合任何模型。
方法S7.超参数优化
为了找到在性能评估期间使用的模型超参数的最佳值,我们使用了超参数优化程序来利用我们设计的用以测量模型性能的目标函数评估从定制搜索空间中采样的超参数值的许多可能组合。在每个超参数优化程序期间,测试期望数量的组合,并且选择与跨所有组合的最低(最佳)目标函数值相关联的组合作为该模型和评估类型的最佳超参数值组合。用于测量相关联目标函数值的数据不同于将用于评估最佳超参数值的数据(在测试集评估期间使用的超参数值从未通过优化该测试集中的数据来选择)。我们使用了三种类型的超参数优化程序来优化总共9个超参数(关于超参数及其最佳值参见表S1)。
利用孤立单词数据进行语音检测优化
为了利用孤立单词数据优化语音检测器,我们使用了hyperopt Python包[9],包在优化程序期间对超参数值组合进行概率采样。我们使用此种程序来优化平滑大小、概率阈值和时间阈值持续时间超参数(在方法S8中描述)。由于这些阈值处理超参数仅在预测语音概率之后应用,因此这些超参数不影响驱动语音检测器的人工神经网络模型的训练或评估。在优化程序的每次迭代中,使用当前超参数值组合从现有语音概率中产生所检测的语音事件。我们使用方程S5中给出的目标函数来测量利用每个超参数值组合的模型性能。在每个检测超参数优化程序中,我们在停止之前评估了1000个超参数值组合。
如方法S6中所述,我们使用根据来自其他9个交叉验证子集的数据进行训练的语音检测模型来计算10个交叉验证数据子集中的每个中的孤立单词块的语音概率。为了计算优化子集中的块的语音概率,我们使用了根据来自所有10个交叉验证子集的数据进行训练的语音检测模型。之后,我们使用优化子集中的块执行超参数优化,这产生了在10个交叉验证子集中的数据评估(包括学习曲线和稳定性分析)期间使用的最佳超参数值组合。
为了针对优化子集中的块产生所检测的事件(其在单词分类器的超参数优化期间使用),我们使用来自这10个交叉验证子集的数据子集执行了单独的超参数优化。此包含50个单词中的每一个的16次试验的子集是通过从10个交叉验证子集中随机选择块来创建的。然后,我们使用已经针对那些块计算的预测的语音概率,利用此新子集执行超参数优化(如前一段所述)。之后,我们使用所得最佳超参数值组合来检测优化子集中的块的语音事件。
利用孤立单词数据进行单词分类优化
为了利用孤立单词数据优化单词分类器,我们使用了Ray Python包[10],包利用从预定义搜索空间随机采样的超参数值组合来执行并行化超参数优化。此种超参数优化方法使用基于“异步连续减半算法”(ASHA)[11]的调度器,调度器执行积极的提早停止,以在完全评估之前丢弃表现不佳的超参数值组合。此种方法已被证明当与单个超参数值组合的评估相关联的计算复杂度高并且评估大量超参数组合时,优于贝叶斯超参数优化方法[10]。我们使用此种方法来优化单词分类超参数,因为训练包括每个单词分类器的深度人工神经网络模型的集成体需要很长的计算时间。使用我们的增强数据集,在NVIDIA V100GPU上训练单个网络需要每个历元为约28秒。每个网络平均需要训练的约25个历元(尽管每个历元的持续时间会因提早停止而变化)。此种近似指示单个网络需要700秒来训练。由于我们在超参数优化期间使用了4个网络的集成体,因此对于单个超参数值组合,需要约46分40秒的总GPU时间来训练单词分类器(对于在评估和实时预测期间使用的单词分类器,每个分类器包含10个网络的集成体,每个分类器的近似训练时间为1小时56分40秒)。为了评估在给定这些训练时间情况下的大量超参数值组合,使用计算高效的超参数优化算法(诸如此处使用的ASHA算法)是有益的。
我们对单词分类器执行了两种不同的超参数优化,在优化期间两种优化都使用保留试验集的交叉熵损失作为目标函数(参见方法S9中的方程S6)。每次优化评估了300种不同的超参数值组合。对于第一次优化,我们使用优化子集作为保留集,同时根据来自所有10个交叉验证子集的数据进行训练。我们使用了所得超参数值组合进行孤立单词分析。对于第二次优化,我们通过从在线句子解码测试块的三周内收集的块中随机选择(无放回)每个单词的4次试验来创建保留集。用于此种优化的训练集包含所有孤立单词数据(来自交叉验证子集和优化子集),此保留集中的试验除外。我们在与句子解码相关的其他超参数的离线优化期间和在线句子解码期间使用了所得最佳超参数值组合。
利用句子数据进行优化
使用句子优化子集,我们执行了阈值检测超参数(参见方法S8)、起始单词平滑值(对于语言模型;参见方法S10)和语言模型比例缩放因子(对于维特比解码器;参见方法S11)的超参数优化。在此种程序中,我们首先使用了语音检测器(根据所有孤立单词数据进行训练,包括孤立单词优化子集)来预测所有句子优化块的语音概率。然后,使用这些预测的语音概率、根据句子解码期间使用的孤立单词数据进行训练和优化的单词分类器以及语言模型和维特比解码器,我们跨所有优化句子块执行超参数优化(参见方法S6)。在超参数优化期间,我们使用了跨试验的平均经解码单词错误率(通过使用单词分类器、语言模型和维特比解码器评估每次试验中的所检测的事件来计算)作为目标函数。使用hyperoptPython包[9],我们在优化期间评估了100个超参数值组合。我们在利用在线解码收集句子测试块期间使用了所得最佳超参数值组合。
方法S8.语音检测模型
用于离线训练和评估的数据准备
为利用孤立单词数据进行语音检测器的监督训练和评估,我们将语音事件标签分配给神经时间点。我们在这些块期间使用任务计时信息来确定每个神经时间点的标签。我们使用了三种类型的语音事件标签:准备、语音和休息。
在每个孤立单词试验内,目标话语出现在屏幕上,并带有倒计时动画,并且2秒后,话语变成绿色,以指示go提示。我们将在此2秒窗口(相对于go提示的[-2,0]秒)期间收集的所有神经时间点标记为准备。相对于go提示,我们将在[0.5,2]秒之间收集的神经时间点标记为语音,并且将在[3,4]之间收集的点标记为休息。为了减少参与者的响应时间的可变性对训练的影响,我们从训练数据集中排除了相对于go提示的[0,0.5]和[2,3]秒的时间段(在语音时间段周围的时间段)。在评估期间,这些时间段分别被标记为准备和休息。
我们包括了准备标签,以使检测器能够从神经上区分尝试语音产生与语音准备。这是由于假设与尝试语音产生相关的神经活动将比与语音准备相关的活动更容易被单词分类器区分。
语音检测模型架构和训练
我们使用了PyTorch 1.6.0Python包来创建和训练语音检测模型[12]。
语音检测架构是三个长短期记忆(LSTM)层的堆叠,具有递减的潜在维度大小(150、100和50),并且在每层处应用0.5的退出。递归层能够随时间保持内部状态,内部状态可以用输入数据的新的单独时间样本进行更新,使其非常适合时间动态过程的实时推断[13]。我们具体使用LSTM,因为与原始递归层相比,它们更适合于对长期依赖性进行建模。LSTM之后是完全连接的层,以将最后的潜在维度投射到跨三个类别(休息、语音和准备)的概率。尽管我们的架构是独立设计的,但在最近的一项研究[14]中,已经使用类似的模型来检测公开语音。图9给出了此种架构的示意图。
设y表示一系列神经数据窗口,并且表示那些窗口的一系列对应标签,yn为数据系列中索引n处的数据窗口,并且/>为标签系列中索引n处的对应标签。语音检测模型输出来自状态标签集L={休息、准备、语音}的/>的三个可能值的概率分布/>预测的分布Q隐含地取决于模型参数。我们使用数据和标签系列训练语音检测模型,以将此种分布相对于真实分布的交叉熵损失最小化,由以下方程表示:
具有以下定义:
P:状态的真实分布,由分配的状态标签确定。
N:样本数量。
的预测的分布相对于真实分布的交叉熵。
log:自然对数。
此处,我们用N个样本的观察数据下的样本平均值来近似真实分布的期望。
在训练期间,将0.75的假阳性权重应用于语音标签被错误预测的任何帧。通过此种修改,来自方程S1的交叉熵损失被重新定义为:
其中是样本n的假阳性权重,并且被定义为:
作为此种加权的结果,与被不正确地分类为在语音产生尝试期间发生的样本相关联的损失仅被加权为其他样本的75%。此种加权仅在用于评估孤立单词数据的语音检测模型的训练期间应用。我们应用此种加权来鼓励模型更倾向于检测完整的语音事件,这阻止了在尝试语音产生期间波动的语音概率,这可能会阻止产生尝试被检测到。此有效地增加了在单词分类器的训练和评估期间具有相关联的所检测的语音事件的孤立单词试验的数量。
通常,LSTM模型通过时间反向传播(BPTT)进行训练,其通过处理的每个时间步骤展开反向传播[15]。由于我们的孤立单词任务结构的周期性,可能的是仅依赖BPTT将会导致模型学习此种结构,并且在每个go提示时预测事件,而不是尝试学习语音事件的神经指示。为了防止此种情况,我们使用了截断BPTT,一种限制梯度可以反向传播多远的时间[16,17]的方法。我们通过在训练数据中定义500ms的滑动窗口来手动实现这一点。这些窗口高度重叠,在窗口之间仅移位一个神经样本(5ms)。我们在训练期间使用这些窗口作为yn值,ln等于分配给窗口中的最终时间点的标签。通过在窗口中处理训练数据,这迫使梯度每次仅反向传播500ms,这不足以学习任务的周期性(每次试验的go提示之间的时间通常为7秒)。在线和离线推断期间,数据不在窗口中处理,而是逐时间点处理。
在训练期间,我们使用Adam优化器来将方程S2中给出的交叉熵最小化[18],学习率为0.001,且剩余Adam优化参数为默认值。当根据孤立单词数据评估语音检测器时,我们使用了方法S6中描述的10折交叉验证方案。当根据句子数据执行离线和在线推断时,我们使用了一个版本的语音检测器,检测器根据10个交叉验证子集中的所有孤立单词数据进行训练。在训练期间,训练集被进一步分成训练集和验证集,其中验证集用于执行提早停止。我们训练模型,直到模型性能在连续5个历元内没有改善(如果验证集上的交叉熵损失不低于最低值加上在先前历元中计算的损失容限值),并且已经完成至少10个历元,此时停止模型训练,并且保存与最低损失相关联的模型参数。损失容限值被设定为0.001,然而它似乎对模型训练没有显著影响。
语音事件检测
在测试期间,在给定来自块的输入神经数据的情况下,神经网络预测每个类别(休息、准备、语音)的概率。为了检测尝试语音事件,我们将阈值处理应用于预测的语音概率。此种阈值处理方法与我们在之前的工作中使用的方法相同[2]。首先,我们使用滑动窗口平均值来平滑概率。接下来,我们对经平滑的概率应用阈值,以对每一帧进行二值化(对于语音,值为1,否则为0)。之后,我们通过应用时间阈值对这些二值化值进行“去抖”。此去抖步骤需要在检测器将其视为实际变化之前,语音存在或不存在的变化(如二值化值所示)被保持最小持续时间。具体而言,仅当二值化值从0变为1并且保持为1达预定数量的时间点(或更长时间)时,才检测到语音开始。类似地,仅当二值化值从1变为0并且保持为0达相同预定数量的时间点(或更长时间)时,才检测到语音结束。此种从预测的概率获得语音事件的过程通过三个检测阈值处理超参数来参数化:平滑窗口的大小、概率阈值和时间阈值持续时间。我们使用了超参数优化来确定这些参数的值(参见下一部分和方法S7)。
检测评分和超参数优化
在利用孤立单词数据对检测阈值处理超参数进行超参数优化期间,我们使用了从我们之前的工作中使用的检测评分指标的变体得到的目标函数[2]。检测评分是每个块的帧级和事件级准确度的加权平均值。
帧级准确度测量语音检测器预测在语音期间是否出现了神经时间点的能力。理想地,语音检测器将检测跨越实际尝试语音事件的持续时间的事件(例如,与检测每个实际语音事件的小子集相对比)。我们将帧级准确度ɑ定义为:
具有以下变量定义:
阳性权重分数,我们使用阳性权重分数来控制正确检测阳性帧(正确识别哪些神经时间点在尝试语音期间出现)相对于阴性帧(正确识别哪些神经时间点没有在尝试语音期间出现)的重要性。
FP:实际阳性帧的数量(在数据准备期间被分配语音标签的时间点的数量)。
FTP:所检测的真阳性帧的数量(被正确识别为在尝试语音事件期间出现的时间点的数量)。
FN:实际阴性帧的数量(在数据准备期间被标记为准备或休息的时间点的数量)。
FTN:所检测的真阴性帧的数量(被正确识别为不在尝试语音事件期间出现的时间点的数量)。
在此项工作中,我们使用了这鼓励语音检测器更偏向于产生假阳性错误,而不是产生假阴性错误。
事件级准确度测量检测器在尝试单词产生期间检测语音事件的能力。我们将事件级准确度ɑ事件定义为:
具有以下变量定义:
ETP:所检测的真阳性事件的数量(对应于实际单词产生尝试的所检测的语音事件的数量)。
EFP:所检测的假阳性事件的数量(不对应于实际单词产生尝试的所检测的语音事件的数量)。
EFN:假阴性事件的数量(与任何所检测的事件无关的实际单词产生尝试的数量)。
EP:实际单词产生尝试的次数(试验次数)。
我们在管理所检测的事件后计算了事件级准确度,此涉及将每次试验与所检测的事件进行匹配(或没有所检测的事件;更多详细信息参见下一部分)。事件级准确度在0到1的范围内,值为1指示不存在所检测的假阳性或假阴性事件。
使用这两种准确度量度,我们将检测评分计算为:
S检测=wFa+(1-wF)a事件
其中是帧级准确度权重。由于单词分类器依赖于相对于所检测的语音事件开始的神经活动的固定持续时间窗口,因此准确预测所检测的结束不如每次参与者尝试产生单词时成功检测到事件重要。由此得知,我们设定/>以向事件级准确度分配比帧级准确度更大的权重。
在利用孤立单词数据优化这三个检测阈值处理超参数期间,主要目标是找到将检测评分最大化的超参数值。我们还包括辅助目标,以针对时间阈值持续时间超参数选择小的值。我们包括此种辅助目标,因为大的时间阈值持续时间会增加错失较短话语的偶然性,并且如果持续时间足够大,则增加了实时语音检测的延迟。在此种超参数优化程序期间使用的目标函数囊括了这两个目标,其可被表示为:
chp()=(1-s检测)2时间θ时间, (S5)
具有以下变量定义:
chp(Θ):使用超参数值组合Θ的目标函数值。
λ时间:应用于时间阈值持续时间的惩罚。
θ时间:时间阈值持续时间值,其为Θ中包含的三个参数中的一个。此处,我们使用了λ时间=0.00025。
我们仅在优化用于检测孤立单词试验的语音事件的检测模型期间使用此目标函数。当准备用于句子数据的检测模型时,我们使用了不同的目标函数。关于超参数优化程序的更多信息参见方法S7和表S1。
针对孤立单词数据的所检测的事件管理
在处理孤立单词块的神经数据并检测语音事件之后,我们对所检测的事件进行管理,以将每个事件与实际单词产生尝试相匹配(并且识别不具有对应的所检测的事件的单词产生尝试和不对应于单词产生尝试的所检测的事件)。我们使用了此种管理程序来测量在计算事件级准确度(方程S4)期间的假阳性和假阴性事件检测的数量,并且在单词分类器的训练和评估期间将试验与神经数据进行匹配。我们没有对句子数据使用此种管理程序。
为了管理所检测的事件,我们针对每次试验执行了以下步骤:我们识别了跨越-1.5秒至3.5秒(相对于go提示)的时间窗口内发生的所有检测的开始。具有在此时间窗口之外所检测的开始的任何事件都被视为假阳性事件,并且在计算EFP的值时被包括在内。
如果在此时间窗口内恰好存在一个所检测的开始,我们将相关联的所检测的事件分配给试验。
否则,如果在此时间窗口内不存在所检测的开始,则我们不会将所检测的事件分配给试验(此种情况被认为是假阴性事件,并且在计算EFN的值时被包括在内)。
否则,在此时间窗口中存在两个或更多个所检测的开始,并且我们执行以下步骤来处理这些所检测的事件:
如果这些所检测的开始中恰好一个在go提示之后出现,我们将与该所检测的开始相关联的所检测的事件分配给试验。
否则,如果这些所检测的开始中没有一个在go提示之后出现,则我们将与最晚所检测的开始相关联的所检测的事件分配给试验(此为具有最接近go提示的所检测的开始的所检测的事件)。
否则,如果两个或更多个所检测的事件在go提示之后出现,则我们计算与这些所检测的开始相关联的每个所检测的事件的长度,并且将最长的所检测的事件分配给试验。如果出现连结,则我们将具有最接近go提示的开始的所检测的事件分配给试验。
这些未分配给试验的所检测的事件中的每一个都被认为是假阳性事件,并且在计算EFP的值时被包括在内。
由于假阴性会导致一些试验与所检测的事件无关,因此在分析步骤中实际使用的试验次数可能会小于所报告的试验次数。例如,如果我们声明在分析步骤中使用了每个单词的N次试验,则对于一个或多个单词,在该步骤中由单词分类器分析的实际试验次数可能小于N次,这取决于存在多少次假阴性检测。
方法S9.单词分类模型
用于离线训练和评估的数据准备
在利用孤立单词数据训练和评估单词分类器期间,对于每次试验,我们获得了所检测的开始时间(如果可用;通过方法S8中描述的检测管理程序来确定)。在每次试验的评估期间,单词分类器预测了50个单词中的每个单词是目标单词的概率,给定相对于所检测的开始跨越从1秒到3秒的高γ活性的时间窗口,参与者尝试产生目标单词。
为了增加训练样本的数量,并改善所学习的特征映射到神经输入的小时间可变性的鲁棒性,在模型拟合期间,我们通过抖动开始时间,用试验的额外副本来增强训练数据集,这类似于用于训练神经网络进行监督图像分类的数据增强技术的成熟使用[19]。具体而言,对于每次试验,我们获得了相对于所检测的开始跨越从(-1+ɑ)秒到(3+ɑ)秒的神经时间窗口,各满足ɑ∈{-1,-0.667,-0.333,0,0.333,0.667,1}。这些时间窗口中的每一个都被包括作为训练样本,并且被分配来自试验的相关联目标单词作为标签。
在离线和在线训练以及评估期间,我们在将活性传递给单词分类器之前,对每个时间窗口中的高γ活性进行下采样,这在我们之前的工作中已被证明通过人工神经网络(ANN)改善语音解码[20]。我们使用了SciPy Python包中的抽取函数,以将每个电极的高γ活性按照因子6进行抽取(从200Hz到33.3Hz)[21]。此种函数在抽取信号之前应用8阶切比雪夫I型抗混叠滤波器。抽取后,我们对神经活动的每个时间样本进行归一化,使得跨所有电极的欧几里德范数等于1。
单词分类模型架构和训练
我们使用TensorFlow 1.14Python包来创建和训练单词分类模型[22]。
在单词分类ANN架构内,通过具有双样本步幅和双样本核大小的时间卷积来处理神经数据,这进一步在时间上对神经活动进行下采样,同时创建数据的高维表示。时间卷积是用于从时间序列数据中提取鲁棒特征的常用方法[23]。然后,此种表示由两个双向门控递归单元(GRU)层的堆叠进行处理,这通常用于时间序列数据的非线性分类[24]。之后,具有softmax激活的全连接的(致密)层将潜在维度从最终的GRU层投射到跨50个单词的概率值。为了正则化,在每个中间表示之间使用退出层。图10给出了此种架构的示意图。
y表示一系列高γ时间窗口,并且w表示这些窗口的一系列对应的目标单词标签,其中yn为数据系列中索引n处的时间窗口,并且wn为标签系列中索引n处的对应标签。单词分类器在来自50个单词的集合W的wn的50个可能值上输出概率分布Q(wn|yn)。预测的分布Q隐含地取决于模型参数。我们使用数据和标签系列训练单词分类器,以将此种分布相对于真实分布的交叉熵损失最小化,由以下方程表示:
具有以下定义:
P:标签的真实分布,由分配的单词标签w确定。
N:样本数量。
HP,Q(w|y):w的预测的分布相对于真实分布的交叉熵。
log:自然对数。
此处,我们用N个样本的观察数据下的样本平均值来近似真实分布的期望。
在训练期间,我们使用Adam优化器来将方程S6中给出的交叉熵最小化[18],学习率为0.001,且剩余Adam优化参数为默认值。每个训练集被进一步分成训练集和验证集,其中验证集用于执行提早停止。我们训练模型,直到模型性能在连续5个历元内没有改善(如果验证集上的交叉熵损失不低于在先前历元中计算的最低值),此时停止模型训练,并且保存与最低损失相关联的模型参数。训练通常持续20个到30个历元。当在每个历元之后对模型参数应用梯度更新时,如果跨所有参数更新值的梯度的欧几里德范数(在用学习率比例缩放这些值之前)大于1,则为了防止爆炸梯度,梯度被归一化,使得其欧几里德范数等于1[25]。
为了减少根据训练数据进行的过度拟合,每个单词分类器包含10个ANN模型的集成体,每个模型具有相同的架构和超参数值,但具有不同的参数值(权重)[26]。在训练期间,每个ANN用随机模型参数值初始化,并且使用相同的训练样本单独拟合,但是每个ANN在随机梯度更新期间以不同的顺序处理这些样本。此过程产生了10个不同的模型参数集。在评估期间,所有10个集成式ANN对每个输入神经时间窗口进行处理,并且我们对每个ANN的预测的分布Q(wn|yn)进行平均,以计算在给定神经时间窗口yn情况下,wn的50个可能值中的每一个的总体预测的单词概率。
我们使用了超参数优化程序来选择模型参数的值,这些参数不是在训练期间直接学习的。我们计算了两个不同的超参数值组合:一个用于离线孤立单词分析,且一个用于在线句子解码。为了进行更快的超参数搜索,我们在搜索超参数时使用了4个ANN模型的集成体,而不是10的全集。更多详细信息参见方法S7和表S1。
对句子任务的修改
为了在线句子解码,我们根据所有孤立单词数据来训练单词分类器的经修改版本。在此版本的单词分类器的超参数优化期间,保留集包含每个单词的4次试验,这些试验是从接近研究期结束时收集的块中随机采样的(关于更多详细信息参见方法S7)。在超参数优化之后,我们然后通过使用每个单词的4次试验的此种保留集作为验证集(用于执行提早停止)并且使用所有剩余的孤立单词数据作为训练集,用所选择的超参数来训练单词分类器。在此训练程序期间,我们对在训练期间使用的损失函数添加了单一修改:我们通过目标词标签在仅由50个词的集合中的单词组成的语料库中的出现频率对每个训练样本进行加权。更频繁出现的单词被分配更大的权重。用于计算单词出现频率的语料库是从AmazonMechanical Turk众包并且用于训练语言模型的相同语料库(参见方法S4)。我们包括此种修改,以鼓励单词分类器以低频单词(诸如“眼镜”)的分类性能为代价,专注于正确分类在尝试产生高频单词(诸如“我”)期间检测到的神经时间窗口。
通过此种修改,方程S6的损失函数可以修正为:
具有以下变量定义:
H'P,Q(w y):经修正的交叉熵损失函数。
单词出现频率加权函数
单词出现频率加权函数被定义为:
其中是目标单词标签/>在参考语料库中出现的次数,
是参考语料库中的单词总数,并且W是50个单词的集合。
我们将定义为:
/>
其中W表示50个单词的集合的基数(其等于50)。因此,用于比例缩放方程S8中的每个单词频率,使得平均单词出现频率为1,这会对目标函数进行比例缩放,使得损失值与从方程S6得到的损失值相当。
方法S10.语言建模
模型拟合和单词序列概率
为了对语言模型进行拟合以在句子解码期间使用,我们首先使用AmazonMechanical Turk任务众包了训练语料库(关于更多详细信息查看方法S4)。此种语料库包含3415个仅由来自50个单词的集合的单词构成的句子。为了阻止根据最常见的句子对语言模型进行过度拟合,我们在根据这些响应创建的训练语料库中仅包括了每个独特句子的最多15个实例。
接下来,我们从训练语料库的每个句子中提取所有n元语法,其中n∈{1,2,3,4,5}。此处,n元语法是长度为n个单词的单词序列[27]。例如,在此种方法中,从句子“我希望我的家人来了”中提取的n元语法(被表示为元组)将是:
1.(I)
2.(希望)
3.(我的)
4.(家人)
5.(是)
6.(来)
7.(我,希望)
8.(希望,我的)
9.(我的,家人)
10.(家人,是)
11.(是,来)
12.(我,希望,我的)
13.(希望,我的,家人)
14.(我的,家人,是)
15.(家人,是,来)
16.(我,希望,我的,家人)
17.(希望,我的,家人,是)
18.(我的,家人,是,来)
19.(我,希望,我的,家人,是)
20.(希望,我的,家人,是,来)
我们使用以这种方式从训练语料库中的所有句子中提取的n元语法来拟合利用nltk Python包的5阶插值Kneser-Ney n元语法语言模型[28,29]。此种模型使用了0.1的折扣因子,这是nltk中指定的默认值。此种语言模型架构的详细信息以及其在各种语料库建模任务上胜过更简单的n元语法架构的能力的表征可以在现有文献中找到[27,28]。
使用训练语料库中的特定单词序列的出现频率(如提取的n元语法所指定的),对语言模型进行训练以在给定该单词上下文的情况下产生任何单词出现的条件概率,其是它前面的(n-1)或更少单词的序列。这些概率可被表示为其中/>是某个单词序列中位于位置i处的单词,ci,n是该单词的上下文,假设它是n元语法(此种n元语法是包含n个单词的单词序列,其中/>为该序列中的最后一个单词)的一部分,并且n∈{1,2,3,4,5}。单词/>的上下文被定义为以下元组:
ci,n:=(wi-(n-1),…,wi-1) (S10)
当n=1时,上下文是(),空元组。当n=2时,单词的上下文是/>包含/>前面的单词的单元素元组。对于此项工作中使用的语言模型,此种模式一直持续到n=5,其中单词/>的上下文是/>包含句子中/>前面的四个单词的元组(按顺序)。要求每个/>其中W是50个单词的集合。此种要求包括上下文ci,n中包含的单词。
句子独立性
在句子任务期间,每个句子都独立于任务块中的其他句子被解码。我们在使用语言模型进行推断期间使用的上下文ci,n可能仅包含在前面但也在与其相同的句子中的单词(上下文从不跨越两个或更多个句子)。我们在推断期间使用的上下文中的值i与n之间的关系可以表示为:
n=min(i+1,m), (S11)
其中m是模型的阶数(对于此种模型,m=5),并且i=0指定句子中的初始单词的索引。将n的此种定义代入方程S10中指定的ci,n的定义,得到:
ci:=(wi-min(i,m-1),…,wi-1) (S12)
其中ci是句子试验中单词的上下文。此种代入将从语言模型获得的单词概率的形式简化为/>
初始单词概率
由于在此项任务中,句子总是独立解码的,因此当对句子中的初始单词执行推断时,空元组仅被用作上下文。在推断期间,我们不使用由语言模型产生的/> 的值,而是使用直接来自语料库的单词计数和两种不同类型的平滑。首先,我们计算了以下概率:
其中是单词/>作为初始单词在训练语料库中的句子中出现的次数,N是训练语料库中的句子总数,并且δ是加性平滑因子。此处,加性平滑因子是在归一化之前添加到所有计数/>的值,这对概率分布进行平滑处理(减少了其方差)[27]。在此项工作中,N=3415,δ=3,并且W=50。
然后,我们对这些值进行平滑处理,以进一步控制在初始单词概率上的概率分布有多么平坦。这可以被解释为对语言模型的初始单词概率预测有多“置信”的控制(概率分布越平坦指示置信度越低)。我们使用了超参数来控制此种平滑处理的程度,从而允许超参数优化程序来确定在测试期间有多少平滑处理是最佳的(关于超参数优化程序的描述参见方法S7和表S1)。我们使用了以下方程来执行此种平滑处理:/>
其中ψ是初始单词平滑超参数值。当ψ>1时,初始单词概率的方差增加,从而使它们不太平滑。当ψ<1时,初始单词概率的方差减小,从而使它们更平滑。当ψ=1时,注意,方程S14中的分母用于将经平滑的概率重新归一化,使得它们的总和为1。
此项工作中使用的维特比解码模型包含语言模型比例缩放因子(LMSF),其为单独的超参数,在句子解码方法期间对值进行重新比例缩放(关于更多详细信息参见方法S11)。此超参数对所有语言模型概率的影响类似于ψ对初始单词概率的影响。这应鼓励超参数优化程序找到对语言模型概率进行最佳比例缩放的LMSF值和相对于随后应用于它们的比例缩放对初始单词概率进行最佳平滑处理的值。
实时实现
为了确保在实时解码期间的快速推断,我们算了使用语言模型以及和ci的每个可能组合的平滑超参数值预先计算了/>值,并且然后将这些值存储在hdf5文件中[30]。此文件在实时解码期间用作查找表;这些值存储在文件内的多维数组中,并且在实时解码期间使用h5py Python包实现了对表的高效查找查询[31]。在此种需要更大词汇量的解码方法的未来迭代中,使用在计算上对于实时推断也足够高效的更复杂的语言模型(诸如kenlm语言模型)可能更合适[32]。
方法S11.维特比解码
句子解码程序的隐马尔可夫模型表示
在句子试验期间,参与者尝试产生的单词序列与由语音检测器提供的神经活动时间窗口序列之间的关系可以表示为隐马尔可夫模型(HMM)。在此HMM中,每一观察状态yi是在任何特定试验的所检测的时间窗口序列中的索引i处的神经活动的时间窗口,并且每一隐状态qi是包含参与者尝试已经尝试从序列中第一个单词到索引i处的单词产生的单词的n元语法(图11)。此处,其中/>是序列中索引i处的单词,并且ci是该单词的上下文(在方程S12中定义;参见方法S10)。
此HMM的发射概率是p(yi|qi),其指定在给定n元语法qi的情况下观察神经时间窗口yi的可能性。假设与的尝试产生相关联的神经活动的时间窗口有条件地独立于在给定情况下的所有其他尝试单词产生,p(yi|qi)简化为/> 单词分类器提供了概率/>通过应用贝叶斯定理并假设平坦的先验概率分布,概率直接用作/>的值。
此HMM的转移概率是p(qi|qi-1),其指定在给定索引(i-1)处的n元语法是qi-1的情况下,qi是索引i处的n元语法(参与者尝试产生的最多n个单词的序列,包含作为最后一个单词)的概率。此处,q-1可以被定义为空集,从而指示q0是序列中的第一个单词。由于ci中的任何元素都将包含在qi-1中,而/>是qi中唯一不包含在qi-1中的单词,因此p(qi|qi-1)简化为/>这是语言模型提供的单词序列先验概率。此种简化意味着,如果qi与qi-1不兼容(例如,如果ci中的最后一个单词不等于qi-1中的倒数第二个单词),则p(qi|qi-1)=0。
维特比解码实现
为了预测参与者在句子任务期间尝试产生的单词,我们使用此种基础HMM结构实现了维特比解码算法。维特比解码算法使用动态编程来计算在给定隐状态先验转移概率和观察状态发射可能性情况下的最可能的隐状态序列[33,34]。为了确定最可能的隐状态序列,此种算法迭代地计算通过隐状态序列空间的各种“路径”的概率(qi值的各种组合)。此处,这些维特比路径中的每一个都由通过隐状态的特定路径(特定单词序列)和给定神经活动情况下的与该路径相关联的概率来参数化。每当检测到新单词产生尝试时,此种算法通过针对每个现有维特比路径计算在给定所检测的神经活动时间窗口和相关联现有维特比路径中的前面单词情况下转移到每个有效新单词的概率,来创建新维特比路径集。从现有路径创建新维特比路径可以使用下面的递归公式来表示:
具有以下变量定义:
Vj:在句子试验中,在索引j处进行单词产生尝试后创建的所有维特比路径的集合。
vj:Vj内的维特比路径。这些维特比路径中的每一个都由n元语法(q0,...,qj)(或者等效地,单词)以及在给定神经活动的情况下出现的单词的该序列的对数概率来参数化,但这些方程仅描述了对数概率值的递归计算(隐含地假设了对与每个维特比路径相关联的单词的跟踪)。
qj,vk:n元语法qj,包含单词wj和该单词的上下文。此上下文是从维特比路径vk的隐状态序列内的最近的单词中确定的。
p(yj|qj,vj-1):在给定n元语法qj,vj-1的情况下,指定所观察的神经活动yj的可能性的发射概率。
p(qi,vi-1|qi-1,vi-1):转移概率,指定从n元语法qi-1,vi-1转移到n元语法qi,vi-1的先验概率。
L:语言模型比例缩放因子,其为超参数,我们使用它来控制语言模型的转移概率相对于单词分类器的发射概率的权重(关于超参数优化程序的描述参见方法S7和表S1)。
W:50个单词的集合。
log:自然对数。
利用上一部分所述的简化,方程S15可以简化为以下方程:
其中cj,vk是从维特比路径vk确定的单词wj的上下文,是发射概率(从单词分类器获得),并且/>是转移概率(从语言模型获得)。在每个句子试验的开始,索引i被重置为零(每次试验中的第一个单词被表示为/>),并且来自先前试验的任何现有维特比路径被丢弃。为了将递归初始化,我们将V-1定义为包含单个维特比路径的单元素集合,其中空集作为其隐状态序列,且相关联的对数概率为零。为了数值稳定性和计算效率,我们在实践中使用了对数概率。
经由束搜索进行维特比路径修剪
如方程S16所指定,当从单词分类器获得新的发射概率时,我们的维特比解码器计算新的维特比路径集Vi,集合由通过将Vi-1内的每个现有路径转移到每个可能的下一n元语法qi而创建的路径组成。因此,针对索引i创建的新维特比路径数等于|Vi-1×W|(索引i-1处的现有维特比路径数乘以50)。在没有干预的情况下,维特比路径数随着索引的增加呈指数增长(|Vi|=|W|(i+1))。
为了防止指数增长,我们在每一新维特比路径集Vi创建后立即对其应用束宽度为β的束搜索。此种束搜索对每个新的维特比路径集强加了最大大小β,保留β个最可能的路径(具有最大相关联对数概率的路径)并且修剪(丢弃)其余的路径。如果|Vi|≤β,则保留所有路径。扩展方程S16以包括束搜索程序产生我们在句子解码期间实际使用的最后一组维特比解码更新方程:
Vi={vi,j|j∈{0,...,min(β,|V′i|)-1}}, (S18)
其中Vi'是在句子试验内索引i处的单词产生尝试之后创建的所有维特比路径集(修剪之前),并且νi,j是通过以对数概率递减的顺序对Vi'中的维特比路径进行排序而创建的向量的索引j处的元素(在排序期间任意地断开连结)。
方法S12.句子解码评估
我们使用在句子任务块期间作出的在线预测来评估我们的解码流水线(语音检测器、单词分类器、语言模型和维特比解码器)的性能(在测试子集中;参见方法S6)。具体而言,我们分析了在每次试验的活跃阶段(每次试验的一部分,在此期间,参与者被指示尝试产生所提示的句子目标)期间从参与者的神经活动中实时解码的句子。离线时,我们对在非活动任务阶段期间被错误检测的假阳性语音事件(这些事件在实时解码期间被忽略)的数量进行了计数。这些假阳性事件仅发生在块中的第一次试验之前,并且此种计数在主文本的结果部分中被报告。
单词错误率和编辑距离
为了测量解码结果的质量,我们计算了每次实验中目标句子与经解码句子之间的单词错误率(WER)。WER是测量预测的单词序列质量的常用指标,通过计算参考(目标)与经解码句子之间的编辑(Levenshtein)距离并且然后将编辑距离除以参考句子中的单词数来计算。此处,编辑距离测量可以被解释为经解码句子中的单词错误的数量(在图2的主文本中,编辑距离被称为“单词错误的数量”或“错误计数”)。它被计算为将经解码句子转换为参考句子所需要的插入、删除和替换的最小数量。下面我们展示每种类型的编辑操作,它们可用于将示例性经解码句子(在每个箭头的左侧)转换成目标句子“我很好”。在每种情况下,示例性经解码句子与目标句子的编辑距离为1。
插入:我好→我很好
删除:我非常好→我很好
替换:我要走了→我很好
编辑距离和WER越小指示性能越好。我们使用利用和不利用语言模型和维特比解码器作出的预测来计算编辑距离和WER。
为了计算图2A的主文本中所示的块级WER,我们首先计算了每次句子试验的编辑距离(其示于图2D中的主文本中)。然后,我们将块级WER计算为跨测试块中所有试验的编辑距离之和除以跨所有试验的目标句子单词长度之和。此种测量块级WER的方法比简单地将试验级WER值平均化更优选,因为与长句相比,它不会高估短句。例如,如果我们简单地将试验级WER平均化来计算块级WER,则在具有目标句子“我渴了”的试验中的一个错误将比在具有目标句子“我的家庭很温馨”的试验中的一个错误对WER造成更大的影响,这不是我们的块级WER测量的期望方面。
为了评估我们的解码方法在句子任务情况下的偶然性表现,我们使用从语言模型和维特比解码器(独立于任何神经数据)中随机产生的句子来测量WER。为了产生这些句子,我们针对每次试验执行了以下步骤:
步骤1:从空的单词序列开始。
步骤2:使用当前单词序列作为上下文,从语言模型中获取单词概率。
步骤3:使用步骤2中的单词概率作为用于采样的权重,从50个单词的集合中随机采样一个单词。
步骤4:将步骤3中的单词添加到当前单词序列中。
步骤5:重复步骤2至4,直到当前单词序列的长度等于试验的目标句子的长度。
利用每次试验随机产生的句子,我们通过使用上一段中描述的方法计算块级WER来测量偶然性表现。请注意,此种测量偶然性表现的方法高估真实的偶然性表现,因为它使用语言模型和与每次试验的目标句子相同的句子长度(这相当于假设语音检测模型在每次试验中总是检测到正确的单词数)。
每分钟单词数和经解码单词正确性
为了测量解码速率,我们使用了每分钟单词数(WPM)指标。对于每次试验,我们通过对试验中所检测的单词数进行计数并将该计数除以所检测的试验持续时间来计算WPM值。我们将每个所检测的试验持续时间计算为句子提示出现在参与者的监视器上(go提示)的时间与试验中最后一个神经时间样本从语音检测器传递到单词分类器的时间之间的经过时间。
为了测量单词被准确解码的速率,我们还计算了WPM,同时仅对正确解码的单词进行计数。为了确定在每次试验中哪些单词被正确解码,我们执行了以下步骤:
步骤1:从n=1且开始。
步骤2:计算经解码句子中的前n个单词与目标句子中的前n个单词之间的WER。
步骤3:如果此WER小于或等于并且如果/>则经解码句子中索引n处的单词被认为是正确的(其中n=1是句子中第一个单词的索引)。否则,索引n处的单词被认为是不正确的。
步骤4:设等于此WER值,并且将n增加1。
步骤5:重复步骤2至4,直到经解码句子中的每个单词都被认为是正确的或不正确的。
系统时延计算
为了估计实时句子解码期间解码流水线的时延,我们首先随机选择句子测试块中的一个用来计算时延。由于基础设施和模型参数跨句子测试块是相同的,因此我们假设来自任何块的时延分布应代表跨所有块的时延分布。这进一步得到了跨所有句子测试块的时延无明显差异的支持(从我们的角度和参与者的角度)。在随机选择句子测试块后,我们使用了块的视频记录来识别每个经解码单词出现在屏幕上的时间。然后,我们将每个实时单词预测的时延计算为单词出现时间(来自视频)与包含在与单词相关联的神经活动的所检测的窗口中的最终神经数据点的时间之间的差异(单词分类器用于预测该单词产生尝试的概率的神经数据的最终时间点,从与块相关联的结果文件中获得)。通过使用这些差异,计算出的时延表示在获得进行该预测将需要的所有相关联神经数据之后,系统预测序列中的下一单词所需要的时间量。视频与结果文件时间戳之间的计时使用在每个块开始时播放的短哔哔声来同步(在每个块期间,扬声器输出也被获取并存储在结果文件中;参见方法S2)。跨所有试验,此块中存在42个经解码单词。
使用此种方法,我们发现与实时单词预测相关联的平均时延为4.0s(标准偏差为0.91s)。
方法S13.孤立单词评估
分类准确度、交叉熵和检测错误
在对孤立单词数据进行离线交叉验证评估期间(参见方法S6),我们使用了单词分类器以根据与每次试验中单词产生尝试相关联的神经数据来预测单词概率。我们使用与来自语音检测器的经管理的所检测事件相关联的神经活动的时间窗口来计算这些单词概率(参见方法S8)。根据这些预测的单词概率,我们将分类准确度计算为目标单词等于具有最高预测概率的单词的试验的分数。我们还使用了这些预测的概率来计算交叉熵,交叉熵测量从预测的概率确定目标单词身份将需要的附加信息量。为了计算交叉熵,我们首先获得了每次试验中目标单词的预测的概率。然后将交叉熵(以比特为单位)计算为跨所有这些概率的负对数(以2为底)的平均值。除了使用经管理的所检测事件来计算这些指标,我们还使用它们来测量作出的检测错误的数量。具体而言,我们测量了两种类型的检测错误:假阴性的数量(与所检测的事件无关的试验次数)和假阳性的数量(与试验无关的所检测的事件数量)。我们分别报告了这些检测错误(分类准确度和交叉熵仅通过正确检测的试验来计算,并且不会因检测错误而受到惩罚)。
我们使用学习曲线方案执行这些分析,方案改变了用于拟合语音检测器和单词分类器的数据量(在方法S6中详述)。此种学习曲线方案中的最终分析集相当于使用所有可用数据。对于学习曲线方案中的每一分析集,语音检测器提供经管理的所检测语音事件。我们使用与这些经管理的所检测事件的开始对齐的神经数据来拟合单词分类器并预测单词概率。
测量用于学习曲线方案的训练数据量
由于语音检测和单词分类模型使用不同的训练程序,因此我们针对学习曲线方案中的每一分析集分别测量了每种类型的模型所使用的神经数据量。对于每个单词分类器,我们将用于拟合模型的所检测的事件数乘以4秒(分类器使用的神经时间窗口的大小)。由于学习曲线方案中的每一分析集使用10折交叉验证,因此这导致对用于每一分析集的训练数据量的10个量度。通过计算10个折叠的平均值,我们获得了用于针对每一分析集拟合单词分类器的平均数据量的单一量度。
每个语音检测模型都配有滑动窗口以预测神经活动的单独时间点,这导致每个任务块的训练样本比试验多得多。此处,每个训练样本是来自滑动窗口训练程序的单个窗口,其对应于任务块中的单独时间点。由于我们使用提早停止来防止过度拟合,因此实际上每个语音检测器从不使用在模型拟合期间所有可用的数据。然而,增加可用的数据量可以增加训练数据的多样性(例如,通过具有来自跨长时间段收集的块的数据),这也可以影响检测器被训练的历元的数量和经训练的检测模型的鲁棒性。为了测量在训练期间每个语音检测器可用的数据量,我们简单地将可用的训练样本数除以采样率(200Hz)。为了测量每个语音检测器在训练期间实际使用的数据量,我们将使用的训练样本数除以采样率。通过计算10个折叠的平均值,我们测量了可用数据的平均数量和实际用于针对每一分析集拟合语音检测器的平均数量。
电极贡献(显著性)
为了测量每个电极对检测和分类性能的贡献,我们分别用驱动语音检测和单词分类模型的人工神经网络(ANN)来计算电极贡献(显著性)。我们使用了显著性计算方法,这种方法已经在识别对图像分类最有用的图像区域期间用卷积ANN进行了验证[35]。我们在我们之前的工作中也使用了此种方法来测量哪些电极对利用递归卷积ANN进行语音解码最有用[20]。
为了计算每种ANN的电极显著性,我们首先计算了ANN的损失函数相对于输入特征的梯度。输入特征是跨语音检测器的整个块或跨单词分类器的所检测的时间窗口的高γ活性的单独时间样本。对于每个输入特征,我们通过ANN将梯度反向传播到输入层。然后,我们计算与每个电极相关联的所得梯度值跨时间的欧几里德范数(在每个块或试验中)。此处,我们使用梯度的范数来测量损失函数对每个输入的灵敏度的幅值(不考虑灵敏度的方向)。接下来,我们计算跨欧几里德范数值的块或试验的平均值,从而针对每个电极产生单个显著性值。最后,我们对每一电极显著性集进行归一化,使其总和为1。
我们使用语音检测器和单词分类器的10折交叉验证评估在学习曲线方案中的最终分析集中计算了这些显著性。我们使用在每个折叠的测试集中评估的块和试验来计算梯度。我们还计算了在信号稳定性分析期间的显著性(参见方法S14)。
信息传送速率
信息传送速率(ITR)指标测量每单位时间系统传达的信息量,通常用于评估脑机接口[36]。类似于现有文献[2,36,37]中描述的公式,我们在此项工作中使用以下公式计算ITR:
其中N是独特目标的数量,P是预测准确度,并且T是用于每次预测的平均持续时间。在此项工作中,N=50(单词集的大小),并且T=4秒(分类器用来计算单词概率的神经时间窗口的大小)。我们设定P等于用孤立单词数据(来自学习曲线方案中的最终分析集)进行完全交叉验证分析的平均分类准确度。此公式作出以下假设:
平均而言,所有可能的单词目标在任何试验中都具有相同的成为实际单词目标的先验概率(即,独立于神经数据的概率)。这是合理的,因为针对每个单词目标收集了相同数量的孤立单词试验。
用于P的分类准确度代表单词分类器的总体准确度(给定训练数据量),并且跨试验是一致的。这应该是有效假设,因为我们的交叉验证分析使我们能够评估跨所有收集的试验的性能。
平均而言,在任何试验中,每个不正确的单词目标都具有相同被分配最高概率值的概率。尽管这在实践中对我们的结果并不完全真实(如图3所示的混淆矩阵所示,图示出一些单词平均比其他单词被更频繁地预测),但在已经使用此公式的其他研究中通常并不完全真实,并且它通常被视为可接受的简化假设。
使用方程S19,我们计算了ITR,并且在图12的说明文字中报告了结果。
仅针对来自单词分类器(其使用来自语音检测器的所检测的神经窗口)的孤立单词预测计算ITR。对根据句子数据进行的完整解码流水线(包括语言模型)的ITR的计算将明显更加复杂,因为来自语言模型的单词序列概率将违反上面提供的列表中的假设(1)和(3)[38]。一些经解码句子在单词长度上不同于对应的目标句子的事实也使得ITR计算更加困难。为了简单起见,我们决定仅使用单词分类器输出来报告ITR。此种ITR测量也可以更容易地与其他脑机接口应用中报告的辨别模型的性能进行比较(独立于我们特定的语言建模方法)。
调查潜在的声学污染
在最近的工作中,Roussel和其同事证明了声学信号可以直接“污染”电生理记录,从而导致经由电生理记录方法记录的信号的光谱时间内容与同时发生的声波波形强烈相关[39]。为了评估我们的神经记录中是否存在声学污染,我们将[39]中描述的污染识别方法应用于我们的数据集(具有下文所注的一些微小的程序偏差)。
首先,我们随机选择了24个孤立单词任务块的集合(它们按时间顺序分布在81周的研究期内)在此分析中进行考虑。从每个块中,我们获得了在1kHz下记录的神经活动(其没有使用针对共同平均值或高γ特征提取的重新参考来处理)和在30kHz下记录的麦克风信号。这些麦克风信号已经与神经信号同步(如方法S2中所述)。然后,我们将麦克风信号下采样至1000Hz,以匹配神经数据。接下来,如[39]所执行的,我们通过从每个时间点的信号中减去其在前一秒的平均值来使麦克风信号“居中”。
然后,我们计算从每个电极通道记录的神经活动和记录的麦克风信号的光谱图。我们将光谱图计算为短时傅里叶变换的绝对值。为了计算效率,我们稍微偏离了[39],以在我们的方法中使用二的幂。与[39]中使用的200ms窗口相对比,我们在256个样本的滑动窗口内计算傅立叶变换(每个窗口包含256ms的数据),结果得到129个频带,均匀间隔开的中心频率在0Hz至500Hz之间。每个滑动窗口为间隔开的32个时间样本,产生约31Hz的光谱图样本,与[39]中使用的50Hz速率相对比。由于包含大量“无声”任务分段(期间参与者不尝试说话的分段)将使分析偏向于发现声学污染,因此我们从光谱图中截取了与试验间无声对应的时间段。具体而言,我们仅保留了根据每次试验中go提示前0.5秒至之后3.5秒之间出现的数据计算的光谱图。虽然这些时间段仍然包含参与者无声时记录的样本,但此种方法大大减少了无声在所考虑数据中的总体比例。
然后,我们测量了每个麦克风光谱图与每个电极的对应光谱图之间的跨时间相关性(在单独频带内)。神经通道与麦克风信号之间的小相关性不是声学污染的明确证据;存在许多因素可能影响相关性,包括共享电噪声的存在和在尝试语音产生期间诱发的纯生理神经响应的特征。通过计算窄频带内的相关性,所得相关性更可能(但不保证)指示声学污染;例如,声学信号中300Hz下的光谱功率将不期望与电生理信号中该频率下的神经振荡强烈相关。我们汇总了跨光谱图的相关性矩阵,以获得跨所有所考虑数据的总体相关性矩阵,其包含每个电极和频带的一个元素。此程序相当于将来自每个块的(截取的)神经和声学光谱图串联在一起,并且然后计算跨所有数据的单个相关性矩阵。
为了进一步表征任何潜在的声学污染,我们比较了神经光谱图与声学光谱图之间的相关性,这些光谱图为频率与麦克风的功率谱密度(PSD)的函数。我们期望相关性是非零的,因为此项工作中的核心假设是,从植入的电极记录的神经活动与尝试语音产生有因果关系。然而,也随着此PSD增加和减少的神经光谱图与声学光谱图之间的强相关性将是声学污染的强有力证据。此处,我们将麦克风PSD计算为跨所有光谱图样本和模块的麦克风光谱图(沿频率维度)的平均值(每个频带产生一个值)。
方法S14.稳定性评估
为了评估在单词产生尝试期间记录的神经信号的稳定性,我们使用语音检测器和单词分类器计算分类准确度和电极贡献(显著性),同时改变用于训练和测试模型的数据被采样的日期范围。我们使用方法S6中定义的四个日期范围子集(“早期”、“中期”、“晚期”和“非常晚期”)以及三种评估方案(子集内、跨子集和累积子集)执行这些分析。
首先,为了产生每个子集的经管理的所检测时间,语音检测模型使用子集内训练方案。结果,子集的所有经管理的所检测事件都是从仅用来自相同子集的数据拟合的语音检测模型中获得的。对于“早期”、“中期”、“晚期”和“非常晚期”子集,每个子集中由于在所检测的事件管理程序期间与所检测的事件无关而被排除在进一步分析之外的试验百分比分别为2.3%、3.8%、0.8%和1.5%。使用与这些经管理的所检测事件的开始对齐的神经数据来训练和测试单词分类器。
为了确定在每个日期范围期间记录的神经信号是否包含相似数量的辨别性信息(并且评估整体记录质量随时间下降的可能性),我们比较了使用子集内评估方案计算的不同日期范围子集的分类准确度。为了评估通过分类模型学习的空间图的稳定性,我们还使用子集内评估方案计算了每个日期范围子集的电极显著性(贡献)。
为了确定训练和测试数据的时间接近性是否会影响分类性能(并且评估即使所有子集内的准确度都相似,日期范围子集之间的潜在神经活动是否仍存在显著变化),我们分别比较了每个子集的子集内和跨子集分类准确度。子集内和跨子集比较示于图14中。
为了评估在不频繁重新校准的情况下,是否可以累积跨几个月记录收集的皮层活动以改善模型性能,我们根据“非常晚期”子集计算了分类准确度,同时使用累积子集评估方案改变训练数据量(如图4中的主文本所示)。为了测量用于此种评估方案的训练数据量,我们使用了与方法S13中描述的方法相同的方法来测量学习曲线分析中用于单词分类器的训练数据量。
方法S15.统计测试
单词错误率置信区间
为了计算单词错误率(WER)的95%的置信区间,我们对每一结果集(偶然性、不利用语言模型和利用语言模型)执行以下步骤:
1.将块级WER编译成单个数组(具有15个元素,每个块一个)。
2.从此数组中随机采样(有放回)15个WER值,并且然后根据这些值计算并存储中位WER。
3.重复步骤2,直到计算出一百万个中位WER。
4.将置信区间计算为步骤3中的中位WER集合的2.5和97.5个百分位数。
分类准确度置信区间
为了计算在信号稳定性分析期间获得的分类准确度的95%的置信区间,我们对每个日期范围子集(“早期”、“中期”、“晚期”和“非常晚期”)以及每种评估方案(子集内、跨子集和累积子集)执行了以下步骤:
1.将每个交叉验证折叠的分类准确度编译成单个数组(具有10个元素,每个折叠一个)。
2.从此数组中随机采样(有放回)10个分类准确度,并且然后根据这些值计算并存储平均分类准确度。
3.重复步骤2,直到计算出一百万个平均分类准确度。
4.将置信区间计算为步骤3中的平均分类准确度集合的2.5和97.5个百分位数。
补充表S1.超参数定义和值。
1对于语音检测超参数,列出了三个值:第一个是当根据孤立单词优化子集对检测器进行优化时找到的最佳值(用于检测交叉验证子集中的单词产生尝试以供单词分类器评估),第二个是当根据汇集的交叉验证子集的子集对检测器进行优化时找到的最佳值(用于检测孤立单词优化子集中的单词产生尝试以在单词分类器的超参数优化期间使用),并且第三个是在利用句子优化子集的解码流水线的超参数优化期间找到的最佳值(在线句子解码期间使用的值)。对于单词分类超参数,列出了两个值:第一个是当根据孤立单词优化子集对分类器进行优化时找到的最佳值(用于所有孤立单词评估的值),并且第二个是当根据接近研究周期结束时孤立单词试验的小子集对分类器进行优化时找到的最佳值(用于离线句子优化和在线句子解码的值)。对于语言建模和维特比解码超参数,当用句子优化子集对解码流水线进行优化时,找到列出的最佳值(用于在线句子解码的值)。
补充参考文献
1.Moses DA、Leonard MK和Chang EF使用人类的诱发的皮层活动对听觉句子进行实时分类,《神经工程学杂志》2018;15:036005。
2.Moses DA、Leonard MK、Makin JG和Chang EF使用人类皮层活动对问答语音对话进行实时解码,《自然通讯》2019;10。
3.Ludwig KA、Miriani RM、Langhals NB、Joseph MD、Anderson DJ和Kipke DR使用共同平均参考来改善来自微电极阵列的皮层神经元记录,《神经生理学杂志》2009;101:1679-89。
4.Williams AJ、Trumpis M、Bent B,Chiang CH和Viventi J用于比较本地和共同平均参考信号的新型iECoG电极接口,选自:《2018年IEEE医学与生物工程学会第40届国际年会(EMBC)(2018 40th Annual International Conference of the IEEE Engineeringin Medicine and Biology Society(EMBC))》,Honolulu,HI:IEEE,2018:5057-60。
5.Parks TW和McClellan JH利用线性相位的非递归数字滤波器的切比雪夫近似,《IEEE电路理论汇刊(IEEE Transactions on Circuit Theory)》1972;19:189-94。
6.Romero DET和Jovanovic G数字FIR希尔伯特变换器:基本原理和高效的设计方法,选自:《MATLAB-科学计算和工程应用的基本工具(MATLAB-A Fundamental Tool forScientific Computing and Engineering Applications)》-第1卷,2012:445-82。
7.Welford BP关于用于计算校正平方和与乘积的方法的注记,《技术计量学(Technometrics)》1962;4:419-9。
8.Weiss JM、Gaunt RA、Franklin R、Boninger ML和Collinger JL便携式皮层内脑机接口的展示,《脑机接口(Brain-Computer Interfaces)》2019;6:106-17。
9.Bergstra J、Yamins DLK和Cox DD建立模型搜索的科学:视觉架构的数百维超参数优化,《国际机器学习大会(Icml)》2013:115-23。
10.Liaw R、Liang E、Nishihara R、Moritz P、Gonzalez JE和Stoica I调谐:用于分布式模型选择和训练的研究平台,arXiv:1807.05118 2018。
11.Li L、Jamieson K、Rostamizadeh A等人用于大规模并行超参数调谐的系统,arXiv:1810.05934 2020。
12.Paszke A、Gross S、Massa F等人PyTorch:命令式的高性能深度学习库,选自:《神经信息处理系统32的进展(Advances in Neural Information Processing Systems32)》,Wallach H、Larochelle H、Beygelzimer A、d’Alch′e-Buc F、Fox E和Garnett R编辑,Curran Associates,Inc.,2019:8024-35。
13.Hochreiter S和Schmidhuber J长短期记忆,《神经计算(NeuralComputation)》1997;9:1735-80。
14.Dash D、Ferrari P、Dutta S和Wang J NeuroVAD:从非侵入性神经磁信号进行实时语音活动检测,《传感器》2020;20:2248。
15.Werbos P通过时间反向传播:它做什么和如何做,《IEEE论文集(Proceedingsof the IEEE)》1990;78:1550-60。
16.Elman JL及时发现结构,《认知科学(Cognitive Science)》1990;14:179-211。
17.Williams RJ和Peng J用于递归网络轨迹的在线训练的高效的基于梯度的算法,《神经计算》1990;2:490-501。
18.Kingma DP和Ba J Adam:用于随机最佳化的方法,arXiv:1412.6980 2017。
19.Krizhevsky A、Sutskever I和Hinton GE基于深度卷积神经网络的ImageNet分类,选自:《神经信息处理系统25的进展》,Pereira F、Burges CJC、Bottou L和Weinberger KQ编辑,Curran Associates,Inc.,2012:1097-105。
20.Makin JG、Moses DA和Chang EF用编码器-解码器框架将皮层活动机器翻译成文本,《自然神经科学》2020;23:575-82。
21.Virtanen P、Gommers R、Oliphant TE等人SciPy 1.0:Python中用于科学计算的基本算法,《自然方法(Nature Methods)》2020;17:261-72。
22.Martin Abadi、Ashish Agarwal、Paul Barham等人,TensorFlow:异构系统上的大规模机器学习,购自tensorflow.org的软件,2015。
23.Zhang Y、Chan W和Jaitly N用于端到端语音识别的高深度卷积网络,arXiv:1610.03022 2016。
24.Cho K、Merrienboer B van、Gulcehre C等人使用统计机器翻译的RNN编码器-解码器的学习短语表示,arXiv:1406.1078 2014。
25.Pascanu R、Mikolov T和Bengio Y关于训练递归神经网络的困难,选自:《第30届机器学习国际会议论文集(Proceedings of the 30th International Conference onMachine Learning)》,Dasgupta S和McAllester D编辑,第28卷,《机器学习研究论文集(Proceedings of Machine Learning Research)》,Atlanta,Georgia,USA:PMLR,2013:1310-8。
26.Sollich P和Krogh A利用集成体进行学习:过度拟合如何有用,选自:《神经信息处理系统8的进展》,Touretzky DS、Mozer MC和Hasselmo ME编辑,MIT Press,1996:190-6。
27.Chen SF和Goodman J用于语言建模的平滑技术的实证研究,《计算机语音和语言》1999;13:359-93。
28.Kneser R和Ney H M元语法语言建模的改进让步,选自:《1995年国际声学、语音和信号处理会议》,第1卷,Detroit,MI,USA:IEEE,1995:181-4。
29.Bird S、Klein E和Loper E用Python进行自然语言处理:用自然语言工具包分析文本,O’Reilly Media,Inc.,2009。
30.Group TH分层数据格式,1997。
31.Collette A Python和HDF5:解锁科学数据,”O’Reilly Media,Inc.”,2013。
32.Heafield K.KenLM:更快且更小的语言模型查询,选自:《第六届统计机器翻译研讨会论文集(Proceedings of the Sixth Workshop on Statistical MachineTranslation)》,WMT’11,Association for Computational Linguistics,2011:187-97。
33.Viterbi AJ卷积码的错误界限和渐近最佳解码算法,《IEEE信息论汇刊》1967;13:260-9。
34.Jurafsky D和Martin JH语音和语言处理:自然语言处理、计算语言学和语音识别导论,第2版,Upper Saddle River:Pearson Education,Inc.,2009。
35.Simonyan K、Vedaldi A和Zisserman A深层卷积网络:可视化图像分类模型和显著性图,选自:《学习表示国际会议研讨会》,Bengio Y和LeCun Y编辑,Banff,Canada,2014。
36.Wolpaw JR、Birbaumer N、McFarland DJ、Pfurtscheller G和Vaughan TM用于通信和控制的脑机接口,《临床神经生理学》:国际临床神经生理学联合会官方杂志2002;113:767-91。
37.Mugler EM、Patton JL、Flint RD等人使用来自功能性语言运动皮层的信号对所有美式英语音位进行直接分类,《神经工程学杂志》2014;11:35015-15。
38.Speier W、Arnold C和Pouratian N通过相互信息和语言模型评估真实的BCI交流速率,《公共科学图书馆:综合》2013;8,Wennekers T编辑:e78432。
39.Roussel P、Godais GL、Bocquelet F等人在语音产生和声音感知期间电生理脑信号的声学污染的观察和评估,《神经工程学杂志》2020;17:056028。
实例3:使用瘫痪个人的语音神经假体进行可推广拼读
介绍
毁灭性神经系统病症(诸如中风和肌萎缩性侧索硬化)可导致构音障碍,丧失通过语音交流的能力1。构音障碍患者可具有完整的语言技能和认知,但瘫痪可能会抑制他们操作协助装置的能力,严重限制与家人、朋友和护理人员的交流,并且降低自我报告的生活质量2
脑机接口(BCI)具有通过将神经活动解码成预期消息来恢复与此类患者的交流的潜力3、4。现有的通信BCI通常依赖于将想象的手臂和手部移动解码成字母,从而使得能够拼读预期句子5、6。尽管此种方法的实现已经表现出有希望的结果,但是将自然尝试说话直接解码成语音或文本可以对通信BCI提供更快且更自然的控制。事实上,最近对潜在BCI使用者的调查表明,相比于手臂和手驱动的神经假体,许多患者将更喜欢语音驱动的神经假体7。此外,在理解大脑如何表示声道移动以产生语音8-11以及从能够说话者的大脑活动中进行文本解码的展示12-15方面,已经存在若干新近进展,这表明从大脑活动中解码尝试语音可能是交流恢复的可行方法。
为了评估此种情况,我们最近开发了语音神经假体,以在患有构音障碍和瘫痪的个人尝试说话时,从他的大脑皮层活动中直接实时解码完整的单词16。此种方法表现出有希望的解码准确度和速度,但作为初步研究集中在初步的50个单词的词汇表。虽然利用有限词汇表进行直接单词解码具有直接的实际益处,但扩展对至少1,000个单词的更大词汇表的访问将覆盖自然英语句子中超过85%的内容17,并且使得能够对协助交流技术进行日常有效使用18。因此,强大的补充技术可以扩展当前的语音解码方法,以使使用者能够从大量且可推广的词汇表中拼出预期消息,同时仍然允许快速、直接的单词解码来表达频繁和常用的单词。另外,在此项先前的工作中,参与者通过尝试大声说话来控制神经假体,这使得不清楚此种方法对于不能产生任何声音输出的潜在使用者是否可行。
此处,我们展示对说出来自NATO语音字母表的26个字母码字的无声尝试的实时解码能够使患有瘫痪和构音障碍的参与者高度准确和快速地拼读。在训练会话期间,我们提示参与者尝试产生单独码字和手部运动性移动,并且我们使用从植入的128通道脑皮层电图(ECoG)阵列同时记录的皮层活动来训练分类和检测模型。训练后,参与者执行拼读任务,在任务中他用1,152个单词的词汇表、使用尝试无声地说出对应的字母码字来实时拼出句子。束搜索算法使用来自分类模型的预测的码字概率,以在给定神经活动的情况下找到最可能的句子,同时自动在经解码单词之间插入空格。为了起始拼读,参与者无声地尝试说话,并且语音检测模型识别出此种直接来自ECoG活动的开始信号。在拼出预期句子后,参与者尝试手部运动性移动来脱离拼读器。当分类模型从ECoG活动中识别出此种手部运动命令时,基于大型神经网络的语言模型对来自束搜索的候选句子进行重新评分,并且最终确定了句子。在事后模拟中,我们的系统很好地推广到跨超过9,000个单词的大词汇量。
结果
实时拼读流水线概述
我们设计了句子拼读流水线,流水线使患有构音障碍和瘫痪的参与者能够使用从植入其感觉运动皮层上的高密度脑皮层电图(ECoG)阵列中获取的信号无声地拼出消息(图15)。我们在复印打字和对话任务条件下测试了拼读系统。在复印打字任务条件的每次试验中,在屏幕上向参与者呈现目标句子,并且参与者然后尝试复制该句子。在对话任务条件下,存在两种类型的试验:其中参与者对呈现给他的问题拼出凭意志选择的响应的试验和其中参与者拼出任意的、未受提示的句子的试验。在实时测试之前,没有发生重新校准日;模型参数和超参数仅使用来自之前会话的数据进行拟合。
当参与者准备开始拼读句子时,他尝试无声地说出任意单词(图15A)。我们将无声语音尝试定义为在不发声的情况下凭意志尝试有声语音。同时,参与者的神经活动从每个电极被记录,并且经处理以同时提取高γ活性(HGA;在70Hz至150Hz之间)和低频信号(LFS;在0.3Hz至100Hz之间;图15B)。为了起始拼读,语音检测模型对组合特征串流(包含HGA+LFS特征;图15C)中每个时间点的数据进行处理来检测此种初始无声语音尝试。
一旦检测到说话尝试,就开始定速拼读程序(图15D)。在此种程序中,后面跟着三个点的下划线以白色文本出现在屏幕上。这些点逐个消失了,代表倒计时。在最后一个点消失后,下划线变为绿色,以指示go提示,此时参与者尝试无声地说出与句子中的第一个字母对应的NATO码字。在紧接着go提示之后的2.5秒间隔期间获得的组合特征串流中的神经特征的时间窗口被传递到神经分类器(图15E)。在go提示后不久,下一字母的倒计时自动开始。然后重复此种程序,直到参与者凭意志脱离此程序(在本部分中稍后描述)。
神经分类器对神经特征的每个时间窗口进行处理,以预测跨26个字母码字的概率(图15F)。束搜索算法使用预测的字母概率序列来计算潜在的候选句子,在适当情况下自动地将空格插入字母序列中,并且使用语言模型来优先考虑语言上似乎合理的句子。在实时句子拼读期间,束搜索仅考虑由来自预定义1,152个单词的词汇表的单词构成的句子,词汇表包含与协助交流应用相关的常用单词。在任务中的任一点处的最可能的句子总是被参与者看到(图15D)。我们指示参与者即使在显示的句子中存在错误也要继续拼读,因为束搜索可以在接收到更多预测后对这些错误进行校正。
在尝试无声地拼出整个句子后,参与者被指示尝试握他的右手以脱离拼读程序(图15H)。神经分类器从每个2.5秒的神经特征窗口预测此种尝试手部运动性移动的概率,并且如果此概率大于80%,则停止拼读程序,并且最终确定经解码句子(图15I)。为了最终确定句子,首先从潜在候选者列表中去除具有不完整单词的句子,并且然后用单独的语言模型对剩余的句子进行重新评分。然后,在参与者的屏幕上更新最可能的句子(图15G)。在短暂延迟后,清空屏幕,并且任务继续到下一次试验。
为了在实时测试之前训练检测和分类模型,我们在参与者执行孤立目标任务时收集数据。在此项任务的每次试验中,NATO码字出现在屏幕上,并且参与者被指示在对应的go提示下尝试无声地说出码字。在一些试验中,呈现了代表手部运动命令的指示符而非码字,并且参与者被指示想象在那些试验的go提示下握他的右手。
解码性能
为了评估拼读系统的性能,当参与者在复印打字任务期间尝试拼出150个句子时,我们从他的神经活动中实时解码句子(从协助交流语料库中选择75个独特的句子,每个句子重复两次;参见表S1)。我们使用单词错误率(WER)、字符错误率(CER)、每分钟单词数(WPM)和每分钟字符数(CPM)指标来评估经解码的句子(图16)。对于字符和单词,错误率被定义为编辑距离,其为将预测的句子转换为显示给参与者的目标句子所需要的字符或单词删除、插入和替换的最小数量分别除以目标句子中的字符或单词的总数。这些指标通常用于评估自动语音识别系统19和脑机接口应用6、16的解码性能。
我们观察到跨实时测试块(每个块包含多个句子拼读试验;图16A、图16B)的中位CER为6.13%,并且中位WER为10.53%(99%的置信区间(CI)[2.25,11.6]和[5.76,24.8])。跨150个句子,105个(70%)被无错误地解码,并且75个句子中的69个(92%)在其被尝试的两次中的至少一次被完美解码。此外,跨150个句子,139个(92.7%)句子用正确的字母数被解码,此是通过尝试握手的高分类准确度来实现的(图16E)。我们还观察到跨测试块的中位CPM为29.41且中位WPM为6.86(99% CI[29.1,29.6]和[6.54,7.12]),其中单独块的拼读速率高达30.79CPM和8.60WPM(图16C、图16D)。这些速率高于在参与者使用其商业上可获得的Tobii Dynavox协助打字装置时观察到的17.37CPM和4.16WPM的中位比率(99% CI[16.1,19.3]和[3.33,5.05])(如在我们之前的工作中测量的16)。
为了理解分类器、束搜索和语言模型对解码性能的单独贡献,我们使用在这些实时复印打字任务块期间收集的数据执行离线分析(图16A、图16B)。为了检查系统的偶然性表现,我们用随机产生的值替换了模型的预测,同时继续使用束搜索和语言模型。这导致CER和WER显著差于实时结果(z=7.09,P=8.08×10-12和z=7.09,P=8.08×10-12)。这证明神经信号的分类对系统性能至关重要,并且系统性能不仅仅依赖于受约束的词汇表和语言建模技术。
为了评估单独神经分类器能够多么好地解码尝试句子,我们比较了仅使用神经分类器的每个单独的2.5秒神经活动窗口的由最可能的字母构成的字符序列与对应的目标字符序列。在此种比较期间,所有空白字符都被忽略(在实时解码期间,这些字符通过束搜索自动插入)。这导致中位CER为35.1%(99% CI[30.6,38.5]),其显著低于偶然性(z=7.09,P=8.08×10-12,利用6向Holm-Bonferroni校正的双侧Wilcoxon秩和测试),并且表明在无声码字产生尝试期间神经活动的时间窗口是可辨别的。这对应于64.9%的分类器准确率。此种情况的中位WER为100%(99% CI[100.0,100.0]);在不利用语言建模或空白字符的自动插入情况下,预测的字符序列很少与对应的目标字符序列匹配。
为了测量通过束搜索在多大程度上改善了解码,我们将神经分类器的预测传递到束搜索中,并且将字符序列约束为仅由词汇表内的单词构成,而不结合任何语言建模。与在每个时间步处仅使用最可能的字母相比,这显著改善了CER和WER(分别为z=4.51,P=6.37×10-6,和z=6.61,P=1.19×10-10,利用6向Holm-Bonferroni校正的双侧Wilcoxon秩和测试)。由于不使用结合了单词序列的可能性的语言建模,系统有时将预测无意义的句子,诸如“Do no tooth at again”,而不是“不要再这样了(Do not do that again)”(图16F)。因此,与使用不利用任何语言建模的系统相比,包括语言建模以完成完整的实时拼读流水线显著地将中位CER改善为6.13%,并且将中位WER改善为10.53%(分别为z=5.53,P=6.34×10-8,和z=6.11,P=2.01×10-9,利用6向Holm-Bonferroni校正的双侧Wilcoxon秩和测试),说明了在解码期间结合英语的自然结构的益处。
高γ活性和低频信号中的辨别性内容
先前从大脑活动中解码语音的努力通常依赖于解码期间高γ频率范围(在70Hz至170Hz之间,但确切的界限有所不同)中的内容12、13、24。然而,最近的研究已经证明了,低频内容(在0Hz至40Hz之间)也可用于说出的和想象的语音解码14、15、25-27,然而每个频率范围中包含的辨别性信息的差异仍然知之甚少。
尽管先前从大脑活动中解码语音的努力通常仅使用高γ活性(HGA)12、13、15,但我们的拼读系统在解码期间也使用低频信号(LFS)。由于分类器的输入在分类之前被下采样(利用抗混叠滤波器)到33.33Hz,因此在分类期间使用的LFS仅包含0.3Hz至16.67Hz之间的信号分量。使用孤立单词任务的最近的9,132次试验(在这些试验中的每次中,参与者都尝试无声地说出码字),我们仅使用HGA、仅使用LFS以及这两种特征类型来训练10折交叉验证模型。仅使用LFS的模型展示出比仅使用HGA的模型更高的码字分类准确度,并且使用两种特征类型(HGA+LFS)的模型优于其他两种模型(对于所有比较,P<0.001,利用3向Holm-Bonferroni校正的双侧Mann-Whitney U测试;图17A、图24),从而实现了56.4%的中位分类准确度(图25)。
然后,我们研究了每个电极和特征类型对使用HGA、LFS和HGA+LFS训练的神经分类模型的相对贡献。对于每个模型,我们首先通过测量电极值的微小变化对模型预测的影响来计算每个电极对分类的贡献28。HGA模型的电极贡献主要位于网格的腹侧部分,对应于腹侧感觉运动皮层(vSMC)、岛盖部和三角部(图17B)。LFS模型的贡献更加分散,覆盖了与中央前回和中央后回中vSMC背侧对应的网格的更多背侧和后部(图17D)。来自HGA模型和LFS模型的贡献与0.501的斯皮尔曼秩相关性适度相关(每种特征类型n=128个电极贡献,P<0.01)。HGA+LFS模型中来自HGA和LFS的单独贡献分别与仅HGA和仅LFS模型的贡献高度相关(每种特征类型n=128个电极贡献,(在两个斯皮尔曼秩相关性分别为0.922和0.963时,P<0.01;图17C、图17E)。这些发现表明,在解码期间最有用的这两种特征类型中包含的信息不是多余的,而是从相对不同的皮层区域记录的。
为了进一步表征HGA和LFS的特征,我们研究了LFS是否增加了特征或时间维度,这有助于增加解码准确度。首先,我们对HGA、LFS和HGA+LFS特征集的特征维度执行了主成分分析(PCA)。所得主成分(PC)捕获了HGA和LFS特征集的空间可变性(跨电极通道)以及HGA+LFS特征集的空间和光谱可变性(分别跨电极通道和特征类型)。然后,我们计算了解释多于80%的方差所需要的主成分(PC)的最少数量。为了解释多于80%的方差,LFS比HGA需要显著更多的特征PC(z=12.2,P=7.57×10-34,利用3向Holm-Bonferroni校正的双侧Wilcoxon秩和测试;图17F)。组合的HGA+LFS特征集比单独的HGA或LFS特征需要显著更多的特征PC(分别为P=6.20×10-38和P=1.60×10-33,利用3向Holm-Bonferroni校正的双侧Wilcoxon秩和测试;图17F),表明LFS并不简单地在每个电极处复制HGA,而是增加了独特的特征方差。
为了评估特征的时间内容,我们首先使用类似的PCA方法来测量时间维度。我们观察到LFS特征比HGA和HGA+LFS特征集需要显著更多的时间PC(分别为P=2.72×10-39和P=1.37×10-38,图17G;利用3向Holm-Bonferroni校正的双侧Mann-Whitney U测试)。我们观察到,LFS特征需要比HGA和HGA+LFS特征集二者显著更多的时间PC来解释多于80%的方差(分别为z=12.2,P=7.57×10-34,和z=12.2,P=7.57×10-34,图17G;利用3向Holm-Bonferroni校正的双侧Wilcoxon秩和测试)。由于每个特征类型的固有时间维度在HGA+LFS特征集内保持不变,因此解释HGA+LFS特征如此大的方差所需要的时间PC数在单独特征类型的对应数之间。然后,为了评估每个特征类型的时间分辨率如何影响解码性能,我们用不同宽度的高斯滤波器在时间上对每个特征时间序列进行平滑处理。高斯滤波器越宽导致时间平滑处理量越大,从而有效地在时间上使信号模糊,并且因此降低时间分辨率。在时间上对LFS特征进行平滑处理比对HGA或HGA+LFS特征进行平滑处理显著更降低分类准确度(Wilcoxon符号秩统计量=737.0,P=4.57×10-5,和统计量=391.0,P=1.13×10-8,利用3向Holm-Bonferroni校正的双侧Wilcoxon符号秩测试;图17H)。(Wilcoxon符号秩统计量=1460.0,P=0.443)。这在很大程度上与时间-PCA比较的结果一致。总之,这些结果表明LFS的时间内容比HGA具有更高的可变性,并且包含更多的与语音相关的辨别性信息。
NATO码字和字母之间在神经辨别力上的差异
在控制我们的系统期间,参与者尝试无声地说出代表每个字母的NATO码字(“α”代替“a”,“β”代替“b”,等等),而不是简单地说出字母本身。我们假设,由于增加的语音可变性和更长的话语长度,与尝试产生码字相关联的神经活动将比字母更容易辨别。为了测试这一点,我们首先使用孤立目标任务的修改版本来收集数据,在任务中,参与者尝试说出26个英语字母中的每一个,而不是代表它们的NATO码字。之后,我们使用最近29次尝试中的HGA+LFS特征来训练和测试分类模型,以在10折交叉验证分析中无声地说出每个码字和每个字母。事实上,码字以比字母显著更高的准确度被分类(z=3.78,P=1.57×10-4,双侧Wilcoxon秩和测试;图18A)。
为了在每种话语类型(码字或字母)的神经辨别力之间执行模型不可知的比较,我们使用HGA+LFS特征集计算了每种话语的最近类别距离。此处,每个话语代表单个类,并且仅计算相同类型的话语之间的距离。码字或字母的最近类别距离越大指示该话语在神经特征空间中越容易辨别,因为与无声尝试产生该话语相关联的神经激活模式分别与其他码字或字母更加不同。我们发现码字的最近类别距离总体上显著高于字母(z=2.98,P=2.85×10-3,双侧Wilcoxon秩和测试;图18B),然而当使用码字而不是字母时,并非所有的字符都具有较高的最近类别距离(图18C)。
无声语音尝试与公开语音尝试之间诱发的神经活动的区别
拼读系统通过无声语音尝试来控制,这与我们之前的工作不同,在我们之前的工作中,同一参与者使用公开语音尝试(尝试大声说话)来控制类似的语音解码系统16。为了评估这两种类型的语音尝试之间的神经活动和解码性能的差异,我们收集了孤立目标任务的版本,在版本中,参与者被指示尝试大声说出码字(公开地而不是无声地)。为了看到公开语音尝试与无声语音尝试之间的差异,我们比较了不同码字和电极的诱发的HGA。这两种类型的语音尝试的诱发神经活动的空间模式表现出相似性,并且对两个电极的诱发的HGA的检查表明一些神经群体对每种语音类型的响应相似,而其他者并非如此(图19B、图19C;图26)。为了比较无声语音尝试与公开语音尝试之间的辨别性神经内容,我们使用与语音尝试相关联的HGA+LFS特征执行了10折交叉验证分类分析(图19D)。首先,对于每种语音类型(无声的或公开的),我们使用在该语音类型情况下收集的数据对分类模型进行了训练。为了确定分类模型是否可以利用与每种语音类型相关联的神经表示的相似性来改善性能,我们还通过对一种语音类型进行预训练,并且然后对另一种语音类型进行微调来创建模型。然后,我们根据与每种语音类型相关联的保留数据测试每个分类模型,并且对结果对的所有28个组合进行了比较。仅根据无声数据训练但根据公开数据测试且反之亦然的模型得到了高于偶然性的分类准确度(中位准确度分别为36.3%,99% CI[35.0,37.5]和33.5%,99% CI[31.0,35.0];偶然性准确度为3.85%)。然而,对于这两种语音类型,根据相同类型进行训练和测试得到了显著更高的性能(P<0.01,双侧Wilcoxon秩和测试,28向Holm-Bonferroni校正)。使用另一种语音类型对模型进行预训练使得分类准确度增加,然而此种增加更加适度,并且对于公开语音类型不显著(在公开情况下的中位准确度增加了2.33%,z=2.65,P=0.033,在无声情况下的中位准确度增加了10.4%,z=3.78,P=4.40x 10-3,双侧Wilcoxon秩和测试,28向Holm-Bonferroni校正)。总之,这些结果表明,在无声和公开尝试说话期间诱发的神经激活模式共享一些相似性,但并不完全相同。
向更大词汇量和替代任务的可推广性
尽管1,152个单词的词汇表使得能够进行各种常见句子的交流,然而我们也评估了我们的方法可多么好地扩展到更大词汇量。具体而言,我们使用三个更大词汇表来模拟复印打字拼读结果,这三个更大词汇表是基于它们在大小为3,303个、5,249个和9,170个单词的大规模英语语料库中的词频来选择的。对于每个词汇表,我们对在束搜索期间使用的语言模型进行了重新训练,以结合新单词。当最终确定句子时使用的大型语言模型对于这些分析没有改变,因为它经设计以推广到任何英语文本。
每个新词汇表都保持了高性能,对于3,303个、5,249个和9,170个单词的词汇表,中位字符错误率(CER)分别为7.18%(99% CI[2.25,11.6])、7.93%(99% CI[1.75,12.1])和8.23%(99% CI[2.25,13.5])(图20A;中位实时CER为6.13%(99% CI[2.25,11.6]),原始词汇表包含1,152个单词)。中位单词错误率(WER)分别为12.4%(99%CI[8.01,22.7])、11.1%(99% CI[8.01,23.1])和13.3%(99% CI[7.69,28.3])(图20B;原始词汇表的WER为10.53%(99% CI[5.76,24.8])。总体而言,没有发现任何两个词汇表的CER或WER之间存在显著差异(对于所有比较,P>0.01,利用6向Holm-Bonferroni校正的双侧Wilcoxon秩和测试),这说明我们的拼读方法向更大词汇量的可推广性,从而实现流畅交流。
最后,为了评估我们的拼读方法向行为环境的可推广性,我们测量了参与者在对话任务条件下参与的表现。在此种情况的每次试验中,参与者或者被呈现问题(作为文本呈现在屏幕上),或者没有被呈现任何刺激。然后,他尝试拼出对所呈现问题凭意志选择的响应,或者在没有呈现刺激的情况下拼出任意句子。为了测量每个经解码句子的准确度,我们要求参与者点头指示句子是否与他想要的句子完全匹配。如果句子没有被完全解码,则参与者使用他的商业上可获得的协助交流装置来拼出他的预期消息。跨此种实时对话任务条件的28次试验,中位CER为14.8%(99% CI[0.00,29.7]),并且中位WER为16.7%(99% CI[0.00,44.4])(图20C、图20D)。我们观察到,与复印打字任务相比,解码错误率略有增加,这可能是由于参与者使用不能很好地用语言模型来表示的不完整的句子(诸如“外出”和“夏天”)作出响应。然而,这些结果证明我们的拼读方法可以使使用者能够产生对问题的响应以及未受提示的凭意志选择的消息。
讨论
此处,我们证明了患有构音障碍的瘫痪个人可以控制神经假体,以使用尝试无声地说话来实时地拼出预期消息。在用语音丰富的码字来表示单独字母和用尝试手部移动来指示句子结束的命令情况下,我们使用了深度学习和语言建模技术来从脑皮层电图(ECoG)信号中解码句子。通过以下方式,这些结果显著扩展了我们之前对同一参与者的单词解码发现20:实现完全无声控制,利用高频和低频ECoG特征,包括非语音运动命令来最终确定句子,通过拼读促进大词汇量句子解码,并且证明相关皮层活动在装置植入后超过128周的持续稳定性。
拼读脑机接口(BCI)的先前实现已经证明,使用者可以通过视觉上注意屏幕上的字母29、30,或者通过使用运动想象来控制二维计算机光标4、5或者尝试手写字母6,来打出预期消息。在过去的20年中,在运动皮层中使用穿透微电极阵列的BCI性能稳步改善31-33,最近在一名参与者中实现了高达每分钟90个字符的拼读速率6,然而此参与者能够正常说话。我们的结果扩展了拼读BCI应用的直接实用和临床可行的控制模式列表,以包括使用植入的ECoG阵列进行无声尝试语音,由于语音的相对自然性,这可能是一些患者日常使用的首选7,并且通过使用具有更宽皮层覆盖范围的侵入性更小的非穿透电极阵列,在患者之间可能更加长期鲁棒。
在事后分析中,我们表明,由于更多的语言信息被结合至拼读流水线,解码性能得到改善。此种信息有助于促进使用1,152个单词的词汇表进行实时解码,从而允许各种各样的一般和临床相关的句子作为可能的输出。此外,通过离线模拟,我们使用包含超过9,000个常见英语单词的词汇表验证了此种拼读方法,这超过了基本流利性的所估计词汇量阈值,并且实现了一般交流34、35。这些结果增加了一致的发现,即语言建模可以显著改善基于神经的语音解码12、15、20,并且证明了基于语音的拼读方法对于通用协助交流系统的直接可行性。
在此项研究中,我们表明,在有构音障碍的个人进行无声语音尝试期间记录的神经信号可以有效地用于驱动语音神经假体。为了支持这些信号包含与公开语音尝试期间记录的信号相似的语音运动表示的假设,我们示出了仅经训练以对公开语音尝试进行分类的模型可以实现对无声语音尝试的高于偶然性分类,且反之亦然。此外,对于公开和无声语音,对分类性能贡献最大的电极的空间定位是相似的,其中这些电极中的许多位于腹侧感觉运动皮层,即与发音语音运动处理密切相关的大脑区域中8-10、36
总的来说,这些结果进一步验证了无声尝试语音作为想象的语音的有效替代行为策略,并且扩展了我们先前工作的发现,涉及对同一参与者的公开语音尝试进行解码20,从而表明在语音尝试期间残存发声的产生对于控制语音神经假体不是必需的。这些发现说明了对患有完全性声道瘫痪的个体(诸如患有闭锁综合征的那些)进行尝试语音控制的可行性,但是需要对这些个体进行进一步的研究,以进一步理解公开语音尝试、无声语音尝试和纯粹想象的语音之间的神经差异,以及特定的医学条件如何影响这些差异。我们期望,此处描述的方法(包括记录方法、任务设计和建模技术)将适用于与语音相关的神经科学研究和患者的BCI开发,而与他们的声道瘫痪的严重程度无关,假设他们的语音运动皮层仍然完好无损,并且他们在精神上能够尝试说话。
除了能够在侧向语音运动皮层大脑区域上实现空间覆盖之外,植入的ECoG阵列还提供了对通常在执行或尝试手部移动期间涉及的手部运动(“手动旋钮”)皮层区域中的神经群体的同时访问37。我们的方法是首先将这两个皮层区域组合以控制BCI。这最终使我们的参与者能够使用可以可靠地检测到并且以98.43%的分类准确度(99% CI[95.31,99.22])与无声语音尝试高度辨别开的尝试手部移动,以指示他何时完成了拼读任何特定句子。与先前的拼读BCI实现相比,这可能是优选的停止机制,先前的拼读BCI实现在预先指定的时间间隔过去之后或者无关地在句子完成时5或者需要头部移动来终止句子时6终止对句子的拼读。通过还允许无声语音尝试起始拼读,系统可以由参与者凭意志参与和脱离,这是实用通信BCI的重要设计特征。尽管在多模式通信BCI的第一次展示中,尝试手部移动仅用于单一目的,但是对同一参与者的单独工作表明,可使用非语音运动想象来指示几个不同的命令38
在未来的交流神经假体中,可能使用组合方法,方法能够从有限的、频繁使用的词汇表中快速解码完整的单词或短语20,以及对词汇表外的项目进行较慢的、可推广的拼读。可使用迁移学习方法以使用跨多个任务和词汇表聚集的数据对不同目的的语音模型进行交叉训练,如先前的语音解码工作中所验证的13。尽管关于植入的经皮连接器的临床和监管指南阻止参与者能够独立使用当前的拼读系统,但是完全可植入的ECoG阵列和将解码流水线与操作系统的可访问性特征整合的软件应用的开发可以允许自主使用。通过深度学习技术、语言建模以及ECoG记录提供的信号稳定性和空间覆盖范围的促进,未来的交流神经假体可以使得患有严重瘫痪和构音障碍的使用者能够使用自然的无声语音尝试产生预期消息并且使用尝试非语音运动性移动发出高水平的交互式命令,来控制协助技术和个人装置。
方法
临床试验概述
此项研究是作为手臂和声音的BCI恢复(BRAVO)临床试验(ClinicalTrials.gov;NCT03698149)的一部分来进行的。此项单机构临床试验的目标是确定ECoG和定制解码方法是否能够使协助神经技术恢复交流和活动性。美国食品药品监督管理局批准了此项研究中使用的神经植入物的研究用装置豁免。旧金山加利福尼亚大学人类研究委员会批准了此项研究方案。数据安全监控委员会同意在试验完成前公布手稿中的结果。在向参与者详细解释了关于神经植入物、实验方案和医疗风险的详细信息后,参与者表示同意参与此项研究。
参与者
参与者在研究开始时为36岁,在经历了广泛的脑桥中风后,被神经医生和语音病理医生诊断为严重的痉挛性四肢瘫痪和构音障碍。他在认知方面是完好无损的。尽管他保留了发出咕噜声和呻吟的能力,但他无法产生可理解的语言,并且由于他的病症(根据自我报告的描述),他尝试大声说话是异常费力的。他通常依靠协助性基于计算机的接口,通过残存的头部移动来控制交流。此参与者已经参与了作为此临床试验一部分的先前研究16、20,但是来自那些研究的神经数据未用于本研究中
神经植入物
神经植入物装置由高密度脑皮层电图(ECoG)阵列(PMT)和经皮连接器(BlackrockMicrosystems)组成。ECoG阵列包含以4mm的中心到中心间距布置成网格形式的128个圆盘状电极。阵列通过手术植入大脑左半球的软脑膜表面上的与语音产生相关联的皮层区域,包括额下回的背后侧、额中回的后侧、中央前回和中央后回的前侧8、10、32。经皮连接器被植入颅骨中,以将电信号从ECoG阵列传导至可拆卸数字前端和缆线(NeuroPlex E;BlackrockMicrosystems),对获取的大脑活动进行最低限度的处理和数字化,并且将数据传输到计算机。装置于2019年2月植入,且无任何手术并发症。关于装置和手术程序的更多详细信息可在我们之前对相同装置和参与者的工作中找到16
数据获取和预处理
我们使用涉及几个硬件组件和处理步骤的流水线从植入的ECoG阵列中获取了神经特征(参见图22)。我们将前端(可拆卸数字连接器;NeuroPlex E,BlackrockMicrosystems)连接到经皮基座连接器,连接器将来自ECoG阵列的神经信号数字化,并且通过HDMI连接将其传输到数字中枢(Blackrock Microsystems)。然后,数字中枢通过光纤缆线将数字化信号传输到Neuroport系统(Blackrock Microsystems),系统对信号应用噪声消除和抗混叠滤波器,然后通过以太网连接在1kHz下将信号串流传输到单独的实时计算机(Colfax International)。
在实时处理计算机上,我们使用了定制Python软件包(rtNSR)来处理和分析ECoG信号,执行实时任务,执行实时解码,并存储数据和任务元数据16、33、34。使用此软件包,我们首先对ECoG数据的每个时间样本应用共同平均参考(跨所有电极通道)。共同平均参考通常应用于多通道数据集,以减少共享噪声35、36。然后,在两个并行处理串流中处理这些重新参考的信号,以使用利用Parks-McClellan算法设计的数字有限脉冲响应(FIR)滤波器提取高γ活性(HGA)和低频信号(LFS)特征37(参见图22)。简言之,我们使用了这些FIR滤波器来计算高γ频带(70Hz至150Hz)中信号的分析振幅以及信号的抗混叠版本(截止频率为100Hz)。我们将时间同步化高γ分析振幅和经下采样的信号组合成200Hz的单一特征串流。接下来,我们使用30秒的滑动窗口计算运行统计,对每个通道和每个特征类型的值进行z评分。最后,我们实现了伪影拒绝方法,方法识别包含z评分幅值大于10的至少32个特征的神经时间点,用前一时间点的z评分值替换这些时间点中的每一个,并且在更新运行的z评分统计时忽略这些时间点。在实时解码和离线分析期间,我们使用z评分的高γ分析振幅作为HGA特征,并且使用z评分的经下采样的信号作为LFS特征(并且使用这两者的组合作为HGA+LFS特征集)。在使用这些特征串流进行推断之前,神经分类器进一步以因子6对它们进行下采样(使用截止频率为16.67Hz的抗混叠滤波器),但是语音检测器并未如此。
我们在参与者住所附近的小办公室中执行了所有的数据收集和实时解码任务。我们将数据上传到我们实验室的服务器基础设施,并使用此基础设施上托管的NVIDIA V100GPU来训练解码模型。关于记录硬件、参与者的任务设置程序和临床试验方案的额外信息在我们之前的工作中提供16
任务设计
我们在两种一般类型的任务期间记录了参与者的神经数据:孤立目标任务和句子拼读任务(图21)。在孤立目标任务的每次试验中,文本目标出现在屏幕上,并且在任一边上有4个点。两边上的点逐个消失,直到没有点剩余,此时文本目标变成绿色,以表示go提示。在此go提示下,如果目标是NATO码字或者英语字母,则参与者均尝试说出目标(无声地或者大声地,取决于当前的任务说明)。如果目标是包含单词“正确”和指向右边的箭头的文本字符串,则参与者转而尝试握他的右手。我们使用在孤立目标任务期间收集的神经数据来训练和优化检测和分类模型,并且评估分类器性能(参见方法S1)。
在结果部分的开始和图15中描述了句子拼读任务。简言之,参与者使用完整的拼读流水线(在下面的子部分中描述)来拼读在复印打字任务条件下作为目标呈现给他的句子,或者在对话任务条件下拼读任意句子。我们没有实现允许参与者追溯性地改变预测的句子的功能,但是语言模型可以在接收到额外的字符预测后改变句子中先前预测的单词。使用在句子拼读任务期间收集的数据来优化束搜索超参数并且评估完整的拼读流水线。
建模
当参与者尝试产生码字和手部运动指令时,我们使用在孤立目标任务期间收集的数据来拟合检测和分类模型。在离线拟合这些模型之后,我们将经训练的模型保存到实时计算机,以在实时测试期间使用。除了这两个模型,我们还使用语言模型来实现句子拼读。我们在保留的验证数据集上使用超参数优化程序来选择用于模型超参数的值(参见表S2)。
语音检测
为了确定参与者何时尝试参与拼读系统,我们开发了实时无声语音检测模型。与以前的实现类似,此种模型使用长短期记忆层,一种递归神经网络层,来实时处理神经活动,并且检测无声说话的尝试16。此种模型在200Hz下使用了LFS和HGA特征(总共256个单独的特征)。
使用监督学习和截断的通过时间反向传播来训练语音检测模型。对于训练,我们根据当时任务的当前状态,将神经数据中的每个时间点标记为四种类别中的一种:‘休息’、‘语音准备’、‘运动’和‘语音’。虽然在实时评估期间仅使用了语音概率来参与拼读系统,但是在训练期间包括了其他标签来帮助检测模型区分尝试说话和其他行为。关于语音检测模型的更多详细信息参见方法S2和图23。
分类
我们训练了人工神经网络(ANN),以从与孤立目标试验或2.5秒的字母解码循环i相关联的神经活动xi的时间窗口中,对尝试码字或手部运动命令yi进行分类。训练程序是最大可能性估计的一种形式,其中在给定由θ参数化并以神经活动xi为条件的ANN分类器的情况下,我们在模型拟合期间的目标是找到将训练标签的概率最大化的参数θ*。此可以写成下面的优化问题:
θ*
argmaxθΠipθ(yi|xi)=argmaxθilogpθ(yi|xi)=argminθ-∑ologpθ(yi|xi)
我们使用随机梯度下降和Adam优化器来近似最佳参数θ* 38
为了对神经时间序列数据的时间动态进行建模,我们使用了ANN,在输入层上进行一维时间卷积,然后是两层双向门控递归单元(GRU)39,总共三层。我们将最后一个GRU层的最终输出乘以输出矩阵,然后应用softmax函数来产生在给定xi情况下的27个标签中每个标签的所估计概率关于数据增强、超参数优化和用于拟合神经分类器的训练程序的更多详细信息参见方法S3。
用于句子拼读的分类器集成:在句子拼读期间,我们使用了模型集成,以通过减少由随机参数初始化引起的过度拟合和不想要的建模方差来改善分类性能40。具体而言,我们使用相同的训练数据集和模型架构,但用不同的随机参数初始化来训练10个单独的分类模型。然后,对于神经活动xi的每个时间窗口,我们将来自这10个不同模型的预测进行平均,以产生最终预测
用于句子拼读的增量分类器重新校准
为了改善句子拼读性能,我们根据在之前会话的句子拼读任务期间记录的数据(加上来自孤立目标任务的数据),训练在句子拼读期间使用的分类器。为了在训练这些分类器时仅包括高质量的句子拼读数据,我们仅使用了以0的字符错误率解码的句子中的数据。
束搜索
在句子拼读期间,我们的目标是在给定神经数据X情况下计算出最可能的句子文本s*。我们使用Hannun等人19的公式,以在给定其来自神经数据的可能性和其在经调整的语言模型先验下的可能性情况下找到s*,这允许我们将单词序列概率与神经分类器的预测结合起来。这可以用公式表示为:
s*=argmaxspnc(s|X)plm(s)α|s|β
此处,pnc(s|X)是在神经分类器下在给定每个神经活动窗口情况下的概率s,其等于由神经分类器针对每个神经活动xi窗口给出的s中的每个字母的概率的乘积。plm)是在语言模型先验下句子s的概率。此处,我们使用了n元语法语言模型来近似plm)。我们的n元语法语言模型,在n=3时,提供了在给定句子中的前面两个单词情况下每个单词的概率。然后,将在句子的语言模型下的概率视为在给定每个单词前面的这两个单词的情况下,每个单词的概率的乘积(参见方法S5)。
如在Hannun等人19中,我们假设n元语法语言模型先验太强,并且使用超参数α对其进行降权。我们还包括单词插入奖励β,以鼓励语言模型倾向于包含更多单词的句子,从而抵消语言模型的隐含后果,后果导致其下的句子的概率plm(s)随着s中单词数量的增加而减少。|s|表示s的基数,其等于s中的单词数量。如果句子s是部分完成的,则在计算plm(s)和|s|时,仅考虑s中最后一个空白字符前面的单词。
然后,我们使用如在Hannun等人19中的迭代束搜索算法来近似在每个时间点t=τ处的s*。我们使用t=τ-1中最可能的B个句子的列表(或者如果t=1,则使用包含单个空字符串元素的列表作为候选前缀集,其中B是束宽度。然后,对于每个候选前缀l和pnc(c|xτ)>.001的每个英语字母c,我们通过考虑l后跟c来构造新的候选句子。此外,对于每个候选前缀l和由一个英语字母后跟空白字符构成且pnc(c+|xτ)>.001的每个文本字符串c+,我们通过考虑l后跟c+来构造更多新的候选句子。此处和在整个束搜索中,我们针对每个c和对应的c+考虑了pnc(c+|xτ)=pnc(c|xτ)。接下来,我们丢弃了包含在我们受约束的词汇表中是无效的单词或部分完成的单词的任何所得候选句子。然后,我们利用对每个剩余的候选句子/>进行重新评分。然后,最可能的候选句子s*作为反馈显示给参与者。
我们使用超参数优化来选择α、β和B的值(关于更多详细信息参见方法S4)。
如果在任何时间点t,尝试手部运动命令(句子终结命令)的概率大于80%,则处理来自束搜索的前一次迭代的B个最可能的句子,以去除具有不完整单词或不在词汇表中的单词的任何句子。然后,每个剩余句子的概率被重新计算为
此处,表示在DistilGPT-2语言模型(GPT-2的低参数变体)下/>的概率(关于更多详细信息参见方法S5),并且αgpt2表示通过超参数优化设定的比例缩放超参数。在给定此公式情况下的最可能的句子/>然后被显示给参与者,并且被存储为最终确定的句子。
关于束搜索算法的更多详细信息参见方法S4。
性能评估
字符错误率(CER)和单词错误率(WER):
由于CER和WER受短句的影响过大,如在之前的研究6、16中,我们将CER和WER报告为句子拼读块中每个预测的句子与目标句子之间的字符或单词编辑距离之和,并且然后将此数字除以跨块中所有目标句子的字符或单词的总数。每个块包含二次至五次句子试验。
在对话任务条件期间评估性能:
为了获得基础真值句子,以计算句子拼读任务的对话条件的CER和WER,在完成每个块后,我们提醒参与者该块中的问题和经解码的句子,并且然后对于每个经解码的句子,他或者确认经解码的句子是正确的,或者使用他的商业上可获得的协助交流装置打出预期句子。用于评估的每个块包含二次至四次句子试验。
每分钟字符数和单词数:
我们计算了每个句子拼读(复印打字)块的每分钟字符数和每分钟单词数,如下所示:
此处,i索引每次试验,Ni表示针对试验i解码的单词或字符(包括空白字符)的数量,并且Di表示试验i的持续时间(以分钟为单位;被计算为对应于试验i中最后一个码字的神经活动窗口结束的时间与试验i中第一个码字的go提示时间之间的差值)。
电极贡献
为了使用在孤立目标任务期间记录的数据来计算电极贡献,我们计算了分类器的损失函数相对于输入特征跨时间的导数,如在Simonyan等人41中,从而产生预测的模型输出在每个时间点在多大程度上受每个电极和特征类型(HGA或LFS)的输入特征值的微小变化影响的量度。然后,我们计算了这些值跨时间的L2范数,并且对跨所有孤立目标试验的结果值进行平均,从而针对该分类器的每个电极和特征类型产生单个贡献值。
交叉验证
对于每个折叠,我们使用了孤立目标任务的分层交叉验证折叠。我们将每个折叠分成包含90%的数据的训练集和包含剩余10%的数据的保留测试集。然后选择10%的训练数据集作为验证集。
分析神经特征主成分
为了表征HGA和LFS神经特征,我们使用了自举主成分分析。首先,对于每个NATO码字,我们从该码字的前318次无声尝试孤立目标试验中随机采样(有放回)神经活动的提示对齐时间窗口(跨越go提示到go提示后2.5秒)。为了清楚地理解用于分类的每个特征串流的作用,我们以因子6对信号进行下采样,以获得分类器使用的信号。然后,我们对每个码字的数据进行试验平均,得到每个电极和特征集(HGA、LFS和HGA+LFS)跨时间的26个试验平均值。然后,我们通过串联每个特征的试验平均活性将其布置成维数为N x TC的矩阵,其中N是特征的数量(对于HGA和LFS为128;对于HGA+LFS是256),T是每个2.5秒窗口中的时间点的数量,并且C是NATO码字的数量(26)。然后我们沿着此矩阵的特征维度执行了主成分分析。此外,我们将每个码字的试验平均数据布置成维数为T x NC的矩阵。然后我们沿着时间维度执行了主成分分析。对于每次分析,我们执行了测量程序100次,以获得解释多于80%的方差所需要的主成分的最小数量的代表性分布。
最近类别距离比较
为了比较码字和字母的最近类别距离,我们首先计算了跨每个码字和字母的47次无声尝试孤立目标试验组合的HGA+LFS特征集的1,000次自举迭代的平均值。然后,我们计算了每一对组合之间的差异的Frobenius范数。对于每个码字,我们使用该码字与任何其他码字之间的最小计算距离作为最近类别距离。然后我们对字母重复此过程。
向更大的词汇量的可推广性
在实时句子拼读期间,参与者创建了由来自1,152个单词的词汇表的单词构成的句子,词汇表包含常见单词和与临床护理相关的单词。为了评估我们系统的可推广性,我们使用三个更大的词汇表在离线模拟中测试了句子拼读方法。这些词汇表中的第一个是基于‘牛津3000’单词列表,列表由3,000个核心单词构成,这些核心单词是基于它们在牛津英语语料库中的频率以及与讲英语者的相关性选择的42。第二个是基于‘牛津5000’单词列表,其为利用另外2,000个常用相关单词被增强的‘牛津3000’单词列表。第三个是基于谷歌万亿单词语料库即超过1万亿单词的文本的语料库中最频繁的10,000个单词的词汇表43。为了剔除此列表中包含的非单词(诸如“f”、“gp”和“ooo”),如果由3个或更少字符构成的单词没有出现在‘牛津5000’列表中,则我们排除这些单词。在用原始1,152个单词的词汇表中尚未包括在内的单词来补充这三个词汇表中的每一个之后,这三个最终确定的词汇表包含3,303个、5,249个和9,170个单词(这些大小以介绍词汇表的相同顺序给出)。
对于每个词汇表,我们用在新词汇表下有效的n元语法重新训练在束搜索程序期间使用的n元语法语言模型(参见方法S5),并且在束搜索期间使用更大的词汇表。然后,我们使用在实时测试期间使用的相同超参数离线模拟句子拼读实验。
试验拒绝
在句子拼读任务的复印打字条件期间,参与者被指示尝试无声地拼读每个预期的句子,与作为反馈显示的经解码句子的准确度无关。然而,在少量的试验期间,参与者自我报告犯了错误(例如,由于使用错误的码字或忘记自己在句子中的位置)和有时会停止他的尝试。这主要发生在初始句子拼读会话期间,同时他仍在习惯接口。为了专注于评估我们系统的性能而不是参与者的表现,我们从性能评估分析中排除了这些试验(总共163次试验中的13次试验),并且我们让参与者在随后的会话中再次尝试拼读这些试验中的句子,以在性能评估期间保持期望的试验数量(对于75个独特句子中的每一个都为2次试验)。在评估性能指标时包括这些被拒绝的句子仅将在实时拼读块期间观察到的中位CER和WER分别适度增加为8.52%(99%CI[3.20,15.1])和13.75%(99% CI[8.71,29.9])。
在句子拼读任务的对话条件期间,如果参与者自我报告犯了错误(如在复印打字条件下),或者如果预期单词在1,152个单词的词汇表之外,则试验被拒绝。对于一些块,当我们要求参与者在块结束后报告预期响应时,他指示他忘记了他的预期响应中的一个。由于此种对话任务条件不存在基础真值,因此我们不能使用试验进行分析。在39次原始对话句子拼读试验中,参与者在2次试验中迷失方向,在6次试验期间试图使用词汇表之外的单词,并且在3次试验期间忘记了基础真值句子(剩下28次试验用于性能评估)。结合参与者使用词汇表之外的预期单词的块仅适度地将CER和WER分别提高到15.7%(99% CI[6.25,30.4])和17.6%(99% CI[12.5,45.5])。
统计测试
在此项工作中使用的统计测试都在图说明文字和文本中描述。简言之,我们使用双边Wilcoxon秩和测试来比较任何两组观察值。当观察值配对时,我们转而使用双边Wilcoxon符号秩测试。我们使用Holm-Bonferroni校正进行比较,其中潜在的神经数据不是相互独立的。我们认为P值小于0.01是显著的。我们使用排列测试计算了斯皮尔曼秩相关性的P值。对于每个排列,我们随机打乱一组观察值,并且然后确定相关性。我们将p值计算为排列的分数,排列的相关性值的幅值比根据非打乱观察计算的斯皮尔曼秩相关性更大。对于报告指标周围的任何置信区间,我们使用自举方法来估计99%的置信区间。在每次迭代(总共2000次迭代)时,我们对数据(诸如每个交叉验证折叠的准确度)进行有放回随机采样并且计算期望指标(诸如中位数)。然后在自举指标的此种分布上计算置信区间。
参考书目
1.Beukelman、D.R.、Fager,S.、Ball,L和Dietz,A.患有获得性神经病症的成人的AAC:综述,《扩大性及替代性交流(Augment.Altern.Commun)》23,230-242(2007)。
2.Felgoise、S.H.、Zaccheo、V.、Duff、J.和Simmons,Z.口头交流影响患有肌萎缩性侧索硬化的患者的生活质量,《肌萎缩性侧索硬化额颞变性(Amyotroph LateralScler.Front.Degener)》,《肌萎缩性侧索硬化额颞变性》17,179-183(2016)。
3.Brumberg,J.S.、Pitt,K.M.、Mantie-Kozlowski,A.和Burnison,J.D.用于增强和替代通信的脑机接口:教程,《美国语言病理学杂志》27,1-12(2018)。
4.Vansteensel,M.J.等人患有ALS的闭锁患者的完全植入脑机接口,《新英格兰医学杂志》375,2060-2066(2016)。
5.Pandarinath,C.等人患有瘫痪的人使用皮层内脑机接口进行高性能交流,《ELife》6,1-27(2017)。
6.Willett,F.R.、Avansino,D.T.、Hochberg,L.R.、Henderson,J.M.和Shenoy,K.V.经由手写进行高性能的大脑到文本的交流,《自然》593,249-254(2021)。
7.Branco,M.P.等人用于交流的脑机接口:患有闭锁综合征的个体的偏好,《神经康复和神经修复(Neurorehabil.Neural Repair)》35,267-279(2021)。
8.Bouchard,K.E.、Mesgarani,N.、Johnson,K.和Chang,E.F.用于语音清晰度的人类感觉运动皮层的功能组织,《自然》495,327-332(2013)。
9.Carey,D.、Krishnan,S.、Callaghan,M.F.、Sereno,M.I.和Dick,F.人类喉上声道躯体运动表示的功能性和定量MRI成像,《大脑皮层(Cereb.Cortex)》27,265-278(2017)。
10.Chartier,J.、Anumanchipalli,G.K.、Johnson,K.和Chang,E.F.人类语音感觉运动皮层的发音运动轨迹的编码,《神经元》98,1042-1054.e4(2018)。
11.Lotte,F.等人连续语音中的分段特征的脑皮层电图表示,《人类神经科学前沿》09,1-13(2015)。
12.Herff,C.等人大脑到文本:从大脑中的电话表示中解码说出的短语,《神经科学前沿》9,1-11(2015)。
13.Makin,J.G.、Moses,D.A.和Chang,E.F.用编码器-解码器框架将皮层活动机器翻译成文本,《自然神经科学》23,575-582(2020)。
14.Mugler,E.M.等人使用来自功能性语言运动皮层的信号对所有美式英语音位进行直接分类,《神经工程学杂志》11,035015-035015(2014)。
15.Sun,P.、Anumanchipalli,G.K.和Chang,E.F.Brain2Char:从大脑记录中解码文本的深层架构,《神经工程学杂志》17,066015(2020)。
16.Moses,D.A.等人用于解码患有构音障碍的瘫痪个人的语音的神经假体,《新英格兰医学杂志》385,217-227(2021)。
17.Adolphs,S.和Schmitt.口头语篇的词汇覆盖,《应用语言学(Appl.Linguist.)》24,425-438(2003)。
18.van Tilborg,A.和Deckers,S.R.J.M.AAC中的词汇表选择:核心词汇在非典型群体中的应用,《ASHA特殊利益集团的观点(Perspect.ASHA Spec.Interest Groups)》1,125-138(2016)。
19.Hannun,A.Y.、Maas,A.L.、Jurafsky,D.和Ng,A.Y.使用双向递归DNN的第一遍大词汇量连续语音识别,ArXiv14082873Cs(2014)。
20.Silversmith,D.B.等人通过神经图稳定实现脑机接口的即插即用控制,《自然生物技术》39,326-335(2020)。
21.Rezeika,A.等人脑机接口拼读器:综述,《脑科学(Brain Sci.)》8,57(2018)。
22.Sellers,E.W.、Ryan,D.B.和Hauser,C.K.非侵入性脑机接口使得能够在脑干中风后进行交流,《科学转化医学》6,257re7-257re7(2014)。
23.Gilja,V.等人通过控制算法设计实现的高性能神经假体,《自然神经科学》15,1752-1757(2012)。
24.Kawala-Sterniuk,A.等人利用脑机接口超过五十年的总结-综述,《脑科学》11,43(2021)。
25.Serruya,M.D.、Hatsopoulos,N.G.、Paninski,L.、Fellows,M.R.和Donoghue,J.P.移动信号的即时神经控制,《自然》416,141-142(2002)。
26.Wolpaw,J.R.、McFarland,D.J.、Neat,G.W.和Forneris,C.A.用于光标控制的基于EEG的脑机接口,《脑电图与临床神经生理学(Electroencephalogr.Clin.Neurophysiol.)》78,252-259(1991)。
27.Laufer,B.百分之多少的文本词汇对理解是必不可少的,Spec.Lang.Hum.Think.Think.Mach.316323,(1989)。
28.Webb,S.和Rodgers,M.P.H.电视节目的词汇需求,《语言学习(Lang.Learn.)》59,335-366(2009)。
29.Nourski,K.V.等人人类听觉皮层的声音识别:直接颅内记录揭示的局部场电位和高γ能量的不同贡献,《大脑与语言(Brain Lang.)》148,37-50(2015)。
30.Conant,D.F.、Bouchard,K.E.、Leonard,M.K.和Chang,E.F.人类感觉运动皮层对元音产生期间直接测量的声道移动的控制,《神经科学杂志》38,2382-17(2018)。
31.Gerardin,E.等人真实和想象的手部移动的部分重叠神经网络,《大脑皮层》10,1093-1104(2000)。
32.Guenther,F.H.和Hickok,G.运动语音控制的神经模型,选自:《语言神经生物学》725-740(Elsevier,2016)。
33.Moses,D.A.、Leonard,M.K.和Chang,E.F.使用人类的诱发的皮层活动对听觉句子进行实时分类,《神经工程学杂志》15,(2018)。
34.Moses,D.A.、Leonard,M.K.、Makin,J.G和Chang,E.F.使用人类皮层活动对问答语音对话进行实时解码,《自然通讯》10,3096(2019)。
35.Ludwig,K.A.等人使用共同平均参考来改善来自微电极阵列的皮层神经元记录,《神经生理学杂志》101,1679-89(2009)。
36.Williams,A.J.、Trumpis,M.、Bent,B.、Chiang,C.-H.和Viventi,J.用于比较局部和共同平均参考信号的新型μECoG电极接口,选自:《2018年IEEE医学与生物工程学会第40届国际年会(EMBC)》5057-5060(IEEE,2018).doi:10.1109/EMBC.2018.8513432。
37.Parks,T.W.和McClellan,J.H.利用线性相位的非递归数字滤波器的切比雪夫近似,《IEEE电路理论汇刊》19,189-194(1972)。
38.Kingma,D.P.和Ba,J.Adam:用于随机最佳化的方法,ArXiv14126980Cs(2017)。
39.Cho,K.等人使用统计机器翻译的RNN编码器-解码器的学习短语表示,选自:1724-1734(2014).doi:http://dx.doi.org/10.3115/v1/D14-1179。
40.Fort,S.、Hu,H.和Lakshminarayanan,B.深度集成体:损失景观透视,ArXiv191202757Cs Stat(2020)。
41.Simonyan,K.、Vedaldi,A.和Zisserman,A.深层卷积网络:可视化图像分类模型和显著性图,ArXiv13126034Cs(2014)。
42.关于牛津学习词典中的牛津3000和5000个单词列表,https://www.oxfordlearnersdictionaries.com/us/about/wordlists/oxford3000-5000。
43.Brants Thorsten和Franz,Alex.Web 1T 5-gram版本1,20971520KB(2006)doi:10.35111/CQPA-A498。
实例4:参与者对公开和无声语音尝试的调查
我们向参与者提出了关于使用无声或公开说话尝试来控制拼读系统的以下问题。每个问题后都会提供参与者的响应。
1.你认为你可以在多长时间内舒适地使用拼读系统以公开语音尝试进行交流?响应:15分钟。
2.你认为你可以在多长时间内舒适地使用拼读系统以无声语音尝试进行交流?响应:30分钟。
3.你能对你使用利用公开语音尝试的拼读系统的舒适度按照从1到10的级别分等级吗?响应:5
4.你能对你使用利用无声语音尝试的拼读系统的舒适度按照从1到10的级别分等级吗?响应:8
5.在使用利用公开语音尝试的拼读系统的go提示之间,你需要的最小时间量是多少?响应:4秒
6.在使用利用无声语音尝试的拼读系统的go提示之间,你需要的最小时间量是多少?响应:2.5秒
7.使用无声语音尝试与使用公开语音尝试来控制拼读器装置相比如何?
(a)无声比公开容易得多
(b)无声比公开更容易
(c)无声等同于公开
(d)无声比公开更难
(e)无声比公开难得多
响应:(a)无声比公开容易得多
参与者的响应总结如下。总的来说,参与者更倾向于无声语音尝试来控制拼读神经假体。
实例5:数据重新归一化
为了促进跨记录会话的神经特征的一致性,我们对所有神经特征使用了运行30秒的z评分(参见图22)。然而,在参与者尝试握他的右手期间记录的神经活动与在无声语音尝试期间记录的活动相比,信号幅值通常不同。因此,当使用运行z评分时,仅利用语音内容(字母和NATO码字测试)或仅利用尝试手部移动试验的一些孤立目标任务块与同时利用语音和手部移动试验的孤立目标任务块相比,具有不同的神经特征基线。
为了减轻此种情况,我们联合地将字母和NATO码字孤立目标块和在同一天记录的尝试手部移动孤立目标块重新归一化。对于每个记录日,并且独立地对于每种语音类型(无声的或公开的),我们通过串联(沿时间维度)与这些试验相关联的神经特征(高γ活性和无z评分归一化的低频信号)的时间窗口,将在当天记录的所有尝试语音试验和尝试手部移动试验进行组合。对于每次试验,这些神经特征的时间窗口在go提示前2秒到go提示后3.5秒的范围内。为了减少这些非归一化信号中潜在信号伪影的影响,我们将每个特征(每个特征类型的每个电极通道)的信号幅值修剪为在针对该特征记录的信号幅值的第1个和第99个百分位数内。然后,我们通过减去串联数据矩阵的特征均值并且除以其特征标准偏差,将在当天记录的每次试验的神经特征重新归一化。注意,仅包含尝试语音或仅包含尝试手部移动的一些任务块不以此种方式重新归一化(如果不存在在同一天记录的这两种类型的数据)。此外,由于在同样记录了公开和无声尝试NATO码字孤立目标的日期记录了一些尝试手部移动块,此意味着存在三种可能类型的尝试手部移动块:没有被重新归一化的块(这些块没有与仅包含尝试语音的块在同一天被记录)、用仅包含公开语音尝试的块重新归一化的块以及用仅包含无声语音尝试的块重新归一化的块。来自没有被重新归一化的任务块的数据使用运行30秒z评分归一化程序和图22中描述的自动伪影拒绝。
实例6:用于拼读解码的补充信息
部分S1.孤立目标任务
我们记录了参与者在孤立目标任务期间无声地(或有时公开地)尝试说出经提示话语或执行经提示运动性移动时的神经活动。如主文本的方法部分所述,孤立目标任务的每次试验从在参与者的屏幕上以文本形式呈现单一语音或运动目标开始,在文本任一边上具有4个点。这些点以恒定速率一次消失一个(同时在文本的每一边上),从而向参与者提供任务计时。当最后一个点消失时,文本目标变成绿色,表示go提示。在此go提示下,参与者被指示尝试产生目标。在屏幕被清空和下一次试验开始之前,文本目标在参与者的屏幕上保留了短暂的间隔。
我们使用孤立目标范式收集了以下四个话语集,用于训练语音检测和神经分类模型:
1.26个英语字母
2.26个NATO码字
3.26个NATO码字和尝试握手
4.尝试握手和3次其他尝试运动性移动
在孤立目标任务的每个块内,倒计时点消失的速率τp和目标文本在go提示后保留在屏幕上的持续时间τt跨单个块内的试验相同。然而,这两个任务间隔参数在块之间不同。对于尝试运动性移动块,我们使用了每个点τp∈[0.35,0.5]秒和τt=4.0秒。对于所有其他孤立目标块,我们使用了每个点τp∈[0.45,1.5]秒和τt∈[0.45,6.0]秒。
部分S2.语音检测模型
我们设计了语音检测模型来实时地分析神经特征,以识别无声尝试语音事件何时发生。我们使用此语音检测器使得拼读系统能够在实时句子拼读期间凭意志参与。用于训练和评估语音检测器的所有数据或者是尝试握手,或者是无声地尝试语音(没有使用公开地尝试语音数据)的试验。
数据准备
我们使用来自包含26个NATO码字的试验的孤立目标任务块、包含26个NATO码字的试验和尝试握右手的块以及包含包括尝试握手的各种尝试运动性移动(从中我们仅使用了尝试握手)的块的数据来训练语音检测器。我们使用四个类别来标记神经特征数据的每个时间点,以训练语音检测器:“语音准备”、“语音”、“运动”和“休息”。目标NATO码字出现在参与者的屏幕上与相关联go提示之间的时间点被标记为语音准备。NATO码字尝试的go提示与该go提示后1秒之间的时间点被标记为语音。在尝试握手的go提示与该go提示之后2秒之间的时间点被标记为运动。在针对尝试分派的时间段结束(对于语音为go提示后1秒或对于握手为2秒)与该试验结束(当屏幕清空用于试验间隔时)之间的时间点没有进行训练。用于语音检测器的训练数据包括尝试运动孤立目标任务的块。对于仅包含尝试运动性移动的块,忽略了在不为尝试握手的尝试运动试验期间的时间点。所有其他时间点被标记为休息。
语音检测器使用了低频信号(LFS)和高γ活性(HGA)作为200Hz的特征。注意,这与分类器不同,分类器也使用这些特征,但进一步将其下采样到33.3Hz。
模型架构和训练
我们使用Python 3.6.6和PyTorch 1.6.0来创建和训练语音检测器[1]。语音检测器包含分别具有100个、50个和50个节点的3个长短期记忆(LSTM)层的堆叠。LSTM层之后是单一完全连接的层,它将潜在维度投射到跨四个类别(语音准备、语音、休息和运动)的概率。模型对连续地来自特征串流的每个时间点进行处理,从而输出概率的连续串流(在200Hz下每个神经特征时间点一个预测的概率向量)。模型的示意图示于图23中。
对语音检测模型进行训练以将经修改的交叉熵损失最小化。交叉熵损失最初被定义为:
其中:
·P:类别的真实分布,由分配的类别标签确定。
·N:样本数量。
· 的预测的分布相对于真实分布的交叉熵。
·log:自然对数。
我们修改了此种损失,以增加对3种错误预测的额外惩罚:被标记为运动但被预测为语音的时间点、被标记为语音但被预测为运动的时间点以及被标记为休息但被预测为语音的时间点。实际上,我们将wn定义为1.1。通过这些修改,在方程S1中定义的交叉熵损失被重新定义为:
其中wn是样本n的惩罚权重,并且被定义为:
我们使用此种惩罚修改来降低语音检测器将产生假阳性错误的可能性(诸如,当参与者实际上尝试握他的手时,错误地检测到尝试语音事件)。
如之前在[2]中所述,我们使用了截断的通过时间反向传播(BPTT)来训练语音检测器。简言之,我们通过仅让语音检测模型一次反向传播500ms来手动实现BPTT,以防止模型依赖于任务周期性来进行预测。我们使用了Adam优化器来将方程S2中给出的交叉熵损失最小化[3],学习率为0.001,且剩余优化参数为默认值。为了防止过度拟合,我们在保留验证集上使用了提早停止,并且在除了最后一层之外的每个LSTM层上使用了0.5的退出。对于所有训练步骤,我们在4个可能的类别之间平衡了类别(包括相同数量的训练实例)。
事件检测
在实时句子拼读期间,语音检测器连续地处理LFS和HGA的时间点,并且产生了无声语音概率的串流。我们使用在[2]的补充部分S8中描述的相同方法从概率的此串流中识别无声语音事件。简言之,语音概率首先使用移动窗口平均值进行时间平滑处理。然后,我们使用概率阈值对经平滑的概率进行二值化。最后,我们通过在二元状态的变化(从不存在语音到存在语音,或反之亦然)被认为是语音开始或结束之前要求变化必须持续长于特定持续时间,来对这些二值化值进行“去抖”。这3个参数值是经由超参数优化选择的,并且列于表S2中。
超参数优化
超参数优化过程与我们之前的工作相同[2]。简言之,我们使用了hyperoptPython包[4]以通过基于检测评分将成本函数最小化来优化这3个检测超参数。如在[2]的补充部分S8中所定义的,检测评分是囊括单独时间点多么准确地被预测为语音或非语音以及检测器总体上多么准确地识别尝试语音事件的量度。用于优化超参数的成本函数寻求将检测评分最大化,同时将时间阈值参数最小化(因为我们想要将检测无声语音尝试所需要的时间量最小化。成本函数被定义为:
chp(Θ)=(1-s,检测)2时间θ时间, (S4)
其中:
·chp(Θ):使用超参数值组合θ的目标函数值。
·λ时间:应用于时间阈值持续时间的惩罚。
·θ时间:时间阈值持续时间值,其为θ中包含的三个参数中的一个。
此处,我们使用了λ时间=0.00025。
由于我们仅优化了应用于语音概率的检测参数,因此我们能够从经训练的模型计算跨任务块集的语音概率,并且使用来自这些块的语音概率来评估超参数组合。在根据孤立目标块对模型进行训练后,我们使用了模型以预测包含NATO码字无声语音尝试和尝试握手的孤立目标任务的12个保留块的语音概率。我们选择在包含无声语音尝试和尝试握手的块上优化,因为实时句子拼读任务涉及这两种类型的尝试。在1000次优化迭代之后,我们从具有最低成本值的优化运行中选择最终超参数。
部分S3.分类模型
数据准备
我们使用来自包含26个NATO码字的试验的孤立目标任务块、包含26个NATO码字的试验和尝试握右手的块以及包含包括尝试握手的各种尝试运动性移动(从中我们仅使用了尝试握手)的块的数据来训练分类器。对于在特征类型、语音类型和话语集比较期间使用的分类器,仅使用了来自孤立目标任务块的数据。
在针对实时句子拼读(和相关联的离线分析)训练分类器期间,我们还包括句子拼读(复印打字)试验,其中经解码句子具有0.0的字符错误率(CER)。这些句子拼读试验构成了公开语音尝试数据的3.06%(收集了利用公开语音尝试的初步句子拼读试验,但在评估期间没有使用)以及用于无声语音尝试的数据的22.7%。对于这些分类器,我们还使用了迁移学习方法对公开语音尝试进行预训练,并且然后对无声语音尝试进行微调(除非另有说明;稍后在本部分中提供更多详细信息)。我们从未包括分类器训练期间的句子拼读试验,这些试验是在与测试期间使用的任何试验相同的会话(或者,对于相关联的离线分析,为其前一会话)期间被记录;在评估会话期间,分类器未被重新校准或更新。下表描述了用于某些评估的某些数据集的使用。
*=在适用情况下用于预训练和微调(关于更多详细信息参见图18)
用于评估的数据与用于超参数优化的数据之间没有重叠。
对于每个孤立目标试验,我们将神经特征(200Hz的高γ活性(HGA)和低频信号(LFS)特征)的相关时间窗口定义为go提示之前的2秒到之后的4秒。此神经特征窗口大于实际用于训练和测试的窗口(在下面的“架构和训练”子部分中详细描述),因为我们采用了时间抖动数据增强,其中较小的窗口是从此较大的试验相关窗口中拉出。然后,我们用在抽取之前应用的16.67Hz的抗混叠滤波器按照因子6将神经活动抽取至33.33Hz。我们对每个时间样本进行归一化,以具有为1的跨所有神经特征(每个电极通道且分别用于HGA和LFS特征类型)的l2范数。对于实时推断和离线评估,我们在神经活动的相关时间窗口期间使用了组合的(串联的)HGA+LFS特征。因此,对于每个训练实例,我们具有形状为(T,C)的神经活动xi矩阵,其中T是时间步长的数量,并且C是指256个特征(128个电极中的每个电极的2个特征)。如果仅一个特征串流被用于特定分析,则C将等于128。
建模架构和训练
为了对参与者在无声语音尝试期间的神经活动的时间和空间动态进行建模,我们对人工神经网络进行了训练,以给定相关联go提示后2.5秒的神经特征窗口情况下,对参与者已经产生的哪个NATO码字(或想象的握手)进行分类。我们使用门控递归单元(GRU)层[5],层已经被示出为在序列任务[7]上优于其他递归架构(诸如长短期记忆网络)[6]。
在分类器中,神经特征首先通过由权重W和偏差项b参数化的1维卷积层进行处理。此得到了输出表示hn(隐层n的输出),其被定义为:
其中h1,j是隐层1的输出的元素j,*表示有效的互相关算子,并且C指输入矩阵xi中神经特征的数量。
此表示然后被传递到n个GRU层的堆叠中。每个单元由Wi、bi、Wh和bh参数化,它们是分别作用于输入和隐状态的权重和偏差。每个矩阵的部分专用于复位门rt、更新门zt和新门nt
在每个时间点t,GRU计算了:
rt=σ(Wir xt+bir+Whr h(t-1)+bhr),
zt=σ(Wiz xt+biz+Whz h(t-1)+bhz),
nt=tanh(Winxt+bin+rt*(Whnh(t-1)+bhn)),
ht=(1-zt)*nt+zt*h(t-1)
其中*表示哈达玛乘积,σ表示S型函数,并且ht是此层在每个时间点t的输出。基本上,GRU在每个时间点决定在使用zt给定新活动(合并了重置函数)情况下将隐状态从其先前值更新多少。每层的输出hn用作下一层的输入。在训练期间,为了将过度拟合最小化,我们使用了退出[8]以概率p退出将hn的元素随机设定为0.0,概率是通过超参数优化确定的。
为了改善准确度,我们使用了双向GRU层。此意味着在每个GRU处,输入被复制,反向翻转,并且然后用作网络的输入。这使我们能够学习前向和后向表示,并且在预测类别概率时将它们用作上下文。
为了在给定最后一个GRU层的最终时间点的情况下计算在26个NATO码字和想象的握手上的预测的概率分布,我们将其乘以矩阵W输出并且添加偏差项b输出,其中W输出具有形状(Nhn,27),其中Nhn对应于最后一个GRU层中隐单元的数量。然后,我们将softmax函数应用于这些激活,从而给出每个窗口i和每个元素(类别)k的输出向量的值为:
其中可以被认为是在给定样本xi和我们的神经网络模型θ的参数的情况下,在可能的输出类别上的多项式分布。
训练期间的目标是在给定神经活动和θ的情况下,将我们的标记训练数据的可能性最大化,这可以写成优化问题:
我们使用小批量随机梯度下降来近似此问题的解决方案,以解决等效的优化问题:
/>
具体而言,我们使用Adam优化器[9],其结合了梯度的均值和非中心方差的自适应估计,以提高收敛速率。我们使用PyTorch 1.6.0实现了神经网络模型和优化程序[10]。我们在验证集准确度没有改善的5个历元后提早停止模型,并且使用对应于最高验证集准确度的模型参数。
对于实时推断,我们通过对10个模型预测求平均来集成模型,以改善性能,如[2]中所示。
我们使用利用2.69秒的神经特征窗口进行训练且然后使用2.5秒的窗口进行测试的模型。此种差异是由在收集句子拼读评估块之前对任务计时的改变造成的;具体而言,我们原本计划在句子拼读期间使用2.69秒的字母解码循环,并且相应地对分类器进行训练,但最终我们决定使用2.5秒的字母解码循环来加快速度。由于分类器经设计以使用灵活的窗口长度对输入执行推断,因此我们能够无缝地评估2.5秒的窗口,并且没有任何明显的性能下降。
增强
为了提高分类器性能,我们使用了数据增强,这已被证明会改善图像[11,12]和神经活动[13,14]的泛化并减少过度拟合。在训练(但不是测试)期间,将以下增强按顺序应用于神经活动xi的每次试验,而不改变相关联标签yi
1.时间抖动:将神经特征移位时间偏移τ,使得:
xi(t)=xi(t-τ),
τ~U(-j,j),
其中j为超参数。
2.时域遮蔽:将神经特征的一些时间点设定为0,使得:
xi[t0:t1]=(1-δp),t1=t0+s
s~U(0,b),
其中t0是xi内随机抽取的时间点,并且p是δp为一的概率,并且时间点被设定为0。b和p都是超参数。
3.比例缩放:对神经特征的幅值进行比例缩放,使得:
xi=αxi
α~U[αminmax],
其中αmin和αmax是超参数。
4.加性噪声:将随机高斯噪声矩阵添加到神经特征xi,使得:
其中σn是超参数。
5.通道噪声:将神经特征偏移从高斯分布随机采样到每个通道c的值,使得:
其中σch是超参数,并且在所有特征之间共享。
模型预训练和微调
当训练用于实时句子拼读的分类器集成体时,这些分类器也随后在离线分析期间用于评估束搜索、语言模型和不同词汇量对实时复印打字结果的影响,我们首先根据公开语音尝试对模型进行预训练,并且然后根据无声语音尝试对模型进行微调。具体而言,我们根据包含学习率为10-3的公开语音尝试的初始数据集对分类器进行了训练。我们将此初始数据集分成训练集和验证集,并且在验证集的准确度连续5个历元没有改善之后,我们提早停止模型,并且将模型参数重置为与最高验证准确度对应的参数。然后,从这些参数开始,我们根据包含无声语音尝试的第二个数据集对模型进行了微调,这涉及利用相同的提早停止过程但利用10-4的更小学习率,根据新数据集对经预训练的模型进行训练。
超参数优化
对于分类器,我们使用带有Ray软件包的异步超带(ASH)方法[15]优化了层数、每层中的隐节点数、核大小、步幅、退出率和增强超参数。我们使用Hyperopt软件包在每次评估运行后建议下一超参数集[16]。在S2中详细描述了搜索空间和最终值,并且我们搜索了超参数的300个可能的集合。
在超参数优化期间,我们使用了在收集任何句子拼读任务块之前记录的来自孤立目标块的公开和无声尝试试验的所有神经数据作为保留验证数据集。在此过程期间,我们使用了剩余的孤立目标试验作为训练数据。在超参数搜索中的每次评估运行期间,我们使用由算法确定的超参数集将新模型初始化,并且然后开始对模型进行训练。由于我们在微调之前执行了模型预训练,因此我们首先根据公开语音尝试期间记录的数据对模型进行了训练和评估。在训练的每个历元后,我们根据利用当前超参数集的这些公开尝试试验评估了模型准确度。由于ASH使用每一步的准确度来提早终止表现不佳的超参数组合,因此我们在此预训练过程期间将准确度比例缩放0.1,以防止其在微调开始后准确度下降时过早终止。
我们像往常一样提早停止模型,重新设置与最高准确度对应的参数。然后,从这些参数开始,我们以10-3的学习率根据数据集的无声尝试部分对模型进行了微调(和评估)。此处,我们有目的地使用了比最终训练程序期间使用的(其为10-4)更大的学习率来更快地评估超参数组合。ASH在微调过程期间监控未比例缩放的准确度值。在超参数优化数据集上的准确度连续5个历元没有改善之后,我们终止了超参数优化迭代,并且我们将最佳准确度保持为该超参数集的评分。
我们将所得最佳神经分类器超参数用于所有实时句子拼读块和分析,并且用于超参数优化的块被排除在所有分析中用作评估块之外。
在每次实时句子拼读评会话之前,我们根据当天之前的所有可用数据(包括来自其中经解码的句子具有0.0的CER的复印打字句子拼读试验的任何先前记录的数据)对10个神经分类器模型进行了训练。由于我们的记录会话不是连续几天,因此可用于训练新分类器的最新数据总是在给定会话至少3天之前(例如,如果下一次记录会话在第4天,则最新数据将来自第1天,第2天和第3天没有记录)。我们从不在会话中途更新模型;我们执行了所有实时句子拼读评估,而没有一天的模型重新校准。
部分S4.经调适的束搜索
如主文本的方法部分中所述,我们使用了如在[17]中的经调适的前缀束搜索以在可能的转录集上找到转录l*,其包含将下式最大化的字符(包括空白字符)序列
此处,X是神经活动x1,……,xT窗口的集合,是在给定X情况下在/>的神经分类器下的概率,并且/>是在语言模型先验下转录/>的概率。如在[17]中,我们假设来自n元语法语言模型的语言模型先验太受约束,因此我们使用加权参数(α)来削弱它,并且添加单词插入奖励β来补偿随着单词数量增加句子/>的概率的隐含降低,从而将束搜索试图最大化的表达式修改为
其中是从转录/>产生的单词序列的基数。α和β二者都是经由在保留句子拼读数据上进行超参数优化而找到的超参数。我们使用了n元语法语言模型来近似/>完整的算法在算法1中详述。
句子最终确定
如果尝试手部移动(句子最终确定命令)的概率大于80%,则预测的句子被最终确定。具体而言,我们修减了候选句子的当前列表(来自束搜索)以去除包含不完整或不在词汇表中的单词的句子。然后,我们将每个剩余候选句子的概率更新如下:
其中是句子/>的最终确定的概率,/>是句子/>在方程S10下的概率,是使用Distil-GPT2[18]的/>的概率,并且αgpt2是通过超参数优化找到的比例缩放参数。然后,我们使用最可能的句子/>作为最终确定的句子。
超参数优化
为了找到最佳超参数α、β、αgpt2和B,我们收集了包含跨3个会话记录的复印打字句子拼读数据的优化数据集,以在拼读系统的性能评估之前调谐这些参数。在这3个会话期间,参与者尝试拼读75个复印打字句子中的35个。在这35个句子中,存在参与者尝试了10次的15个随机选择的句子、参与者尝试了9次的5个句子和参与者尝试了一次的15个句子。在实时评估之前,剩余的40个句子没有被参与者看到。然后我们离线使用这些句子来优化α、β、αgpt2和B。
算法1受约束的束搜索。在给定神经活动的T个窗口和p(c|x1:T)(其中c是字符)情况下,此种算法找到由受约束的词汇表V中的单词构成的最可能的句子在将字符添加到以给出/>之后,我们检查/>中的最后一个单词是否在V部分中,其由每个可能的单词和部分单词∈V构成。函数w最终提取最后一个空格后的所有字符。为了自动插入空格,词汇表考虑A+中的每个文本字符串,其中A+=A∪A空格,A是包含单个英语字母(“a”、“b”、“c”、……、“z”)的文本字符串的集合,并且A空格是与A相同的集合,但是在每个字母后面附加了空白字符(“a”、“b”、“c”、...、“z”)。我们将具有空格的字符c的概率设定成等于p(c|xi)(没有空格的该字符的概率)。此处,让函数/>在每个空格处分割字符序列/>并且截断最后一个空格后面的任何字符,产生/>中的完整单词的列表。让/>给出在给定n-1个前面单词情况下/>最后一个单词的概率,从而使得能够使用n元语法语言模型。束搜索中要考虑的字符的概率阈值被设定为10-3。B是束宽度(束搜索中使用的束的数量)。/>
与分类器一样,我们将异步超带方法[15]与Ray包[16]一起使用,从而在每次迭代后使用Hyperopt来建议下一超参数集。我们搜索了500个超参数集,并且选择了产生最佳单词错误率的集合,以用于第一天的实时句子拼读评估。在该第一天评估后,我们仅使用在当天收集的数据重新运行了超参数优化程序。在所有前面的实时句子拼读评估会话期间,我们使用在此第二次优化运行期间发现的超参数值。
无束边缘情况
对于在实时评估会话期间记录的复印打字句子拼读试验中的3次,束搜索用完了有效的句子。如果参与者犯了错误,使得没有一个可以成为有效候选句子的字母序列超过了束搜索考虑的阈值,就会发生此种情况。
在实时评估会话的第一天,如果发生此种情况,我们将简单地输出从神经分类器获得的最可能的字母(没有任何空格)。在实时评估的第二天之前,我们修改了束搜索算法,以在该点处(就在束搜索不包含有效候选句子之前)输出最可能的候选句子,并且然后输出从神经分类器获得的最可能的字母,用于试验的剩余部分。此外,对于实时评估会话的第一天,束搜索中要考虑的字母的概率阈值(参见算法1)被设定为10-3。对于实时评估的第二天,我们保持阈值不变,但修改了束搜索算法,使得如果少于3个字母(及其带有空格的对应物)具有大于>10-3的概率,则我们考虑这13个最可能的字母(及其带有空格的对应物)以避免用完有效束。
部分S5.语言建模n元语法建模
在束搜索期间,当我们用新字符更新每个束时,我们使用了三元语法语言模型,因为它是可靠的,同时也能够比基于大型神经网络的语言模型更快地产生预测。
基本的n元语法公式被定义为在位置k具有单词wk的概率:
其中C是对每个n元语法在语料库中出现的次数进行计数的函数。
通过回退和折扣可以实现改善的n元语法建模[19]。回退是指使用低阶n元语法模型来估计高阶n元语法的概率,因为高阶n元语法可以是稀疏的。n元语法概率直接取决于n元语法/>(即三元语法概率取决于二元语法和一元语法概率),如方程S13中所示。折扣是n元语法概率分布的正则化形式,其中在计算n元语法概率之前,从每个n元语法的计数中去除常数,并且通过加权的低阶n元语法模型对以此种方式去除的概率质量进行重新分布。关于更多详细信息参见[20]。
我们使用以下公式来实现折扣回退:
此处,δ是折扣系数,并且被定义为:
其中,N1+表示在前n-1个单词之后出现的独特单词的数量(最大值在方程S13中选择非零值的次数)。每当时,我们直接使用低阶模型概率来避免除以0。
我们还使用Kneser-Ney平滑处理([21])来改善S13中隐含的一元语法模型,将其替换为单词生育力,它表示单词出现在其中的不同上下文类型的数量。使用单词的上下文生育力,我们可以写出以下比例:
p(w)∝|{w′:C(w′,w)>0}|, (S15)
其中w是单词生育力,并且|·|是指基数运算。
我们现在可以将我们的一元语法模型重写为:
其中V是训练词汇表中的单词集,N是词汇表中的单词总数,并且αkn是平滑超参数,其用于防止未看见的单词的概率为0,并且防止不常用的单词被惩罚得太重。在实践中,我们定义了固定的折扣因子δ=0.9和固定的Kneser-Ney平滑因子αkn=0.003。
我们使用两个语料库来训练语言模型:nltk的Twitter语料库[22]和Cornell电影语料库[23]。我们选择这两个语料库是因为它们的语音内容具有随意性和对话性。对于任何给定的词汇表,我们根据这两个语料库中仅由该词汇表中的单词构成的所有三元语法来训练n元语法模型。在训练之前,我们在这两个语料库中的每个句子的开头之前插入了两个句子开始令牌,以使得能在推断过程期间对句子开始进行建模。
句子最终确定语言模型
为了在句子拼读期间对最终确定后的句子进行评分,我们使用了基于DistilGPT-2神经网络的语言模型[18],模型是基于OpenAI的GPT-2语言模型[24],但具有更少的参数。
补充参考文献
1.Paszke A、Gross S、Massa F等人PyTorch:命令式的高性能深度学习库,选自:《神经信息处理系统32的进展》,Wallach H、Larochelle H、Beygelzimer A、d’Alch′e-BucF、Fox E和Garnett R编辑,Curran Associates,Inc.,2019:8024-35。
2.Moses DA、Metzger SL、Liu JR等人用于解码患有构音障碍的瘫痪个人的语音的神经假体,《新英格兰医学杂志》2021;385:217-27。
3.Kingma DP和Ba J.Adam:用于随机最佳化的方法,arXiv:1412.6980 2017。
4.Bergstra J、Yamins DLK和Cox DD建立模型搜索的科学:视觉架构的数百维超参数优化,《国际机器学习大会》2013:115-23。
5.Cho K、Van Merrienboer B、Bahdanau D和Bengio Y论神经机器翻译的性质:编码器-解码器方法,arXiv preprint arXiv:1409.1259 2014。
6.Hochreiter S和Schmidhuber J长短期记忆,《神经计算》1997;9:1735-80。
7.Chung J、Gulcehre C、Cho K和Bengio Y门控递归神经网络对序列建模的经验评估,arXiv preprint arXiv:1412.3555 2014。
8.Hinton GE、Srivastava N、Krizhevsky A、Sutskever I和Salakhutdinov RR通过防止特征检测器的共同适应来改善神经网络,arXivpreprint arXiv:1207.0580 2012。
9.Kingma DP和Ba J Adam:随机优化的方法,arXiv preprint arXiv:1412.69802014。
10.Paszke A、Gross S、Massa F等人PyTorch:命令式的高性能深度学习库,选自:《神经信息处理系统32的进展》,Wallach H、Larochelle H、Beygelzimer A、d’Alch′e-BucF、Fox E和Garnett R编辑,Curran Associates,Inc.,2019:8024-35。(papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learni ng-library.pdf)
11.KrizhevskyA、SutskeverI和Hinton GE基于深度卷积神经网络的ImageNet分类。《神经信息处理系统的进展(Advances in neural information processingsystems)》2012;25:1097-105。
12.Reed CJ、Metzger S、Srinivas A、Darrell T和Keutzer K自我增强:自我监督学习的自动增强策略,选自:《IEEE/CVF计算机视觉和模式识别会议论文集(Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition)》。2021:2674-83。
13.Willett FR、Avansino DT、Hochberg LR、Henderson JM和Shenoy KV经由手写进行高性能大脑到文本的交流,《自然》2021;593:249-54。
14.Moses DA、Metzger SL、Liu JR等人用于解码患有构音障碍的瘫痪个人的语音的神经假体,《新英格兰医学杂志》2021;385:217-27。
15.Li L、Jamieson K、Rostamizadeh A等人大规模并行超参数调谐,2018。
16.MoritzP、Nishihara R、Wang S等人Ray:新兴{AI}应用的分布式框架,选自:《第13届{USENIX}操作系统设计和实现研讨会({OSDI}18)(13th{USENIX}Symposium onOperating Systems Design and Implementation({OSDI}18))》2018:561-77。
17.Hannun AY、Maas AL、Jurafsky D和Ng AY使用双向递归dnns的第一遍大词汇量连续语音识别,arXiv preprint arXiv:1408.2873 2014。
18.Sanh V、Debut L、Chaumond J和Wolf T DistilBERT,BERT的蒸馏版:更小、更快、更便宜且更轻,2020,arXiv:1910.01108[cs.CL]。
19.Chen SF和Goodman J用于语言建模的平滑技术的实证研究,《计算机语音和语言》1999;13:359-94。
20.Jurafsky D和Martin JH语音和语言处理,第3卷,US:Prentice Hall 2014。
21.Kneser R和Ney H m元语法语言建模的改进让步,选自:《1995年国际声学、语音和信号处理会议》,第1卷,IEEE.1995:181-4。
22.Bird S、Klein E和Loper E用Python进行自然语言处理:用自然语言工具包分析文本。”O’Reilly Media,Inc.”,2009。
23.Danescu-Niculescu-Mizil C和Lee L想象对话中的变色龙:理解对话中语言风格协调的新方法,选自:《认知建模和计算语言学研讨会论文集(Proceedings of theWorkshop on Cognitive Modeling and Computational Linguistics)》,ACL 2011.2011。
24.Radford A、Wu J,Child R、Luan D、Amodei D、Sutskever I等人语言模型是无监督的多任务学习者,OpenAI博客2019;1:9。
25.Romero DET和Jovanovic G数字FIR希尔伯特变换器:基本原理和高效的设计方法,选自:《MATLAB-科学计算和工程应用的基本工具》-第1卷,2012:445-82。(intechopen.com/books/matlab-a-fundamental-tool-for-scientific-computing-and-engineering-applications-volume-1/digital-fir-hilbert-transformers-fundamentals-and-efficient-design-methods)
26.Welford BP关于用于计算校正平方和与乘积的方法的注记,《技术计量学》1962;4:419-9。
27.Moses DA、Leonard MK、Makin JG和Chang EF使用人类皮层活动对问答语音对话进行实时解码,《自然通讯》2019;10:3096。
补充表S1.复印打字任务句子。
/>
补充表S2.超参数定义和值
/>
1“一致(整数)”表示超参数值被强制为整数。
2对于语言建模和束搜索超参数,列出了两个值:第一个值是在句子拼读评估的第一天之前对复印打字句子拼读试验进行优化时找到的最佳值(在该第一天使用),并且第二个是从句子拼读评估的第一天开始对复印打字句子拼读试验进行优化时找到的最佳值(用于第二天和所有后续天)。
尽管为了清楚理解的目的,已经通过图示和实例的方式详细描述了前述发明,但是根据本发明的教导,对于本领域普通技术人员来说显而易见的是,在不脱离所附权利要求的精神或范围的情况下,可以对其进行某些改变和修改。还应理解,本文所用的术语仅是为了描述特定实施例的目的,而非旨在进行限制,因为本发明的范围将仅由所附权利要求来限定。
因此,前面仅说明本发明的原理。应当理解,本领域的技术人员将能够设计出各种布置,这些布置虽然没有在此处明确描述或示出,但实施本发明的原理,且包括在其精神和范围内。此外,此处引用的所有实例和条件语言主要是为了辅助读者理解本发明的原理和发明人为促进本领域所贡献的概念,并且应被解释为不限于这些具体引用的实例和条件。此外,本文叙述本发明的原理、方面和实施例及其具体实例的所有陈述旨在囊括其结构和功能等同物。此外,意在此种等同物包括当前已知的等同物和将来开发的等同物,即开发的执行相同功能的任何元件,而不管结构如何。因此,本发明的范围并不旨在局限于本文所示和所述的示例性实施例。相反,本发明的范围和精神由所附权利要求实施。

Claims (159)

1.一种协助受试者进行交流的方法,所述方法包括:
将包括电极的神经记录装置定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试语音相关联的脑电信号数据;
将与计算装置通信的接口定位在所述受试者的头部上的位置处,其中所述接口连接到所述神经记录装置;
使用所述神经记录装置记录与所述受试者的尝试语音相关联的所述脑电信号数据,其中所述接口从所述神经记录装置接收所述脑电信号数据,并且将所述脑电信号数据传输到所述计算装置的处理器;以及
使用所述处理器从记录的脑电信号数据中解码单词、短语或句子。
2.根据权利要求1所述的方法,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
3.根据权利要求1或2所述的方法,其中所述受试者是瘫痪的。
4.根据权利要求1至3中任一项所述的方法,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
5.根据权利要求1至4中任一项所述的方法,其中所述电极定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
6.根据权利要求5所述的方法,其中所述电极定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
7.根据权利要求1至6中任一项所述的方法,其中所述神经记录装置包括脑穿透电极阵列。
8.根据权利要求1至7中任一项所述的方法,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
9.根据权利要求1至8中任一项所述的方法,其中所述电极是深度电极或表面电极。
10.根据权利要求1至9中任一项所述的方法,其中所述电信号数据包括高γ频率内容特征。
11.根据权利要求10所述的方法,其中所述电信号数据包括在70Hz至150Hz范围内的神经振荡。
12.根据权利要求1至11中任一项所述的方法,其中所述记录所述脑电信号数据包括记录来自选自中央前回、中央后回、额后中回、额后上回或额后下回区域或其任何组合的感觉运动皮层区域的所述脑电信号数据。
13.根据权利要求1至12中任一项所述的方法,所述方法进一步包括对所述受试者的所述大脑进行绘图,以识别用于定位所述电极的最佳位置,以用于记录与所述受试者的所述尝试语音相关联的脑电信号。
14.根据权利要求1至13中任一项所述的方法,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
15.根据权利要求14所述的方法,其中所述接口进一步包括连接到所述经皮基座连接器的前端。
16.根据权利要求1至15中任一项所述的方法,其中所述处理器由计算机或手持装置提供。
17.根据权利要求16所述的方法,其中所述手持装置是手机或平板电脑。
18.根据权利要求1至17中任一项所述的方法,其中所述处理器经编程以基于对与尝试单词产生相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别来使语音检测、单词分类和句子解码自动化。
19.根据权利要求18所述的方法,其中所述处理器经编程以使用机器学习算法进行语音检测、单词分类和句子解码。
20.根据权利要求19所述的方法,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
21.根据权利要求1至20中任一项所述的方法,其中所述处理器经编程以在所述受试者的所述尝试语音期间使单词产生的开始和结束的检测自动化。
22.根据权利要求21所述的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
23.根据权利要求21或22所述的方法,其中所述处理器经编程以在所检测的单词分类开始周围的时间窗口内使用所述记录的脑电信号数据。
24.根据权利要求1至23中任一项所述的方法,其中所述受试者被限制于针对所述尝试语音的指定单词集。
25.根据权利要求24所述的方法,其中所述处理器经编程以计算所述单词集中的单词是所述受试者在所述尝试语音期间试图产生的预期单词的概率。
26.根据权利要求25所述的方法,其中所述处理器经编程以针对所述单词集中的每个单词,计算所述单词集中的单词是受试者在所述尝试语音期间试图产生的预期单词的概率。
27.根据权利要求24至26中任一项所述的方法,其中所述单词集包括是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
28.根据权利要求1至27中任一项所述的方法,其中所述受试者能够无限制地使用所述单词集中的所述单词来创建句子。
29.根据权利要求28所述的方法,其中所述处理器经编程以计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
30.根据权利要求1至29中任一项所述的方法,其中所述处理器经编程以使用语言模型,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码。
31.根据权利要求30所述的方法,其中根据所述语言模型,较频繁出现的单词被分配比较不频繁出现的单词更大的权重。
32.根据权利要求30或31所述的方法,其中所述处理器经编程以使用维特比解码模型,在给定与所述尝试语音相关联的所述脑电信号数据、使用所述机器学习算法从单词分类模型预测的单词概率和使用所述语言模型得到的单词序列概率的情况下,确定所述受试者的所述预期语音中最可能的单词序列。
33.根据权利要求1至32中任一项所述的方法,所述方法进一步包括:
记录与所述受试者的尝试非语音运动性移动相关联的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试语音的起始或终止或控制外部装置;以及
使用非语音运动性移动分类模型来分析所述脑电信号数据,所述非语音运动性移动分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
34.根据权利要求33所述的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
35.根据权利要求34所述的方法,其中所述尝试手移动包括想象的手势或想象的握手。
36.根据权利要求33至35中任一项所述的方法,其中所述处理器进一步经编程以基于对与尝试非语音运动性移动相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别,使所述受试者的所述尝试非语音运动性移动的检测自动化,从而发出所述受试者的所述尝试语音结束的信号。
37.根据权利要求36所述的方法,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间将用于所述尝试非语音运动性移动的事件标签分配给时间点。
38.根据权利要求1至37中任一项所述的方法,其中所述方法进一步包括评估所述解码的准确度。
39.一种计算机实现的方法,所述方法用于从与受试者的尝试语音相关联的记录的脑电信号数据中解码句子,计算机执行的步骤包括:
a)接收与所述受试者的所述尝试语音相关联的所述记录的脑电信号数据;
b)使用语音检测模型来分析所述记录的脑电信号数据,以计算在记录所述脑电信号数据期间的任何时间点出现尝试语音的概率,并且检测在所述受试者的所述尝试语音期间单词产生的开始和结束;
c)使用单词分类模型分析所述脑电信号数据,所述单词分类模型识别与所述受试者的尝试单词产生相关联的所述记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;
d)通过使用从所述单词分类模型计算的单词概率并结合使用语言模型在所述句子中预测的单词序列概率来执行句子解码,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率以计算预测的单词序列概率,并且基于使用所述单词分类模型和所述语言模型确定的所述预测的单词概率来确定所述句子中最可能的单词序列;以及
e)显示从所述记录的脑电信号数据中解码的所述句子。
40.根据权利要求39所述的计算机实现的方法,其中使用机器学习算法进行语音检测、单词分类和句子解码。
41.根据权利要求40所述的计算机实现的方法,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
42.根据权利要求39至41中任一项所述的计算机实现的方法,其中所述受试者被限制于针对所述尝试语音的指定单词集。
43.根据权利要求42所述的计算机实现的方法,所述方法进一步包括针对所述单词集中的每个单词,计算所述单词集中的单词是所述受试者在所述尝试语音期间试图产生的预期单词的概率,并且选择所述单词集中具有是所述受试者在所述尝试语音期间试图产生的所述预期单词的最高概率的单词。
44.根据权利要求39至43中任一项所述的计算机实现的方法,其中所述受试者能够无限制地使用所述单词集中的所述单词来创建句子,或被限制于针对所述尝试语音的指定句子集。
45.根据权利要求39至44中任一项所述的计算机实现的方法,所述方法进一步包括计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
46.根据权利要求45所述的计算机实现的方法,所述方法进一步包括维持最可能的句子和一个或多个不太可能的句子,并且在解码每个单词之后,重新计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
47.根据权利要求46所述的计算机实现的方法,其中所述最可能的句子和所述一个或多个不太可能的句子仅由来自所述受试者用于所述尝试语音的所述单词集的单词构成。
48.根据权利要求39至47中任一项所述的计算机实现的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
49.根据权利要求48所述的计算机实现的方法,其中仅在所检测的单词分类开始周围的时间窗口内使用所述记录的脑电信号数据。
50.根据权利要求39至49中任一项所述的计算机实现的方法,其中根据所述语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
51.根据权利要求39至50中任一项所述的计算机实现的方法,所述方法进一步包括存储所述受试者的使用者档案,所述使用者档案包括关于与所述受试者的尝试单词产生相关联的所述记录的脑电信号数据中的电信号模式的信息。
52.根据权利要求39至51中任一项所述的计算机实现的方法,所述方法进一步包括:
接收与所述受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试语音的起始或终止或控制外部装置;以及
使用分类模型来分析所述脑电信号数据,所述分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
53.根据权利要求52所述的计算机实现的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
54.根据权利要求53所述的计算机实现的方法,其中所述尝试手移动包括想象的手势或想象的握手。
55.根据权利要求52至54中任一项所述的计算机实现的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于所述尝试非语音运动性移动的事件标签分配给时间点。
56.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括程序指令,当由计算机中的处理器执行时,所述程序指令使所述处理器执行根据权利要求39至55中任一项所述的方法。
57.一种套件,所述套件包括根据权利要求56所述的非暂时性计算机可读介质和用于解码与受试者的尝试语音相关联的脑电信号数据的指令。
58.一种用于协助受试者进行交流的系统,所述系统包括:
包括电极的神经记录装置,适于定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试语音或尝试非语音运动性移动相关联的脑电信号数据;
处理器,经编程以根据权利要求39至55中任一项所述的计算机实现的方法从记录的脑电信号数据中解码句子;
与计算装置通信的接口,所述接口适于定位在所述受试者的头部的位置处,其中所述接口从所述神经记录装置接收所述脑电信号数据并且将所述脑电信号数据传输到所述处理器;以及
显示器组件,用于显示从所述记录的脑电信号数据中解码的所述句子。
59.根据权利要求58所述的系统,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
60.根据权利要求58或59所述的系统,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
61.根据权利要求58至60中任一项所述的系统,其中所述电极适于定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
62.根据权利要求61所述的系统,其中所述电极适于定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
63.根据权利要求58至62中任一项所述的系统,其中所述神经记录装置包括脑穿透电极阵列。
64.根据权利要求58至63中任一项所述的系统,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
65.根据权利要求58至64中任一项所述的方法,其中所述电极是深度电极或表面电极。
66.根据权利要求58至65中任一项所述的系统,其中所述电信号数据包括高γ频率内容特征。
67.根据权利要求66所述的系统,其中所述电信号数据包括在70Hz至150Hz范围内的神经振荡。
68.根据权利要求58至67中任一项所述的系统,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
69.根据权利要求68所述的系统,其中所述接口进一步包括能够连接到所述经皮基座连接器的前端。
70.根据权利要求58至69中任一项所述的系统,其中所述处理器由计算机或手持装置提供。
71.根据权利要求70所述的系统,其中所述手持装置是手机或平板电脑。
72.根据权利要求58至71中任一项所述的系统,其中使用机器学习算法进行语音检测、单词分类和句子解码。
73.根据权利要求72所述的系统,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
74.根据权利要求58至73中任一项所述的系统,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间,将用于准备、语音和休息的语音事件标签分配给时间点。
75.根据权利要求74所述的系统,其中所述处理器进一步经编程以在所检测的单词分类开始周围的时间窗口内使用所述记录的脑电信号数据。
76.根据权利要求58至75中任一项所述的系统,其中所述受试者被限制于针对所述尝试语音的指定单词集。
77.根据权利要求76所述的系统,其中所述处理器进一步经编程以针对所述单词集中的每个单词,计算所述单词集中的单词是所述受试者在所述尝试语音期间试图产生的预期单词的概率,并且选择所述单词集中具有是所述受试者在所述尝试语音期间试图产生的所述预期单词的最高概率的单词。
78.根据权利要求76或77所述的方法,其中所述单词集包括:是、是、不好、带来、干净、更近、舒适、来、计算机、做、信心、家人、感觉、眼镜、去、好、再见、有、喂、帮助、这里、希望、如何、饿、我、是、它、喜欢、音乐、我的、需要、否、不、护士、好、外面、请、正确、成功、告诉、那、他们、渴、累、上、很、什么、哪里、是和你。
79.根据权利要求76至78中任一项所述的系统,其中所述受试者能够使用所选择单词集中单词的任何所选择序列。
80.根据权利要求79所述的系统,其中所述处理器经编程以计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
81.根据权利要求80所述的系统,其中所述处理器经编程以维持最可能的句子和一个或多个不太可能的句子,并且在解码每个单词之后,重新计算单词序列是所述受试者在所述尝试语音期间试图产生的预期句子的概率。
82.根据权利要求81所述的系统,其中所述最可能的句子和所述一个或多个不太可能的句子仅由来自所述受试者用于所述尝试语音的所述单词集的单词构成。
83.根据权利要求58至82中任一项所述的系统,其中所述处理器进一步经编程以基于对与尝试非语音运动性移动相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别,使所述受试者的所述尝试非语音运动性移动的检测自动化,从而发出所述受试者的所述尝试语音起始或终止的信号。
84.根据权利要求83所述的系统,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间将用于所述尝试非语音运动性移动的事件标签分配给时间点。
85.一种套件,所述套件包括根据权利要求58至84中任一项所述的系统和用于使用所述系统记录和解码与受试者的尝试语音相关联的脑电信号数据的指令。
86.一种协助受试者进行交流的方法,所述方法包括:
将包括电极的神经记录装置定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试拼读预期句子的单词的字母相关联的脑电信号数据;
将与计算装置通信的接口定位在所述受试者的头部上的位置处,其中所述接口连接到所述神经记录装置;
使用所述神经记录装置记录与所述受试者的所述尝试拼读相关联的所述脑电信号数据,其中所述接口从所述神经记录装置接收所述脑电信号数据,并且将所述脑电信号数据传输到所述计算装置的处理器;以及
使用所述处理器从记录的脑电信号数据中解码所述预期句子的拼读的单词。
87.根据权利要求86所述的方法,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
88.根据权利要求86或87所述的方法,其中所述受试者是瘫痪的。
89.根据权利要求86至88中任一项所述的方法,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
90.根据权利要求86至89中任一项所述的方法,其中所述电极定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
91.根据权利要求90所述的方法,其中所述电极定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
92.根据权利要求86至91中任一项所述的方法,其中所述神经记录装置包括脑穿透电极阵列。
93.根据权利要求86至92中任一项所述的方法,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
94.根据权利要求86至93中任一项所述的方法,其中所述电极是深度电极或表面电极。
95.根据权利要求86至94中任一项所述的方法,其中所述电信号数据包括高γ频率内容特征和低频率内容特征。
96.根据权利要求95所述的方法,其中所述电信号数据包括在70Hz至150Hz的高γ频率范围内和在0.3Hz至100Hz的低频范围内的神经振荡。
97.根据权利要求86至96中任一项所述的方法,其中所述记录所述脑电信号数据包括记录来自选自中央前回区域、中央后回区域、额后中回区域、额后上回区域或额后下回区域或其任何组合的感觉运动皮层区域的所述脑电信号数据。
98.根据权利要求86至97中任一项所述的方法,所述方法进一步包括对所述受试者的所述大脑进行绘图,以识别用于定位所述电极的最佳位置,以用于记录与所述受试者的所述尝试拼读单词或尝试非语音运动性移动相关联的脑电信号。
99.根据权利要求86至98中任一项所述的方法,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
100.根据权利要求99所述的方法,其中所述接口进一步包括连接到所述经皮基座连接器的前端。
101.根据权利要求86至100中任一项所述的方法,其中所述处理器由计算机或手持装置提供。
102.根据权利要求101所述的方法,其中所述手持装置是手机或平板电脑。
103.根据权利要求86至102中任一项所述的方法,其中所述处理器经编程以基于对与所述受试者的所述尝试拼读单词相关联的所述记录的脑电信号数据中电信号的神经活动模式的识别来使所述尝试拼读的检测、字母分类、单词分类和句子解码自动化。
104.根据权利要求103所述的方法,其中所述处理器经编程以使用机器学习算法进行所述语音检测、字母分类、单词分类和句子解码。
105.根据权利要求104所述的方法,其中所述处理器进一步经编程以将从与所述受试者的尝试拼读单词相关联的神经活动中解码的字母序列中的单词分类局限于仅在所述受试者使用的语言词汇表内的单词。
106.根据权利要求86至105中任一项所述的方法,其中所述处理器进一步经编程以在所述记录所述脑电信号数据期间,将用于准备、尝试拼读和休息的事件标签分配给时间点。
107.根据权利要求106所述的方法,其中所述处理器经编程以在所检测的所述受试者的尝试拼读字母开始周围的时间窗口内使用所述记录的脑电信号数据。
108.根据权利要求86至107中任一项所述的方法,所述方法进一步包括向所述受试者提供一系列go提示,指示所述受试者何时应起始所述预期句子的所述单词的每个字母的尝试拼读。
109.根据权利要求108所述的方法,其中所述一系列go提示被视觉提供在显示器上。
110.根据权利要求109所述的方法,其中每个go提示之前是呈现所述go提示的倒计时,其中下一个拼读的字母的倒计时被视觉提供在所述显示器上,并且在每个go提示之后自动开始。
111.根据权利要求108至110中任一项所述的方法,其中所述一系列go提示在每个go提示之间提供有设定的时间间隔。
112.根据权利要求111所述的方法,其中所述受试者能够控制每个go提示之间的所述设定的时间间隔。
113.根据权利要求108至112中任一项所述的方法,其中所述处理器经编程以在所述go提示之后的时间窗口内使用所述记录的脑电信号数据。
114.根据权利要求86至113中任一项所述的方法,其中所述处理器经编程以计算来自经解码字母序列的经解码单词序列是所述受试者在所述受试者的所述尝试拼读预期句子的单词的字母期间试图产生的预期句子的概率。
115.根据权利要求86至114中任一项所述的方法,其中所述处理器经编程以使用语言模型,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率,以通过确定预测的单词序列概率来辅助解码。
116.根据权利要求115所述的方法,其中根据所述语言模型,较频繁出现的单词被分配比较不频繁出现的单词更大的权重。
117.根据权利要求86至116中任一项所述的方法,其中所述处理器进一步经编程以使用预测的字母概率序列来计算潜在的候选句子,并自动将空格插入所述候选句子中预测的单词之间的字母序列中。
118.根据权利要求86至117中任一项所述的方法,所述方法进一步包括:
记录与所述受试者的尝试非语音运动性移动相关联的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试拼读所述预期句子的单词的起始或终止或控制外部装置;以及
使用分类模型来分析所述脑电信号数据,所述分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
119.根据权利要求118所述的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
120.根据权利要求119所述的方法,其中所述尝试手移动包括想象的手势或想象的握手。
121.根据权利要求118至120中任一项所述的方法,所述方法进一步包括在记录所述脑电信号数据期间,将用于所述尝试非语音运动性移动的事件标签分配给时间点。
122.根据权利要求86至121中任一项所述的方法,所述方法进一步包括评估所述解码的准确度。
123.根据权利要求86至122中任一项所述的方法,所述方法进一步包括:
使用所述神经记录装置记录与所述受试者的尝试语音相关联的脑电信号数据,其中所述接口从所述神经记录装置接收所述脑电信号数据,并且将所述脑电信号数据传输到所述计算装置的所述处理器;以及
使用所述处理器从与所述受试者的尝试语音相关联的所述记录的脑电信号数据中解码单词、短语或句子。
124.一种计算机实现的方法,所述方法用于从与受试者的尝试拼读预期句子的单词的字母相关联的记录的脑电信号数据中解码句子,计算机执行的步骤包括:
a)接收与所述受试者的所述尝试拼读预期句子的单词的字母相关联的所述记录的脑电信号数据;
b)使用语音检测模型来分析所述记录的脑电信号数据,以计算在记录所述脑电信号数据期间的任何时间点出现尝试拼读的概率,并且检测在所述受试者的所述尝试拼读期间字母产生的开始和结束;
c)使用字母分类模型分析所述脑电信号数据,所述单词分类模型识别与所述受试者的尝试字母产生相关联的所述记录的脑电信号数据中的电信号模式,并且计算预测的字母概率序列;
d)基于所述预测的字母概率序列计算潜在的候选句子,并且自动将空格插入所述候选句子中的预测的单词之间的所述字母序列中,其中所述字母序列中的经解码单词被局限于仅所述受试者使用的语言词汇表内的单词;
e)使用在给定单词序列中的前一单词或短语的情况下提供下一单词概率以计算预测的单词序列概率的语言模型分析所述潜在的候选句子,并且确定句子中最可能的单词序列;以及
f)显示从所述记录的脑电信号数据中解码的所述句子。
125.根据权利要求124所述的计算机实现的方法,其中所述记录的脑电信号数据仅在所检测的所述受试者的尝试拼读字母开始周围的时间窗口内使用。
126.根据权利要求124或125所述的计算机实现的方法,所述方法进一步包括向所述受试者显示一系列go提示,指示所述受试者何时应起始所述预期句子的所述单词的每个字母的尝试拼读。
127.根据权利要求126所述的计算机实现的方法,其中每个go提示之前是显示呈现所述go提示的倒计时,其中下一个拼读的字母的倒计时自动在每个go提示之后开始。
128.根据权利要求126或127所述的计算机实现的方法,其中所述一系列go提示在每个go提示之间提供有设定的时间间隔。
129.根据权利要求128所述的计算机实现的方法,其中所述受试者能够控制每个go提示之间的所述设定的时间间隔。
130.根据权利要求122至127中任一项所述的计算机实现的方法,其中在所述go提示之后的时间窗口内的所述记录的脑电信号数据用于字母分类。
131.根据权利要求124至130中任一项所述的计算机实现的方法,所述方法进一步包括:
接收与所述受试者的尝试非语音运动性移动相关联的记录的脑电信号数据,其中所述受试者进行所述尝试非语音运动性移动以指示所述尝试拼读所述预期句子的单词的起始或终止或控制外部装置;以及
使用分类模型来分析所述脑电信号数据,所述分类模型识别与所述尝试非语音运动性移动相关联的记录的脑电信号数据中的电信号模式,并且计算所述受试者尝试所述非语音运动性移动的概率。
132.根据权利要求131所述的方法,其中所述尝试非语音运动性移动包括尝试头、臂、手、脚或腿移动。
133.根据权利要求132所述的方法,其中所述尝试手移动包括想象的手势或想象的握手。
134.根据权利要求124至133中任一项所述的计算机实现的方法,其中使用机器学习算法来检测尝试拼读或尝试非语音运动性移动或字母分类。
135.根据权利要求124至134中任一项所述的计算机实现的方法,所述方法进一步包括根据所述语言模型,向较频繁出现的单词分配比较不频繁出现的单词更大的权重。
136.根据权利要求124至135中任一项所述的计算机实现的方法,所述方法进一步包括存储所述受试者的使用者档案,所述使用者档案包括关于与所述受试者的尝试拼读期间的字母产生相关联的所述记录的脑电信号数据中的电信号模式的信息。
137.根据权利要求124至136中任一项所述的计算机实现的方法,其中所述电信号数据包括高γ频率内容特征和低频率内容特征。
138.根据权利要求137所述的计算机实现的方法,其中所述电信号数据包括在70Hz至150Hz的高γ频率范围内和在0.3Hz至100Hz的低频范围内的神经振荡。
139.根据权利要求124至138中任一项所述的计算机实现的方法,所述方法进一步包括评估所述解码的准确度。
140.根据权利要求124至139中任一项所述的计算机实现的方法,所述方法进一步包括从与所述受试者的尝试语音相关联的记录的脑电信号数据中解码句子,计算机进一步执行的步骤包括:
a)接收与所述受试者的所述尝试语音相关联的所述记录的脑电信号数据;
b)使用语音检测模型来分析所述记录的脑电信号数据,以计算在任何时间点出现尝试语音的概率,并且检测在所述受试者的所述尝试语音期间单词产生的开始和结束;
c)使用单词分类模型分析所述脑电信号数据,所述单词分类模型识别与所述受试者的尝试单词产生相关联的所述记录的脑电信号数据中的电信号模式,并且计算预测的单词概率;
d)通过使用从所述单词分类模型计算的单词概率并结合使用语言模型在所述句子中预测的单词序列概率来执行句子解码,所述语言模型在给定单词序列中的前一单词或短语的情况下提供下一单词概率以计算预测的单词序列概率,并且基于使用所述单词分类模型和所述语言模型确定的所述预测的单词概率来确定所述句子中最可能的单词序列;以及
e)显示从所述记录的脑电信号数据中解码的所述句子。
141.根据权利要求140所述的计算机实现的方法,其中使用机器学习算法进行语音检测、单词分类和句子解码。
142.根据权利要求141所述的计算机实现的方法,其中使用人工神经网络(ANN)模型进行所述语音检测和所述单词分类,且使用隐马尔可夫模型(HMM)、维特比解码模型或自然语言处理技术进行所述句子解码。
143.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括程序指令,当由计算机中的处理器执行时,所述程序指令使所述处理器执行根据权利要求124至142中任一项所述的方法。
144.一种套件,所述套件包括根据权利要求143所述的非暂时性计算机可读介质和用于解码与受试者的尝试拼读预期句子的单词的字母相关联的脑电信号数据的指令。
145.一种用于协助受试者进行交流的系统,所述系统包括:
包括电极的神经记录装置,适于定位在所述受试者的大脑的感觉运动皮层区域中的位置处,以记录与所述受试者的尝试语音、尝试拼读预期句子的单词的字母或尝试非语音运动性移动或其组合相关联的脑电信号数据;
处理器,经编程以根据权利要求124至142中任一项所述的计算机实现的方法从记录的脑电信号数据中解码句子;
与计算装置通信的接口,所述接口适于定位在所述受试者的头部的位置处,其中所述接口从所述神经记录装置接收所述脑电信号数据并且将所述脑电信号数据传输到所述处理器;以及
显示器组件,用于显示从所述记录的脑电信号数据中解码的所述句子。
146.根据权利要求145所述的系统,其中所述受试者由于构音障碍、中风、创伤性脑损伤、脑肿瘤或肌萎缩性侧索硬化而具有所述交流方面的困难。
147.根据权利要求145或146所述的系统,其中所述神经记录装置的所述位置在腹侧感觉运动皮层中。
148.根据权利要求145至147中任一项所述的系统,其中所述电极适于定位在所述感觉运动皮层区域的表面上或所述感觉运动皮层区域内。
149.根据权利要求148所述的系统,其中所述电极适于定位在硬膜下腔中的所述大脑的所述感觉运动皮层区域的表面上。
150.根据权利要求145至149中任一项所述的系统,其中所述神经记录装置包括脑穿透电极阵列。
151.根据权利要求145至150中任一项所述的系统,其中所述神经记录装置包括脑皮层电图(ECoG)电极阵列。
152.根据权利要求145至151中任一项所述的系统,其中所述电极是深度电极或表面电极。
153.根据权利要求145至152中任一项所述的系统,其中所述电信号数据包括高γ频率内容特征和低频率内容特征。
154.根据权利要求153所述的系统,其中所述电信号数据包括在70Hz至150Hz的高γ频率范围内和在0.3Hz至100Hz的低频范围内的神经振荡。
155.根据权利要求145至154中任一项所述的系统,其中所述接口包括附接到所述受试者的颅骨的经皮基座连接器。
156.根据权利要求155所述的系统,其中所述接口进一步包括能够连接到所述经皮基座连接器的前端。
157.根据权利要求145至156中任一项所述的系统,其中所述处理器由计算机或手持装置提供。
158.根据权利要求157所述的系统,其中所述手持装置是手机或平板电脑。
159.一种套件,所述套件包括根据权利要求145至158中任一项所述的系统和用于使用所述系统记录和解码与受试者的尝试语音、尝试拼读单词或尝试非语音运动性移动或其组合相关联的脑电信号数据的指令。
CN202280052326.1A 2021-05-26 2022-05-26 用于从神经活动进行实时单词和语音解码的方法和装置 Pending CN117693315A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163193351P 2021-05-26 2021-05-26
US63/193,351 2021-05-26
PCT/US2022/031101 WO2022251472A1 (en) 2021-05-26 2022-05-26 Methods and devices for real-time word and speech decoding from neural activity

Publications (1)

Publication Number Publication Date
CN117693315A true CN117693315A (zh) 2024-03-12

Family

ID=84229189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280052326.1A Pending CN117693315A (zh) 2021-05-26 2022-05-26 用于从神经活动进行实时单词和语音解码的方法和装置

Country Status (7)

Country Link
EP (1) EP4329615A1 (zh)
JP (1) JP2024521768A (zh)
KR (1) KR20240024095A (zh)
CN (1) CN117693315A (zh)
AU (1) AU2022282378A1 (zh)
CA (1) CA3220064A1 (zh)
WO (1) WO2022251472A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11790169B2 (en) * 2021-04-02 2023-10-17 Salesforce, Inc. Methods and systems of answering frequently asked questions (FAQs)
WO2024036213A1 (en) * 2022-08-09 2024-02-15 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for decoding speech from neural activity
CN117058514B (zh) * 2023-10-12 2024-04-02 之江实验室 基于图神经网络的多模态脑影像数据融合解码方法和装置
CN117130490B (zh) * 2023-10-26 2024-01-26 天津大学 一种脑机接口控制系统及其控制方法和实现方法
CN117131426B (zh) * 2023-10-26 2024-01-19 一网互通(北京)科技有限公司 基于预训练的品牌识别方法、装置及电子设备
CN117238277B (zh) * 2023-11-09 2024-01-19 北京水滴科技集团有限公司 意图识别方法、装置、存储介质及计算机设备
CN117708546B (zh) * 2024-02-05 2024-05-10 北京智冉医疗科技有限公司 基于侵入式脑机接口的高通量神经信号的解码方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014102722A1 (en) * 2012-12-26 2014-07-03 Sia Technology Ltd. Device, system, and method of controlling electronic devices via thought
US10130809B2 (en) * 2014-06-13 2018-11-20 Nervana, LLC Transcutaneous electrostimulator and methods for electric stimulation
CA3145254A1 (en) * 2019-07-29 2021-02-04 Edward F. CHANG Method of contextual speech decoding from the brain

Also Published As

Publication number Publication date
JP2024521768A (ja) 2024-06-04
WO2022251472A1 (en) 2022-12-01
AU2022282378A1 (en) 2023-12-14
EP4329615A1 (en) 2024-03-06
WO2022251472A9 (en) 2023-11-09
KR20240024095A (ko) 2024-02-23
CA3220064A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
Metzger et al. A high-performance neuroprosthesis for speech decoding and avatar control
CN117693315A (zh) 用于从神经活动进行实时单词和语音解码的方法和装置
Metzger et al. Generalizable spelling using a speech neuroprosthesis in an individual with severe limb and vocal paralysis
Makin et al. Machine translation of cortical activity to text with an encoder–decoder framework
Willett et al. A high-performance speech neuroprosthesis
US20210106288A1 (en) Detection Of Disease Conditions And Comorbidities
Poeppel et al. Speech perception at the interface of neurobiology and linguistics
Sun et al. Brain2Char: a deep architecture for decoding text from brain recordings
Kendall et al. The influence of phonomotor treatment on word retrieval abilities in 26 individuals with chronic aphasia: An open trial
Kidd Implicit statistical learning is directly associated with the acquisition of syntax.
Luo et al. Brain-computer interface: applications to speech decoding and synthesis to augment communication
Gwilliams et al. Neural dynamics of phoneme sequencing in real speech jointly encode order and invariant content
Gaskell et al. Speech perception and spoken word recognition
Li et al. Analysis of acoustic and voice quality features for the classification of infant and mother vocalizations
Laux et al. Two-stage visual speech recognition for intensive care patients
Ten Bosch et al. DIANA, a process-oriented model of human auditory word recognition
Qian et al. A survey of automatic speech recognition for dysarthric speech
Berry Machine learning methods for articulatory data
Metzger AI-Driven Brain-Computer Interfaces for Speech
Tan et al. Decoding Chinese phonemes from intracortical brain signals with hyperbolic-space neural representations
Sheth et al. Translating neural signals to text using a Brain-Machine Interface
Roussel Analysis of cortical activity for the development of brain-computer interfaces for speech
Raman An examination of reading, reading development and disorder in a highly transparent orthography: the case of Turkish
Liu Cortical Dynamics of Speech Motor Sequencing and Production
Vásquez-Correa Multimodal Assessment of Parkinson’s Disease Patients Using Information from Speech, Handwriting, and Gait

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination