CN114625240A - 利用大脑-计算机接口的语音识别 - Google Patents

利用大脑-计算机接口的语音识别 Download PDF

Info

Publication number
CN114625240A
CN114625240A CN202111341700.3A CN202111341700A CN114625240A CN 114625240 A CN114625240 A CN 114625240A CN 202111341700 A CN202111341700 A CN 202111341700A CN 114625240 A CN114625240 A CN 114625240A
Authority
CN
China
Prior art keywords
data
brain signal
signal data
brain
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111341700.3A
Other languages
English (en)
Inventor
P·玛兹斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN114625240A publication Critical patent/CN114625240A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/37Intracranial electroencephalography [IC-EEG], e.g. electrocorticography [ECoG]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/46Special adaptations for use as contact microphones, e.g. on musical instrument, on stethoscope

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Neurology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Dermatology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本申请公开了利用大脑‑计算机接口的语音识别。在实施例中,系统包括感测来自用户的大脑信号数据的第一传感器,该大脑信号数据包括经由用户的大脑传送并且与由用户说出的第一字词集合相对应的神经信号。系统还包括感测来自用户的、与第一字词集合相对应的音频数据的第二传感器以及通信地耦合至第一传感器和第二传感器的一个或多个处理器。在实施例中,一个或多个处理器使用机器学习算法基于音频数据来生成文本数据,并且基于大脑信号数据和该文本数据来重新训练机器学习算法以生成经重新训练的机器学习算法,其中,经重新训练的机器学习算法基于第二大脑信号数据来生成与第二字词集合相关联的第二文本数据。

Description

利用大脑-计算机接口的语音识别
背景技术
本公开总体上涉及非听觉语音识别,并且更具体地涉及将大脑信号数据变换为文本数据。
本节旨在向读者介绍可能涉及本公开的各方面的技术的各方面,这在下文描述和/或要求保护。相信该讨论有助于向读者提供促进对本公开的各方面更好的理解的背景信息。因此,应当理解,这些陈述应当从这个角度来理解,而不是作为对现有技术的承认。
基于音频的语音识别(ASR)技术接收音频数据(例如,说出的字词)作为输入,处理该音频数据并将其变换为文本数据,并且生成说出的字词的转录。物联网(IoT)和智能设备使用ASR来处理由用户说出的命令并执行伴随的任务。然而,尝试在公共场所使用ASR可能将隐私信息(例如,健康信息、财务信息、个人信息、商业信息、机密信息等等)暴露给非预期的各方,和/或可能引入起因于背景噪声的不准确性。
附图说明
在阅读下列具体实施方式时并在参考附图时,可更好地理解本公开的各方面,在附图中:
图1是根据本公开的实施例的包含非听觉语音识别系统的设备的示图;
图2是图示出根据本公开的实施例的当生成经同步化的数据时的数据流的框图;
图3是图示出根据本公开的实施例的当使用图2的经同步化的数据来训练机器学习算法时的数据流的框图;
图4是根据本公开的实施例的图1的非听觉语音识别系统的框图;
图5是根据本公开的实施例的用于对图3的机器学习算法进行训练的过程的流程图;
图6是根据本公开的实施例的用于使用在图5中训练的机器学习算法来生成文本数据的过程的流程图。
具体实施方式
下文将描述本公开的一个或多个具体实施例。为了提供对这些实施例的简要描述,说明书中并未描述实际实现方式的所有特征。应当领会,在任何此类实际实现方式的开发中,如同在任何工程或设计项目中一样,为了实现开发人员的特定目标,必须作出众多特定于实现方式的决策,诸如遵守与系统相关的约束和与业务相关的约束,这些约束可能因实现方式而有所不同。而且应当领会,此类开发工作可能是复杂且耗时的,但是对于受益于本公开的普通技术人员而言,这仍将是设计、制作和制造的例行任务。
话筒或其他音频传感器可记录来自用户的说出的音频数据以用于使用ASR技术进行处理。在公共场使用ASR技术可能将敏感信息(例如,健康信息、财务信息、商业信息、个人信息、机密信息等等)暴露给非预期的接收方(例如,其可能偶然听到该信息),并且可能潜在地导致财务损失、身份盗用、和/或任何其他多种不利问题。另外或替代地,ASR技术的用户可能不想要打扰周围区域(诸如,家、办公室、或公共场所)中的其他人。大脑-计算机接口(BCI)可将用户的大脑通信地耦合至计算设备,该计算设备诸如平板、膝上型计算机、移动设备、智能电话、头戴式耳机、可穿戴设备、服务器、或任何其他合适的计算设备。BCI可在用户执行某些动作或任务(诸如,说话)时感测和/或测量大脑信号(例如,电活动)。由于大脑信号是非听觉的,因此与对ASR技术的使用相关联的问题(例如,如上文所描述)可通过基于大脑信号的非听觉语音识别来缓解。
考虑到前述情况,图1是根据本公开的实施例的包含非听觉语音识别系统100的设备102的示图,该非听觉语音识别系统100具有第一传感器102和第二传感器112。在一些实施例中,设备120可以是可穿戴设备,该可穿戴设备具有用于感测音频数据和/或大脑信号数据的任何数量的传感器、以及用于支撑这些传感器的框架104。例如,可将可穿戴设备穿戴在用户118的部位上,诸如穿戴在用户118的头部和/或颈部上。在某些实施例中,第一传感器102可感测来自用户118的语音106和/或由用户118听到的语音108。第一传感器102可以是音频传感器(例如,话筒)、生物计量传感器、振动传感器、骨传导传感器和/或加速度计,并且第一传感器102可感测来自用户118的音频数据(例如,说话声)、生物计量信号(例如,肌电图(EMG)信号)和/或振动。在一些实施例中,第一传感器102可以是任何类型的话筒,诸如电容式话筒、接触式话筒和/或动圈式话筒。例如,第一传感器102可以是电容式话筒,并且可包括由于来自用户118的声波(例如,说话声)而振动的组件(例如,膜片)。另外或替代地,第一传感器102可以是接触式话筒,并且可在感测时段期间接触用户118。例如,第一传感器102可以是压电式话筒,并且可感测来自用户118的振动,并将振动转换为音频数据(例如,电信号)。在某些实施例中,第一传感器102可以是动圈式话筒,并且可包括附连至膜片并被定位在磁场(诸如,永磁体的磁场)中的感应组件(例如,导线的线圈)。来自用户118的声波可使膜片振动和移动,并使感应组件与该膜片一起振动和移动。感应组件的移动可由于磁场的存在而通过电磁感应在该感应组件中产生电流,并且由此将声波转换为音频数据(例如,电流)。
另外或替代地,第一传感器102可以是振动传感器。例如,第一传感器102可感测用户118的鼻骨中的振动。更具体地,第一传感器102可以是电极,该电极测量用户118中(例如,在用户118的诸如头部和/或颈部之类的身体部位处)的电势差,并且生成用于传输至非听觉语音识别系统100的一个或多个组件并由该一个或多个组件处理的信号数据。在一些实施例中,第一传感器102可包括一个或多个振动传感器而不包括话筒,这是因为话筒可能捕捉可能影响捕捉到的振动的准确性的不想要的和/或环境噪声。
在一些实施例中,第一传感器102可以是压电传感器,并且可测量在与用户118接触期间由于用户118的身体部位(例如,头部和/或颈部)的移动引起的振动。另外或替代地,第一传感器102可包括诸如相机、激光多普勒测振仪和/或光检测和测距(LIDAR)系统之类的光学设备,并且可在不接触表面(例如,用户118的身体部位)的情况下测量该表面上的振动。例如,第一传感器102可朝向用户118的身体部位发射光(例如,激光光束),并且可感测从该身体部位反射的光。由此,第一传感器102可基于发射光与反射光之间的多普勒频移来确定振动幅度和振动频率。由第一传感器102检测到的数据(例如,振动数据、音频数据、光数据)可包括期望的信号分量以及噪声(例如,不想要的)分量。信噪比是期望的信号的水平与噪声水平之间的比较。在用户(诸如,用户118)身上的不同位置可能为某些类型的传感器(例如,振动传感器、话筒)提供相对于其他类型的传感器的更好的测量。例如,相比于在用户118的耳朵附近,音频传感器在嘴巴附近可提供音频数据的更好的信噪比(SNR),并且相比于在用户118的脸颊附近,骨传导传感器当被置于鼻骨附近时可提供更好的SNR。由此,可将一个或多个传感器选择性地置于用户118身上不同的位置处,以确保感测到的振动和/或音频的准确性从而提高SNR。为了适应将传感器置于用户118身上的不同位置处,设备120可包括头戴式设备、头戴式耳机、头带、耳机、围巾、或任何其他合适的可穿戴设备或可穿戴设备的组合。
如本文中所使用,“大脑-计算机接口”可指提供大脑与任何数量的外部设备之间的通信路径以使得大脑信号可与(多个)外部设备通信(例如,将信息发送至(多个)外部设备和/或从(多个)外部设备接收信息)和/或控制该(多个)外部设备的设备或系统。设备还可包括大脑-计算机接口114,该大脑-计算机接口114包括第二传感器112和处理电路系统(诸如,处理器110)。处理器110可包括用于接收来自第一传感器102的音频数据和/或来自第二传感器112的大脑信号数据的接收和转换电路系统。大脑-计算机接口114可测量来自用户118的大脑活动,可提取与该大脑活动相关联的特征,并且可生成和/或传送与大脑活动和/或所提取的特征相关联的大脑信号数据116。例如,第二传感器112可包括设置在用户118的头皮和/或大脑上的任何数量的电极,并且第二传感器112可检测来自用户118的大脑的电信号。第二传感器112可感测电活动(例如,脑电图(EEG)、皮质电图(ECoG)),并且可测量由用户118的大脑的神经元内的电流引起的电压波动。
在某些实施例中,第二传感器112可与第一传感器102感测音频数据同时地(例如,在大致相同的时间和/或在相同的持续时间内)感测电活动。例如,第一传感器102可感测与来自用户118的语音106或来自另一个体的由用户118听到的语音108相对应的音频数据,并且第二传感器112可感测与来自用户118的语音106或来自另一个体的由用户118听到的语音108相对应的大脑信号数据116。由此,非听觉语音识别系统100可感测和/或可生成与由用户118说出的或由用户118听到的字词集合相对应的音频数据和大脑信号数据。另外或替代地,第二传感器112可测量用户118的大脑中的血流和/或血流的改变(例如,功能性磁共振成像(fMRI)),并且可基于测得的血流生成大脑信号数据116。
如本文中所使用,“听觉语音识别”可指接收与说出的字词相对应的音频数据,并处理该音频数据以生成与这些说出的字词相对应的文本数据(例如,经由机器学习算法)。“非听觉语音识别”可指接收与说出的和/或听到的字词相对应的、采用不同于语音数据的格式的数据(例如,大脑信号数据),并处理该数据以生成与这些说出的和/或听到的字词相对应的文本数据(例如,经由机器学习算法)。在一些实施例中,非听觉语音识别系统100可基于来自第一传感器102的音频数据和来自第二传感器112的大脑信号数据116来对机器学习算法进行重新训练。在某些实施例中,可根据听觉语音识别过程初始地训练机器学习算法。例如,,用户(诸如,图1的用户118)、另一用户、或任何数量的用户可大声阅读一段文本,并且机器学习算法可基于对用户的语音的记录和对应的这段文本被训练。由此,从用户的语音生成的音频数据可被输入到机器学习算法,并且该机器学习算法可在语音数据中标识说出的字词,并输出与这些说出的字词相对应的文本数据。另外或替代地,用户可大声阅读与由计算设备识别出的命令相对应的字词集合,并且机器学习算法可基于对这些说出的字词和命令的记录被训练。在某些实施例中,命令可使得计算设备执行相关联的功能。例如,用户可以说“打开”以激活计算设备。相应地,机器学习算法可将说出的字词与对应的文本数据相关联,并且基于这些关联来标识后续说出的字词。
一旦机器学习算法已经根据听觉语音识别过程被训练,则非听觉语音识别系统100可基于大脑信号数据116来重新训练机器学习算法以标识并输出文本数据。例如,非听觉语音识别系统100可接收与同一说出的和/或偶然听到的语音相对应的音频数据和大脑信号数据。非听觉语音识别系统100可重新训练机器学习算法以标识与说出的和/或偶然听到的字词相对应的大脑信号数据的特征。
考虑到前述内容,图2是图示出根据本公开的实施例的当生成经同步化的数据206时的数据流200的框图。音频传感器(诸如,图1中的第一传感器102)可生成音频数据202和/或接收来自用户118的音频数据202。例如,第一传感器102可生成与来自用户118的语音和/或被用户118偶然听到的语音相对应的音频数据202。在某些实施例中,第一传感器102可在基于阈值持续时间(例如,一分钟、五分钟、十分钟等等)的感测时段期间接收音频数据202。例如,非听觉语音识别系统100可将控制信号传送至第一传感器102,以基于阈值持续时间来开始和/或结束感测时段。另外或替代地,非听觉语音识别系统100可包括用户界面,并且可基于阈值持续时间来向用户118显示开始和/或结束说话的指示。在一些实施例中,用户界面可显示特定的一段文章以供用户118在感测时段大声阅读。替代地,用户界面可指示用户可在感测时段期间自由地(例如,随机地)说话。
大脑信号传感器(诸如,图1中的第二传感器112)可生成大脑信号数据116和/或接收来自用户118的大脑信号数据116。在一些实施例中,第二传感器112可生成与用户118说话时和/或用户118听到来自另一用户的语音时的大脑活动相对应的大脑信号数据116。例如,第二传感器112可在与第一传感器102感测音频数据202相对应的感测时段期间测量来自用户118的大脑的电活动。在某些实施例中,非听觉语音识别系统100可生成和/或向第一传感器102和/或第二传感器112传送控制信号,以开始和/或结束感测时段。例如,第一传感器102可响应于检测到音频刺激而生成和/或向非听觉语音识别系统100的处理电路系统(诸如,图1中的处理器110)传送音频信号。非听觉语音识别系统100可接收来自第一传感器102的音频信号,并响应于该音频信号而生成控制信号。在某些实施例中,非听觉语音识别系统100可将控制信号传送至第二传感器112,并且第二传感器112可响应于接收到该控制信号而开始感测时段。另外或替代地,非听觉语音识别系统100可响应于从第二传感器112接收到与用户118的大脑处的电活动相对应的大脑信号而生成和/或传送用于操作第一传感器102(例如,开始感测时段)的控制信号。
在一些实施例中,音频数据202可包括元数据,诸如与音频数据202相关联的持续时间以及与音频数据202相关联的任何数量的时间戳(例如,开始时间戳、结束时间戳)。例如,第一传感器102可生成与音频数据202相关联的元数据(例如,时间戳、持续时间),并且可将该元数据传送至非听觉语音识别系统100的处理电路系统110。非听觉语音识别系统100可分析持续时间和/或时间戳,并且可确定音频数据202何时被第一传感器102感测和/或生成、第一传感器102的感测时段的开始、第一传感器102的感测时段的结束、第一传感器102感测和/或生成音频数据202的总持续时间,等等。
在某些实施例中,大脑信号数据116可包括元数据,诸如与大脑信号数据116相关联的持续时间以及与大脑信号数据116相关联的任何数量的时间戳(例如,开始时间戳、结束时间戳)。例如,第二传感器112可生成与大脑信号数据116相关联的元数据(例如,时间戳、持续时间),并且可将该元数据传送至非听觉语音识别系统100的处理电路系统(诸如,大脑-计算机接口114的处理器110)。非听觉语音识别系统100可分析持续时间和/或时间戳,并且可确定大脑信号数据116何时被第二传感器112感测和/或生成、第二传感器112的感测时段的开始、第二传感器112的感测时段的结束、第二传感器112感测和/或生成大脑信号数据116的总持续时间,等等。
在某些实施例中,非听觉语音识别系统100可对音频数据202和大脑信号数据116执行数据同步化204,以生成经同步化的数据206。具体而言,非听觉语音识别系统100可将音频数据202与大脑信号数据116对齐,以使得由第一传感器102记录的语音与由第二传感器112感测到的电活动相对应(例如,与其同时地、在同一时间),以生成经同步化的数据206。例如,非听觉语音识别系统100可确定与音频数据202相关联的感测时段在与大脑信号数据116相关联的感测时段之前五秒钟时开始,并且可通过将与大脑信号数据116相关联的开始时间戳对齐为在与音频数据202相关联的开始时间戳五秒钟之后来使音频数据202与大脑信号数据116时间同步化。
在一些实施例中,非听觉语音识别系统100可利用时间延迟(例如,小于一秒、小于800毫秒、小于500毫秒、小于300毫秒)使音频数据202与大脑信号数据116同步化。例如,用户118的大脑可花费短时间来处理听到的语音或生成语音,使得与大脑处理一个或多个听到的字词相关联的电活动可能滞后于与由第一传感器102记录的字词相对应的音频数据。另外或替代地,用户118的大脑可在音频数据被记录之前处理和生成电活动从而开始说话,由此大脑信号数据116要求时间延迟。由此,非听觉语音识别系统100可生成时间延迟来确保与由用户118说出的或由用户118听到的字词相关联的电活动(例如,大脑信号数据116)与由第一传感器102记录的语音(例如,音频数据)对齐。在一些实施例中,时间延迟可以是对于非听觉语音识别系统100的任何用户而言统一的时间延迟。另外或替代地,非听觉语音识别系统100可为每个用户确定时间延迟,并且这些时间延迟可在用户之间有所不同。在某些实施例中,非听觉语音识别系统100可将经同步化的数据206、音频数据202、和/或大脑信号数据116存储在与该非听觉语音识别系统100相关联的存储设备(诸如,数据库208)中。另外或替代地,非听觉语音识别系统100可将经同步化的数据206、音频数据202、和/或大脑信号数据116传送至远程存储设备。
在生成经同步化的数据206之后,非听觉语音识别系统100可将听觉语音识别机器学习算法重新训练成用于接收仅非听觉的大脑信号数据,并由此生成与该大脑信号数据相对应的文本数据和/或基于该大脑信号数据生成文本数据。考虑到前述内容,图3是图示出当将机器学习算法训练成用于基于经同步化的数据206和大脑信号数据116来输出文本数据时的数据流300的框图。在某些实施例中,非听觉语音识别系统100可包括机器学习算法302和可执行该机器学习算法302的处理电路系统(诸如,处理器110)。例如,机器学习算法302可包括听觉语音识别组件304,该听觉语音识别组件304基于输入音频数据(诸如,图2中的音频数据202)生成文本数据308。在某些实施例中,听觉语音识别组件304可从音频数据提取特征(例如,频率、幅度),可对音频数据执行数据处理步骤(例如,模拟/数字转换、傅里叶变换、将音频数据分成任何数量的帧),并且可基于音频数据生成波形(例如,振动波形、音频波形)、频谱图和/或任何其他合适的信号格式。例如,听觉语音识别组件304可将音频数据的特征与来自所存储的音频样本的预期特征进行比较。听觉语音识别组件304可基于这些比较来生成文本数据308。
在某些实施例中,非听觉语音识别系统100可包括任何数量的传感器(例如,相机、生物计量传感器、音频传感器、加速度计、大脑信号传感器等等),并且每个传感器可将音频数据和/或大脑信号数据或者与音频数据和/或大脑信号数据相关联的数据传送至处理器110。例如,相机可生成与用户118的颈部和/或面部肌肉移动相关联的信号数据,并且大脑信号传感器可生成与用户118的大脑中的电活动相关联的大脑信号数据。传感器可将相应的信号数据传送至处理器110,并且处理器110可将信号数据组合成经同步化的数据206。
在生成文本数据308之后,非听觉语音识别系统100可利用文本数据308和经同步化的数据206来重新训练机器学习算法302。例如,文本数据308可包括与经同步化的数据206相关联的文本(例如,字词、短语)串。机器学习算法302可包括大脑数据识别组件306,该大脑数据识别组件306进行学习以基于输入大脑信号数据(诸如,图1中的大脑信号数据116)生成文本数据。非听觉语音识别系统100可利用大脑信号数据和输出文本数据308来重新训练机器学习算法302。例如,大脑数据识别组件306可从大脑信号数据提取特征(例如,频率、幅度),可对大脑信号数据执行数据处理步骤(例如,模拟/数字转换、傅里叶变换、将大脑信号数据分成任何数量的帧),并且可基于大脑信号数据生成波形(例如,大脑信号波形)、频谱图和/或任何其他合适的信号格式。大脑数据识别组件306可将文本数据308与大脑信号数据相关联。在一些实施例中,大脑数据识别组件306可基于训练大脑信号数据和文本数据308来生成预期的特征。例如,预期的特征可与来自输入大脑信号数据的所提取的特征进行比较,并且可与文本数据308相关联。由此,非听觉语音识别系统100可存储样本大脑信号数据和相关联的文本数据,并且使用这些关联来标识与后续大脑信号数据相对应的文本数据。
另外,非听觉语音识别系统100可在对机器学习算法302进行重新训练期间和/或之后生成与用户118相关联的简档。用户简档可包括与用户相关联的大脑信号特性(例如,频率、幅度、频率的改变、幅度的改变、电压、电流)。另外或替代地,用户简档可包括音频数据202、大脑信号数据116、文本数据308、对应的时间延迟、以及与音频数据202和大脑信号数据116相关联的所提取的特征。在某些实施例中,非听觉语音识别系统100可将用户简档、音频数据202和大脑信号数据116存储在与该非听觉语音识别系统100相关联的存储设备中。由此,非听觉语音识别系统100可检取对应的用户简档来生成与从用户118感测到的后续大脑信号数据相对应的文本数据。
在对机器学习算法302进行重新训练之后(例如,在机器学习算法302已经完成重新训练,并且已被实现为非听觉语音识别系统100的部分之后),非听觉语音识别系统100可接收输入大脑信号数据116,并且可使用机器学习算法302从大脑信号数据116生成文本数据。也就是说,机器学习算法302可基于大脑信号数据116而无需音频数据202来生成文本数据。考虑到前述内容,图4图示出根据本公开的实施例的、利用图3的机器学习算法302基于输入大脑信号数据408而无需使用音频数据来生成大脑信号文本数据418的图1的非听觉语音识别系统100的框图。非听觉语音识别系统100可使用音频数据202来生成文本数据308,并且可通过使大脑信号数据116与文本数据308相关来重新训练机器学习算法302。由此,经重新训练的机器学习算法302可基于输入大脑信号数据408而无需使用音频数据来生成大脑信号文本数据418。例如,大脑信号传感器(诸如,第二传感器112)可记录与用户118的大脑相关联的电活动,并生成输入大脑信号数据408。在一些实施例中,非听觉语音识别系统100可包括数据库208,该数据库208可存储经同步化的数据206。在某些实施例中,经同步化的数据206可包括与用户(诸如,用户118)相关联的语音的记录(例如,音频数据202)以及与用户118相关联的大脑信号数据116(例如,与用户118的大脑听到、生成和/或处理语音相关联的电活动)。另外,数据库208可存储用户简档(诸如,与用户118相关联的用户简档410)的集合,并且用户简档410可与经同步化的数据206的子集相关联。
大脑信号传感器(诸如,图1中的第二传感器112)可接收来自用户118的输入大脑信号数据408,并且非听觉语音识别系统100可执行大脑信号变换414来提取特征(例如,频率、幅度),执行数据处理步骤(例如,模拟/数字转换、傅里叶变换、将大脑信号数据408分成任何数量的帧),并且基于输入大脑信号数据408生成波形(例如,大脑信号波形)、频谱图和/或任何其他合适的信号格式。例如,大脑信号传感器可生成与用户118的大脑的电活动相关联的大脑信号数据。传感器可将大脑信号数据408传送至处理器(诸如,图1中的处理器110)。
在某些实施例中,非听觉语音识别系统100可包括控制器402,该控制器402可作为计算设备(诸如,个人计算机、平板、移动设备、可穿戴设备、服务器、或任何其他合适的计算设备)的部分被提供,并且控制器402可经由无线连接、光学连接、同轴线缆连接、有线连接、或其他合适的连接通信地耦合至计算设备。由此,控制器402可包括诸如处理器110之类的一个或多个处理器(在本文中统称为“处理器110”),该一个或多个处理器可以以一个或多个通用微处理器、一个或多个专用集成电路(ASIC)、一个或多个现场可编程逻辑阵列(FPGA)等等的形式来提供。处理器110可以通信地耦合至数据库208和一个或多个传感器,诸如,图1中的第一传感器102和第二传感器112。控制器402可通过用于在控制器402、数据库208和传感器102、112之间传输信号数据和控制信号的任何合适的技术而耦合至传感器102、112和数据库208。在一些实施例中,控制器402可包括用于接收用于对机器学习算法进行训练的经同步化的数据、并且用于对输入大脑信号数据408进行接收和变换以生成大脑信号文本数据418的接收和转换电路系统。
在某些实施例中,如先前所讨论,处理器110可执行机器学习算法(诸如,机器学习算法302),该机器学习算法可包括使音频数据202和大脑信号数据116同步化并生成文本数据308的指令。例如,机器学习算法302可包括听觉语音识别组件304。听觉语音识别组件304可接收经同步化的数据206并且可执行音频数据变换412并且可从经同步化的数据206提取特征(例如,频率、幅度),可对经同步化的数据206执行数据处理步骤(例如,模拟/数字转换、傅里叶变换、将经同步化的数据206分成任何数量的帧)并且可基于经同步化的数据206生成波形(例如,振动波形、音频波形)、频谱图和/或任何其他合适的信号格式。在一些实施例中,非听觉语音识别系统100可包括与字词或短语(诸如,文本数据308)相关联的所存储的音频样本,并且非听觉语音识别系统100可将音频数据202与所存储的音频样本进行比较,以基于该比较来标识语音数据202中的说出的字词和/或短语。例如,语音数据变换412可将音频数据的特征与来自所存储的音频样本的预期特征进行比较。由此,非听觉语音识别系统100可基于这些比较来生成输出406(例如,文本数据308)。机器学习算法302可输入经同步化的数据206和所提取的特征,并且处理器110可对机器学习算法302进行训练。在某些实施例中,机器学习算法可基于经同步化的数据206和文本数据308生成用户简档410。例如,可由机器学习算法302检取用户简档410,并且机器学习算法302可利用用户简档410从输入大脑信号数据408生成大脑信号文本数据418。在某些实施例中,机器学习算法可访问与用户118的大脑信号数据相对应的预期波形。
在一些实施例中,存储器404可包括进行以下操作的指令:对机器学习算法302进行重新训练,接收输入大脑信号数据408,并且基于输入大脑信号数据408来生成大脑信号文本数据418。机器学习算法302可包括大脑信号数据变换414,并且可对输入大脑信号数据408执行数据处理步骤。在某些实施例中,大脑信号数据变换414可包括可由处理器110执行以进行以下操作的指令:执行特征提取,执行数据清除,使输入数据集相关联和/或对输入数据集进行组合,和/或对数据进行归一化以提供用于机器学习算法302的输入数据集。在一些实施例中,非听觉语音识别系统100可执行数据清除过程,以解决数据不一致,移除噪声数据点,和/或移除输入大脑信号数据408中的离群数据点。例如,非听觉语音识别系统100可从输入大脑信号数据408中移除落在所指定的范围或阈值范围之外的数据点,诸如距平均数据点一个标准差、两个标准差或更多标准差的数据点。
在某些实施例中,非听觉语音识别系统100可执行数据分离过程以将输入大脑信号数据408分成任何数量的帧,并且可执行模拟/数字转换过程以将所输入大脑信号数据408转换为数字信号。另外或替代地,非听觉语音识别系统100可对输入大脑信号数据408执行傅里叶变换,以生成与音频数据202相关联的第一频率集合以及与大脑信号数据408相关联的第二频率集合。
在某些实施例中,非听觉语音识别系统100可提取与输入大脑信号数据408相关联的特征(例如,频率、幅度等等)。机器学习算法302可从输入大脑信号数据408标识和提取特征,诸如振动的幅度、振动的频率、振动方向(例如,角方向、旋转方向)的改变等等。另外,大脑数据识别组件306可包括指令,这些指令使处理器基于来自大脑信号数据408的所提取的特征来生成波形,并且可将所生成的波形与同经同步化的数据206相关联的预期波形进行比较。例如,非听觉语音识别系统100可使先前接收到的大脑信号数据(例如,大脑信号数据116)与基于与该大脑信号数据同时被感测的音频数据202而生成的文本数据308相关联。非听觉语音识别系统100可生成与大脑信号数据116相关联的预期波形,以基于后续大脑信号数据(例如,输入大脑信号数据408)来标识字词和/或短语。由此,机器学习算法302可将接收到的大脑信号数据与预期波形进行比较,并且可确定由用户118听到的和/或由用户118的大脑处理的大脑信号文本数据418。
在某些实施例中,处理器110可利用机器学习算法302来生成大脑信号文本数据418。例如,第二传感器112可感测大脑信号数据408(例如,电活动)并且可将大脑信号数据408传送至控制器402。大脑信号数据408可包括与用户118的大脑相关联的电活动,诸如电压幅度、电压频率、电压的改变等等。另外或替代地,大脑信号数据408可与由用户118听到的和/或由用户118的大脑(例如,在用户想到要说出的字词或短语时)处理的任何数量的字词相对应。
处理器110可将输入大脑信号数据408输入到机器学习算法302中,并且大脑数据识别组件306可接收大脑信号数据408并基于该大脑信号数据408生成输出406(例如,大脑信号文本数据418)。例如,大脑数据识别组件306可提取大脑信号数据408的特征,并将所提取的特征与同训练数据(例如,经同步化的数据206)相关联的预期特征和/或同基于在用户118的大脑处感测到的电活动的训练数据相关联的所提取的特征进行比较。由此,机器学习算法302可将同大脑信号数据408相关联的波形与同字词和/或短语相关联的预期波形进行比较,并且可基于比较期间任何数量的匹配来确定与大脑信号数据408相关联的字词和/或声音集合。在某些实施例中,大脑信号文本数据418可与大脑信号数据408中由用户118的大脑处理的相同的字词(例如,由用户118听到并由用户118的大脑处理的字词、和/或由用户118处理并将由用户118说出的字词)。在某些实施例中,非听觉语音识别系统100可将所生成的大脑信号文本数据418传送至任何数量的计算设备。
在一些实施例中,机器学习算法302可被实现为非听觉语音识别系统100的存储器404和/或任何数量的存储设备中所存储的软件。在一些实施例中,存储器404可包括存储可由处理器110执行的指令和/或要由处理器110处理的数据的一种或多种有形非瞬态计算机可读介质。作为示例,存储器404可包括随机存取存储器(RAM)、只读存储器(ROM)、可重写非易失性存储器,诸如闪存、硬驱动器、光盘,等等。
考虑到前述内容,图5是根据本公开的实施例的用于对机器学习算法(诸如,图4中的机器学习算法302)进行训练的过程500的流程图。尽管过程500被描述为由处理器110执行,但是应当理解,过程500可由可控制非听觉语音识别系统100的组件和/或与其进行通信的任何合适的设备来执行。此外,虽然使用按特定的顺序的各步骤来描述过程500,但应当理解,本公开构想了所描述的步骤能以与所图示的顺序不同的顺序来执行,并且某些所描述的步骤可被跳过或完全不被执行。在一些实施例中,过程500可通过使用任何合适的处理电路系统(诸如,处理器101)执行有形非瞬态计算机可读介质(诸如,存储器,404)中所存储的指令来实现。
在此种过程500中,处理器110接收(框502)由例如图1的传感器102、112感测和传送的训练数据(例如,音频数据和大脑信号数据)。在一些实施例中,音频数据可以是振动数据、生物计量信号、音频数据或其任何组合,并且可包括由用户118说出的字词。例如,可将传感器102设置在用户(诸如,用户118)身上,并且传感器104可检测用户的鼻骨中的振动。处理器110使音频数据202与大脑信号数据116同步化(框504)。例如,处理器110执行数据处理步骤,诸如,分析与音频数据和大脑信号数据中的每一者相关联的时间戳和持续时间。由此,处理器110使音频数据202和大脑信号数据116同步化,使得由用户118说出的和/或由用户118听到的字词(如由音频数据所表示)与由用户118的大脑处理的相同的字词(如由大脑信号数据所表示)相匹配。
处理器110基于经同步化的数据并使用机器学习算法(诸如,机器学习算法302)生成(框506)文本数据(诸如,图3中的文本数据308)。例如,机器学习算法302将同音频数据202相关联的所提取的特征与同训练音频数据相关联的预期特征和/或所提取的特征进行比较,并且基于该比较来生成所感测的字词。在某些实施例中,所生成的文本数据308包括与由传感器102感测到的相同的字词相对应的文本串。
处理器110将经同步化的数据206和所生成的文本数据308输入到机器学习算法302中,以对该机器学习算法302进行重新训练(框508)。例如,机器学习算法302从大脑信号数据116提取特征,并将所提取的特征与所生成的文本数据308相关联。在某些实施例中,机器学习算法302针对任何数量的字词生成预期大脑信号样本,并且预期大脑信号样本中的一些与所生成的文本数据308相对应。例如,机器学习算法302将预期大脑信号样本与输入大脑信号数据418进行比较,并且基于比较期间的匹配来确定输入大脑信号数据418与字词和/或短语相对应。由此,机器学习算法302将预期大脑信号样本与输入大脑信号数据418进行比较,以确定和/或标识由用户118的大脑处理(例如,由用户118听到和/或在说话之前处理)的字词。处理器110基于经同步化的数据和所生成的文本数据308来输出经重新训练的机器学习算法(框510)。一旦被重新训练,处理器110就可接收输入大脑信号数据408,并将该输入大脑信号输入408输入到经重新训练的机器学习算法302中,以基于大脑信号数据408生成文本数据418。
考虑到前述内容,图6是针对根据本公开的实施例的、用于使用图5的经重新训练的机器学习算法302来生成文本数据(诸如,图4中的大脑信号文本数据418)的过程的过程600的流程图。尽管过程600被描述为由处理器110执行,但是应当理解,过程600可由可控制非听觉语音识别系统100的组件和/或与其进行通信的任何合适的设备来执行。此外,虽然使用按特定的顺序的各步骤来描述过程600,但应当理解,本公开构想了所描述的步骤能以与所图示的顺序不同的顺序来执行,并且某些所描述的步骤可被跳过或完全不被执行。在一些实施例中,过程600可通过使用任何合适的处理电路系统(诸如,处理器110)执行有形非瞬态计算机可读介质(诸如,存储器,404)中所存储的指令来实现。
在此种过程600中,处理器110接收(框602)如由例如图1的传感器112感测和传送的大脑信号数据(诸如,大脑信号数据116)。。例如,传感器112感测来自用户118的大脑的电活动。处理器110将输入大脑信号数据418馈送到经重新训练的机器学习算法302中,并基于该输入大脑信号数据408生成(框604)文本数据418。例如,处理器110将来自输入大脑信号数据408的所提取的特征与同经重新训练的机器学习算法302相关联的预期特征进行比较。每个预期特征可与字词或短语相对应,并且处理器110基于该比较来标识文本数据418(例如,要被用户说出或听到的字词)。由此,处理器110基于该比较确定被用户118说出或听到的字词和/或短语。
处理器110使用经重新训练的机器学习算法302来输出(框606)大脑信号文本数据(诸如,图4中的大脑信号文本数据418)。大脑信号文本数据418与由用户118的大脑处理的文本串(例如,字词、短语)相对应。例如,用户118听到字词,并且大脑处理这些字词并生成相关联的电活动,该电活动被传感器112感测到,随后被处理器110接收并被用于生成大脑信号文本数据418。另外或替代地,用户118的大脑处理要由用户118说出的字词和/或短语。由此,当使用非听觉语音识别系统100时,用户118不需要大声说话来生成大脑信号文本数据418。有利的是,由于大声说出字词不再是必要的,因此处理器110可基于用户118仅仅想到字词而生成大脑信号文本数据418。
尽管本公开中阐述的实施例易于具有各种修改和替代形式,但是,特定实施例已作为示例在附图中示出并已在本文中详细描述。然而,可理解,本公开不旨在被限于所公开的特定形式。本公开将涵盖落入如由所附权利要求所限定的本公开的精神和范围内的所有修改、等效方案和替代方案。
本文所提出和要求保护的技术被引用并应用于实际性质的实物和具体示例,这些实物和示例明显改善了当前技术领域,因此不是抽象的、无形的或纯理论的。进一步地,如果本说明书末尾所附的任何权利要求包含一个或多个被指定为“用于[执行][功能]的装置”或“用于[执行][功能]的步骤”的要素,则其旨在基于35U.S.C.112(f)来解释此类要素。然而,对于包含以任何其他方式指定的要素的任何权利要求,其旨在不基于35U.S.C.112(f)来解释此类要素。
本公开的示例实施例
下列具有编号的条款限定了本公开的某些示例实施例。
条款1。
一种系统,包括:
第一传感器,该第一传感器被配置成用于感测来自用户的大脑信号数据,该大脑信号数据包括经由用户的大脑传送并且与由用户说出的第一字词集合相对应的神经信号;
第二传感器,该第二传感器被配置成用于感测来自用户的、与第一字词集合相对应的音频数据;
一个或多个处理器,该一个或多个处理器通信地耦合至第一传感器和第二传感器,该一个或多个处理器被配置成用于:
使用机器学习算法基于音频数据来生成文本数据;以及
基于大脑信号数据和文本数据来重新训练机器学习算法以生成经重新训练的机器学习算法,其中,经重新训练的机器学习算法被配置成用于基于第二大脑信号数据来生成与第二字词集合相关联的第二文本数据。
条款2。
如条款1所述的系统,包括被配置成用于被穿戴在用户的身体部位上的可穿戴设备,其中,该可穿戴设备包括第二传感器。
条款3。
如条款1所述的系统,其中,第一传感器被设置在用户的大脑上。
条款4。
如条款1所述的系统,包括大脑-计算机接口,该大脑-计算机接口被配置成用于接收来自第一传感器的大脑信号数据并提取与该大脑信号数据相关联的特征。
条款5。
如条款4所述的系统,其中:
大脑-计算机接口包括一个或多个处理器;以及
该一个或多个处理器被设置在被配置成用于被穿戴在用户的身体部位上的可穿戴设备上。
条款6。
如条款5所述的系统,其中,可穿戴设备包括框架,并且其中,第二传感器被设置在该框架上。
条款7。
如条款1所述的系统,其中:
音频数据包括第一时间戳,并且大脑信号数据包括第二时间戳;并且
一个或多个处理器被配置成用于根据第一时间戳和第二时间戳使大脑信号数据与音频数据同步化。
条款8。
如条款1所述的系统,其中,第一传感器被配置成用于感测大脑信号数据,并且第二传感器被配置成用于同时感测音频数据。
条款9。
一种方法,包括:
接收经时间同步化的数据,经时间同步化的数据包括音频数据和训练大脑信号数据;
基于经时间同步化的数据来训练机器学习算法,其中,该机器学习算法被配置成用于基于大脑信号数据来生成文本数据,其中,该大脑信号数据包括与大脑相关联的电信号;以及
从设置在用户的大脑上的传感器接收大脑信号数据,其中,该大脑信号数据与字词集合相对应;以及
经由机器学习算法基于大脑信号数据来生成文本数据,其中,该文本数据与字词集合相对应。
条款10。
如条款9所述的方法,包括从传感器接收训练大脑信号数据,其中,该训练大脑信号数据与第二字词集合相对应。
条款11。
如条款10所述的方法,包括:从第二传感器接收音频数据,其中,该音频数据与第二字词集合相对应。
条款12。
如条款11所述的方法,其中,第二传感器是骨传导话筒。
条款13。
如条款9所述的方法,其中,经时间同步化的数据包括与音频数据相关联的时间戳和持续时间以及与训练大脑信号数据相关联的时间戳和持续时间。
条款14。
如条款13所述的方法,包括:
将同音频数据相关联的第一时间戳和第一感测持续时间与同训练大脑信号数据相关联的第二时间戳和第二感测持续时间进行比较;以及
基于所比较来生成经时间同步化的数据。
条款15。
一种设备,包括:
传感器,传感器被配置成用于感测来自用户的大脑信号数据,其中,该大脑信号数据包括经由用户的大脑传送的神经信号并且该大脑信号数据与第一字词集合相对应;
一个或多个处理器,该一个或多个处理器通信地耦合至传感器并且被配置成用于:
接收经时间同步化的数据,该包括音频数据和训练大脑信号数据,其中,经时间同步化的数据与第二字词集合相对应;
使用语音识别基于经时间同步化的数据来生成训练文本数据,其中,该训练文本数据与第二字词集合相对应;以及
基于训练大脑信号数据和训练文本数据来训练机器学习算法,其中,该机器学习算法被配置成用于基于大脑信号数据来生成文本数据,其中,该文本数据包括与第一字词集合相对应的文本串;以及
基于大脑信号数据来生成文本数据。
条款16。
如条款15所述的设备,其中,一个或多个处理器被配置成用于:
提取与音频数据相关联的第一特征集合;
将第一特征集合与同第二字词集合相对应的预期特征集合进行比较;以及
基于将第一特征集合与预期特征集合进行比较来生成训练文本数据。
条款17。
如条款16所述的设备,其中,一个或多个处理器被配置成用于:
提取与训练大脑信号数据相关联的第二特征集合;以及
将第二特征集合与训练文本数据相关联,其中,第二预期特征集合包括与训练大脑信号数据相关联的第二特征集合。
条款18。
如条款17所述的设备,其中,一个或多个处理器被配置成用于:
提取与大脑信号数据相关联的第三特征集合;
将第三特征集合与第二预期特征集合进行比较;以及
基于将第三特征集合与第二预期特征集合进行比较来生成文本数据。
条款19。
如条款15所述的设备,其中,经时间同步化的数据包括与音频数据相关联的时间戳和持续时间以及与训练大脑信号数据相关联的时间戳和持续时间,并且其中,第一字词集合是由用户说出的。
条款20。
如条款15所述的设备,其中,第一字词集合是由第二用户说出的。

Claims (20)

1.一种系统,包括:
第一传感器,所述第一传感器被配置成用于感测来自用户的大脑信号数据,所述大脑信号数据包括经由所述用户的大脑传送并且与由所述用户说出的第一字词集合相对应的神经信号;
第二传感器,所述第二传感器被配置成用于感测来自所述用户的、与所述第一字词集合相对应的音频数据;
一个或多个处理器,所述一个或多个处理器通信地耦合至所述第一传感器和所述第二传感器,所述一个或多个处理器被配置成用于:
使用机器学习算法基于所述音频数据来生成文本数据;以及
基于所述大脑信号数据和所述文本数据来重新训练所述机器学习算法以生成经重新训练的机器学习算法,其中,所述经重新训练的机器学习算法被配置成用于基于第二大脑信号数据来生成与第二字词集合相关联的第二文本数据。
2.如权利要求1所述的系统,包括被配置成用于被穿戴在所述用户的身体部位上的可穿戴设备,其中,所述可穿戴设备包括所述第二传感器。
3.如权利要求1所述的系统,其中,所述第一传感器被设置在所述用户的所述大脑上。
4.如权利要求1所述的系统,包括大脑-计算机接口,所述大脑-计算机接口被配置成用于接收来自所述第一传感器的所述大脑信号数据并提取与所述大脑信号数据相关联的特征。
5.如权利要求4所述的系统,其中:
所述大脑-计算机接口包括所述一个或多个处理器;以及
所述一个或多个处理器被设置在被配置成用于被穿戴在所述用户的身体部位上的可穿戴设备上。
6.如权利要求5所述的系统,其中,所述可穿戴设备包括框架,并且其中,所述第二传感器被设置在所述框架上。
7.如权利要求1-6中任一项所述的系统,其中:
所述音频数据包括第一时间戳,并且所述大脑信号数据包括第二时间戳;并且
所述一个或多个处理器被配置成用于根据所述第一时间戳和所述第二时间戳使所述大脑信号数据与所述音频数据同步化。
8.如权利要求1-6中任一项所述的系统,其中,所述第一传感器被配置成用于感测所述大脑信号数据,并且所述第二传感器被配置成用于同时感测所述音频数据。
9.一种方法,包括:
接收经时间同步化的数据,所述经时间同步化的数据包括音频数据和训练大脑信号数据;
基于所述经时间同步化的数据来训练机器学习算法,其中,所述机器学习算法被配置成用于基于大脑信号数据来生成文本数据,其中,所述大脑信号数据包括与大脑相关联的电信号;以及
从设置在用户的大脑上的传感器接收所述大脑信号数据,其中,所述大脑信号数据与字词集合相对应;以及
经由所述机器学习算法基于所述大脑信号数据来生成所述文本数据,其中,所述文本数据与所述字词集合相对应。
10.如权利要求9所述的方法,包括:从所述传感器接收所述训练大脑信号数据,其中,所述训练大脑信号数据与第二字词集合相对应。
11.如权利要求10所述的方法,包括:从第二传感器接收所述音频数据,其中,所述音频数据与所述第二字词集合相对应。
12.如权利要求11所述的方法,其中,所述第二传感器是骨传导话筒。
13.如权利要求9所述的方法,其中,所述经时间同步化的数据包括与所述音频数据相关联的时间戳和持续时间以及与所述训练大脑信号数据相关联的时间戳和持续时间。
14.如权利要求13所述的方法,包括:
将同所述音频数据相关联的第一时间戳和第一感测持续时间与同所述训练大脑信号数据相关联的第二时间戳和第二感测持续时间进行比较;以及
基于所述比较来生成所述经时间同步化的数据。
15.一种设备,包括:
传感器,所述传感器被配置成用于感测来自用户的大脑信号数据,其中,所述大脑信号数据包括经由所述用户的大脑传送的神经信号并且所述大脑信号数据与第一字词集合相对应;
一个或多个处理器,所述一个或多个处理器通信地耦合至所述传感器并且被配置成用于:
接收经时间同步化的数据,所述经时间同步化的数据包括音频数据和训练大脑信号数据,其中,所述经时间同步化的数据与第二字词集合相对应;
使用语音识别基于所述经时间同步化的数据来生成训练文本数据,其中,所述训练文本数据与所述第二字词集合相对应;以及
基于所述训练大脑信号数据和所述训练文本数据来训练机器学习算法,其中,所述机器学习算法被配置成用于基于所述大脑信号数据来生成文本数据,其中,所述文本数据包括与所述第一字词集合相对应的文本串;以及
基于所述大脑信号数据来生成所述文本数据。
16.如权利要求15所述的设备,其中,所述一个或多个处理器被配置成用于:
提取与所述音频数据相关联的第一特征集合;
将所述第一特征集合与同所述第二字词集合相对应的预期特征集合进行比较;以及
基于将所述第一特征集合与所述预期特征集合进行比较来生成所述训练文本数据。
17.如权利要求16所述的设备,其中,所述一个或多个处理器被配置成用于:
提取与所述训练大脑信号数据相关联的第二特征集合;以及
将所述第二特征集合与所述训练文本数据相关联,其中,第二预期特征集合包括与所述训练大脑信号数据相关联的所述第二特征集合。
18.如权利要求17所述的设备,其中,所述一个或多个处理器被配置成用于:
提取与所述大脑信号数据相关联的第三特征集合;
将所述第三特征集合与所述第二预期特征集合进行比较;以及
基于将所述第三特征集合与所述第二预期特征集合进行比较来生成所述文本数据。
19.如权利要求15-18中任一项所述的设备,其中,所述经时间同步化的数据包括与所述音频数据相关联的时间戳和持续时间以及与所述训练大脑信号数据相关联的时间戳和持续时间,并且其中,所述第一字词集合是由所述用户说出的。
20.如权利要求15-18中任一项所述的设备,其中,所述第一字词集合是由第二用户说出的。
CN202111341700.3A 2020-12-14 2021-11-12 利用大脑-计算机接口的语音识别 Pending CN114625240A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/121,444 2020-12-14
US17/121,444 US20210104244A1 (en) 2020-12-14 2020-12-14 Speech recognition with brain-computer interfaces

Publications (1)

Publication Number Publication Date
CN114625240A true CN114625240A (zh) 2022-06-14

Family

ID=75274218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111341700.3A Pending CN114625240A (zh) 2020-12-14 2021-11-12 利用大脑-计算机接口的语音识别

Country Status (3)

Country Link
US (1) US20210104244A1 (zh)
EP (1) EP4012701B1 (zh)
CN (1) CN114625240A (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US20170172493A1 (en) * 2015-12-17 2017-06-22 Microsoft Technology Licensing, Llc Wearable system for predicting about-to-eat moments
US10795440B1 (en) * 2017-04-17 2020-10-06 Facebook, Inc. Brain computer interface for text predictions
US12008987B2 (en) * 2018-04-30 2024-06-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for decoding intended speech from neuronal activity

Also Published As

Publication number Publication date
EP4012701B1 (en) 2024-05-08
US20210104244A1 (en) 2021-04-08
EP4012701A1 (en) 2022-06-15

Similar Documents

Publication Publication Date Title
CN113709616B (zh) 耳朵接近度检测
KR101810806B1 (ko) 컴퓨팅 디바이스의 음성 인식 프로세스의 제어
US20200034492A1 (en) Retroactive information searching enabled by neural sensing
CN109346075A (zh) 通过人体振动识别用户语音以控制电子设备的方法和系统
US11517252B2 (en) Using a hearable to generate a user health indicator
EP2887351A1 (en) Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
EP3982358A2 (en) Whisper conversion for private conversations
US11688386B2 (en) Wearable vibrotactile speech aid
CN115315699A (zh) 用于语音用户接口的耳内活性检测
US20230377602A1 (en) Health-related information generation and storage
WO2020140840A1 (zh) 用于唤醒可穿戴设备的方法及装置
Freitas et al. An introduction to silent speech interfaces
CN110400565A (zh) 说话人识别方法、系统及计算机可读存储介质
Min et al. Vocal stereotypy detection: An initial step to understanding emotions of children with autism spectrum disorder
EP4012701B1 (en) Speech recognition with brain-computer interfaces
US20240221738A1 (en) Systems and methods for using silent speech in a user interaction system
CN112672120B (zh) 一种带语音分析功能的投影仪及个人健康数据生成方法
CN112185422A (zh) 提示信息生成方法及其语音机器人
CN118541752A (zh) 用于多麦克风系统的数据扩充系统和方法
CN117836823A (zh) 对检测到的无声语音的破译
JP4447857B2 (ja) 音声検出装置
CN113544768A (zh) 使用多传感器的语音识别
US20240221741A1 (en) Wearable silent speech device, systems, and methods for control
KR101757426B1 (ko) 음성 녹음 기능을 구비한 헤어웨어, 그리고 이를 이용한 사용자 언어 및 감정 인식 시스템
Li et al. Beyond pulse: Can the in-ear photoplethysmogram signal understand what you say?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination