CN112698729A - 一种基于脑信号与语音相结合的字符输入方法 - Google Patents

一种基于脑信号与语音相结合的字符输入方法 Download PDF

Info

Publication number
CN112698729A
CN112698729A CN202110068292.2A CN202110068292A CN112698729A CN 112698729 A CN112698729 A CN 112698729A CN 202110068292 A CN202110068292 A CN 202110068292A CN 112698729 A CN112698729 A CN 112698729A
Authority
CN
China
Prior art keywords
voice
brain
input
computer
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110068292.2A
Other languages
English (en)
Other versions
CN112698729B (zh
Inventor
李远清
高天毅
瞿军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110068292.2A priority Critical patent/CN112698729B/zh
Publication of CN112698729A publication Critical patent/CN112698729A/zh
Application granted granted Critical
Publication of CN112698729B publication Critical patent/CN112698729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Neurology (AREA)
  • Dermatology (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种基于脑信号与语音相结合的字符输入方法,本方法的具体步骤如下:系统初始化:用户戴上电极帽,打好导电膏,将电极帽连接上放大器,将放大器连接到电脑上,启动脑电采集软件,设置好参数;将麦克风连接到电脑上;脑信号输入:启动诱发刺激模块的刺激范式界面,开始训练数据的采集;在每个字符的拼写过程中,P300按钮会闪烁n轮(round),在每个round中44个P300按钮会按照随机的次序闪烁1次;本发明针对现有的脑机领域字符输入方法存在的缺陷进行了完善,采用了脑信号和语音信号输入的方法,将脑机接口技术和语音识别技术相结合,大大提高了字符输入方法的灵活性,同时也使得字符输入效率得到了极大的提升。

Description

一种基于脑信号与语音相结合的字符输入方法
技术领域
本发明属于人机交互技术领域,具体涉及一种基于脑信号与语音相结合的字符输入方法。
背景技术
目前社会对残障人士的关注慢慢增多,如何提高残障人士的生活质量已经成为人们热议的话题。为帮助残障患者更好地与外界进行信息交互,对现有的字符输入方法进行了如下调研分析:
申请号为201110269640.9的发明“一种用脑电波输入汉字的虚拟键盘设计方案”和申请号为201710582561.0的发明“基于运动视觉诱发电位的高效脑控中文输入法”都是单纯地采用脑机接口技术实现字符输入,对于残障患者来说,使用脑机接口技术实现的字符输入方法存在如下弊端:(1)中文输入需要利用拼音或者笔画进行多步拼写输入,步骤繁琐,输入一个汉字的耗时较长,时效性得不到保证。(2)长时间操作会让使用者感到疲劳,使用者在疲劳状态下的操作准确率也会随之降低,输入不稳定,准确率得不到保证。
申请号为201210517734.8的发明“基于视线跟踪与语音识别的字符输入装置和方法”,由于语音识别技术受环境等不确定因素的影响,识别准确率得不到保证,尤其在是语音输入较长一段话的情况下,语音识别往往会得到部分正确部分错误的识别结果,另外语音识别也存在同音字误识别的问题。这个发明也只是利用语音识别技术作为辅助字符输入的控制方法,没能很好地将语音识别技术输入效率高的优点应用到字符输入场景中。
本发明旨在解决脑机接口领域的字符输入问题,让使用者得以利用脑信号和语音信号高效准确地进行字符输入。由于单纯地依靠脑机接口技术进行字符输入存在准确率和时效性的局限性,单纯的语音识别技术虽然其输入效率高,但是也存在准确性的问题。因此本发明将语音识别技术与脑机接口技术结合起来进行字符输入,利用语音识别技术弥补在使用脑机接口技术输入字符时时效性不够的不足,利用脑机接口技术弥补语音识别技术因为误识别情况导致准确率低的问题。两种技术结合之后的字符输入方法极大地提高了输入效率和准确率,且在不同输入需求情况下可以灵活选择输入方法,极大地拓展了脑机接口技术在人机交互领域应用范围。
发明内容
本发明的目的在于提供一种基于脑信号与语音相结合的字符输入方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于脑信号与语音相结合的字符输入方法,系统由诱发刺激模块、信号采集模块、信号分析模块和控制模块四部分组成;具体步骤如下:
(1)系统初始化:用户戴上电极帽,打好导电膏,将电极帽连接上放大器,将放大器连接到电脑上,启动脑电采集软件,设置好参数;将麦克风连接到电脑上;
(2)脑信号输入:启动诱发刺激模块的刺激范式界面,开始训练数据的采集;在每个字符的拼写过程中,P300按钮会闪烁n轮(round),在每个round中44个P300按钮会按照随机的次序闪烁1次;信号分析模块对采集到的头皮脑电信号进行带通滤波,然后取每个P300按钮闪烁刺激开始后的600ms作为采样点来进行P300检测,这段数据称为一个epoch,再对每个epoch以6倍的下采样率进行下采样,将对应于每个P300按钮闪烁的下采样后得到的数据连接构成一个特征向量,之后再将n次采集所得的所有P300按钮闪烁对应的特征向量进行分类识别,以确定使用者想要选择的目标;
(3)语音信号输入:利用(2)中的方法引导用户选中界面中的麦克风按钮开启语音输入,当检测到有语音信号输入时,利用多线程技术同步技术同时开启语音识别,当检测到2s内没有语音输入之后自动停止语音识别,并输出语音识别结果;还有部分控制是利用语音唤醒功能实现的,例如当汉字拼写完待选择的时候,当前显示的五个选项中没有目标汉字,那么使用者可以通过语音输入“下一页”切换到下一页的五个选项,同样可以通过语音输入“上一页”切换回去;当语音识别一段话的结果出现部分偏差的时候,可以利用语音输入“上移”、“下移”、“左移”、“右移”来移动闪烁的光标,将光标快速定位到识别错误的地方然后再修改;
(4)结果输出:脑信号和声音信号经过分析之后得到的结果,通过消息机制发送到指定窗口所在线程的消息队列中,等到对应窗口线程读到这条消息时再将该消息转换为字符显示在窗口中的文本输入框内显示。
优选的,诱发刺激模块采用单字符刺激范式,即在某一个字符开始闪烁一段时间后才开始闪烁下一个字符;刺激范式仿照电脑键盘设计,具有中、英、符三种输入状态,满足了大部分用户的信息交互需求。
优选的,信号采集模块根据输入方法可以分为脑信号采集和语音信号采集;脑信号采集使用了一顶32通道的电极帽、一台放大器和一台计算机;语音信号采集使用的是一个麦克风和一台计算机。
优选的,信号分析模块主要包括预处理、特征提取、模式识别分类三个步骤,信号分析处理完毕之后用户想要输入的字符也就确定。
优选的,控制模块负责将用户通过脑信号或者语音信号输入的字符输出到记事本、浏览器等计算机中需要文本输入的目标应用程序中。
与现有技术相比,本发明的有益效果是:本发明针对现有的脑机领域字符输入方法存在的缺陷进行了完善,采用了脑信号和语音信号输入的方法,将脑机接口技术和语音识别技术相结合,大大提高了字符输入方法的灵活性,同时也使得字符输入效率得到了极大的提升。
本发明提供了一种操作简单且高效的字符输入方法,很大程度上降低了人机交互难度,在游戏娱乐和医疗康复领域具有广阔的应用前景。
附图说明
图1为本发明的步骤流程示意图;
图2为本发明的符号刺激范式示意图;
图3为本发明的中文(带选项)刺激范式示意图;
图4为本发明的中文(不带选项)刺激范式示意图;
图5为本发明的小写英文刺激范式示意图;
图6为本发明的大写英文刺激范式示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1至图6,本发明提供一种技术方案:一种基于脑信号与语音相结合的字符输入方法,系统由诱发刺激模块、信号采集模块、信号分析模块和控制模块四部分组成;其特征在于:本方法的具体步骤如下:
(1)系统初始化:用户戴上电极帽,打好导电膏,将电极帽连接上放大器,将放大器连接到电脑上,启动脑电采集软件,设置好参数;将麦克风连接到电脑上;
(2)脑信号输入:启动诱发刺激模块的刺激范式界面,开始训练数据的采集;在每个字符的拼写过程中,P300按钮会闪烁n轮(round),在每个round中44个P300按钮会按照随机的次序闪烁1次;信号分析模块对采集到的头皮脑电信号进行带通滤波,然后取每个P300按钮闪烁刺激开始后的600ms作为采样点来进行P300检测,这段数据称为一个epoch,再对每个epoch以6倍的下采样率进行下采样,将对应于每个P300按钮闪烁的下采样后得到的数据连接构成一个特征向量,之后再将n次采集所得的所有P300按钮闪烁对应的特征向量进行分类识别,以确定使用者想要选择的目标;
(3)语音信号输入:利用(2)中的方法引导用户选中界面中的麦克风按钮开启语音输入,当检测到有语音信号输入时,利用多线程技术同步技术同时开启语音识别,当检测到2s内没有语音输入之后自动停止语音识别,并输出语音识别结果;还有部分控制是利用语音唤醒功能实现的,例如当汉字拼写完待选择的时候,当前显示的五个选项中没有目标汉字,那么使用者可以通过语音输入“下一页”切换到下一页的五个选项,同样可以通过语音输入“上一页”切换回去;当语音识别一段话的结果出现部分偏差的时候,可以利用语音输入“上移”、“下移”、“左移”、“右移”来移动闪烁的光标,将光标快速定位到识别错误的地方然后再修改;
(4)结果输出:脑信号和声音信号经过分析之后得到的结果,通过消息机制发送到指定窗口所在线程的消息队列中,等到对应窗口线程读到这条消息时再将该消息转换为字符显示在窗口中的文本输入框内显示。
本实施例中,优选的,诱发刺激模块采用单字符刺激范式,即在某一个字符开始闪烁一段时间后才开始闪烁下一个字符;刺激范式仿照电脑键盘设计,如图2-6,具有中、英、符三种输入状态,满足了大部分用户的信息交互需求。
本实施例中,优选的,信号采集模块根据输入方法可以分为脑信号采集和语音信号采集;脑信号采集使用了一顶32通道的电极帽、一台放大器和一台计算机;语音信号采集使用的是一个麦克风和一台计算机。
本实施例中,优选的,信号分析模块主要包括预处理、特征提取、模式识别分类三个步骤,信号分析处理完毕之后用户想要输入的字符也就确定。
本实施例中,优选的,控制模块负责将用户通过脑信号或者语音信号输入的字符输出到记事本、浏览器等计算机中需要文本输入的目标应用程序中。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于脑信号与语音相结合的字符输入方法,系统由诱发刺激模块、信号采集模块、信号分析模块和控制模块四部分组成;其特征在于:本方法的具体步骤如下:
(1)系统初始化:用户戴上电极帽,打好导电膏,将电极帽连接上放大器,将放大器连接到电脑上,启动脑电采集软件,设置好参数;将麦克风连接到电脑上;
(2)脑信号输入:启动诱发刺激模块的刺激范式界面,开始训练数据的采集;在每个字符的拼写过程中,P300按钮会闪烁n轮(round),在每个round中44个P300按钮会按照随机的次序闪烁1次;信号分析模块对采集到的头皮脑电信号进行带通滤波,然后取每个P300按钮闪烁刺激开始后的600ms作为采样点来进行P300检测,这段数据称为一个epoch,再对每个epoch以6倍的下采样率进行下采样,将对应于每个P300按钮闪烁的下采样后得到的数据连接构成一个特征向量,之后再将n次采集所得的所有P300按钮闪烁对应的特征向量进行分类识别,以确定使用者想要选择的目标;
(3)语音信号输入:利用(2)中的方法引导用户选中界面中的麦克风按钮开启语音输入,当检测到有语音信号输入时,利用多线程技术同步技术同时开启语音识别,当检测到2s内没有语音输入之后自动停止语音识别,并输出语音识别结果;还有部分控制是利用语音唤醒功能实现的,例如当汉字拼写完待选择的时候,当前显示的五个选项中没有目标汉字,那么使用者可以通过语音输入“下一页”切换到下一页的五个选项,同样可以通过语音输入“上一页”切换回去;当语音识别一段话的结果出现部分偏差的时候,可以利用语音输入“上移”、“下移”、“左移”、“右移”来移动闪烁的光标,将光标快速定位到识别错误的地方然后再修改;
(4)结果输出:脑信号和声音信号经过分析之后得到的结果,通过消息机制发送到指定窗口所在线程的消息队列中,等到对应窗口线程读到这条消息时再将该消息转换为字符显示在窗口中的文本输入框内显示。
2.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法,其特征在于:诱发刺激模块采用单字符刺激范式,即在某一个字符开始闪烁一段时间后才开始闪烁下一个字符;刺激范式仿照电脑键盘设计,具有中、英、符三种输入状态,满足了大部分用户的信息交互需求。
3.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法,其特征在于:信号采集模块根据输入方法可以分为脑信号采集和语音信号采集;脑信号采集使用了一顶32通道的电极帽、一台放大器和一台计算机;语音信号采集使用的是一个麦克风和一台计算机。
4.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法,其特征在于:信号分析模块主要包括预处理、特征提取、模式识别分类三个步骤,信号分析处理完毕之后用户想要输入的字符也就确定。
5.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法,其特征在于:控制模块负责将用户通过脑信号或者语音信号输入的字符输出到记事本、浏览器等计算机中需要文本输入的目标应用程序中。
CN202110068292.2A 2021-01-19 2021-01-19 一种基于脑信号与语音相结合的字符输入方法 Active CN112698729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110068292.2A CN112698729B (zh) 2021-01-19 2021-01-19 一种基于脑信号与语音相结合的字符输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110068292.2A CN112698729B (zh) 2021-01-19 2021-01-19 一种基于脑信号与语音相结合的字符输入方法

Publications (2)

Publication Number Publication Date
CN112698729A true CN112698729A (zh) 2021-04-23
CN112698729B CN112698729B (zh) 2023-06-06

Family

ID=75515683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110068292.2A Active CN112698729B (zh) 2021-01-19 2021-01-19 一种基于脑信号与语音相结合的字符输入方法

Country Status (1)

Country Link
CN (1) CN112698729B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515199A (zh) * 2009-03-24 2009-08-26 北京理工大学 一种基于视线跟踪和p300脑电电位的字符输入装置
CN107037889A (zh) * 2017-03-06 2017-08-11 南昌大学 一种基于视觉脑机接口的自然书写字符输入方法及系统
CN109065184A (zh) * 2018-07-12 2018-12-21 山东建筑大学 基于脑机接口的脑卒中患者语音交流看护控制系统及方法
WO2019001360A1 (zh) * 2017-06-29 2019-01-03 华南理工大学 一种基于视觉刺激的人机交互方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515199A (zh) * 2009-03-24 2009-08-26 北京理工大学 一种基于视线跟踪和p300脑电电位的字符输入装置
CN107037889A (zh) * 2017-03-06 2017-08-11 南昌大学 一种基于视觉脑机接口的自然书写字符输入方法及系统
WO2019001360A1 (zh) * 2017-06-29 2019-01-03 华南理工大学 一种基于视觉刺激的人机交互方法
CN109065184A (zh) * 2018-07-12 2018-12-21 山东建筑大学 基于脑机接口的脑卒中患者语音交流看护控制系统及方法

Also Published As

Publication number Publication date
CN112698729B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
US10126816B2 (en) Systems and methods for using imagined directions to define an action, function or execution for non-tactile devices
Li et al. Automatic recognition of sign language subwords based on portable accelerometer and EMG sensors
Pfurtscheller et al. Graz-BCI: state of the art and clinical applications
US5967996A (en) Apparatus and method for aiding transmission
Lutz et al. SMOOVS: Towards calibration-free text entry by gaze using smooth pursuit movements
CN103294194B (zh) 一种基于眼球跟踪的翻译方法及系统
CN109065184B (zh) 基于脑机接口的脑卒中患者语音交流看护控制系统及方法
CN107390869B (zh) 基于运动视觉诱发电位的高效脑控中文输入方法
CN101515199A (zh) 一种基于视线跟踪和p300脑电电位的字符输入装置
Yang et al. Design of virtual keyboard using blink control method for the severely disabled
CN112363627A (zh) 基于脑机交互的注意力训练方法和系统
CN103699226A (zh) 一种基于多信息融合的三模态串行脑-机接口方法
CN108829239A (zh) 终端的控制方法、装置及终端
CN110443113A (zh) 一种虚拟现实书写方法、系统和存储介质
CN111045519A (zh) 一种基于眼动追踪的人机交互方法、装置和设备
Luo et al. Wearable air-writing recognition system employing dynamic time warping
Wang et al. P300 brain-computer interface design for communication and control applications
CN117389441A (zh) 基于视觉追随辅助的书写想象汉字轨迹确定方法及系统
CN116880691A (zh) 一种基于手写轨迹解码的脑机接口交互方法
CN102339128A (zh) 一种用脑电波输入汉字的虚拟键盘设计方案
CN110688013A (zh) 一种基于ssvep的英文键盘拼写系统及拼写方法
Orhan RSVP Keyboard™: An EEG Based BCI Typing System with Context Information Fusion
CN117608402A (zh) 一种基于汉字书写想象的隐蔽汉语言处理系统和方法
Yu et al. A P300-based brain–computer interface for Chinese character input
CN112698729B (zh) 一种基于脑信号与语音相结合的字符输入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant