CN112698729A

CN112698729A - 一种基于脑信号与语音相结合的字符输入方法

Info

Publication number: CN112698729A
Application number: CN202110068292.2A
Authority: CN
Inventors: 李远清; 高天毅; 瞿军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-04-23
Anticipated expiration: 2041-01-19
Also published as: CN112698729B

Abstract

本发明公开了一种基于脑信号与语音相结合的字符输入方法，本方法的具体步骤如下：系统初始化：用户戴上电极帽，打好导电膏，将电极帽连接上放大器，将放大器连接到电脑上，启动脑电采集软件，设置好参数；将麦克风连接到电脑上；脑信号输入：启动诱发刺激模块的刺激范式界面，开始训练数据的采集；在每个字符的拼写过程中，P300按钮会闪烁n轮(round)，在每个round中44个P300按钮会按照随机的次序闪烁1次；本发明针对现有的脑机领域字符输入方法存在的缺陷进行了完善，采用了脑信号和语音信号输入的方法，将脑机接口技术和语音识别技术相结合，大大提高了字符输入方法的灵活性，同时也使得字符输入效率得到了极大的提升。

Description

一种基于脑信号与语音相结合的字符输入方法

技术领域

本发明属于人机交互技术领域，具体涉及一种基于脑信号与语音相结合的字符输入方法。

背景技术

目前社会对残障人士的关注慢慢增多，如何提高残障人士的生活质量已经成为人们热议的话题。为帮助残障患者更好地与外界进行信息交互，对现有的字符输入方法进行了如下调研分析：

申请号为201110269640.9的发明“一种用脑电波输入汉字的虚拟键盘设计方案”和申请号为201710582561.0的发明“基于运动视觉诱发电位的高效脑控中文输入法”都是单纯地采用脑机接口技术实现字符输入，对于残障患者来说，使用脑机接口技术实现的字符输入方法存在如下弊端：(1)中文输入需要利用拼音或者笔画进行多步拼写输入，步骤繁琐，输入一个汉字的耗时较长，时效性得不到保证。(2)长时间操作会让使用者感到疲劳，使用者在疲劳状态下的操作准确率也会随之降低，输入不稳定，准确率得不到保证。

申请号为201210517734.8的发明“基于视线跟踪与语音识别的字符输入装置和方法”，由于语音识别技术受环境等不确定因素的影响，识别准确率得不到保证，尤其在是语音输入较长一段话的情况下，语音识别往往会得到部分正确部分错误的识别结果，另外语音识别也存在同音字误识别的问题。这个发明也只是利用语音识别技术作为辅助字符输入的控制方法，没能很好地将语音识别技术输入效率高的优点应用到字符输入场景中。

本发明旨在解决脑机接口领域的字符输入问题，让使用者得以利用脑信号和语音信号高效准确地进行字符输入。由于单纯地依靠脑机接口技术进行字符输入存在准确率和时效性的局限性，单纯的语音识别技术虽然其输入效率高，但是也存在准确性的问题。因此本发明将语音识别技术与脑机接口技术结合起来进行字符输入，利用语音识别技术弥补在使用脑机接口技术输入字符时时效性不够的不足，利用脑机接口技术弥补语音识别技术因为误识别情况导致准确率低的问题。两种技术结合之后的字符输入方法极大地提高了输入效率和准确率，且在不同输入需求情况下可以灵活选择输入方法，极大地拓展了脑机接口技术在人机交互领域应用范围。

发明内容

本发明的目的在于提供一种基于脑信号与语音相结合的字符输入方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于脑信号与语音相结合的字符输入方法，系统由诱发刺激模块、信号采集模块、信号分析模块和控制模块四部分组成；具体步骤如下：

(1)系统初始化：用户戴上电极帽，打好导电膏，将电极帽连接上放大器，将放大器连接到电脑上，启动脑电采集软件，设置好参数；将麦克风连接到电脑上；

(2)脑信号输入：启动诱发刺激模块的刺激范式界面，开始训练数据的采集；在每个字符的拼写过程中，P300按钮会闪烁n轮(round)，在每个round中44个P300按钮会按照随机的次序闪烁1次；信号分析模块对采集到的头皮脑电信号进行带通滤波，然后取每个P300按钮闪烁刺激开始后的600ms作为采样点来进行P300检测，这段数据称为一个epoch，再对每个epoch以6倍的下采样率进行下采样，将对应于每个P300按钮闪烁的下采样后得到的数据连接构成一个特征向量，之后再将n次采集所得的所有P300按钮闪烁对应的特征向量进行分类识别，以确定使用者想要选择的目标；

(3)语音信号输入：利用(2)中的方法引导用户选中界面中的麦克风按钮开启语音输入，当检测到有语音信号输入时，利用多线程技术同步技术同时开启语音识别，当检测到2s内没有语音输入之后自动停止语音识别，并输出语音识别结果；还有部分控制是利用语音唤醒功能实现的，例如当汉字拼写完待选择的时候，当前显示的五个选项中没有目标汉字，那么使用者可以通过语音输入“下一页”切换到下一页的五个选项，同样可以通过语音输入“上一页”切换回去；当语音识别一段话的结果出现部分偏差的时候，可以利用语音输入“上移”、“下移”、“左移”、“右移”来移动闪烁的光标，将光标快速定位到识别错误的地方然后再修改；

(4)结果输出：脑信号和声音信号经过分析之后得到的结果，通过消息机制发送到指定窗口所在线程的消息队列中，等到对应窗口线程读到这条消息时再将该消息转换为字符显示在窗口中的文本输入框内显示。

优选的，诱发刺激模块采用单字符刺激范式，即在某一个字符开始闪烁一段时间后才开始闪烁下一个字符；刺激范式仿照电脑键盘设计，具有中、英、符三种输入状态，满足了大部分用户的信息交互需求。

优选的，信号采集模块根据输入方法可以分为脑信号采集和语音信号采集；脑信号采集使用了一顶32通道的电极帽、一台放大器和一台计算机；语音信号采集使用的是一个麦克风和一台计算机。

优选的，信号分析模块主要包括预处理、特征提取、模式识别分类三个步骤，信号分析处理完毕之后用户想要输入的字符也就确定。

优选的，控制模块负责将用户通过脑信号或者语音信号输入的字符输出到记事本、浏览器等计算机中需要文本输入的目标应用程序中。

与现有技术相比，本发明的有益效果是：本发明针对现有的脑机领域字符输入方法存在的缺陷进行了完善，采用了脑信号和语音信号输入的方法，将脑机接口技术和语音识别技术相结合，大大提高了字符输入方法的灵活性，同时也使得字符输入效率得到了极大的提升。

本发明提供了一种操作简单且高效的字符输入方法，很大程度上降低了人机交互难度，在游戏娱乐和医疗康复领域具有广阔的应用前景。

附图说明

图1为本发明的步骤流程示意图；

图2为本发明的符号刺激范式示意图；

图3为本发明的中文(带选项)刺激范式示意图；

图4为本发明的中文(不带选项)刺激范式示意图；

图5为本发明的小写英文刺激范式示意图；

图6为本发明的大写英文刺激范式示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1至图6，本发明提供一种技术方案：一种基于脑信号与语音相结合的字符输入方法，系统由诱发刺激模块、信号采集模块、信号分析模块和控制模块四部分组成；其特征在于：本方法的具体步骤如下：

本实施例中，优选的，诱发刺激模块采用单字符刺激范式，即在某一个字符开始闪烁一段时间后才开始闪烁下一个字符；刺激范式仿照电脑键盘设计，如图2-6，具有中、英、符三种输入状态，满足了大部分用户的信息交互需求。

本实施例中，优选的，信号采集模块根据输入方法可以分为脑信号采集和语音信号采集；脑信号采集使用了一顶32通道的电极帽、一台放大器和一台计算机；语音信号采集使用的是一个麦克风和一台计算机。

本实施例中，优选的，信号分析模块主要包括预处理、特征提取、模式识别分类三个步骤，信号分析处理完毕之后用户想要输入的字符也就确定。

本实施例中，优选的，控制模块负责将用户通过脑信号或者语音信号输入的字符输出到记事本、浏览器等计算机中需要文本输入的目标应用程序中。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于脑信号与语音相结合的字符输入方法，系统由诱发刺激模块、信号采集模块、信号分析模块和控制模块四部分组成；其特征在于：本方法的具体步骤如下：

2.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法，其特征在于：诱发刺激模块采用单字符刺激范式，即在某一个字符开始闪烁一段时间后才开始闪烁下一个字符；刺激范式仿照电脑键盘设计，具有中、英、符三种输入状态，满足了大部分用户的信息交互需求。

3.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法，其特征在于：信号采集模块根据输入方法可以分为脑信号采集和语音信号采集；脑信号采集使用了一顶32通道的电极帽、一台放大器和一台计算机；语音信号采集使用的是一个麦克风和一台计算机。

4.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法，其特征在于：信号分析模块主要包括预处理、特征提取、模式识别分类三个步骤，信号分析处理完毕之后用户想要输入的字符也就确定。

5.根据权利要求1所述的一种基于脑信号与语音相结合的字符输入方法，其特征在于：控制模块负责将用户通过脑信号或者语音信号输入的字符输出到记事本、浏览器等计算机中需要文本输入的目标应用程序中。