CN108447504A - 一种基于脑电波的口语评测方法 - Google Patents

一种基于脑电波的口语评测方法 Download PDF

Info

Publication number
CN108447504A
CN108447504A CN201810228865.1A CN201810228865A CN108447504A CN 108447504 A CN108447504 A CN 108447504A CN 201810228865 A CN201810228865 A CN 201810228865A CN 108447504 A CN108447504 A CN 108447504A
Authority
CN
China
Prior art keywords
pronunciation
brain wave
signal
training
fluency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810228865.1A
Other languages
English (en)
Inventor
蒋阳波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Schoolpal Online Hangzhou Technology Co ltd
Original Assignee
Schoolpal Online Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Schoolpal Online Hangzhou Technology Co ltd filed Critical Schoolpal Online Hangzhou Technology Co ltd
Priority to CN201810228865.1A priority Critical patent/CN108447504A/zh
Publication of CN108447504A publication Critical patent/CN108447504A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Dermatology (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于脑电波的口语评测方法。它包括训练阶段和评测阶段,所述的训练阶段指的是:运用脑电波信号,利用深度学习技术来训练发音流利度、发音难度和发音多样性的特征提取模型,根据特征提取模型提取特征,最终训练得到口语打分模型;所述的评测阶段指的是:脑电波传感器获取脑电波信号,提取发音流利度、发音难度和发音多样性的特征,利用口语打分模型进行口语评测。本发明的有益效果是:运行脑电波检测、信号处理技术和机器学习方法,实现了对学习者的口语发音进行准确、自动的评测,能够快速提高口语学习效能。

Description

一种基于脑电波的口语评测方法
技术领域
本发明涉及口语评测相关技术领域,尤其是指一种基于脑电波的口语评测方法。
背景技术
随着人们生活水平的提高,人们对于外语学习的热情日益高涨。研究如何有效快速地自动评测口语学习有着重要的意义,不但可以显著地减少口语老师的工作量,而且可以提高口语学习的效能。目前,口语评测有人工口语评测和机器口语评测。人工口语评测需要专门的口语老师,同时需要人工反复地听取音频以给出专业的评价。机器口语评测,目前大多采用语音识别技术,训练收集大量语音,建立语音识别模型,根据识别结果提取特征,利用机器学习训练打分模型,最后得到口语得分。随着现代科学技术的发展,脑电波技术的发展进入快车道,在新的领域应用越来越多。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种能够快速提高口语学习效能的基于脑电波的口语评测方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于脑电波的口语评测方法,包括训练阶段和评测阶段,所述的训练阶段指的是:运用脑电波信号,利用深度学习技术来训练发音流利度、发音难度和发音多样性的特征提取模型,根据特征提取模型提取特征,最终训练得到口语打分模型;所述的评测阶段指的是:脑电波传感器获取脑电波信号,提取发音流利度、发音难度和发音多样性的特征,利用口语打分模型进行口语评测。
本发明提出了口语的自动评测方法,通过采集使用者的脑电波信号,通过深度学习算法提取有关口语的发音流利度、发音难度、发音多样性的特征,在口语打分模型上进行打分,得到最终的口语评测得分。本发明运行脑电波检测、信号处理技术和机器学习方法,实现了对学习者的口语发音进行准确、自动的评测,能够快速提高口语学习效能。
作为优选,所述的训练阶段步骤如下:
(1)数据收集和标注,建立脑电波信号语料、音频语料库及标注文件;脑电波传感器检测人脑,每次将采集得到脑电波原始信号转换为脑电波数字信号;同时录制音频文件,人工对音频文件进行听音,对对应脑电波信号文件标注相应发音流利度、发音难度、发音多样性的人工打分文件;设定发音流利度分为五个等级,发音难度分为五个等级,发音多样性分为五个等级,其中五个等级分别对应的数值为0、1、2、3、4;
(2)利用信号处理算法处理脑电波数字信号,得到频谱信号;具体流程如下:将脑电波数字信号进行分段处理,对每一段信号利用快速傅里叶变换得到频域信号,对频域信号提取功率谱,最后对功率谱进行Log变换,得到Log功率谱,即频谱信号;
(3)运用频谱信号及步骤(1)标注的包含发音流利度、发音难度、发音多样性的人工打分文本,利用深度学习模型训练发音流利度、发音难度、发音多样性的特征模型,同时利用深度学习模型对频谱信号提取特征;
(4)利用训练得到的特征模型对脑电波数字信号提取有关口语的发音流利度、发音难度、发音多样性的特征得分,并根据线性回归算法训练最终的口语打分模型。
作为优选,在步骤(2)中,分段处理方式具体为:每段长度为1s,每段处理完毕,向后移动0.5s,相邻两段之间会有0.5s重叠,重复处理,直到处理完毕;快速傅里叶变换是离散傅里叶变换的快速算法。
作为优选,在步骤(3)中,所述的深度学习模型包括深度神经网络、卷积神经网络和循环神经网络;深度学习是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法,提取的特征包括发音流利度、发音难度、发音多样性,这些特征是深度学习算法自动学习得到,之后对脑电波信号相应的时间片段上进行标注即可。
作为优选,在步骤(4)中,设定发音流利度分为五个等级,发音难度分为五个等级,发音多样性分为五个等级,其中五个等级分别对应的数值为0、1、2、3、4,线性回归算法公式如下:Y= AX + b,该公式是向量形式,其中,Y 是最终得分,A 和b 是口语打分模型参数,A是矢量,b 是标量,X是提取的特征向量。
作为优选,所述的评测阶段步骤如下:
(a)脑电波传感器检测人脑,每次将采集得到脑电波原始信号转换为脑电波数字信号;
(b)利用信号处理算法处理脑电波数字信号,得到频谱信号,将脑电波数字信号进行分段处理,对每一段信号利用快速傅里叶变换得到频域信号,对频域信号提取功率谱,最后对功率谱进行Log变换;
(c)根据训练得到的深度学习模型,对频谱信号提取发音流利度、发音难度、发音多样性的特征;
(d)利用训练得到的口语打分模型,并根据提取的特征对人的口语进行口语评测。
作为优选,在步骤(b)中,分段处理方式具体为:每段长度为1s,每段处理完毕,向后移动0.5s,相邻两段之间会有0.5s重叠,重复处理,直到处理完毕;快速傅里叶变换是离散傅里叶变换的快速算法。
本发明的有益效果是:运行脑电波检测、信号处理技术和机器学习方法,实现了对学习者的口语发音进行准确、自动的评测,能够快速提高口语学习效能。
附图说明
图1是本发明中的脑电波信号示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
一种基于脑电波的口语评测方法,包括训练阶段和评测阶段,所述的训练阶段指的是:运用脑电波信号,利用深度学习技术来训练发音流利度、发音难度和发音多样性的特征提取模型,根据特征提取模型提取特征,最终训练得到口语打分模型;所述的评测阶段指的是:脑电波传感器获取脑电波信号,提取发音流利度、发音难度和发音多样性的特征,利用口语打分模型进行口语评测。
其中:训练阶段步骤如下:
(1)数据收集和标注,建立脑电波信号语料、音频语料库及标注文件;脑电波传感器检测人脑,每次将采集得到脑电波原始信号转换为脑电波数字信号,脑电波数字信号如图1所示;同时录制音频文件,人工对音频文件进行听音,对对应脑电波信号文件标注相应发音流利度、发音难度、发音多样性的人工打分文件;设定发音流利度分为五个等级,发音难度分为五个等级,发音多样性分为五个等级,其中五个等级分别对应的数值为0、1、2、3、4;
(2)利用信号处理算法处理脑电波数字信号,得到频谱信号;具体流程如下:将脑电波数字信号进行分段处理,对每一段信号利用快速傅里叶变换得到频域信号,对频域信号提取功率谱,最后对功率谱进行Log变换,得到Log功率谱,即频谱信号;分段处理方式具体为:每段长度为1s,每段处理完毕,向后移动0.5s,相邻两段之间会有0.5s重叠,重复处理,直到处理完毕;快速傅里叶变换是离散傅里叶变换的快速算法;
(3)运用频谱信号及步骤(1)标注的包含发音流利度、发音难度、发音多样性的人工打分文本,利用深度学习模型训练发音流利度、发音难度、发音多样性的特征模型,同时利用深度学习模型对频谱信号提取特征;深度学习模型包括深度神经网络、卷积神经网络和循环神经网络;深度学习是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法,提取的特征包括发音流利度、发音难度、发音多样性,这些特征是深度学习算法自动学习得到,之后对脑电波信号相应的时间片段上进行标注即可;
(4)利用训练得到的特征模型对脑电波数字信号提取有关口语的发音流利度、发音难度、发音多样性的特征得分,并根据线性回归算法训练最终的口语打分模型;设定发音流利度分为五个等级,发音难度分为五个等级,发音多样性分为五个等级,其中五个等级分别对应的数值为0、1、2、3、4,线性回归算法公式如下:Y= AX + b,该公式是向量形式,其中,Y 是最终得分,A 和b 是口语打分模型参数,A 是矢量,b 是标量,X是提取的特征向量。
评测阶段步骤如下:
(a)脑电波传感器检测人脑,每次将采集得到脑电波原始信号转换为脑电波数字信号;
(b)利用信号处理算法处理脑电波数字信号,得到频谱信号,将脑电波数字信号进行分段处理,对每一段信号利用快速傅里叶变换得到频域信号,对频域信号提取功率谱,最后对功率谱进行Log变换;分段处理方式具体为:每段长度为1s,每段处理完毕,向后移动0.5s,相邻两段之间会有0.5s重叠,重复处理,直到处理完毕;快速傅里叶变换是离散傅里叶变换的快速算法;
(c)根据训练得到的深度学习模型,对频谱信号提取发音流利度、发音难度、发音多样性的特征;
(d)利用训练得到的口语打分模型,并根据提取的特征对人的口语进行口语评测。
本发明提出了口语的自动评测方法,通过采集使用者的脑电波信号,通过深度学习算法提取有关口语的发音流利度、发音难度、发音多样性的特征,在口语打分模型上进行打分,得到最终的口语评测得分。本发明运行脑电波检测、信号处理技术和机器学习方法,实现了对学习者的口语发音进行准确、自动的评测,能够快速提高口语学习效能,可以显著地减少口语老师的工作量。

Claims (7)

1.一种基于脑电波的口语评测方法,其特征是,包括训练阶段和评测阶段,所述的训练阶段指的是:运用脑电波信号,利用深度学习技术来训练发音流利度、发音难度和发音多样性的特征提取模型,根据特征提取模型提取特征,最终训练得到口语打分模型;所述的评测阶段指的是:脑电波传感器获取脑电波信号,提取发音流利度、发音难度和发音多样性的特征,利用口语打分模型进行口语评测。
2.根据权利要求1所述的一种基于脑电波的口语评测方法,其特征是,所述的训练阶段步骤如下:
(1)数据收集和标注,建立脑电波信号语料、音频语料库及标注文件;脑电波传感器检测人脑,每次将采集得到脑电波原始信号转换为脑电波数字信号;同时录制音频文件,人工对音频文件进行听音,对对应脑电波信号文件标注相应发音流利度、发音难度、发音多样性的人工打分文件;设定发音流利度分为五个等级,发音难度分为五个等级,发音多样性分为五个等级,其中五个等级分别对应的数值为0、1、2、3、4;
(2)利用信号处理算法处理脑电波数字信号,得到频谱信号;具体流程如下:将脑电波数字信号进行分段处理,对每一段信号利用快速傅里叶变换得到频域信号,对频域信号提取功率谱,最后对功率谱进行Log变换,得到Log功率谱,即频谱信号;
(3)运用频谱信号及步骤(1)标注的包含发音流利度、发音难度、发音多样性的人工打分文本,利用深度学习模型训练发音流利度、发音难度、发音多样性的特征模型,同时利用深度学习模型对频谱信号提取特征;
(4)利用训练得到的特征模型对脑电波数字信号提取有关口语的发音流利度、发音难度、发音多样性的特征得分,并根据线性回归算法训练最终的口语打分模型。
3.根据权利要求2所述的一种基于脑电波的口语评测方法,其特征是,在步骤(2)中,分段处理方式具体为:每段长度为1s,每段处理完毕,向后移动0.5s,相邻两段之间会有0.5s重叠,重复处理,直到处理完毕;快速傅里叶变换是离散傅里叶变换的快速算法。
4.根据权利要求2所述的一种基于脑电波的口语评测方法,其特征是,在步骤(3)中,所述的深度学习模型包括深度神经网络、卷积神经网络和循环神经网络;深度学习是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法,提取的特征包括发音流利度、发音难度、发音多样性,这些特征是深度学习算法自动学习得到,之后对脑电波信号相应的时间片段上进行标注即可。
5.根据权利要求2所述的一种基于脑电波的口语评测方法,其特征是,在步骤(4)中,设定发音流利度分为五个等级,发音难度分为五个等级,发音多样性分为五个等级,其中五个等级分别对应的数值为0、1、2、3、4,线性回归算法公式如下:Y= AX + b,该公式是向量形式,其中,Y 是最终得分,A 和b 是口语打分模型参数,A 是矢量,b 是标量,X是提取的特征向量。
6.根据权利要求2或3或4或5所述的一种基于脑电波的口语评测方法,其特征是,所述的评测阶段步骤如下:
(a)脑电波传感器检测人脑,每次将采集得到脑电波原始信号转换为脑电波数字信号;
(b)利用信号处理算法处理脑电波数字信号,得到频谱信号,将脑电波数字信号进行分段处理,对每一段信号利用快速傅里叶变换得到频域信号,对频域信号提取功率谱,最后对功率谱进行Log变换;
(c)根据训练得到的深度学习模型,对频谱信号提取发音流利度、发音难度、发音多样性的特征;
(d)利用训练得到的口语打分模型,并根据提取的特征对人的口语进行口语评测。
7.根据权利要求6所述的一种基于脑电波的口语评测方法,其特征是,在步骤(b)中,分段处理方式具体为:每段长度为1s,每段处理完毕,向后移动0.5s,相邻两段之间会有0.5s重叠,重复处理,直到处理完毕;快速傅里叶变换是离散傅里叶变换的快速算法。
CN201810228865.1A 2018-03-20 2018-03-20 一种基于脑电波的口语评测方法 Pending CN108447504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810228865.1A CN108447504A (zh) 2018-03-20 2018-03-20 一种基于脑电波的口语评测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810228865.1A CN108447504A (zh) 2018-03-20 2018-03-20 一种基于脑电波的口语评测方法

Publications (1)

Publication Number Publication Date
CN108447504A true CN108447504A (zh) 2018-08-24

Family

ID=63195933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810228865.1A Pending CN108447504A (zh) 2018-03-20 2018-03-20 一种基于脑电波的口语评测方法

Country Status (1)

Country Link
CN (1) CN108447504A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545198A (zh) * 2019-01-04 2019-03-29 北京先声智能科技有限公司 一种基于卷积神经网络的英语口语母语度判断方法
CN112951270A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464729A (zh) * 2009-01-05 2009-06-24 清华大学 基于听觉认知神经信号的自主意愿表达方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CA2923979A1 (en) * 2012-09-14 2014-03-20 Interaxon Inc. Systems and methods for collecting, analyzing, and sharing bio-signal and non-bio-signal data
CN105559779A (zh) * 2016-03-01 2016-05-11 夏鹏 一种通过脑电频谱进行认知评价的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN101464729A (zh) * 2009-01-05 2009-06-24 清华大学 基于听觉认知神经信号的自主意愿表达方法
CA2923979A1 (en) * 2012-09-14 2014-03-20 Interaxon Inc. Systems and methods for collecting, analyzing, and sharing bio-signal and non-bio-signal data
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CN105559779A (zh) * 2016-03-01 2016-05-11 夏鹏 一种通过脑电频谱进行认知评价的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545198A (zh) * 2019-01-04 2019-03-29 北京先声智能科技有限公司 一种基于卷积神经网络的英语口语母语度判断方法
CN112951270A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备
CN112951270B (zh) * 2019-11-26 2024-04-19 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN103117061B (zh) 一种基于语音的动物识别方法及装置
CN109493874A (zh) 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN101201980B (zh) 一种基于语音情感识别的远程汉语教学系统
US11786171B2 (en) Method and system for articulation evaluation by fusing acoustic features and articulatory movement features
US20030221630A1 (en) Apparatus for determining dog's emotions by vocal analysis of barking sounds and method for the same
CN101976564A (zh) 昆虫声音识别方法
CN103714826B (zh) 面向声纹鉴定的共振峰自动匹配方法
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN105448291A (zh) 基于语音的帕金森症检测方法及检测系统
CN102999154B (zh) 一种基于肌电信号的辅助发声方法及装置
CN105989842B (zh) 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
CN104200804A (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN104978884A (zh) 一种学前教育专业学生学习乐理视唱练耳课程的教学系统
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
CN106531185A (zh) 基于语音相似度的语音评测方法及系统
CN101751919A (zh) 一种汉语口语重音自动检测方法
CN107799114A (zh) 一种猪只咳嗽声音识别方法及系统
Huang et al. Intelligent feature extraction and classification of anuran vocalizations
CN109272986A (zh) 一种基于人工神经网络的狗声音情感分类方法
CN108447504A (zh) 一种基于脑电波的口语评测方法
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和系统
CN106205635A (zh) 语音处理方法及系统
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN108537261A (zh) 一种基于脑电波的作文评测方法
CN110956870A (zh) 一种视唱练耳教学方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824

RJ01 Rejection of invention patent application after publication