CN113873944A - 语音联想识别装置、佩戴用具、语音联想识别方法及程序 - Google Patents
语音联想识别装置、佩戴用具、语音联想识别方法及程序 Download PDFInfo
- Publication number
- CN113873944A CN113873944A CN202080037965.1A CN202080037965A CN113873944A CN 113873944 A CN113873944 A CN 113873944A CN 202080037965 A CN202080037965 A CN 202080037965A CN 113873944 A CN113873944 A CN 113873944A
- Authority
- CN
- China
- Prior art keywords
- speech
- association
- recognition apparatus
- time series
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000001228 spectrum Methods 0.000 claims abstract description 64
- 210000004556 brain Anatomy 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 22
- 238000012880 independent component analysis Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 10
- 238000004070 electrodeposition Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000002566 electrocorticography Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 206010002026 amyotrophic lateral sclerosis Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 210000001061 forehead Anatomy 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000004761 scalp Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000028399 Critical Illness Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000007428 craniotomy Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/372—Analysis of electroencephalograms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Psychology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Psychiatry (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种能够进行基于脑电波的语音语言识别的语音联想识别装置。本发明是根据语音联想时的脑电波来识别语音语言的语音联想识别装置(1),具有:脑电波输入部(2),其将从电极组(22)输入的脑电波变换为离散信号组;分析处理部(4),其对从电极组(22)输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;语言特征提取部(5),其基于所述频谱时间序列来输出音素特征向量时间序列;词/句识别部,其基于所述音素特征向量时间序列来识别所述语音语言;以及后处理/输出部(7),其输出由所述词/句识别部(6)识别出的语音语言。
Description
技术领域
本发明涉及语音联想识别装置、佩戴用具、语音联想识别方法及程序。
背景技术
在语音语言输入装置中,实用性地提供通过麦克风接收目前为止发出的语音波或通过振动拾音器接收骨传导的振动,并根据所得到的信号来识别语音语言信息的装置。
近年来,利用庞大的语音数据以及语言数据,将与音素的排列(声学模型)和词的排列(语言模型)有关的概率信息蓄积并利用于网络上,从而实现高速、高性能的语音语言识别。另一方面,由于讲话对周围的困扰/泄露、讲话困难的肌肉萎缩性侧索硬化症(ALS)患者等的增大,从脑计算机接口(Brain Computer Interface;BCI)的领域期望实现不伴随讲话的基于语音联想(speech imagery)的语言识别。
关于基于语音联想信号的语音语言识别,通过从脑皮质观测64~128点的硬膜下皮质表面电位(Electrocorticogram;ECoG),近年来正在尝试伴随讲话的情况下的语音语言识别(参照非专利文献1)。但是,像这样伴随着开头手术的方法用于重症的患者以外是不现实的。另一方面,虽然通过头皮上的电极观测脑电波(Electroencephalogram:EEG)的方式如果实用化对社会的贡献不可估量,但至今为止,尝试发现在噪声中具有意义的语音语言信号尚未成功。
近年来,使用PET、fMRI等高分辨率装置来解析讲话时的脑、或者开颅手术时观测患者讲话时的ECoG的研究得以进展,语音语言在脑的何处的部位被处理正在变得明确。根据这些结果,在左侧颞中回(MTG)中的概念准备之后,在左侧颞上回(STG)中进行作为语言的规划(参照非专利文献2)。之后,在左上额回(IFG;布罗卡区)中进行音节化(syllabication),在讲话时在左中心前回(PG;运动区域)进行调音(构音)(参照非专利文献3)。根据这样的研究成果,期待对于不伴随讲话的语音语言的解码(decode)也能够捕捉到达布罗卡区的语言表象(linguistic representation)。
另外,提出了检测脑电波并从该脑电波检测与运动指令相关的信号的技术(参照专利文献1)。
现有技术文献
非专利文献
非专利文献1:Heger D.et al.,Continuous Speech Recognition from ECoG,Interspeech 2015,1131-1135(2015)
非专利文献2:Indefrey,P et al.,The spatial and temporal signatures ofword production components,Cognition 92,101-144(2004)
非专利文献3:Bouchard K.E.et al.,Functional organization of humansensorimotor cortex for speech articulation,Nature 495,327-332(2013)
非专利文献4:Gilami M.,Advances in Independent Component Analysis,Springer(2000)
非专利文献5:Durbin,J.“The fitting of time series models.”Rev.Inst.Int.Stat.,v.28,pp.233-243(1960)
专利文献
专利文献1:日本特开2008-204135号公报
发明内容
发明所要解决的课题
然而,在基于脑电波的语音语言识别中,不清楚语言表象以怎样的格式表现,无法发现具体的提取方法是最大的问题点。并且,如果不提供从语言表象向以音素为单位的变换方法,则例如必须如音节单位那样以很多种类为对象(在音节中除了短音节以外还具有很多长音节,称为计数千个),效率良好的语音语言处理变得非常困难(音素中,日语24个、英语44个(其中,将弱元音和强元音区分,在日语中通常不区分)程度)。
本发明是鉴于上述情况而完成的,其目的在于提供一种能够进行基于脑电波的语音语言识别的语音联想识别装置、佩戴用具、语音联想识别方法以及程序。
用于解决课题的手段
为了实现上述目的,本发明的最主要的特征在于,为了根据语音联想时的脑电波来识别语音语言,通过作为语言表象的线谱成分提取器提取线谱成分,并且使这些成分通过使用了按音素卷积运算等的音素特征向量时间序列变换器,由此得到音素特征向量时间序列。
第一发明提供一种语音联想识别装置,其根据语音联想时的脑电波来识别语音语言,该语音联想识别装置具有:分析处理部,其对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及提取部,其基于所述频谱时间序列,输出音素特征向量时间序列。
第二发明提供一种语音联想识别装置用的佩戴用具,所述语音联想识别装置根据语音联想时的脑电波来识别语音语言,所述佩戴用具具有:电极组,其配置在布罗卡区周边;以及输出部,其输出来自所述电极组的信号,所述语音联想识别装置执行如下处理:分析处理,对从所述输出部输出的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及提取处理,基于所述频谱时间序列,输出音素特征向量时间序列。
第三发明提供一种语音联想识别方法,根据语音联想时的脑电波来识别语音语言,所述语音联想识别方法包括如下步骤:分析处理步骤,对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及提取步骤,基于所述频谱时间序列,输出音素特征向量时间序列。
第四发明提供一种程序,用于使计算机执行根据语音联想时的脑电波来识别语音语言的语音联想识别处理,所述程序所述计算机执行如下处理:分析处理,对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出作为语言表象的频谱成分;以及提取处理,基于每个所述电极的频谱成分,提取音素特征组。
发明效果
根据本发明,能够提供一种能够进行基于脑电波的语音语言识别的语音联想识别装置、佩戴用具、语音联想识别方法以及程序。
附图说明
图1是表示本发明的识别装置的结构的模型图。
图2是表示脑电波测定电极(10-10系统)和布罗卡区周边9个电极的图。
图3是表示从脑电波去除噪声的效果图。
图4是语音联想时脑电波的线性预测分析的说明图。
图5是表示比较语音联想时脑电波的线性预测分析与以往傅立叶分析的图。
图6是表示语音联想时脑电波的短时间正弦波组的图。
图7是表示语言特征提取部的处理步骤的流程图。
图8是表示语音联想时脑电波的频率变动吸收例的图。
图9是表示语音联想时脑电波的线谱时间序列的例子的图。
图10是表示横跨多个电极的线谱时间序列的例子的图。
图11是表示按音素卷积算子的设计和利用的处理步骤的流程图。
图12是表示构成按音素卷积算子的音素固有向量的例子的图。
图13是表示针对语音联想时脑电波的音素似然时间序列的例子的图。
图14是表示基于测试识别的电极位置更正的图。
图15是表示语音联想识别装置的其他结构例的图。
图16是表示语音联想识别装置的其他结构例的图。
图17是表示语音联想识别装置的其他结构例的图。
具体实施方式
(实施方式)
以下,参照附图对本发明的语音联想识别装置的实施方式进行说明。另外,附图用于说明本发明的技术特征,所记载的装置的结构、各种处理的步骤等只要没有特别特定的记载,就不仅限定于这些。此外,在整个实施方式的说明中,对相同的要素标注相同的符号。
图1是表示语音联想识别装置1的结构的模型图。参照图1,对语音联想识别装置1的结构和动作进行说明。
语音联想识别装置1用于根据语音联想时的脑电波来识别语音语言。语音联想识别装置1由以下部分构成:脑电波输入部2,其将从设置在未图示的头皮上的电极组输入的脑电波转换为离散信号组;前处理部3,其针对每个电极从离散信号去除噪声;分析处理部4,其针对每个电极对离散信号组进行分析处理而输出频谱时间序列;语言特征提取部5,其根据全部电极的频谱时间序列输出音素特征向量时间序列;词/句识别部6,其根据音素特征向量时间序列来识别作为语音语言的词/句;以及后处理/输出部7,其显示/语音输出语音语言信息。
脑电波输入部2通过A/D变换等将多电极脑电波输出的模拟信号组x(q,t)变换为离散信号,并且利用全部电极的离散信号的平均值等,进行更正个别电极所具有的偏置偏差(バイアスの偏り)的处理。同时,根据每个电极的离散信号,输出如下的信号x1(q,n):通过低频去除滤波器(高通滤波器)截断了70Hz以下的不需要的频率成分,并且通过高频去除滤波器(低通滤波器)截断了180Hz以上的不需要的频率成分的信号。
图2表示使用64个电极的标准的国际10-10系统的电极配置。其中,从属于左脑的布罗卡(broker)区周边的9个电极{F3,F5,F7,FC3,FC5,FT7,C3,C5,T7}接收语音联想信号,提取语言特征来识别联想内容。通常,惯用右手的人被称为在左脑处理语言,但惯用左手的相当多的人还是在左脑中处理语言。此外,在脑电波中,有时会因眨眼等动作而受到较大的变动(称为artifact),但通过上述滤波操作能够去除较多的不需要成分。并且,对于在滤波操作中无法去除的不需要成分,也可以应用如下的独立成分分析(Independent ComponentAnalysis;IPA):对全部电极的离散信号推定并去除少数独立的信息源后,返回到原来的电极输出(在此为9个电极)的处理。
前处理部3对每个电极去除通过了滤波器的噪声。以下,对该处理的一例进行叙述。对于结束了脑电波输入部的一系列处理的各电极的离散信号x1(q,n)、(q:电极编号、n:时刻),首先施以一定的时间窗后,通过快速傅里叶变换(FFT)从时域映射到频域。接着,根据频域的多个成分,如以下那样求出振幅谱时间序列X1(q,f,n’),(f为频率,n’为加窗后的时间帧编号)。
[数式1]
FFT:x1(q,n)→Re{X1(q,f,n')}+jIm{X1(q,f,n’)} (1)
[数式2]
X1(q,f,n')=[Re{X1(q,f,n')}2+Im{X1(q,f,n')}2]1/2 (2)
其中,j表示虚数单位,Re{},Im{}分别表示实数部、虚数部。在噪声减法(Noisesubtraction)中,根据在语音联想(Speech imagery)之前观测到的脑电波(EEG信号)的频谱N(q,f,n’),通过下式,求出平均噪声振幅频谱。
[数式3]
在上式中,根据时刻n’的前后8帧计算出平均噪声频谱,但也可以通过系统适当地设定。另外,时刻n’的设定通常考虑如下两种情况:
(a)从语音联想识别应用系统提供提示信号(指示联想开始的信号)后,使用者进行语音联想;
(b)在从使用者向应用系统的规定的呼叫“Yamada先生”等(关键字唤醒,wake-upword)之后进行语音联想。
在这两种情况下,都根据在语音联想之前或之后的区间观测到的脑电波来计算N(q,f,n’)。
接着,对每个电极q如下式那样从语音联想信号的频谱X1(q,f,n’)减去Nav(q,f,n’)。
[数式4]
X2(q,f,n')=X1(q,f,n')-Nav(q,f,n')(4)
图3表示通过该处理去除了脑电波中的噪声的例子。图3的(A)表示噪声去除前,图3的(B)表示噪声去除后。比较图3的(A)和的(B)时,可知减去噪声的频谱的效果显著。噪声去除后的振幅谱时间序列通过快速傅里叶逆变换(IFFT)而恢复为波形x2(q,n)。
另外,从除去噪声后的9个电极信号取出少数独立的信息源的处理、即独立成分分析(Independent Component Analysis;IPA)(非专利文献4)是有效的。通过该处理,能够去除在所述滤波操作中无法去除的不需要成分,并且能够从9个电极的离散信号中选择有效的少数信息源。但是ICA存在分析结果的独立成分的顺序在每次分析时都不同的所谓排列的问题,对于消除该缺点而导入本专利的方法在后面进行说明。
分析处理部4也可以使用由前处理部3得到的去噪后(且提取q个独立成分后)的语音联想信号的频谱时间序列X2(q,f,n’),但作为更好地发挥本发明的效果的分析方式,以下说明应用了线性预测分析(Linear Predictive Analysis;LPA)的例子。分析处理部4可以使用频谱或线谱。
线性预测编码(Linear Predictive Coding;LPC)作为语音通信方式,现在成为世界标准。在语音中,信息源成为基于声带的一定周期的脉冲波和基于声道的变窄的随机波这两个。因此,需要进行如下复杂的处理:将音源作为编码簿(codebook)另行保持,使编码簿的全部音源通过语音的线性预测系数(承担声道的传递函数),进行该合成语音与原来的语音的比较。
另一方面,如图4所示,在脑电波中,信息源仅被认为是随机波,因此脑电波合成与语音合成相比变得简单。提出了根据从脑电波x2(q,n)得到的自相关系数r2(τ)求出线性预测系数{αm}的各种算法,如Levinson-Durbin法等(非专利文献4)。如图4所示,各电极的语音联想脑电波x(n)是通过使信号源的白噪声w(n)通过神经系统的脉冲响应s(n)而得到的。在图4中,☆表示卷积积分符号。
在卷积积分处理中,通过将在频域中承担语音语言信息的脉冲响应s(n)的传递(频率)函数设为S(f),能够将脑电波的频谱表现为X(f)=W(f)S(f)=S(f)(其中,W(f)=1)。能够根据线性预测系数{αm}的傅里叶变换,如下式所示那样求出S(f)。
[数式5]
其中,δ(n-p)是表示信号的各时刻n=p的函数,F[]是傅立叶变换。在针对脑电波的线性预测分析(LPA)中,如图4所示,将合成模型S(f)作为逆滤波器,来求出下式(σ为振幅偏差值)。
[数式6]
这样,通过合成过程高精度地进行分析的方式被称为“基于合成的分析(Analysis-by-Synthesis;AbS)”,在脑电波分析中也是有效的方式。在上式的傅立叶变换F[]中,对p个线性预测系数(α0=1.0)附加零点(被称为0-padding),例如能够进行128点、256点、……这样的任意点数的傅立叶变换。通过该零点附加,能够将频率分解精度分别任意地调整为64点、128点、…,求出频谱成分A(q,f,n’)。
在图5中,示出了将通过LPA分析出的频谱图与通过通常的傅里叶变换分析出的频谱图进行比较。在图5中显示了多个基于LPA的频谱图,但它们表示使用了随着相对于自相关系数延迟τ变大而使值衰减的被称为log窗的窗函数(从上起没有lag窗,越往下,lag窗的倾斜越大,在不使用log窗的情况下成为尖峰值)。如图所示,在LPA中,能够用脑电波所具有的本质上的少数峰值来表现频谱。
用少数的频谱峰值表现通过了LPA分析的语音联想时脑电波的频谱。因此,在脑(特别是,出现语音联想的语言信息的布罗卡认为)中,语言表象(linguisticrepresentation)由短时间正弦波(tone-burst:猝发音)组构成,换言之,推定语言表象由特有的线谱表示。图6表示猝发音波组及其频谱形状的例子。短时间正弦波本来由单一参数即单一频率表示,但如图所示(另外如图5所示),通过在信号的前后具有过渡部,在通常的频率分析中频谱具有扩展。
语言特征提取部5从具有扩展的频谱组取出线谱成分作为“语言表象”,并且通过音素单位卷积算子,输出作为语言特征的音素似然向量时间序列。
以下,按照图7的语言特征提取部的处理流程图来说明处理过程。语言特征提取部5从分析处理部4输入电极q的频谱时间序列(步骤S1)。如图8的(A)所示,语音联想时脑电波的频谱有时具有±5Hz左右的波动。因此,使用作为非线性滤波的一种的中间值滤波器(median filter)来吸收这些频率波动(步骤S2)。
以处于一定的时间宽度(时刻n’的前后的几帧)和频率宽度(相邻频率f-1、f、f+1)中的数据为对象,求出整体中的中间值并使其作为代表。该处理能够删除从中央值偏离的值,因此能够吸收频率波动。非线性滤波器的输出一般通过高斯窗等实施平滑处理。图8的(B)示出了对于70Hz~170Hz的脑电波信号(4msec周期),对中心帧n’的前后3帧共计7帧进行了中间值滤波处理时的频率波动的改善结果。从图中可知波动变少。之后,对于频率分析图在时间方向上施以高斯窗(系数:{1/4,1/2,1/4})进行平滑,使时间帧从4msec下降到8msec周边。此外,也能够在前处理部3中进行振幅谱上的噪声成分扣除之后返回波形信号之前的阶段进行吸收频率波动的处理。
接着,说明线谱的提取过程(步骤S3)。在该处理中,对每个时间帧(8msec),提取在频率轴上出现的来自峰值的成分作为线谱。具体为:
(i)频率轴上的极大值Δf=0的频率;
(ii)拐点ΔΔf=0时,
若Δf>0则ΔΔf的值从正变化为负的频率,
若Δf<0则ΔΔf的值从负变化为正的频率。
仅在满足这些条件的情况下,设为具有原来的振幅的正弦波频率成分即线谱成分。
图9表示语音联想时的脑电波的线谱成分的提取例。在该例子中,在尽可能连续联想3次/ga-gi-gu-ge-go/的任务下采集数据。通过使相同的序列持续3次,熟练者能够学习如图所示那样的各音节的模式,能够制作对脑电波数据附加了音节标签的数据库。
在图9中示出了将9个电极的线谱时间序列在电极方向上进行池化(从9个电极提取成为代表的图案的处理。取p-norm等处理(p=∞相当于取最大值))的处理、以合并后的线谱为对象进行加音节标签的结果。这里的池化处理仅是为了读取音节标签而进行的,在以下的音素特征提取中,将原来的9个电极的线谱成分作为对象。
语言特征提取部5的目的在于最终提取音素特征。即,目标在于从每个电极的线谱成分以音素特征向量的形式取出最小单位的音素(phoneme)成分作为语音语言信息。脑电波中的语音语言信息具有横跨线谱(频率信息)﹣电极(空间信息)﹣帧(时间信息)这三个轴的所谓张量结构。在图10中示出了横跨布罗卡区的3×3=9个电极的线谱时间序列的例子。该例子表示单音节/ka/的例子。这样,在布罗卡区出现的音节图案中,出现的电极位置每次都不同,可看到脑神经系统的灵活的信息处理机制。另一方面,在脑的语音语言处理中,作为发声的最小单位,音节出现在布罗卡区中,但在发声时通过肌肉动作来控制发声器官,该控制通过与音素一对一对应的调音参数来进行。若考虑这样的背景,则认为存在从布罗卡区观测到的图10的音节图案中提取音素特征的过程,以下按照图11的表示按音素卷积算子的设计和利用的处理顺序的流程来说明在计算机上实现该过程的方法。
图11的流程示出了为了从9个电极的频率-时间图案高效地提取音素而利用按音素卷积算子进行的音素似然向量的计算。首先,将属于相同音素语境(context)的音节(在音素/s/中,/sa/、/shi/、/su/、/se/、/so/,或者在音素/a/中,/a/、/ka/、/sa/、/ta/、/na/、/ha/,…、/ga/、/za/,…等)预先存储在存储器中(步骤S11)。取出放入该存储的信息而用于必要的信息处理的方法被称为池化。
接着,对每个音节进行主成分分析(步骤S12),将每个音节的固有向量按每个关联音素如音素/s/:{ψ/sa/(m),ψ/shi/(m),ψ/su/(m),ψ/se/(m),ψ/so/(m)}、音素/a/:{ψ/a/(m),ψ/ka/(m),ψ/sa/(m)那样进行音素池化。接着,根据相同音素组的固有向量计算自相关矩阵,合并到各音素自相关矩阵Rs,Ra,···(步骤S13)。根据各音素自相关矩阵,能够求出各音素的部分空间(固有向量)。图12示出了音素/s/和/a/的固有向量(显示上位3轴的累积)。
接着,通过将对每个音素k得到的固有向量组用作“音素单位卷积算子”,能够计算相对于未知的9个电极(或者ICA后的少数)线谱时间序列的音素类似度(似然)L(k)(步骤S4、步骤S14、步骤S15)。
[数式7]
将排列了K个音素k;k=1、2、…、K的似然L(k)的向量设为音素特征向量。式(7)利用音素的固有向量(f,n’)构成音素单位的卷积算子,针对每个音素k得到作为似然的标量值L(k),将其排列K个而得到的向量随着输入X(f,n’)的时刻n’推移而作为(音素似然向量)时间序列数据而从语言特征提取部5输出(步骤S5、步骤S16)。
在图13中示出了从音素的似然(L(g),L(o),…)求出音节的似然(L(go),L(ro),…)并显示的例子。该例子用浓淡表示依次联想起连续数字(“1,2,3,4,5,6,7,8,9,0”)时的音节的似然。纵轴表示音节(从上开始为i,chi,ni,sa,N,yo,o,go,ro,ku,na,ha,kyu,u,ze,e,noise)。可知由高值求出构成连续数字的音节的似然。
另外,目前难以大量收集语音联想数据,因此,在此示出了以音素卷积算子的形式解决问题的例子。但是,随着今后与语音联想相关的脑数据库变得充实,能够代替按音素卷积算子而使用近年来在图像处理等领域中经常使用的深层卷积网络(Deep ConvolutionalNet.;DCN)等。
词/句识别部6根据音素特征向量的时间序列数据(准确地说是音素似然向量时间序列数据)来识别词/句。词/句的识别可以应用在语音识别领域实用化的使用隐马尔可夫模型(HMM)的方法(其中利用包含音素的前后语境的triphon)、使用深层神经网络的方法(LSTM等)。另外,同样能够利用作为现行的语音识别的优点的语言信息(关于词的排列的概率)。此外,在语音联想中时间轴的偏移成为问题,但在现行的健全的语音系统中进行的、在时间方向上连续搜索词/句的“定位处理(spotting process)”的利用在语音联想中也对性能提高有效。
后处理/输出部7接受识别结果的词(列)并进行需要的显示器显示、语音输出。在此,能够具有如下辅助功能:根据预先决定的词/句的语音联想识别结果,向使用者反馈多电极的脑电波传感器是否处于准确的位置,使用者根据智能手机等终端的画面、语音指示来移动脑电波传感器,从而知晓适当的位置。
后处理/输出部7显示用于辅助进行语音联想的同时调整电极组的最佳位置的画面。该后处理/输出部7能够进行显示器显示,图14表示后处理/输出部7所显示的显示器显示画面。使用者一边观察图14所示的画面一边调整电极组的位置。
如图14所示,若对测试语音联想(“山田先生”等)进行语音联想,则从脑电波输入部2输入脑电波,在后处理/输出部7所显示的画面上,能够通过颜色、〇的大小、渐变的浓度(图的例子)等来表示识别结果的精度。在图14中,在最初的电极位置(1)用白色进行显示,在下一电极位置(2)用浅灰色进行显示,在下一电极位置(3)用灰色进行显示,在再下一电极位置(4)用深灰色进行显示,在下一位置(5)用浅灰色进行显示。因此,使用者能够知晓电极位置(4)是最佳的电极位置。示出了具有一边以时间序列观察精度的差异,一边使传感器位置向出现正解的方向移动并进行更正的功能的例子。
图1所示的语音联想识别装置1能够由便携终端构成。另外,语音联想识别装置1能够由服务器构成。此时,语音联想识别装置1也可以由多个服务器构成。另外,语音联想识别装置1也能够由移动终端和服务器构成。能够利用移动终端来处理语音联想识别装置1的一部分处理,利用服务器来处理剩余的处理。此时,服务器也能够由多个服务器构成。
另外,如图1所示,语音联想识别装置1由脑电波输入部2、前处理部3、分析处理部、语言特征提取部5、词/句识别部6、后处理/输出部7构成,但也可以在语音联想识别装置中包含佩戴用具和电极组。
图15是表示语音联想识别装置的其他结构例的图。
如图15所示,语音联想识别装置10具备佩戴用具11、便携终端12、服务器13。佩戴用具11是根据语音联想时的脑电波来识别语音语言的语音联想识别装置用的佩戴用具。佩戴用具11具有保持电极组22的片材部21、配置于布罗卡区周边的电极组22、以及输出来自电极组22的信号的处理部23。电极组22如上所述由9个电极构成,但并不限定电极数量。处理部23也可以具有通信功能,能够进行图1所示的语音联想识别装置1的一部分或全部的处理。
佩戴用具11的处理部23、便携终端12以及服务器13例如由具有CPU(CentralProcessing Unit:中央处理单元)、存储器、ROM(Read only memory:只读存储器)以及硬盘等的计算机构成。终端12能够进行图1所示的语音联想识别装置1的一部分或全部的处理。服务器13能够进行图1所示的语音联想识别装置1的一部分或全部的处理。
根据语音联想时的脑电波来识别语音语言的语音联想识别方法由佩戴用具11、便携终端12和/或服务器13来执行,佩戴用具11、便携终端12和/或服务器13能够单独或协作来执行。语音联想识别方法能够通过便携终端12和服务器13来执行。
用于使计算机执行根据语音联想时的脑电波来识别语音语言的语音联想识别处理的程序被下载或存储在上述硬盘等中,使上述计算机执行如下处理:分析处理,对从电极组输入的每个电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及提取处理,基于每个电极的频谱成分,提取音素特征向量时间序列。
图16是表示语音联想识别装置的其他结构例的图。
如图16所示,语音联想识别装置20由佩戴用具11和服务器13构成。佩戴用具11的结构如图15中说明的那样,但佩戴用具11的处理部23具有与服务器13直接通信的功能。通过佩戴用具11直接与服务器13进行信息的交换,能够实现语音联想识别装置的功能。
图17是表示语音联想识别装置的其他结构例的图。
如图17所示,语音联想识别装置30由佩戴用具11构成。佩戴用具11的处理部23通过实现图1所示的语音联想识别装置30的所有功能,能够仅通过佩戴用具11来实现语音联想识别装置。
以上,根据本实施方式,能够从语音联想时的脑电波中直接提取语言表象的线谱成分组,并且变换为音素特征向量时间序列,因此具有能够有效利用现行的语音识别的框架的优点。
此外,关于以上的实施方式,进一步公开以下的附记。
(附记1)
一种语音联想识别方法,根据语音联想时的脑电波来识别语音语言,其中,所述语音联想识别方法包括如下步骤:
分析处理步骤,对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及
提取步骤,基于所述频谱时间序列,输出音素特征向量时间序列。
(附记2)
根据附记1所述的语音联想识别方法,其中,所述语音联想识别方法还包括将从电极组输入的脑电波变换为离散信号组的输入步骤。
(附记3)
根据附记1或附记2所述的语音联想识别方法,其中,所述语音联想识别方法还包括:前处理部,其从将每个所述电极的离散信号组变换为频域而得到的语音联想信号的频谱减去平均噪声振幅频谱,由此去除所述脑电波中的噪声。
(附记4)
根据附记3所述的语音联想识别方法,其中,所述语音联想识别方法还包括进行独立成分分析的步骤,该独立成分分析是从所述噪声去除后的各电极信号取出少数独立的信息源的分析。
(附记5)
根据附记1至附记4中任一项所述的语音联想识别方法,其中,所述语音联想识别方法还包括基于所述音素特征向量时间序列来识别所述语音语言的识别步骤。
(附记6)
根据附记1至附记5中任一项所述的语音联想识别方法,其中,所述语音联想识别方法还包括输出所述识别出的语音语言的输出步骤。
(附记7)
根据附记6所述的语音联想识别方法,其中,所述语音联想识别方法还包括显示用于辅助进行所述语音联想的同时调整所述电极组的最佳位置的画面的步骤。
(附记8)
根据附记1至附记7中任一项所述的语音联想识别方法,其中,在所述分析处理步骤中,通过应用线性预测分析来提取所述频谱时间序列。
(附记9)
根据附记1至附记8中任一项所述的语音联想识别方法,其中,所述分析处理步骤包括基于每个所述电极的离散信号,进行吸收频率波动的步骤。
(附记10)
根据附记1至附记9中任一项所述的语音联想识别方法,其中,在所述分析处理步骤中,对每个时间帧提取频率轴上的来自峰值的频率作为线谱成分。
(附记11)
根据附记1至附记10中任一项所述的语音联想识别方法,其中,在所述提取步骤中,使用预定的卷积算子来输出作为语言特征的音素似然向量时间序列。
(附记12)
根据附记1至附记11中任一项所述的语音联想识别方法,其中,所述语音联想识别方法由移动终端、服务器或移动终端以及服务器执行。
(附记13)
根据附记1至附记12中任一项所述的语音联想识别方法,其中,所述语音联想识别方法还包括输出来自配置在设置于佩戴工具的布罗卡区周边的电极组的信号的输出步骤。
工业上的可利用性
这样,根据本发明的语音联想识别装置、佩戴用具、方法、程序,能够从语音联想时的脑电波直接变换为作为语言表象的线谱组和音素特征组,因此能够在现行的语音识别的框架中提供能够实现BCI的语音语言。
符号说明
1语音联想识别装置
2脑电波输入部
3前处理部
4分析处理部
5语言特征提取部
6词/句识别部
7后处理输出部。
Claims (17)
1.一种语音联想识别装置,其根据语音联想时的脑电波来识别语音语言,其特征在于,所述语音联想识别装置具有:
分析处理部,其对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及
提取部,其基于所述频谱时间序列,输出音素特征向量时间序列。
2.根据权利要求1所述的语音联想识别装置,其特征在于,
所述语音联想识别装置还具有:脑电波输入部,其将从电极组输入的脑电波变换为离散信号组。
3.根据权利要求1或2所述的语音联想识别装置,其特征在于,
所述语音联想识别装置还具有:前处理部,其从将每个所述电极的离散信号组变换为频域而得到的语音联想信号的频谱减去平均噪声振幅频谱,由此去除所述脑电波中的噪声。
4.根据权利要求3所述的语音联想识别装置,其特征在于,
所述前处理部进行从所述噪声去除后的各电极信号取出少数独立的信息源的独立成分分析。
5.根据权利要求1至4中任一项所述的语音联想识别装置,其特征在于,
所述语音联想识别装置还具有:识别部,其基于所述音素特征向量时间序列来识别所述语音语言。
6.根据权利要求1至5中任一项所述的语音联想识别装置,其特征在于,
所述语音联想识别装置还具有:输出部,其输出所述识别部识别出的语音语言。
7.根据权利要求6所述的语音联想识别装置,其特征在于,
所述输出部显示用于辅助进行所述语音联想的同时调整所述电极组的最佳位置的画面。
8.根据权利要求1至7中任一项所述的语音联想识别装置,其特征在于,
所述分析处理部通过应用线性预测分析来提取所述频谱时间序列。
9.根据权利要求1至8中任一项所述的语音联想识别装置,其特征在于,
所述分析处理部基于每个所述电极的离散信号,进行吸收频率波动的处理。
10.根据权利要求1至9中任一项所述的语音联想识别装置,其特征在于,
所述分析处理部对每个时间帧提取频率轴上的来自峰值的频率作为线谱成分。
11.根据权利要求1至10中任一项所述的语音联想识别装置,其特征在于,
所述提取部使用预定的卷积算子来输出作为语言特征的音素似然向量时间序列。
12.根据权利要求1至11中任一项所述的语音联想识别装置,其特征在于,
所述语音联想识别装置还具有配置于布罗卡区周边的电极组。
13.根据权利要求12所述的语音识别装置,其特征在于,
所述语音联想识别装置还具有佩戴于头部的佩戴用具。
14.根据权利要求1至12中任一项所述的语音联想识别装置,其特征在于,
所述语音联想识别装置由移动终端、服务器或移动终端以及服务器构成。
15.一种语音联想识别装置用的佩戴用具,所述语音联想识别装置根据语音联想时的脑电波来识别语音语言,其特征在于,所述佩戴用具具有:
电极组,其配置在布罗卡区周边;以及
处理部,其输出来自所述电极组的信号,
所述语音联想识别装置执行如下处理:
分析处理,对从所述处理部输出的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及
提取处理,基于所述频谱时间序列,输出音素特征向量时间序列。
16.一种语音联想识别方法,根据语音联想时的脑电波来识别语音语言,其特征在于,所述语音联想识别方法包括如下步骤:
分析处理步骤,对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及
提取步骤,基于所述频谱时间序列,输出音素特征向量时间序列。
17.一种程序,用于使计算机执行根据语音联想时的脑电波来识别语音语言的语音联想识别处理,其特征在于,所述程序所述计算机执行如下处理:
分析处理,对从电极组输入的每个所述电极的脑电波的离散信号组进行分析处理而输出频谱时间序列;以及
提取处理,基于每个所述电极的频谱成分,提取音素特征向量时间序列。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-097202 | 2019-05-23 | ||
JP2019097202A JP7043081B2 (ja) | 2019-05-23 | 2019-05-23 | 音声想起認識装置、装着具、音声想起認識方法及びプログラム |
PCT/JP2020/020342 WO2020235680A1 (ja) | 2019-05-23 | 2020-05-22 | 音声想起認識装置、装着具、音声想起認識方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113873944A true CN113873944A (zh) | 2021-12-31 |
Family
ID=73454620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080037965.1A Withdrawn CN113873944A (zh) | 2019-05-23 | 2020-05-22 | 语音联想识别装置、佩戴用具、语音联想识别方法及程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220238113A1 (zh) |
EP (1) | EP3973861A1 (zh) |
JP (1) | JP7043081B2 (zh) |
CN (1) | CN113873944A (zh) |
WO (1) | WO2020235680A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101932682B1 (ko) * | 2016-08-29 | 2019-03-20 | 정금진 | 다관식 증기 보일러 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02232783A (ja) * | 1989-03-07 | 1990-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 脳波トポグラフィによる音節認識装置 |
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
JP2009297059A (ja) * | 2008-06-10 | 2009-12-24 | Toyota Central R&D Labs Inc | 脳訓練支援装置 |
KR20110018829A (ko) * | 2009-08-18 | 2011-02-24 | 삼성전자주식회사 | 청력을 검사하는 휴대용 음원재생장치 및 이를 수행하는 방법 |
US20120022391A1 (en) * | 2010-07-22 | 2012-01-26 | Washington University In St. Louis | Multimodal Brain Computer Interface |
CN109741733A (zh) * | 2019-01-15 | 2019-05-10 | 河海大学常州校区 | 基于一致性路由网络的语音音素识别方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH066118B2 (ja) * | 1989-10-14 | 1994-01-26 | 元 田村 | 脳波解析装置 |
US7054454B2 (en) * | 2002-03-29 | 2006-05-30 | Everest Biomedical Instruments Company | Fast wavelet estimation of weak bio-signals using novel algorithms for generating multiple additional data frames |
JP4411442B2 (ja) | 2007-02-20 | 2010-02-10 | 国立大学法人 岡山大学 | 脳波−運動指令変換装置 |
US9788043B2 (en) * | 2008-11-07 | 2017-10-10 | Digimarc Corporation | Content interaction methods and systems employing portable devices |
WO2011155196A1 (ja) * | 2010-06-11 | 2011-12-15 | パナソニック株式会社 | 語音聴取の評価システム、その方法およびそのプログラム |
WO2016011189A1 (en) * | 2014-07-15 | 2016-01-21 | The Regents Of The University Of California | Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing |
JP6580882B2 (ja) * | 2015-06-24 | 2019-09-25 | 株式会社東芝 | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム |
JP6590411B2 (ja) | 2015-10-16 | 2019-10-16 | 国立大学法人広島大学 | 感性評価方法 |
US11717686B2 (en) * | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
WO2019133997A1 (en) * | 2017-12-31 | 2019-07-04 | Neuroenhancement Lab, LLC | System and method for neuroenhancement to enhance emotional response |
US11756540B2 (en) * | 2019-03-05 | 2023-09-12 | Medyug Technology Private Limited | Brain-inspired spoken language understanding system, a device for implementing the system, and method of operation thereof |
KR20210076451A (ko) * | 2019-12-16 | 2021-06-24 | 현대자동차주식회사 | 사용자 인터페이스 시스템 및 그의 동작 방법 |
-
2019
- 2019-05-23 JP JP2019097202A patent/JP7043081B2/ja active Active
-
2020
- 2020-05-22 EP EP20809757.6A patent/EP3973861A1/en not_active Withdrawn
- 2020-05-22 WO PCT/JP2020/020342 patent/WO2020235680A1/ja unknown
- 2020-05-22 US US17/613,658 patent/US20220238113A1/en active Pending
- 2020-05-22 CN CN202080037965.1A patent/CN113873944A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02232783A (ja) * | 1989-03-07 | 1990-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 脳波トポグラフィによる音節認識装置 |
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
JP2009297059A (ja) * | 2008-06-10 | 2009-12-24 | Toyota Central R&D Labs Inc | 脳訓練支援装置 |
KR20110018829A (ko) * | 2009-08-18 | 2011-02-24 | 삼성전자주식회사 | 청력을 검사하는 휴대용 음원재생장치 및 이를 수행하는 방법 |
US20120022391A1 (en) * | 2010-07-22 | 2012-01-26 | Washington University In St. Louis | Multimodal Brain Computer Interface |
CN109741733A (zh) * | 2019-01-15 | 2019-05-10 | 河海大学常州校区 | 基于一致性路由网络的语音音素识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020235680A1 (ja) | 2020-11-26 |
JP7043081B2 (ja) | 2022-03-29 |
US20220238113A1 (en) | 2022-07-28 |
EP3973861A1 (en) | 2022-03-30 |
JP2020191021A (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657964B (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
Sailor et al. | Novel unsupervised auditory filterbank learning using convolutional RBM for speech recognition | |
CN111048071B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
Muckenhirn et al. | Understanding and Visualizing Raw Waveform-Based CNNs. | |
WO2014062521A1 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
CN108198576A (zh) | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 | |
CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
Syed et al. | Inter classifier comparison to detect voice pathologies | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Fazel et al. | Sparse auditory reproducing kernel (SPARK) features for noise-robust speech recognition | |
CN110349565B (zh) | 一种面向听障人士的辅助发音学习方法及其系统 | |
Chamoli et al. | Detection of emotion in analysis of speech using linear predictive coding techniques (LPC) | |
Sharon et al. | An empirical study of speech processing in the brain by analyzing the temporal syllable structure in speech-input induced EEG | |
CN113873944A (zh) | 语音联想识别装置、佩戴用具、语音联想识别方法及程序 | |
Diener et al. | Investigating Objective Intelligibility in Real-Time EMG-to-Speech Conversion. | |
Wand | Advancing electromyographic continuous speech recognition: Signal preprocessing and modeling | |
Tripathi et al. | CNN based Parkinson's Disease Assessment using Empirical Mode Decomposition. | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Sharon et al. | The" Sound of Silence" in EEG--Cognitive voice activity detection | |
Krishna et al. | Continuous Silent Speech Recognition using EEG | |
CN115116475A (zh) | 一种基于时延神经网络的语音抑郁症自动检测方法和装置 | |
Mostafa et al. | Voiceless Bangla vowel recognition using sEMG signal | |
CN113077794A (zh) | 一种人声识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211231 |