CN109545198A - 一种基于卷积神经网络的英语口语母语度判断方法 - Google Patents

一种基于卷积神经网络的英语口语母语度判断方法 Download PDF

Info

Publication number
CN109545198A
CN109545198A CN201910010516.7A CN201910010516A CN109545198A CN 109545198 A CN109545198 A CN 109545198A CN 201910010516 A CN201910010516 A CN 201910010516A CN 109545198 A CN109545198 A CN 109545198A
Authority
CN
China
Prior art keywords
neural networks
convolutional neural
mother tongue
method based
judgment method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910010516.7A
Other languages
English (en)
Inventor
张杰昊
陈进
陆勇毅
秦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiansheng Intelligent Technology Co Ltd
Original Assignee
Beijing Xiansheng Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiansheng Intelligent Technology Co Ltd filed Critical Beijing Xiansheng Intelligent Technology Co Ltd
Priority to CN201910010516.7A priority Critical patent/CN109545198A/zh
Publication of CN109545198A publication Critical patent/CN109545198A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的英语口语母语度判断方法,其技术方案要点是其步骤为:(1)语音信号处理,将短时的时域信息转换为频域信息;(2)卷积神经网络输出;(3)因语音的长度各不相同,因此经过卷积神经网络得到的输出大小各不相同,对卷积神经网络的输出量做全局的平均池化;(4)将全局池化得到的固定维度向量做几次线性变换和非线性变换,最后通过一个线性变换将其映射到2维;(5)通过softmax将其变为概率,此概率就是得到的是否像母语使用者的概率。本发明提高自动评分系统的准确性和稳定性。

Description

一种基于卷积神经网络的英语口语母语度判断方法
技术领域
本发明涉及一种信息处理,更具体的说,它涉及一种基于卷积神经网络的英语口语母语度判断方法。
背景技术
在英语口语发音自动评分系统中(Automatic Scoring of Speech),判断说话人说的是否像母语(L1)是评价其口语水平的一个很重要的指标。传统的英语口语母语度(degree of nativeness)判断方法是先通过语音识别系统(AutomaticSpeechRecognition,ASR),识别出说了什么。然后再根据ASR的识别结果,提取一些语速、语调和韵律等方面的特征。最后再根据这些特征做回归分析。然而由于语言自身的复杂性和数据的缺乏,这些特征很难表示一个人说话的全部信息,因此这些方法在实际系统中仍有较大误差。
近些年来,随着深度神经网络的发展,神经网络已经在语音识别领域取得了接近甚至超过人类的表现,循环神经网络(RecurrentNeuralNetwork,RNN)和延时神经网络(TimeDelayNeuralNetwork,TDNN)已经可以较好的模拟时序相关的信息。因此,语音识别系统的性能提升对于口语测评系统性能的改进能力已经到达瓶颈。
虽然口语自动评分系统是是基于语音识别的结果,提取一些特征进行打分。然而我们基于识别结果提取的语调和韵律学的特征仍然是简单和人为定义的,和真正的母语者的判断方式有较大差别。并且,由于这些信息需要基于专家打分进行回归分析,因此不可能有大量专家标注的标准数据进行训练。所以在实际的口语自动评分系统中,系统性能仍有很大提升空间。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种自动判断口语母语度的基于卷积神经网络的英语口语母语度判断方法。
为实现上述目的,本发明提供了如下技术方案:一种基于卷积神经网络的英语口语母语度判断方法,其步骤为:
(1)语音信号处理,将短时的时域信息转换为频域信息;
(2)卷积神经网络输出;
(3)因语音的长度各不相同,因此经过卷积神经网络得到的输出大小各不相同,对卷积神经网络的输出量做全局的平均池化;
(4)将全局池化得到的固定维度向量做几次线性变换和非线性变换,最后通过一个线性变换将其映射到2维;
(5)通过softmax将其变为概率,此概率就是得到的是否像母语使用者的概率。
本发明进一步设置为:根据步骤(1),对输入的语音信号,通过短时傅里叶变换,将短时的时域信息转换为频域信息。
本发明进一步设置为:短时傅里叶变换的步骤为:
(1.1)预加重,提高高频特征的能量,具体如下:
x′[td]=x[td]-αx[td-1];
(1.2)加窗,x[n]=w[n]s[n],
其中w[n]是窗函数,通常我们使用hamming窗函数;
(1.3)离散傅里叶变换,
(1.4)对于得到的结果,取其能量,并做对数运算,使其更加符合人耳的听感,得到的对数频谱图作为神经网络的输入,进行下一步计算。
本发明进一步设置为:根据步骤(2),卷积神经网络由多层的卷积层、池化层和非线性变化组成,经过信号处理后的语音,得到对数频谱图X0,作为卷积神经网络的输入,对数频谱图的大小为N×T×3。
本发明进一步设置为:对于给定的参数W,卷积的计算方法如下:
其中XL为第L层的输入,XL+1为其输出。
本发明进一步设置为:通常在每一层卷积后,进行非线性变换,其具体公式如下,
本发明进一步设置为:每做几次卷积和非线性变换后,进行池化操作,将输入进行压缩,使得网络能够得到更多全局信息,具体如下:
对于(N,T,D)维的输入,得到(N/2,T/2,D)维度的输出。
本发明进一步设置为:根据步骤(3),卷积神经网络的输出为T×N维的特征矩阵,其中T是一个和输入语音的时间正相关的量,N是一个固定维度,其全局的平均池化方式为:
将时序上的信息求一个平均,得到一个固定为N维度的向量。
本发明进一步设置为:根据步骤(4)-(5),固定维度为向量X,全局池化层得到的固定维度向量X做几次线性变换和非线性变换为全连接层,对于第L层的输入X,一个全连接层的变换为:
Xl+1=ReLU(AXl+b)。
本发明进一步设置为:根据2到3个全连接层,每一层的维度为2048,最后的softmax层是一个将N维向量变成概率的变换,将输入变成是否像母语使用者的概率,具体如下
采用传统的CrossEntropyLoss进行计算,并使用Adam作为优化算法。
本发明具有下述优点:由于在训练过程中我们只需要知道一段语音是否是母语者说的,因此可以很容易得到大量的训练数据。经过训练的神经网络性能十分稳定,区分率超过98%。将一段待测试语音通过神经网络计算,可以得到其发音像母语使用者的概率,将此概率与传统的测评特征相结合,不仅可以更好辨别其发音水平,还可以提高自动评分系统的准确性和稳定性;
提出一种新的判断母语度的方法,采用大量母语(L1)和非母语(L2)的语料训练分类器,将分类器的输出结果母语度的结果。
附图说明
图1为本发明的模型流程图。
具体实施方式
参照图1所示,本实施例的一种基于卷积神经网络的英语口语母语度判断方法,其步骤为:
(1)语音信号处理,将短时的时域信息转换为频域信息;
(2)卷积神经网络输出;
(3)因语音的长度各不相同,因此经过卷积神经网络得到的输出大小各不相同,对卷积神经网络的输出量做全局的平均池化;
(4)将全局池化得到的固定维度向量做几次线性变换和非线性变换,最后通过一个线性变换将其映射到2维;
(5)通过softmax将其变为概率,此概率就是得到的是否像母语使用者的概率。
根据步骤(1),对输入的语音信号,通过短时傅里叶变换,将短时的时域信息转换为频域信息。
短时傅里叶变换的步骤为:
(1.1)预加重,提高高频特征的能量,具体如下:
x′[td]=x[td]-αx[td-1];
(1.2)加窗,x[n]=w[n]s[n],
其中w[n]是窗函数,通常我们使用hamming窗函数;
(1.3)离散傅里叶变换,
(1.4)对于得到的结果,取其能量,并做对数运算,使其更加符合人耳的听感,得到的对数频谱图作为神经网络的输入,进行下一步计算。
根据步骤(2),卷积神经网络由多层的卷积层、池化层和非线性变化组成,经过信号处理后的语音,得到对数频谱图X0,作为卷积神经网络的输入,对数频谱图的大小为N×T×3。
对于给定的参数W,卷积的计算方法如下:
其中XL为第L层的输入,XL+1为其输出。
通常在每一层卷积后,进行非线性变换,其具体公式如下,
每做几次卷积和非线性变换后,进行池化操作,将输入进行压缩,使得网络能够得到更多全局信息,通常使用最大池化操作(Maxpooling),具体如下:
对于(N,T,D)维的输入,得到(N/2,T/2,D)维度的输出。
根据步骤(3),卷积神经网络的输出为T×N维的特征矩阵,其中T是一个和输入语音的时间正相关的量,N是一个固定维度,其全局的平均池化方式为:
将时序上的信息求一个平均,得到一个固定为N维度的向量。
根据步骤(4)-(5),固定维度为向量X,全局池化层得到的固定维度向量X做几次线性变换和非线性变换为全连接层,对于第L层的输入X,一个全连接层的变换为:
X1+1=ReLU(AXl+b)。
根据2到3个全连接层,每一层的维度为2048,最后的softmax层是一个将N维向量变成概率的变换,将输入变成是否像母语使用者的概率,具体如下
采用传统的CrossEntropyLoss进行计算,并使用Adam作为优化算法。
通过采用上述技术方案,基于多层卷积神经网络(ConvolutionalNeuralNetworks,CNN)的端到端(End-to-End,E2E)的自动判断口语母语度方法.该模型由信号处理(SignalAnalysis),卷积层(ConvolutionLayer)、池化层(PoolingLayer)、全局池化层(GlobalPooling)、全连接层(FullyConnectedLayer)组成。该方法不需要人工标注的数据进行学习,只需要知道是否是说话人是否母语为英语。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:其步骤为:
(1)语音信号处理,将短时的时域信息转换为频域信息;
(2)卷积神经网络输出;
(3)因语音的长度各不相同,因此经过卷积神经网络得到的输出大小各不相同,对卷积神经网络的输出量做全局的平均池化;
(4)将全局池化得到的固定维度向量做几次线性变换和非线性变换,最后通过一个线性变换将其映射到2维;
(5)通过softmax将其变为概率,此概率就是得到的是否像母语使用者的概率。
2.根据权利要求1所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:根据步骤(1),对输入的语音信号,通过短时傅里叶变换,将短时的时域信息转换为频域信息。
3.根据权利要求2所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:短时傅里叶变换的步骤为:
(1.1)预加重,提高高频特征的能量,具体如下:x′[td]=x[td]-αx[td-1];
(1.2)加窗,x[n]=w[n]s[n],
其中w[n]是窗函数,通常我们使用hamming窗函数;
(1.3)离散傅里叶变换,
(1.4)对于得到的结果,取其能量,并做对数运算,使其更加符合人耳的听感,得到的对数频谱图作为神经网络的输入,进行下一步计算。
4.根据权利要求3所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:根据步骤(2),卷积神经网络由多层的卷积层、池化层和非线性变化组成,经过信号处理后的语音,得到对数频谱图X0,作为卷积神经网络的输入,对数频谱图的大小为N×T×3。
5.根据权利要求4所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:对于给定的参数W,卷积的计算方法如下:
其中XL为第L层的输入,XL+1为其输出。
6.根据权利要求5所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:通常在每一层卷积后,进行非线性变换,其具体公式如下,
7.根据权利要求6所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:每做几次卷积和非线性变换后,进行池化操作,将输入进行压缩,使得网络能够得到更多全局信息,具体如下:
对于(N,T,D)维的输入,得到(N/2,T/2,D)维度的输出。
8.根据权利要求7所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:根据步骤(3),卷积神经网络的输出为T×N维的特征矩阵,其中T是一个和输入语音的时间正相关的量,N是一个固定维度,其全局的平均池化方式为:
将时序上的信息求一个平均,得到一个固定为N维度的向量。
9.根据权利要求8所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:根据步骤(4)-(5),固定维度为向量X,全局池化层得到的固定维度向量X做几次线性变换和非线性变换为全连接层,对于第L层的输入X,一个全连接层的变换为:
Xl+1=ReLU(AXl+b)。
10.根据权利要求9所述的一种基于卷积神经网络的英语口语母语度判断方法,其特征在于:根据2到3个全连接层,每一层的维度为2048,最后的softmax层是一个将N维向量变成概率的变换,将输入变成是否像母语使用者的概率,具体如下
采用传统的CrossEntropyLoss进行计算,并使用Adam作为优化算法。
CN201910010516.7A 2019-01-04 2019-01-04 一种基于卷积神经网络的英语口语母语度判断方法 Pending CN109545198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910010516.7A CN109545198A (zh) 2019-01-04 2019-01-04 一种基于卷积神经网络的英语口语母语度判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910010516.7A CN109545198A (zh) 2019-01-04 2019-01-04 一种基于卷积神经网络的英语口语母语度判断方法

Publications (1)

Publication Number Publication Date
CN109545198A true CN109545198A (zh) 2019-03-29

Family

ID=65834224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910010516.7A Pending CN109545198A (zh) 2019-01-04 2019-01-04 一种基于卷积神经网络的英语口语母语度判断方法

Country Status (1)

Country Link
CN (1) CN109545198A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN111653267A (zh) * 2020-03-31 2020-09-11 因诺微科技(天津)有限公司 一种基于时延神经网络的快速语种识别方法
CN111739555A (zh) * 2020-07-23 2020-10-02 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447504A (zh) * 2018-03-20 2018-08-24 校宝在线(杭州)科技股份有限公司 一种基于脑电波的口语评测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447504A (zh) * 2018-03-20 2018-08-24 校宝在线(杭州)科技股份有限公司 一种基于脑电波的口语评测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANN LEE: "language independent methods for computer assisted pronunciation training", 《PH.D. THESIS MIT》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN111653267A (zh) * 2020-03-31 2020-09-11 因诺微科技(天津)有限公司 一种基于时延神经网络的快速语种识别方法
CN111739555A (zh) * 2020-07-23 2020-10-02 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置
CN111739555B (zh) * 2020-07-23 2020-11-24 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置

Similar Documents

Publication Publication Date Title
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US11322155B2 (en) Method and apparatus for establishing voiceprint model, computer device, and storage medium
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
WO2020173133A1 (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN103928023B (zh) 一种语音评分方法及系统
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN108962223A (zh) 一种基于深度学习的语音性别识别方法、设备及介质
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN110457432A (zh) 面试评分方法、装置、设备及存储介质
CN104485103B (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN105374352A (zh) 一种语音激活方法及系统
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
CN102509547A (zh) 基于矢量量化的声纹识别方法及系统
CN106875943A (zh) 一种用于大数据分析的语音识别系统
CN104464724A (zh) 一种针对刻意伪装语音的说话人识别方法
CN109545198A (zh) 一种基于卷积神经网络的英语口语母语度判断方法
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN105825852A (zh) 一种英语口语朗读考试评分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329

RJ01 Rejection of invention patent application after publication