CN115497455A - 一种英语口语考试语音智能评测方法、系统及装置 - Google Patents

一种英语口语考试语音智能评测方法、系统及装置 Download PDF

Info

Publication number
CN115497455A
CN115497455A CN202211451766.2A CN202211451766A CN115497455A CN 115497455 A CN115497455 A CN 115497455A CN 202211451766 A CN202211451766 A CN 202211451766A CN 115497455 A CN115497455 A CN 115497455A
Authority
CN
China
Prior art keywords
semantic
model
evaluation
pronunciation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211451766.2A
Other languages
English (en)
Other versions
CN115497455B (zh
Inventor
马磊
陈义学
夏彬彬
侯庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Original Assignee
SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANDONG SHANDA OUMA SOFTWARE CO Ltd filed Critical SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority to CN202211451766.2A priority Critical patent/CN115497455B/zh
Publication of CN115497455A publication Critical patent/CN115497455A/zh
Application granted granted Critical
Publication of CN115497455B publication Critical patent/CN115497455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出的一种英语口语考试语音智能评测方法、系统及装置,属于语音识别及评测技术领域。所述方法包括:对英语口语音频数据进行预处理,得到音频序列x;将x进行MFCC特征表示得到特征x1;将x进行FBANK特征表示得到特征x2;使用声学模型对特征x1进行处理得到音素概率分布p;将p输入类语音评测模型中,得到发音得分结果score1;使用识别模型结合语言模型及解码算法对特征x2进行处理得到语音识别文本text;将text输入语义模型中,得到语义得分结果score2;对score1和score2进行综合评价,生成评分结果score。本发明能够灵活应对考生在实际考试中的语音情景,提升了语义识别效果。

Description

一种英语口语考试语音智能评测方法、系统及装置
技术领域
本发明涉及语音识别及评测技术领域,更具体的说是涉及一种英语口语考试语音智能评测方法、系统及装置。
背景技术
近年来,随着人工智能领域的飞速发展,以及机器学习,尤其是深度学习等技术的深度应用,语音评测技术的研究和应用越来越受到关注。语音评测技术是针对口语发音水平及发音正误进行自动评价、打分、检错并提供纠正的技术,尤其针对英语口语考试,主要应用其自动评分的特性,其评测维度分为两个方面,一方面是发音准确性、发音流利性和发音韵律性等维度,另一方面是语法准确性、语义相关性和回答完整性等维度。
相较于人工评分,语音评测技术有其明显的优势,一是所需要的阅卷人员人数更少,降低人力物力,阅卷周期更短;二是在定标数据质量比较高的情况下,智能评测相比于阅卷人员之间的评分差异更小;三是机器评分可以避免人工评分时的听力疲劳,确保评分的稳定性,从而保证评分的客观性和公正性。
目前语音评测领域针对发音准确性、发音流利性和发音韵律性等维度的评测方法大多是基于GOP或者以此为基础评测发音的好坏,此外MDD方案也有应用,其需要标注到音素级,标注成本较高。针对语法准确性、语义相关性和回答完整性等维度的评测方法包括传统语义模型和深度语义模型两种,传统语义模型的隐式模型通常将文本映射到同一个隐式向量空间,通过向量相似度来计算其相关性,而传统语义模型的翻译模型将文本进行翻译改写后进行相关性匹配。深度语义模型使用深度学习模型表征文本,映射到同一个低维空间,通过计算向量相似度作为语义相关性分数,并最大化点击的条件概率,整体实现语义相关维度的评测,但其在模型学习时文本之间没有交互,不能充分利用文本的细粒度匹配信号。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种英语口语考试语音智能评测方法、系统及装置,采用改进的类GOP方法实现发音维度的测评和基于Bert模型实现语义维度的测评。
本发明为实现上述目的,通过以下技术方案实现:
一种英语口语考试语音智能评测方法,包括如下步骤:
S1:对英语口语音频数据进行预处理,得到预处理后的音频序列x;
S2:将预处理后的音频序列x进行MFCC特征表示得到特征x1;将预处理后的音频序列x进行FBANK特征表示得到特征x2;
S3:使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p;
S4:联合发音词典,将音素率分布p输入类GOP英语口语语音评测模型中进行评测,得到发音准确性、发音流利性、发音韵律性的发音得分结果score1;
S5:使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text;
S6:联合需评测的题目内容文本,将语音识别文本text输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的语义得分结果score2;
S7:对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
进一步,所述步骤S1具体为:
采用LMS自适应滤波器降噪方法对英语口语音频数据的噪声进行抑制处理,得到音频序列x。
进一步,所述步骤S4中, 类GOP英语口语语音评测模型采用的评价公式如下:
Figure 350653DEST_PATH_IMAGE001
(1)
Figure 140755DEST_PATH_IMAGE002
(2)
其中,st为第t帧的多元音素,Qt为当前声学观测值,n为声学模型中多元因素的总数,T为音素总帧数。
进一步,所述步骤S6包括如下步骤:
S61:利用Bert语义模型分别对语音识别文本和题目内容文本进行向量化处理,提取语义特征,构建语音识别文本映射矩阵和题目内容文本映射矩阵;
S62:利用卷积神经网络分别对语音识别文本映射矩阵和题目内容文本映射矩阵进行运算,得到语音识别文本的语义特征矩阵和题目内容文本的语义特征矩阵;
S63:利用PCA主成分分析算法分别对语音识别文本的语义特征和题目内容文本的语义特征进行降维处理,得到语音识别文本的语义特征向量和题目内容文本的语义特征向量;
S64:计算语音识别文本的语义特征向量和题目内容文本的语义特征向量的相似度,利用公式A=S×F计算出相应的语义得分A;
其中,S为相似度,F为本题总分值。
进一步,所述卷积神经网络包括5层卷积层和3层池化层。
进一步,所述步骤S7包括:
根据预设的评分标准对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
相应的,本发明还公开了一种英语口语考试语音智能评测系统,包括:
预处理单元,用于对英语口语音频数据进行预处理,得到预处理后的音频序列x;
特征表示单元,用于将预处理后的音频序列x进行MFCC特征表示得到特征x1;将预处理后的音频序列x进行FBANK特征表示得到特征x2;
音素预测单元,用于使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p;
第一评测单元,用于联合发音词典,将音素概率分布p输入类GOP英语口语语音评测模型中进行评测,得到发音准确性、发音流利性、发音韵律性的发音得分结果score1;
语音识别单元,用于使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text;
第二评测单元,用于联合需评测的题目内容文本,将语音识别文本text输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的语义得分结果score2;
综合评价单元,用于对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
相应的,本发明还公开了一种英语口语考试语音智能评测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任一项所述的英语口语考试语音智能评测方法的步骤。
对比现有技术,本发明有益效果在于:本发明提供了一种英语口语考试语音智能评测方法、系统及装置,采用改进的类GOP方法实现发音维度的测评和基于Bert模型实现语义维度的测评。一方面改进的类GOP方法得到细颗粒度的发音水平的指标,从而得到每个音素级别的发音得分,同时,在做强制对齐解码时考虑了漏读,多读,重复读的情况,能够灵活应对考生在实际考试中的语音情景;另一方面基于Bert模型在训练时能够进行充分的交互匹配,解决了语义匹配的结构局限,语义相关效果提升明显。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明具体实施方式的方法流程图。
图2是本发明具体实施方式的流程示意图。
图3是本发明具体实施方式的卷积神经网络模型结构图。
图4是本发明具体实施方式的系统结构图。
图中,1、预处理单元;2、特征表示单元;3、音素预测单元;4、第一评测单元;5、语音识别单元;6、第二评测单元;7、综合评价单元。
具体实施方式
下面结合附图对本发明的具体实施方式做出说明。
实施例一:
如图1-2所示的一种英语口语考试语音智能评测方法,包括如下步骤:
S1:对英语口语音频数据进行预处理,得到预处理后的音频序列x。
具体的,采用LMS自适应滤波器降噪方法对英语口语音频数据的噪声进行抑制处理,得到音频序列x。
S2:将预处理后的音频序列x进行MFCC特征表示得到特征x1;将预处理后的音频序列x进行FBANK特征表示得到特征x2。
S3:使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p。
S4:联合发音词典,将音素率分布p输入类GOP英语口语语音评测模型中进行评测,得到发音准确性、发音流利性、发音韵律性的发音得分结果score1。
在本步骤中,类GOP英语口语语音评测模型采用的评价公式如下:
Figure 301609DEST_PATH_IMAGE001
(1)
Figure 773041DEST_PATH_IMAGE002
(2)
其中,st为第t帧的多元音素,Qt为当前声学观测值,n为声学模型中多元因素的总数,T为音素总帧数。
S5:使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text。
S6:联合需评测的题目内容文本,将语音识别文本text输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的语义得分结果score2。
S7:对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
具体的,本步骤根据评分标准对类GOP的英语口语语音评测方法和基于BERT的语义模型评测方法得到的得分进行综合评价得到最终得分。
作为示例的,本方法的步骤S6包括如下步骤:
S61:利用Bert语义模型分别对语音识别文本和题目内容文本进行向量化处理,提取语义特征,构建语音识别文本映射矩阵和题目内容文本映射矩阵。
S62:利用卷积神经网络分别对语音识别文本映射矩阵和题目内容文本映射矩阵进行运算,得到语音识别文本的语义特征矩阵和题目内容文本的语义特征矩阵。其中,用于提取特征的卷积神经网络由5层卷积层和3层池化层构建,其结构如图2所示。
S63:利用PCA主成分分析算法分别对语音识别文本的语义特征和题目内容文本的语义特征进行降维处理,得到语音识别文本的语义特征向量和题目内容文本的语义特征向量。
S64:计算语音识别文本的语义特征向量和题目内容文本的语义特征向量的相似度,利用公式A=S×F计算出相应的语义得分A。其中,S为相似度,F为本题总分值。
实施例二:
基于实施例一,本实施例还公开了一种英语口语考试语音智能评测方法,本方法所用的实验环境为Linux系统,系统配置为:Inter(R) Xeon E5-2620 v4 @ 2.10GHz 内存32G和两个内存为16G 的NVIDIA Tesla P100 GPU显卡,随机选取英语口语机考四级朗读200条音频数据,每条音频时长为60秒。
本方法的具体实施步骤如下:
步骤1:对200条英语口语机考四级音频数据进行预处理,预处理过程采用LMS自适应滤波器降噪方法对音频的噪声进行抑制,得到预处理后的每条音频序列xi。
步骤2:将预处理后的音频序列xi进行MFCC特征表示得到xi1;将预处理后的音频序列xi进行FBANK特征表示得到xi2。
步骤3:使用LSTM-HMM声学模型结合N-gram语言模型对步骤2中得到的特征xi1进行处理得到音素概率分布pi1。
步骤4:联合发音词典,将步骤3中得到的预测音素的概率分布pi1输入类GOP英语口语语音评测模型中进行评测,得到对应与每个音频数据的发音准确性、发音流利性、发音韵律性得分结果scorei1。
步骤5:使用RNN-Transducer端到端的识别模型结合N-gram语言模型及CTC解码算法对步骤2中得到的特征xi2进行处理得到语音识别文本texti。
步骤6:联合需评测的题目内容文本,将步骤5中得到的语音识别文本texti输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的得分结果scorei2。
步骤7:将步骤4中得到的发音得分结果scorei1和步骤6中得到的语义得分结果scorei2进行综合评价,得到每个音频数据的最终评分结果scorei。
利用本实施例提供的基于深度学习的英语口语考试智能评测技术方法,对随机挑选的200条四级朗读数据进行测试,并与人工评分进行了对比,对比结果如表1所示:
表1 200条四级朗读音频数据智能评分与人工评分比对统计表
四级-朗读(满分5分) 比率
与人工评分±0.5分一致率 0.81
与人工评分±1.0分一致率 0.98
与人工评分±1.5分一致率 0.99
相关系数 0.82
由此可见,本发明提供的基于深度学习的英语口语语音识别及评测方法,可有效的克服现有技术存在的缺点。针对发音评分和语义评分,分别采用基于LSTM-HMM声学模型提取音素概率和基于RNN-Transducer语音识别模型端到端转写文本,实现了智能评分的前期工作,保证了较高的准确度,使用类GOP的英语口语语音评测方法和基于BERT的语义模型评测整体实现了英语口语语音智能评测。
相应的,如图4所示,本发明还公开了一种英语口语考试语音智能评测系统,包括:预处理单元1、特征表示单元2、音素预测单元3、第一评测单元4、语音识别单元5、第二评测单元6和综合评价单元7。
预处理单元1,用于对英语口语音频数据进行预处理,得到预处理后的音频序列x。
特征表示单元2,用于将预处理后的音频序列x进行MFCC特征表示得到特征x1;将预处理后的音频序列x进行FBANK特征表示得到特征x2。
音素预测单元3,用于使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p。
第一评测单元4,用于联合发音词典,将音素概率分布p输入类GOP英语口语语音评测模型中进行评测,得到发音准确性、发音流利性、发音韵律性的发音得分结果score1。
语音识别单元5,用于使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text。
第二评测单元6,用于联合需评测的题目内容文本,将语音识别文本text输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的语义得分结果score2。
综合评价单元7,用于对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
相应的,本发明还公开了一种英语口语考试语音智能评测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任一项所述的英语口语考试语音智能评测方法的步骤。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。

Claims (8)

1.一种英语口语考试语音智能评测方法,其特征在于,包括如下步骤:
S1:对英语口语音频数据进行预处理,得到预处理后的音频序列x;
S2:将预处理后的音频序列x进行MFCC特征表示得到特征x1;将预处理后的音频序列x进行FBANK特征表示得到特征x2;
S3:使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p;
S4:联合发音词典,将音素率分布p输入类GOP英语口语语音评测模型中进行评测,得到发音准确性、发音流利性、发音韵律性的发音得分结果score1;
S5:使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text;
S6:联合需评测的题目内容文本,将语音识别文本text输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的语义得分结果score2;
S7:对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
2.根据权利要求1所述的英语口语考试语音智能评测方法,其特征在于,所述步骤S1具体为:
采用LMS自适应滤波器降噪方法对英语口语音频数据的噪声进行抑制处理,得到音频序列x。
3.根据权利要求1所述的英语口语考试语音智能评测方法,其特征在于,所述步骤S4中, 类GOP英语口语语音评测模型采用的评价公式如下:
Figure 908396DEST_PATH_IMAGE001
(1)
Figure 12356DEST_PATH_IMAGE002
(2)
其中,st为第t帧的多元音素,Qt为当前声学观测值,n为声学模型中多元因素的总数,T为音素总帧数。
4.根据权利要求1所述的英语口语考试语音智能评测方法,其特征在于,所述步骤S6包括如下步骤:
S61:利用Bert语义模型分别对语音识别文本和题目内容文本进行向量化处理,提取语义特征,构建语音识别文本映射矩阵和题目内容文本映射矩阵;
S62:利用卷积神经网络分别对语音识别文本映射矩阵和题目内容文本映射矩阵进行运算,得到语音识别文本的语义特征矩阵和题目内容文本的语义特征矩阵;
S63:利用PCA主成分分析算法分别对语音识别文本的语义特征和题目内容文本的语义特征进行降维处理,得到语音识别文本的语义特征向量和题目内容文本的语义特征向量;
S64:计算语音识别文本的语义特征向量和题目内容文本的语义特征向量的相似度,利用公式A=S×F计算出相应的语义得分A;
其中,S为相似度,F为本题总分值。
5.根据权利要求4所述的英语口语考试语音智能评测方法,其特征在于,所述卷积神经网络包括5层卷积层和3层池化层。
6.根据权利要求1所述的英语口语考试语音智能评测方法,其特征在于,所述步骤S7包括:
根据预设的评分标准对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
7.一种英语口语考试语音智能评测系统,其特征在于,包括:
预处理单元,用于对英语口语音频数据进行预处理,得到预处理后的音频序列x;
特征表示单元,用于将预处理后的音频序列x进行MFCC特征表示得到特征x1;将预处理后的音频序列x进行FBANK特征表示得到特征x2;
音素预测单元,用于使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p;
第一评测单元,用于联合发音词典,将音素概率分布p输入类GOP英语口语语音评测模型中进行评测,得到发音准确性、发音流利性、发音韵律性的发音得分结果score1;
语音识别单元,用于使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text;
第二评测单元,用于联合需评测的题目内容文本,将语音识别文本text输入到基于BERT的语义模型中进行评测,得到语法准确性、语义相关性、回答完整性的语义得分结果score2;
综合评价单元,用于对发音得分结果score1和语义得分结果score2进行综合评价,得到最终的评分结果score。
8.一种英语口语考试语音智能评测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的英语口语考试语音智能评测方法的步骤。
CN202211451766.2A 2022-11-21 2022-11-21 一种英语口语考试语音智能评测方法、系统及装置 Active CN115497455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211451766.2A CN115497455B (zh) 2022-11-21 2022-11-21 一种英语口语考试语音智能评测方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211451766.2A CN115497455B (zh) 2022-11-21 2022-11-21 一种英语口语考试语音智能评测方法、系统及装置

Publications (2)

Publication Number Publication Date
CN115497455A true CN115497455A (zh) 2022-12-20
CN115497455B CN115497455B (zh) 2023-05-05

Family

ID=85116248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211451766.2A Active CN115497455B (zh) 2022-11-21 2022-11-21 一种英语口语考试语音智能评测方法、系统及装置

Country Status (1)

Country Link
CN (1) CN115497455B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798519A (zh) * 2023-02-10 2023-03-14 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CN108154735A (zh) * 2016-12-06 2018-06-12 爱天教育科技(北京)有限公司 英语口语测评方法及装置
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN112307742A (zh) * 2019-08-23 2021-02-02 上海松鼠课堂人工智能科技有限公司 会话式人机交互口语测评方法、装置及存储介质
CN114120971A (zh) * 2021-11-25 2022-03-01 山东山大鸥玛软件股份有限公司 一种英语口语语音识别及评测方法、系统、计算机及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CN108154735A (zh) * 2016-12-06 2018-06-12 爱天教育科技(北京)有限公司 英语口语测评方法及装置
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN112307742A (zh) * 2019-08-23 2021-02-02 上海松鼠课堂人工智能科技有限公司 会话式人机交互口语测评方法、装置及存储介质
CN114120971A (zh) * 2021-11-25 2022-03-01 山东山大鸥玛软件股份有限公司 一种英语口语语音识别及评测方法、系统、计算机及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798519A (zh) * 2023-02-10 2023-03-14 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及系统

Also Published As

Publication number Publication date
CN115497455B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US10854193B2 (en) Methods, devices and computer-readable storage media for real-time speech recognition
Lin et al. A study on multilingual acoustic modeling for large vocabulary ASR
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110767218A (zh) 端到端语音识别方法、系统、装置及其存储介质
CN105302795A (zh) 基于汉语模糊发音和语音识别的中文文本校验系统及方法
CN112581964B (zh) 一种面向多领域的智能语音交互方法
CN110164447A (zh) 一种口语评分方法及装置
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN113742471A (zh) 一种普法问答系统的向量检索式对话方法
CN115497455B (zh) 一种英语口语考试语音智能评测方法、系统及装置
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
CN112967710B (zh) 一种低资源客家方言点识别方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN112151020A (zh) 语音识别方法、装置、电子设备及存储介质
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
Kurimo et al. Unsupervised segmentation of words into morphemes-morpho challenge 2005 application to automatic speech recognition
CN113571045A (zh) 一种闽南语语音识别方法、系统、设备及介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
Guz et al. Cascaded model adaptation for dialog act segmentation and tagging
CN111402893A (zh) 语音识别模型确定方法、语音识别方法及装置、电子设备
CN112951237B (zh) 一种基于人工智能的自动语音识别方法及系统
CN115440193A (zh) 一种基于深度学习的发音评测打分方法
CN112233668A (zh) 一种基于神经网络的语音指令及身份识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant