CN115376547A - 发音评测方法、装置、计算机设备和存储介质 - Google Patents
发音评测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115376547A CN115376547A CN202210967567.0A CN202210967567A CN115376547A CN 115376547 A CN115376547 A CN 115376547A CN 202210967567 A CN202210967567 A CN 202210967567A CN 115376547 A CN115376547 A CN 115376547A
- Authority
- CN
- China
- Prior art keywords
- audio
- phoneme
- data
- pronunciation
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 156
- 230000004927 fusion Effects 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000004590 computer program Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 91
- 238000012549 training Methods 0.000 claims description 45
- 238000013145 classification model Methods 0.000 claims description 34
- 230000007246 mechanism Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 11
- 238000000746 purification Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000007499 fusion processing Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000012854 evaluation process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 102100037812 Medium-wave-sensitive opsin 1 Human genes 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
本申请涉及一种发音评测方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取发音评测数据中的音频数据以及文本数据;提取音频数据的音频特征,并提取文本数据的音素特征;基于文本数据所包含的各类音素,确定音频数据包含的音素类别;对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别;基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果。采用本方法能够提高发音评测准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种发音评测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术和人工智能技术的发展,出现了通过机器学习(MachineLearning,ML)来进行口语发音评测的方法。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在发音评测时,可以通过输入跟读文本和对应的音频至机器学习模型,由机器学习模型来对这段音频的发音者进行自动化的发音评估。
传统的口语评测主要采用基于语音识别技术的声学模型计算得到的GOP(Goodness of Pronunciation,发音优美评分)作为发音特征。然而GOP依赖于语音训练数据的标注,当需要对不同的发音进行评测时,例如对二语者发音进行评测时,通过GOP来进行发音评测的准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高发音评测准确率的发音评测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种发音评测方法。所述方法包括:
获取发音评测数据中的音频数据以及文本数据;
提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
第二方面,本申请还提供了一种发音评测装置。所述装置包括:
数据获取模块,用于获取发音评测数据中的音频数据以及文本数据;
特征提取模块,用于提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
音素类别识别模块,用于基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
音素分类模块,用于对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
发音评测模块,用于基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取发音评测数据中的音频数据以及文本数据;
提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取发音评测数据中的音频数据以及文本数据;
提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取发音评测数据中的音频数据以及文本数据;
提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
上述发音评测方法、装置、计算机设备、存储介质和计算机程序产品,在得到发音评测数据后,先提取音频数据的音频特征,同时提取文本数据的音素特征,从而有效地从获取发音评测所需的音频特征以及文本特征,而后基于文本数据所包含的各类音素,确定音频数据包含的音素类别;再对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别,在特征融合前先将音频特征进行音素分类,可以查找到音频特征的音素类别,最后再基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果,通过在特征融合时,融合音频特征与音频特征所属音素类别下的音素特征,可以有效保证特征融合效果,从而提高发音评测的准确率。
附图说明
图1为一个实施例中发音评测方法的应用环境图;
图2为一个实施例中发音评测方法的流程示意图;
图3为另一个实施例中发音评测方法的流程示意图;
图4为一个实施例中实现发音评测的界面示意图;
图5为一个实施例中发音评测模型的结构示意图;
图6为一个实施例中基于发音评测模型实现发音评测流程的示意图;
图7为一个实施例中发音评测结果的界面示意图;
图8为一个实施例中不同模型对不同数据集进行发音评测的结果示意图;
图9为一个实施例中发音评测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能(Artificial Intelligence,AI)领域,人工智能(是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请具体涉及人工智能中的语音技术(Speech Technology)与机器学习技术。
其中,语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本文中,需要理解的是,所涉及的术语:
自动语音识别(Automatic Speech Recognition,ASR):将音频转化为文本的过程。
隐性马尔可夫模型(Hidden Markov Model,HMM):是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别
长短期记忆人工神经网络(Long Short-Term Memory,LSTM):一种时间循环神经网络(Recurrent Neural Network,RNN)。
卷积神经网络(convolutional neural network,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。
注意力机制:在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小。
编码器:接受一个长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。
本土语音数据:在本申请中,是指本地人的母语发音生成的语音数据,如英语本土人的发音数据。
二语者:在本申请中,是指第二语言使用者生成的语音数据,如中国学习英语的学习者的发音数据。
连接时序分类(Connectionist Temporal Classification,CTC):是一种避开输入与输出手动对齐的一种方式,适合语音识别或者OCR。在本申请中,主要应用于音素识别。
CTC blank:是CTC中一种特有的预测符号,用于分割单词,同时,对于识别过程中不确定的符号,也会赋值为blank。
发音优美评分(goodness of pronunciation,GOP):一种发音置信度参数。
高斯混合模型(Gaussian Mixture Model,GMM):是一种聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。
隐马尔可夫模型(Hidden Markov Model,HMM):用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数
Fbank:Fbank是语音特征参数提取方法之一,因其独特的基于倒谱的提取方式,更加的符合人类的听觉原理,因而也是最为普遍、最有效的语音特征提取算法。Fbank特征提取方法相当于梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)去掉最后一步的离散余弦变换(有损变换),对比MFCC特征,Fbank特征保留了更多的原始语音数据
皮尔逊相关系数(Pearson Correlation Coefficient):是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
本申请实施例提供的发音评测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102上安装有发音评测的应用程序,当终端102方的用户需要进行发音评测时,可以启动终端102上的应用程序,而后选定需要评测的文本,并依据应用程序的指示对文本进行跟读,并点击发音评测的按钮。而后终端根据发音评测过程中使用的文本数据以及用户跟读生成的语音数据,生成发音评测请求至服务器104,服务器104接收发音评测请求,而后提取发音评测请求中携带的音频数据以及文本数据,而后提取音频数据的音频特征,并提取文本数据的音素特征;基于文本数据所包含的各类音素,确定音频数据包含的音素类别;对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别;基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种发音评测方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤201,获取发音评测数据中的音频数据以及文本数据。
其中,发音评测数据是本申请的发音评测方法所评测的目标数据,发音评测数据包括了音频数据以及文本数据。其中文本数据可以是指评测过程中推送给评测者的评测文本内容,而音频数据则是指发音评测的评测者跟读评测文本内容所产生的一段语音数据。如在其中一个实施例中,本申请用于对英语发音进行评测,此时文本数据可以为推送给评测者的英语短语“How old are you”,而语音数据则是评测者跟读“How old are you”这句英语短语所生成的一段音频数据。
具体地,当用户需要进行发音评测时,可以通过终端102向服务器104提交发音评测请求,并在发音评测请求中携带发音评测所需要的跟读文本数据以及发音音频数据等发音评测数据。服务器104在接收到发音评测请求后,可以先从中分别提取出音频数据以及文本数据,从而进行后续过程的发音评测。在其中一个实施例中,用于实现发音评测方法的语音评测系统中具体包含有终端102以及服务器104,其中,终端102上安装有发音评测的应用程序,当终端102方的中文用户需要进行英语发音评测时,可以启动终端102上的英语发音评测程序,而后选定需要评测的英语文本,并依据应用程序的指示对该英语文本进行跟读,并点击发音评测的按钮。而后终端102则会根据发音评测过程中使用的文本数据以及用户跟读生成的语音数据,生成一组发音评测数据至服务器104,服务器104接收发音评测数据,而后提取发音评测数据中包含的音频数据以及文本数据,以便进行后续的发音评测。
步骤203,提取音频数据的音频特征,并提取文本数据的音素特征。
其中,音频特征是指通过机器学习模型,从音频数据的波形特征中提取得到的一个特征向量。在其中一个实施例中,用于提取特征向量的模型具体为基于Wav2vec2.0的预训练声学模型,可以通过将Wav2vec2.0预训练声学模型作为音频编码器来提取音频数据中所包含的波形特征,得到音频特征。而音素特征则是指通过机器学习模型,从文本数据所包含的音素数据中提取得到的一个特征向量。音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。可以对文本数据进行音素识别处理,来得到文本数据所对应的音素序列后,再利用机器学习模型来从音素序列中提取相应的音素特征。
具体地,为了有效地进行发音评测,需要将用户发出的音频数据与起跟读的文本数据进行特征交互处理。因此,在进行发音评测时,首先需要先分别从音频数据以及文本数据中提取出相应的特征。对于音频数据,可以直接通过预先训练完成的音频编码器对音频数据进行处理,提取出音频波形所对应的音频特征。而对于文本数据,则是通过预先训练完成的音素编码器来对音素数据进行处理,提取出音素序列所对应的音素特征。在其中一个实施例中,本申请的方法应用于中文用户的英语发音评测,此时音频数据为一段中文用户的英语发音数据,而文本数据则是英语文本数据。当提取特征时,服务器104可以将这段英文发硬数据输入到预先训练完成的英语音频编码器中,得到音频波形所对应的音频特征,同时将英文文本数据输入到预先训练完成的英语音素编码器,得到音素序列所对应的音素特征。
步骤205,基于文本数据所包含的各类音素,确定音频数据包含的音素类别。
其中,对于音素类别,每种语言都包含有若干个音素,例如英语有48个音素,其中元音音素20个、辅音音素28个。而汉语有32个音素,其中元音音素10个、辅音音素22个。而用于进行发音评测所用文本数据的音素序列中,可能包含有部分或全部的音素。文本数据所包含的各类音素具体可以基于文本中包含的单词查找音素表得到,如对于英语,可以通过查找英语单词的音素表,得到英文文本中每个单词的音素,而后基于文本数据中所有单词的音素,确定文本数据中所包含的总体音素类型。而音频数据的音素类别一定与文本数据包含的音素类别相同。
具体地,在进行发音评测时,现有技术一般是通过提取出音频数据中的GOP来作为发音特征,并实现发音评测。然而GOP只是一种对发音置信度的近似计算,同时GOP也是基于音素级别提取的单一特征,表示不够丰富。因此,本申请的方案中通过音频与音素特征的交互融合来实现发音评测,而为了保证音频特征与音素特征融合的有效性与准确率。可以在融合之前,先基于文本数据对音频特征进行音素分类处理,得到音频特征的音素类别。因为音频数据中各帧音频的音素类别,必定是在文本数据所拥有的音素类别中,所以可以在对音频数据进行音素分类前,可以先基于文本数据中所包含的音素类别,确定音频数据中所包含的音素类别。而后,再对音频数据中的各帧音频特征进行分类,确定每帧音频数据对应输入的哪个音素。在其中一个实施例中,本申请的方法应用于中文用户的英语发音评测,发音评测所用的文本数据为“How old are you”,其对应的音素为“hauɑ:ju:”,包含有/h/、/au/、/l/、/d/、/ɑ:/、/j/以及/u:/这8个音素,即文本数据包含有8种音素,因此音频特征也只可能与这些音素对应,而不会是另外的音素。
步骤207,对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别。
其中,音素分类是指针对每帧音频数据的音频特征,都找都其所对应的音素类别。前后向预测具体是指基于音频特征中每帧音频的前向音频来对音频所属的音素类别进行识别,从而确定每帧音频特征的音素类别。在其中一个实施例中,具体可以通过连接时序分类模型(Connectionist Temporal Classification,CTC)来对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别。
具体地,对于音素分类的模型,本申请的方案中需要先识别出文本数据中包含有哪些种类的音素,而确定的文本数据中所包含的音素即为音频数据中所包含的音素类别。在确定音素类别后,可以将音素类别与音频特征进行交互,来对每一帧的音频在进行一次分类,确定该帧音频对应哪个音素类别。具体地,可以通过训练完成的连接时序分类模型来对音频特征进行音素分类处理,将完整的音频特征输入到连接时序分类模型中,同时提供分类目标的音素类别,即可奖励每一帧音频特征所对应的音素类别。在其中一个实施例中,本申请的方案应用于中文用户的英语发音评测,在得到英文文本数据“How old are you”后,确定文本数据中包含有8种音素,而后即可通过训练完成的连接时序分类模型来对音频数据进行处理,识别出音频数据中每一帧音频与音频特征所对应的音素类别为这8种音素中的哪一种,从而为后续特征融合奠定基础。本实施例中,通过先确定文本中的音素类别,而后对音频特征进行音素类别相关的前后向预测处理,能够达到有效地预测出每帧音频所对应音素类别的效果,同时保证类别识别的准确性。
步骤209,基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果。
其中,特征融合结果指的是将音频特征以及音素特征融合,得到的一个总结数值。在其中一个实施例中,可以通过注意力机制来将音频特征与音频特征所属音素类别下的音素特征的特征进行融合,得到一个融合特征,再基于融合特征来得到最终的发音评测结果。而发音评测结果是指一个发音评测的具体标准,通过对比音频数据的发音以及标准的发音,可以对音频数据中的发音标准程度进行评测。在其中一个实施例中,可以对特征融合结果进行全连接层的处理,最终综合特征融合结果中的所有特征,得到最终发音评测得分,将其作为发音评测结果。
具体地,在得到音频特征的音素类别后,可以将音频特征与音频特征所属音素类别下的音素特征进行特征融合处理,如通过自注意力机制来将两个特征进行融合,自注意力机制可以融合上下文的音素表示,有效提高融合效果。在对每帧音频数据融合之后,可以基于各帧音频数据的特征融合结果,得到整个音频数据的特征融合结果,再基于该特征融合结果得到最终的发音评测结果。在其中一个实施例中,本申请的方法应用于中文用户的英语发音评测,在特征融合完成,得到特征融合结果后,可以将特征融合结果输入到训练完成的全连接层中,转换得到归一化的发音评测得分,而后将发音评测得分最为发音评测结果。此外,还可以为发音评测结果划分不同档位,如对于100分制的发音评测得分,可以划分出1星至5星五个档位,0-19分为1星,20-39分为2星,40-59分为3星,60-79分为4星,60-79分为4星,80-100分为5星,而后在确定发音评测档位后,直接将得到发音评测档位反馈至终端102,用户可以依照档位确定自身英语发音水平。
上述发音评测方法,通过在得到发音评测数据后,先提取音频数据的音频特征,同时提取文本数据的音素特征,从而有效地从获取发音评测所需的音频特征以及文本特征,而后基于文本数据所包含的各类音素,确定音频数据包含的音素类别;再对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别,在特征融合前先将音频特征进行音素分类,可以查找到音频特征的音素类别,最后再基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果,通过在特征融合时,融合音频特征与音频特征所属音素类别下的音素特征,可以有效保证特征融合效果,从而提高发音评测的准确率。
在其中一个实施例中,音素类别包括空类别和至少一个目标类别,基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果之前,还包括:从音频特征中去除音素类别为空类别的音频特征;对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别包括:对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征对应的目标类别。
其中,音素类别具体分为两大类,一大类为空类别,即blank类型,由于音频数据中有一部分的帧由于用户在录音过程中的停顿等原因可能并不包含波形数据,此时该帧音频并不与任何音素对应,因此可以将其作为一个空类别。而目标类别则是指实质的音素类别,例如英语有48个音素,其中元音音素20个、辅音音素28个。而汉语有32个音素,其中元音音素10个、辅音音素22个。
具体地,由于录音过程中的停顿等问题,会导致音频数据中有部分不存在波形的音频帧,这部分音频帧并不存在与之对应的目标音素类别,因此,在进行音素类别识别之时,还需要同时将这部分空类别的音频帧删除,并在删除空类别之后,再对剩余部分的音频帧进行音素类别相关的前后向预测处理,得到每帧音频特征对应的目标类别。在其中一个实施例中,本申请的方法应用于中文用户的英语发音评测,在得到英文文本数据“How oldare you”以及相应的音频数据后,通过音频分帧得到18个音频帧,其中3个属于空类别,之后则可以对剩余的15个音频帧进行分类处理,识别出这15个音频帧各自对应的目标类别。本实施例中,通过先删除音频数据中的空类别,而后再对剩余的音频特征进行分类,可以有效地保证音频帧分类的准确性,从而提高发音评测的准确率。
在其中一个实施例中,步骤203之前,还包括:获取第一训练集和第二训练集,第一训练集包括使用语音类别为母语的语言使用者发音数据,第二训练集包括使用语音类别为非母语的语言使用者发音数据;基于第一训练集对初始连接时序分类模型进行参数训练,得到第一音频特征分类模型;基于第二训练集对第一音频特征分类模型进行参数调整,得到第二音频特征分类模型;对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别;基于第二音频特征分类模型对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别。
其中,第一训练集包括使用语音类别为母语的语言使用者发音数据,第二训练集包括使用语音类别为非母语的语言使用者发音数据,例如对于中文用户的英语发音评测的场景。第一训练集基于以英语为母语的英语本地人(native)的发音数据构建,而第二训练集则基于以英语为第二语言,以汉语为母语的二语者的发音数据构建。初始连接时序分类模型则是基于连接时序分类算法所构建的初始模型。
具体地,本申请具体可以通过连接时序分类算法来实现对音频数据的分类,在分类时,将提取到的音频特征以及识别出的音素类别都输入到训练完成的连接时序分类模型中,由模型来对音频数据中,每帧音频所对应的音素类别进行识别。而在此之前,还需要完成对连接时序分类模型的训练,而模型训练主要分为两个阶段,在第一阶段,基于第一训练集来对初始连接时序分类模型进行训练。在应用于对二语者进行发音评测时,具体可以将使用语音类别为母语的语言使用者发音数据作为第一训练集。而连接时序分类模型的损失定义为最小化负对数似然损失。首先定义连接时序分类模型的一句话的概率,如下列公式所示:
其中t为音频数据的帧数,X为声学特征,yt为t帧的预测音素结果。CTC会将多种可能的序列进行求和,如英语单词great,它在语音帧的分布可能是ggrreeeaat,也可能是ggrrrreatt,因此这里的Ax,y为所有可能的序列。第二阶段,是用二语者评分数据对网络的调整。即基于第二训练集对第一音频特征分类模型进行参数调整,得到第二音频特征分类模型。在其中一个实施例中,为了让声学模型更好的适应二语者发音特征,本申请可以将二语者中发音较好的数据(如100分发音满分,大于等于80分为发音较好的数据)进一步采用连接时序分类算法进行再训练来调整参数。这一阶段的连接时序分类算法损失可以参考以下公式,
其中score为发音评测所得的最终分数,thresh为提前设置的发音较好的分数阈值。最终整个网路采用多任务损失进行优化,同时结合连接时序分类和评分回归拟合损失。评分损失可以参照以下公式:
Ltotal=Lscore+α*LCTc
其中,α为比例系数。本实施例中,通过分步来对初始连接时序分类模型进行训练来得到所需要的第二音频特征分类模型,再基于第二音频特征分类模型来对每帧音频进行音素类别相关的前后向预测处理,可以有效地对每帧音频特征的音素类别,并保证类别识别的准确性。
在其中一个实施例中,提取音频数据的音频特征包括:将音频数据拆分为音频帧;通过音频编码器的特征编码层提取音频帧的音频编码特征;通过音频编码器的转换器层对音频编码特征进行特征转换处理,得到音频特征。
其中,编码器(encoder)是指是将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。而音频编码器则用于将音频格式下的音频波形信号转化为向量形式数字信号的特征提取器。在其中一个实施例中,音频编码器具体可以通过wav2vec2.0算法构建,具体为wav2vec2.0预训练声学模型,它是一种基于大量无标签数据进行自监督预训练的模型,它由多层卷积的特征编码层和多层转换器(transformer)构成。
具体地,对于音频特征提取的过程,可以通过预先训练完成的音频编码器来实现,通过输入音频数据到音频编码器中,先将音频数据拆分为音频帧,而后得到每一帧音频数据的音频表示,最终形成帧大小的音频向量。在其中一个实施例中,得到每一帧音频数据的音频表示时,具体可以通过预先构建完成的wav2vec2.0来实现音频特征的提取处理,其过程具体可以为,先通过音频编码器的特征编码层提取音频帧的音频编码特征;而后通过音频编码器的转换器层对音频编码特征进行特征转换处理,得到音频特征。通过转换器层来提取音频特征,可以从原来RNN的信息单向传递机制,升级成了自注意力机制的全局注意力机制。让模型的输出不仅仅依赖于历史的信息,而是依赖于全局的信息,从而保证特征提取的准确性。同时转换器中token2token的特性,使得整个预测模型对信息的捕获能力更强,所求特征的表征能力也更强。本实施例中,通过音频编码器中的特征编码层以及转换器层来提取音频特征,可以有效保证特征提取的有效性,而提取的音频特征也能有效保证发音评测的准确性。
在其中一个实施例中,步骤207包括:根据音素特征构建注意力机制的查询向量,根据音频特征构建注意力机制的键向量与值向量;基于音频特征所属音素类别对查询向量、键向量以及值向量进行向量特征融合,得到待评测发音数据中各音素各自的特征融合表示;对各音素各自的特征融合表示进行特征综合处理,得到待评测发音数据的发音评测结果。
其中,本申请的方案具体基于注意力机制来实现音频特征与音素特征的融合,注意力机制是对编码-解码器结构的改进。编码器-解码器模型利用神经网络将输入的编码特征转换成另一种编码特征。注意机力制组件赋予了神经网络在编码数据时对特定特征赋予“注意力”的能力,它有助于解决神经网络中经常发生的梯度消失/爆炸问题。注意力机制的实现具体包括以下步骤:第一步,为编码器中的每个状态分配一个分值:对输入序列进行编码之后,称这部分编码为内部状态,可以为包含“注意力”的状态分配高的分值,为不包含任何相关信息的状态分配低分值,从而达到识别相关编码器状态的目的;第二步,计算注意力的权重:在第一步得出的分值基础上计算出注意力权重;第三步,计算语境向量:语境向量为包含上述步骤中信息的聚合向量;第四步,前馈:将从语境向量中收集到的信息输入到编码器/解码器层中;第五步,解码:解码器利用注意力机制解码信息。而注意力机制背后的思想是将一个查询(query)值和一组键-值(key-value)对映射到一个输出当中。键向量、查询向量和值向量是嵌入向量在不同子空间中的抽象,而输出(本申请为特征融合表示)是权重和值的组合,其中权重是在查询向量和键的点积的基础上,应用归一化指数函数处理获得的。特征综合处理是指通过全连接层等技术,将最终得到的向量形式的特征融合表示再综合一下,得到一个归一化后的数值,从而以数值的形式来对发音准确性进行发音评测。
具体地,可以通过注意力机制来实现对特征向量的融合处理,将音素表示与这些声学特征进行注意力机制计算,进行声学特征和音素表示特征的融合。注意力机制用于建模查询向量、键向量和值向量之间的关系。查询向量为每个音素的深度特征表示,而键向量和值向量则为该音频的深度特征表示,是过滤后的每一帧音频的特征表示。通过注意力机制来将两者进行融合,可以有效地保证所得的特征融合的效果。在得到待评测发音数据中各音素各自的特征融合表示,可以将这些特征融合表示综合起来,来得到待评测发音数据的发音评测结果,如可以通过全连接层将得到的特征融合表示综合起来,得到最终的发音评测结果。本实施例中,通过注意力机制来实现音素特征与音频特征的融合,可以有效地将音频特征与音频特征所属音素类别下的音素特征两者的特征融合,从而有效地基于用户发出的音频数据来对用户进行发音评测,保证评测的准确性。
在其中一个实施例中,基于查询向量、键向量以及值向量进行向量特征融合,得到待评测发音数据中各音素各自的特征融合表示包括:基于查询向量以及键向量进行注意力评分处理,得到关注分数;基于关注分数对值向量进行提纯处理,得到注意力提纯结果;将待评测发音数据中各音素对应的查询向量与查询向量对应的注意力提纯结果进行融合,得到待评测发音数据中各音素各自的特征融合表示。
具体地,在进行注意力机制的融合过程中,首先需要对查询向量以及键向量进行处理,即基于查询向量以及键向量进行注意力评分处理,得到两者之间的关注分数。其计算过程可以参照以下公式:
其中,dk为查询向量与键向量的向量维度。而后,则可以将关注分数与值向量进行加权提纯处理,得到注意力提纯结果,其公式具体为:
Attention(Q,K,V)=AttentionScore(Q,K)*V
在得到注意力提纯结果,则可进一步地实现特征融合,具体基于音频特征所属音素类别对待评测发音数据中各音素对应的查询向量与查询向量对应的注意力提纯结果进行融合,将每个音素单词的表示与该音频中的所有帧的表示进行注意力交互来实现融合,其公式具体为:
其中,表示第i帧的音素表示,同时其携带有上下文特征。Hspeech该帧音频的音频特征。通过上述公式可以得到文本数据中每一个音素所对应的特征融合表示,得到与文本数据对应的特征融合表示组。而后则可以将该特征融合表示组中的所有特征融合向量综合起来,进行特征综合处理,从而得到待评测发音数据的发音评测结果,本实施例中,通过对查询向量、键向量以及值向量的交互处理,可以实现注意力机制下的特征融合,并保证融合效果。
在其中一个实施例中,对各音素各自的特征融合表示进行特征综合处理,得到待评测发音数据的发音评测结果包括:将待评测发音数据中各音素对应的特征融合表示进行平均处理,得到平均特征融合表示;通过全连接层对平均特征融合表示进行特征综合处理,得到待评测发音数据的发音评测结果。
其中,平均处理是指对于多个相同维度特征向量中每个维度的值取平均,得到一个平均向量,从而通过平均向量来代表这些相同维度特征向量。而全连接层是每一个结点都与上一层的所有结点相连结构,其用于把前边提取到的特征综合起来,通过将得到的平均特征融合表示输入到全连接层,再进行归一化的处理,可以得到一个表征发音评测结果的结果分数,即最终的发音评测结果。
具体地,由于在特征融合处理后,文本数据中的每一个音素都存在着与其对应的一个音素融合结果,而为了得到最终的发音评测结果。可以先将不同音素所对应的音素融合结果结合起来,即将待评测发音数据中各音素对应的特征融合表示进行平均处理,得到平均特征融合表示。得到的平均特征融合表示能综合表示文本数据中各个音素与用户所发出音频所融合的综合特征,而平均特征融合表示也是一个向量,为了得到评测分数,还需要对齐进行进一步地处理。此时可以通过全连接层来对其进行处理,将得到平均特征融合表示输入到全连接层中,由全连接层来对这些平均特征融合进行特征综合处理,得到的分数数值即为待评测发音数据的发音评测结果。在其中一个实施例中,得到发音评测结果之后,为了更形象的表达该发音评测结果,可以以星级的方式来向终端102推送最终的发音评测结果。对于100分制的发音评测得分,可以划分出1星至5星五个档位,0-19分为1星,20-39分为2星,40-59分为3星,60-79分为4星,60-79分为4星,80-100分为5星,而后在确定发音评测档位后,直接将得到发音评测档位反馈至终端102,用户可以依照档位确定自身英语发音水平。本实施例中,通过求平均以及全连接层的处理,可以有效地将特征融合表示转化为最终的发音评测结果,从而确定发音评测过程的完备性,同时更形象地对用户的发音能力进行评测与计算。
本申请还提供一种应用场景,该应用场景应用上述的发音评测方法。具体地,该发音评测方法在该应用场景的应用如下:
当用户在进行第二语言的学习时,比如以汉语为母语的用户在学习英语时,为了对其口语发音是否标准进行判定,可以通过本申请的发音评测方法来实现对于英语发音标准度的评测,从而使得用户自身可以确认英语口语发音情况,及时纠正错误或保持学习进度。发音测评的总体流程如图3所示,首先,用户可以在智能终端上选择需要跟读的文本内容,如图4所示,用户选择英语文本“I know the fact,do you know?”作为发音测评的跟读文本后,在文本下方会出现一个“开始跟读”的按钮,当用户点击该按钮后,即可对着智能终端的听筒拼读英语文本,同时“开始跟读”的按钮也会转化成“结束跟读”的按钮,当用户拼读完成后,可以点击“结束跟读”按钮,完成音频数据的录制。而后,当用户点击结束跟读后,“I know the fact,do you know?”这段英语文本以及用户所发出的音频会组合成一个发音评测数据,发送至服务器来进行发音测评,而服务器则是通过自动口语发音评测的相关程序及模块来完成发音评测的任务。服务器中实现发音评测的模型可以参照图5所示,文本数据会输入至模型的音素编码器中,得到音素特征,同时音频数据会输入至模型的音频编码器中,得到音频特征。音素编码器用于编码跟读文本对应的音素序列,音频编码器用于输入语音的波形特征,提取音频的深度特征表示。其中,对于音频特征的提取过程,可以将音频数据拆分为音频帧;通过音频编码器的特征编码层提取音频帧的音频编码特征;通过音频编码器的转换器层对音频编码特征进行特征转换处理,得到音频特征。而后则需要对每帧音频特征都进行分类处理,分类处理具体可以通过CTC模型来实现,可以先基于文本数据所包含的各类音素,确定音频数据包含的音素类别;而后对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征对应的目标类别,同时还可以去除音频特征中的空类别帧,以保证融合准确性。此外,在通过CTC模型实现音频分类之前,还需要完成CTC模型的训练处理,可以先获取第一训练集和第二训练集,第一训练集包括以英语为母语的语言使用者所采集的英语发音数据,第二训练集包括以汉语为母语的语言使用者所采集的英语发音数据;基于第一训练集对初始连接时序分类模型进行参数训练,得到第一音频特征分类模型;基于第二训练集对第一音频特征分类模型进行参数调整,得到第二音频特征分类模型;而后即可基于第二音频特征分类模型对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别。在对音频数据进行分类后,基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果,其中融合过程可以基于注意力机制实现,先根据音素特征构建注意力机制的查询向量,根据音频特征构建注意力机制的键向量与值向量;基于音频特征所属音素类别对查询向量、键向量以及值向量进行向量特征融合,得到待评测发音数据中各音素各自的特征融合表示;将待评测发音数据中各音素对应的特征融合表示进行平均处理,得到平均特征融合表示;通过全连接层对平均特征融合表示进行特征综合处理,得到待评测发音数据的发音评测结果。模型在输入音频特征与音素特征后的处理流程具体可以参照图6所示。在得到发音评测结果为0.8后,如图7所示,可以将发音评测结果以评分星级的方式进行反馈,此处,针对“I knowthe fact,do you know?”这段英语文本,用户的发音评测得分为4星。如图8所示,本申请的方案采用两个测试集来进行测试,一个数据集是汉语为母语的二语者录制的11000条数据,并由三人专家打分,其中1000条被划分为测试集。另一个测试集为公开的发音评测测试集,分为2500条训练集和2500条测试集。基模型为采用传统的GOP特征,输入到传统的打分模型,如梯度提升树模型,或者输入到神经网络构建的打分模型,双向长短期记忆人工神经网络模型,或者最近提出的多粒度模型,以及基于深度特征迁移的模型,和端到端评分模型,将这些方法在两个打分任务上进行效果的对比,指标为皮尔逊相关系数,即人工打分和机器打分的相关度。最终结果如下表所示。从结果可以看到,本申请的方案在不同打分任务中表现较传统方案优势明显。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的发音评测方法的发音评测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个发音评测装置实施例中的具体限定可以参见上文中对于发音评测方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种发音评测装置,包括:
数据获取模块902,用于获取发音评测数据中的音频数据以及文本数据。
特征提取模块904,用于提取音频数据的音频特征,并提取文本数据的音素特征。
音素类别识别模块906,用于基于文本数据所包含的各类音素,确定音频数据包含的音素类别。
音素分类模块908,用于对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别。
发音评测模块910,用于基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果。
在一个实施例中,特征提取模块904具体用于:将音频数据拆分为音频帧;通过音频编码器的特征编码层提取音频帧的音频编码特征;通过音频编码器的转换器层对音频编码特征进行特征转换处理,得到音频特征。
在一个实施例中,音素类别包括空类别和至少一个目标类别,装置还包括音频筛选模块,用于:从音频特征中去除音素类别为空类别的音频特征;音素分类模块906还用于:对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征对应的目标类别。
在一个实施例中,还包括模型训练模块,用于:获取第一训练集和第二训练集,第一训练集包括使用语音类别为母语的语言使用者发音数据,第二训练集包括使用语音类别为非母语的语言使用者发音数据;基于第一训练集对初始连接时序分类模型进行参数训练,得到第一音频特征分类模型;基于第二训练集对第一音频特征分类模型进行参数调整,得到第二音频特征分类模型;对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别;基于第二音频特征分类模型对音频特征进行音素类别相关的前后向预测处理,得到每帧音频特征的音素类别。
在一个实施例中,发音评测模块910具体用于:根据音素特征构建注意力机制的查询向量,根据音频特征构建注意力机制的键向量与值向量;基于音频特征所属音素类别对查询向量、键向量以及值向量进行向量特征融合,得到待评测发音数据中各音素各自的特征融合表示;对各音素各自的特征融合表示进行特征综合处理,得到待评测发音数据的发音评测结果。
在一个实施例中,发音评测模块910还用于:基于查询向量以及键向量进行注意力评分处理,得到关注分数;基于关注分数对值向量进行提纯处理,得到注意力提纯结果;基于音频特征所属音素类别对待评测发音数据中各音素对应的查询向量与查询向量对应的注意力提纯结果进行融合,得到待评测发音数据中各音素各自的特征融合表示。
在一个实施例中,发音评测模块910还用于:将待评测发音数据中各音素对应的特征融合表示进行平均处理,得到平均特征融合表示;通过全连接层对平均特征融合表示进行特征综合处理,得到待评测发音数据的发音评测结果。
上述发音评测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储发音评测相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种发音评测方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种发音评测方法,其特征在于,所述方法包括:
获取发音评测数据中的音频数据以及文本数据;
提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述音频数据的音频特征包括:
将所述音频数据拆分为音频帧;
通过音频编码器的特征编码层提取所述音频帧的音频编码特征;
通过音频编码器的转换器层对所述音频编码特征进行特征转换处理,得到音频特征。
3.根据权利要求1所述的方法,其特征在于,所述音素类别包括空类别和至少一个目标类别,所述基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果之前,还包括:
从所述音频特征中去除音素类别为空类别的音频特征;
所述对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征的音素类别包括:
对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征对应的目标类别。
4.根据权利要求1所述的方法,其特征在于,所述对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别之前,还包括:
获取第一训练集和第二训练集,所述第一训练集包括使用语音类别为母语的语言使用者发音数据,所述第二训练集包括使用语音类别为非母语的语言使用者发音数据;
基于所述第一训练集对初始连接时序分类模型进行参数训练,得到第一音频特征分类模型;
基于所述第二训练集对所述第一音频特征分类模型进行参数调整,得到第二音频特征分类模型;
所述对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征的音素类别;
基于所述第二音频特征分类模型对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征的音素类别。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果包括:
根据所述音素特征构建注意力机制的查询向量,根据所述音频特征构建注意力机制的键向量与值向量;
基于音频特征所属音素类别对所述查询向量、所述键向量以及所述值向量进行向量特征融合,得到待评测发音数据中各音素各自的特征融合表示;
对所述各音素各自的特征融合表示进行特征综合处理,得到所述待评测发音数据的发音评测结果。
6.根据权利要求5所述的方法,其特征在于,所述基于音频特征所属音素类别对所述查询向量、所述键向量以及所述值向量进行向量特征融合,得到待评测发音数据中各音素各自的特征融合表示包括:
基于所述查询向量以及所述键向量进行注意力评分处理,得到关注分数;
基于所述关注分数对所述值向量进行提纯处理,得到注意力提纯结果;
基于音频特征所属音素类别对所述待评测发音数据中各音素对应的查询向量与所述查询向量对应的注意力提纯结果进行融合,得到待评测发音数据中各音素各自的特征融合表示。
7.根据权利要求5所述的方法,其特征在于,所述对所述各音素各自的特征融合表示进行特征综合处理,得到所述待评测发音数据的发音评测结果包括:
将待评测发音数据中各音素对应的特征融合表示进行平均处理,得到平均特征融合表示;
通过全连接层对所述平均特征融合表示进行特征综合处理,得到所述待评测发音数据的发音评测结果。
8.一种发音评测装置,其特征在于,所述装置包括:
数据获取模块,用于获取发音评测数据中的音频数据以及文本数据;
特征提取模块,用于提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
音素类别识别模块,用于基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
音素分类模块,用于对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
发音评测模块,用于基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210967567.0A CN115376547A (zh) | 2022-08-12 | 2022-08-12 | 发音评测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210967567.0A CN115376547A (zh) | 2022-08-12 | 2022-08-12 | 发音评测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115376547A true CN115376547A (zh) | 2022-11-22 |
Family
ID=84065655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210967567.0A Pending CN115376547A (zh) | 2022-08-12 | 2022-08-12 | 发音评测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376547A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798519A (zh) * | 2023-02-10 | 2023-03-14 | 山东山大鸥玛软件股份有限公司 | 一种英语多题型口语发音评估方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090305203A1 (en) * | 2005-09-29 | 2009-12-10 | Machi Okumura | Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program |
WO2020027394A1 (ko) * | 2018-08-02 | 2020-02-06 | 미디어젠 주식회사 | 음소 단위 발음 정확성 평가 장치 및 평가 방법 |
CA3097328A1 (en) * | 2020-05-11 | 2021-01-08 | Neworiental Education & Technology Group Ltd. | Accent detection method and accent detection device, and non-transitory storage medium |
US20210050004A1 (en) * | 2019-08-16 | 2021-02-18 | Soundhound, Inc. | Method and system using phoneme embedding |
US20210151036A1 (en) * | 2019-11-15 | 2021-05-20 | WordDive Oy | Detection of correctness of pronunciation |
CN112951277A (zh) * | 2019-11-26 | 2021-06-11 | 新东方教育科技集团有限公司 | 评测语音的方法和装置 |
CN114863948A (zh) * | 2022-04-28 | 2022-08-05 | 新疆大学 | 基于CTCAttention架构的参考文本相关发音错误检测模型 |
-
2022
- 2022-08-12 CN CN202210967567.0A patent/CN115376547A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090305203A1 (en) * | 2005-09-29 | 2009-12-10 | Machi Okumura | Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program |
WO2020027394A1 (ko) * | 2018-08-02 | 2020-02-06 | 미디어젠 주식회사 | 음소 단위 발음 정확성 평가 장치 및 평가 방법 |
US20210050004A1 (en) * | 2019-08-16 | 2021-02-18 | Soundhound, Inc. | Method and system using phoneme embedding |
US20210151036A1 (en) * | 2019-11-15 | 2021-05-20 | WordDive Oy | Detection of correctness of pronunciation |
CN112951277A (zh) * | 2019-11-26 | 2021-06-11 | 新东方教育科技集团有限公司 | 评测语音的方法和装置 |
CA3097328A1 (en) * | 2020-05-11 | 2021-01-08 | Neworiental Education & Technology Group Ltd. | Accent detection method and accent detection device, and non-transitory storage medium |
CN114863948A (zh) * | 2022-04-28 | 2022-08-05 | 新疆大学 | 基于CTCAttention架构的参考文本相关发音错误检测模型 |
Non-Patent Citations (3)
Title |
---|
BINGHUAI LIN: "attention-based multi-encoder automatic pronunciation assessment", IEEE, 13 May 2021 (2021-05-13) * |
呼媛玲;寇媛媛;: "基于音素的英文发音自动评测系统设计", 自动化与仪器仪表, no. 11, 25 November 2018 (2018-11-25) * |
王振宇等: "基于声学音素向量和孪生网络的二语者发音偏误确认", 中文信息学报, vol. 33, no. 4, 15 April 2019 (2019-04-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798519A (zh) * | 2023-02-10 | 2023-03-14 | 山东山大鸥玛软件股份有限公司 | 一种英语多题型口语发音评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US10347244B2 (en) | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response | |
CN110189749B (zh) | 语音关键词自动识别方法 | |
US11222627B1 (en) | Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
Ferrer et al. | Study of senone-based deep neural network approaches for spoken language recognition | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN110472548B (zh) | 一种基于语法分类器的视频连续手语识别方法及系统 | |
US11450310B2 (en) | Spoken language understanding | |
WO2023093295A1 (zh) | 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
Qian et al. | Spoken language understanding of human-machine conversations for language learning applications | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN115640530A (zh) | 一种基于多任务学习的对话讽刺和情感联合分析方法 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
Alsayadi et al. | Deep investigation of the recent advances in dialectal Arabic speech recognition | |
Hassan et al. | Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Zhao et al. | Tibetan Multi-Dialect Speech and Dialect Identity Recognition. | |
Wang et al. | Design and implementation of an English pronunciation scoring system for pupils based on DNN-HMM | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
Amari et al. | Arabic speech recognition based on a CNN-BLSTM combination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |