CN104575519B

CN104575519B - 特征提取方法、装置及重音检测的方法、装置

Info

Publication number: CN104575519B
Application number: CN201310488434.6A
Authority: CN
Inventors: 刘加; 赵军红; 袁桦; 张卫强; 何亮; 赵峰; 邵颖
Original assignee: SHENZHEN VCYBER TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: Cheyin Intelligent Technology Co ltd; Tsinghua University
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2018-12-25
Anticipated expiration: 2033-10-17
Also published as: CN104575519A

Abstract

本发明公开了一种特征提取方法、装置及重音检测的方法、装置，涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括：依据预设的音素与声学特征发音属性的对应关系，通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量；依据预设的音素与元辅音发音属性的对应关系，通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量；将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。

Description

特征提取方法、装置及重音检测的方法、装置

技术领域

本发明涉及语音检测技术，尤其涉及一种用于重音检测的特征提取方法、装置及重音检测的方法、装置。

背景技术

在英语语言学习中，每个音节发音的准确性将直接影响说话人的英语表达的标准性，其中掌握英语重音发音的准确性是非常重要的一个环节。

目前，英语发音的重音检测方法，是先将语音训练数据以音节为单位提取韵律特征参数，然后依据这些韵律特征参数通过分类器将学习者的语音数据进行分类检测并获得相关重音检测结果，以判断其重音的发音是否准确，其中采用的韵律特征可以包括基频特征参数、段长特征参数、响度特征参数和谱凸显特征参数。

由于现有技术采用的是语音数据中的韵律特征作为检测参数进行分类检测，而在以音节为单位的韵律特征的提取过程中会收到噪音等环境因素的影响，从而造成以韵律特征进行的重音检测方法准确率不高的问题。

发明内容

本发明的实施例提供一种用于重音检测的特征提取方法、装置及重音检测的方法、装置，能够提高英语重音检测的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

一种特征提取方法，包括：

依据预设的音素与声学特征发音属性的对应关系，通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量；

依据预设的音素与元辅音发音属性的对应关系，通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量；

将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。

进一步地，所述依据预设的音素与声学特征发音属性的对应关系，通过第一分类器获取所述声学特征发音属性的第一帧级特征向量，包括：

获取语音训练数据；

依据预设的音素对应的声学特征发音属性关系，将所述语音训练数据的音素进行所述声学特征发音属性的强制对准，所述声学特征发音属性包括元音重读发音属性和元音非重读发音属性；

通过第一神经网络将所述强制对准后的语音训练数据的语音帧进行建立所述声学特征发音属性的模型；

获取语音测试数据；

通过所述声学特征发音属性的模型将所述语音测试数据的语音帧进行检测并输出由所述声学特征发音属性概率组成的第一帧级特征向量。

进一步地，所述依据预设的音素与元辅音发音属性的对应关系，通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量，包括：

依据预设的音素与元辅音发音属性的对应关系，将所述语音训练数据的音素进行所述元辅音发音属性的强制对准，所述元辅音发音属性包括元音重音属性、元音非重音属性、辅音属性；

通过第二神经网络将所述第一发音特征向量进行建立所述元辅音发音属性的模型；

通过所述元辅音发音属性的模型将所述语音测试数据的语音帧进行检测并输出由所述元辅音发音属性概率组成的第二帧级特征向量。

进一步地，所述将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量，包括：

依据所述语音测试数据的音节信息，将所述第一帧级特征向量进行映射所述音节的音节级发音特征向量；或

将所述语音测试数据的所述第二帧级特征向量进行平均；

将平均后的所述第二帧级发音特侦向量的平均值映射为所述元辅音发音属性概率组成的音节级发音特征向量。

进一步地，所述将所述语音测试数据的音节内的所述第二帧级特征向量进行平均，将平均后的所述第二帧级发音特侦向量的平均值映射为所述音节的第二属性概率组成的音节级发音特征向量，包括：

获取所述音节内的音素的时间边界信息；

依据所述音素的时间边界信息，将所述音节分为前辅音部分、元音部分和后辅音部分；

将所述音节内的前辅音部分的第二帧级特征向量进行平均为前辅音平均值；

将所述音节内的元音部分的第二帧级特征向量进行平均为元音平均值；

将所述音节内的后辅音部分的第二帧级特征向量进行平均为后辅音平均值；

将所述前辅音平均值、所述元音平均值和所述后辅音平均值一并映射为所述所述音节的音节级发音特征向量。

另一方面，提供一种重音检测的方法，包括：

接收被检测语音数据；

通过语音识别技术获得所述被检测语音数据的语音识别结果；

依据所述语音识别结果将所述被检测语音数据进行划分音节；

通过依据上述特征提取方法进行获取所述音节划分后的被检测语音数据的音节级发音特征向量；

通过分类器将所述被检测语音数据的音节级发音特征向量进行检测并输出结果。

进一步地，所述通过分类器将所述被检测语音数据的音节级发音特征向量进行检测并输出结果，包括：

获取所述被检测语音数据的韵律特征；

通过第三分类器将所述音节级发音特征向量和所述韵律特征进行检测并输出结果。

进一步地，所述通过第三分类器将所述被检测语音数据的音节级发音特征向量进行检测并输出结果，包括：

通过SVM分类器将所述音节级发音特征向量特征和所述韵律特征进行检测并输出结果。

另一方面，还提供了一种特征提取装置，包括：

声学特征提取模块，用于依据预设的音素与声学特征发音属性的对应关系，通过第一神经网络输出所述声学特征发音属性的第一帧级特征向量；

元辅音发音特征提取模块，用于依据预设的音素与元辅音发音属性的对应关系，通过第二神经网络将所述声学特征提取模块输出的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量；

映射模块，用于将所述元辅音发音特征提取模块输出的第二帧级特征向量进行映射音节级发音特征向量。

再一方面，提供一种重音检测的装置，包括：

接收模块，用于接收被检测语音数据；

处理模块，用于通过语音识别技术获得所述接收模块接收的被检测语音数据的语音识别结果，并依据所述语音识别结果将被检测语音数据进行划分音节；

特征提取模块，用于通过上述特征提取方法进行获取所述处理模块处理的被检测语音数据的音节级发音特征向量；

检测输出模块，用于通过分类器将所述特征提取模块提取的音节级发音特征向量进行检测并输出结果。

本发明实施例提供的特征提取方法、装置及重音检测的方法、装置，利用语音的音素与英语元辅音发音属性的对应，通过分类器进行建立元辅音发音属性的模型，而获取由元辅音发音属性概率组成的帧级发音特征向量，再由该帧级发音特征向量映射音节级发音特征向量，由于英语的重音都是落在元音上，所以通过元辅音发音属性模型的帧级发音特征向量映射获得的音节级发音特征向量，实现了基于元音的相关重音的发音特征的提取过程，该音节级发音特征向量的提取方法具有精细度高、特征准确而且不受环境因素影响的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的特征提取方法流程图；

图2为图1所示的本发明实施例提供的特征提取方法中步骤100的流程图；

图3为图1所示的本发明实施例提供的特征提取方法中步骤200的流程图；

图4为本发明实施例二提供的重音检测的方法流程图一；

图5为本发明实施例二提供的重音检测的方法流程图二；

图6为本发明实施例三提供的特征提取装置结构示意图；

图7为本发明实施例四提供的重音检测的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术以韵律特征进行的英语重音检测方法准确率不高的问题，本发明实施例提供了一种特征提取方法、装置及重音检测方法。

实施例一

如图1所示，本发明实施例提供一种特征提取方法，该方法可以用于重音检测，该方法包括：

步骤100，依据预设的音素与声学特征发音属性的对应关系，通过第一分类器进行输出声学特征发音属性的第一帧级特征向量。

步骤200,依据预设的音素与元辅音发音属性的对应关系，通过第二分类器获取元辅音发音属性的第二帧级特征向量。

步骤300，将声学特征发音属性的第一帧级特征向量或元辅音发音属性的第一帧级特征向量进行映射所述帧级对应的音节级发音特征向量。

本实施例中，第一分类器和第二分类器可以采用神经网络分类器，也可以采用其他分类器，在此不一一赘述。本实施例中均以神经网络分类器为例。

本实施例中，如图2所示，步骤100可以进步一具体包括以下步骤：

步骤101，获取语音训练数据。

步骤102，依据预设的音素与声学特征发音属性的对应关系，将语音训练数据的音素进行声学特征发音属性的强制对准，该声学特征发音属性可以包括元音重读发音属性和元音非重读发音属性。

其中，预设音素与声学特征发音属性的对应关系具体为：

在现有常用的声学特征发音属性与音素对应关系的各发音属性里增加了相应的重读的元音音素：/i:'/,/i'/,/e'/,/ei'/,/'/,/'/,/au'/,/ai'/,/'/,/'/,/i'/,/u'/,/u'/,/u:'/,/:'/,/:'/，共16个重读的元音音素，这样使得重读的元音音素具有了对应的发音属性，形成新的音素与声学特征发音属性的对应关系，进一步，还可以将元音音素划分为重读和非重读两类分别对待，并将这两类作为新的发音属性增加在增加了重读的元音音素的对应关系表中，发音属性名称为重音元音属性(Accented-Vowel)和非重音元音属性（Unaccented-Vowel），组成如表1所示得共23个发音属性的对应关系表，通过增加的两个重音相关的发音属性使后续建立声学特征发音属性的模型更精细，也提高了重音的特征提取的精细度及准确度。

表1

步骤103，通过第一神经网络将强制对准后的语音训练数据的语音帧进行建立声学特征发音属性的模型。

本实施例中，步骤103具体可以为通过第一神经网络将强制对准后的语音训练数据的语音帧进行建立包含是否为声学特征发音属性的输出节点的模型。

本实施例中，步骤103可以进一步分为以下步骤:

将强制对准后的语音训练数据的语音帧以当前帧为中心前后分别扩展为N个帧的语音帧，通过时域分割法将前后N个帧的语音帧的前第1至N帧为第一语音帧向量和第N+N帧为第二语音帧向量，该时域分割法可以为STC-2两段时时域分割法(Split TemporalContext-2)，例如，以当前语音帧为中心前后分别扩展16个帧的语音帧数据片段，则当前语音帧前的第1-16帧为第一语音帧向量，当前语音帧后第16-31帧为第二语音帧向量，然后，将第一语音帧向量和第二语音帧向量分别加窗进行平滑处理，其中，加窗可以为加汗明窗，接着将平滑处理后的第一语音帧向量和第二语音帧向量分别做DCT变换进行降维，再后，通过第一神经网络对降维后的第一语音帧向量和第二语音帧向量分别建立包含是否为声学特征发音属性的输出节点的模型。

步骤104，获取语音测试数据的语音帧；

步骤105通过声学特征发音属性的模型将语音测试数据的语音帧进行检测并输出由声学特征发音属性概率组成的第一帧级特征向量。

本实施例中，步骤105通过步骤103建立的声学特征发音属性模型，将步骤104获取的语音测试数据的语音帧进行发音属性的检测并获得由各发音属性概率组成的第一帧级特征向量，若检测获得的是两组第一帧级特征向量，则将该两组第一帧级特征向量进行拼接，形成拼接后的第一帧级特征向量。

进一步地，本实施例中，上述步骤101至105的基础上，如图3所示，步骤200可以包括：

步骤201，依据预设的音素与元辅音发音属性的对应关系，将语音训练数据的音素进行元辅音发音属性的强制对准。

本实施例中，步骤201中预设的音素与元辅音发音属性的对应关系如表2所示，其中，元辅音发音属性包括元音重音属性、元音非重音属性及辅音属性，其中，元音重音属性包括元音字母I的重音、元音字母E的重音、元音字母A的重音、元音字母O的重音和元音字母U的重音，元音非重音属性包括元音字母I的非重音、元音字母E的非重音、元音字母A的非重音、元音字母O的非重音和元音字母U的非重音，辅音属性可以包括摩擦音、鼻音、塞音和无擦通音。

表2

步骤202，通过第二神经网络将第一帧级特征向量进行建立元辅音发音属性的模型。

本实施例中，步骤202具体为通过第二神经网络将第一帧级特征向量进行建立包含是否为元辅音发音属性的输出节点的模型。

步骤203，通过元辅音发音属性的模型将语音测试数据的语音帧进行检测并输出由元辅音发音属性概率组成的第二帧级特征向量。

进一步地，步骤300可以依据步骤105输出的第一帧级特征向量，步骤300可以为以下步骤：

步骤301，依据语音测试数据的音节信息，将第一帧级特征向量进行映射对应的音节级发音特征向量。或

依据步骤203输出的第二帧级特征向量基础上，步骤300可以包括以下步骤：

步骤301’，将语音测试数据的第二帧级特征向量进行平均；

步骤302，将平均后的所述第二帧级发音特侦向量的平均值映射为所述元辅音发音属性概率组成的音节级发音特征向量。

本实施例中，步骤301’还可以进一步包括以下步骤：

获取音节内的音素的时间边界信息，依据音素的时间边界信息及元音音素，将音节中相应元音音素及该元音音素前后的辅音音素进行划分为三部分：前辅音部分、元音部分和后辅音部分，然后，分别将前辅音部分的第二帧级特征向量进行平均为前辅音平均值，将音节内的元音部分的第二帧级特征向量进行平均为元音平均值，将音节内的后辅音部分的第二帧级特征向量进行平均为后辅音平均值。通过音节的前辅音部分、元音部分和后辅音部分三个部分划分，使得第二帧级特征向量更细化。

本实施例中，当步骤301’将第二帧级特征向量进行平均的结果包括：前辅音平均值、元音平均值和后辅音平均值时，则步骤302为：将前辅音平均值、元音平均值和后辅音平均值共同映射为所在音节的音节级发音特征向量，即音节级发音特征向量由前辅音平均值、元音平均值和后辅音平均值三部分组成。由于通过将音节的前辅音部分、元音部分和后辅音部分三个部分，通过该三个部分对应的第二帧级特征向量平均后映射获得的音节级发音特征向量也包括三个部分，使得音节级发音特征向量更精细准确。

本发明实施例提供的特征提取方法，利用依据元音重读音素与声学特征发音属性的关系，并由帧级映射出音节级发音特征向量，实现了用于重音检测的特征的提取过程，进一步，依据元音重音音素与元辅音发音属性的对应关系，通过第二分类器对应元辅音发音属性的建模，而获取由元辅音发音属性概率组成的帧级发音特征向量，再由帧级发音特征向量映射到音节级发音特征向量，由于英语的重音都是落在元音上，所以通过元辅音发音属性的模型的帧级发音特征向量映射至音节级发音特征向量，实现了基于元音的相关重音的发音特征的提取，该音节级发音特征向量的提取方法具有精细度高而且不受环境因素影响的效果。

实施例二

如图4所示，本发明实施例提供了一种重音检测的方法，该方法包括：

步骤401，接收被检测语音数据。

步骤402，通过语音识别技术获得被检测语音数据的语音识别结果；

步骤403，依据语音识别结果将被检测语音数据进行划分音节；

步骤404，通过重音特征提取方法进行获取音节划分后的被检测语音数据的音节级发音特征向量。

本实施例中，步骤404的重音特征提取方法可以为实施例一提供的提取方法，如图5所示，步骤404还可以包括：

步骤501，获取被检测语音数据的韵律特征。

本实施例中，相应韵律特征的提取方法可以用现有技术中的多种方法，由于本实本发明实施例的改进点，在此不一一赘述。

步骤502，通过第三分类器将音节级发音特征向量和韵律特征进行检测并输出结果。

其中，第三分类器可以为SVM分类器。

本发明实施例提供的重音检测的方法，通过步骤401、402、403和404实现了利用英语元音的相关重音的发音特征作为参数进行重音检测的方法，由于音节级发音特征向量是从帧级发音特征向量映射得来，使得重音检测结果更准确，另外，通过步骤501和502将音节级发音特征和韵律特征的结合作为重音检测的多个参数，从而提高检测过程的精度，进一步提高了重音检测的准确率。

实施例三

如图6所示，本发明实施例提供了一种特征提取装置，该装置可以用于重音检测，该装置包括：

声学特征提取模块901，用于依据预设的音素与声学特征发音属性的对应关系，通过第一神经网络输出声学特征发音属性的第一帧级特征向量。

元辅音发音特征提取模块902，用于依据预设的音素与元辅音发音属性的对应关系，通过第二神经网络将声学特征提取模块904提取的声学特征属性的第一帧级特征向量进行输出元辅音发音属性的第二帧级特征向量；

映射模块903，用于将元辅音发音特征提取模块902获取的第二帧级特征向量进行映射对应的音节级特征向量。

本实施例提供的特征提取装置，通过声学特征提取模块901、元辅音发音特征提取模块902和映射模块903实现了音节级发音特征的提取过程，本实施例是实施例一的方法对应的装置，其功能效果与实施例一类似，在此不一一赘述。

实施例四

如图7所示，本发明实施例提供的重音检测的装置，该装置包括：

接收模块110，用于接收被检测语音数据。

处理模块111，用于通过语音识别技术获得接收模块110接收的被检测语音数据的语音识别结果，并依据语音识别结果将被检测语音数据进行划分音节。

特征提取模块112，用于通过本发明实施例一提供的用于重音检测的特征提取方法进行获取处理模块111处理的被检测语音数据的音节级发音特征向量。

本实施例中，特征提取模块112也可以用于提取被检测语音数据的韵律特征。

检测输出模块113，通过分类器将特征提取模块112提取的音节级发音特征向量和韵律特征进行检测并输出结果。

本实施例中，检测输出模块113中的分类器可以为SVM分类器。

本实施例提供的重音检测的装置，通过接收模块110、处理模块111、特征提取模块112和检测输出模块113实现了以音节级发音特征为检测参数进行重音检测的过程，本实施例是实施例二方法对应的装置，其功能效果与实施例二类似，在此不一一赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种特征提取方法，其特征在于，包括：

2.根据权利要求1所述的特征提取方法，其特征在于，所述依据预设的音素与声学特征发音属性的对应关系，通过第一分类器获取所述声学特征发音属性的第一帧级特征向量，包括：

获取语音训练数据；

获取语音测试数据；

3.根据权利要求2所述的特征提取方法，其特征在于，所述依据预设的音素与元辅音发音属性的对应关系，通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量，包括：

4.根据权利要求3所述的特征提取方法，其特征在于，所述将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量，包括：

将所述语音测试数据的所述第二帧级特征向量进行平均；

5.根据权利要求4所述的特征提取方法，其特征在于，所述将所述语音测试数据的音节内的所述第二帧级特征向量进行平均，将平均后的所述第二帧级发音特侦向量的平均值映射为所述音节的第二属性概率组成的音节级发音特征向量，包括：

获取所述音节内的音素的时间边界信息；

6.一种重音检测的方法，其特征在于，包括：

接收被检测语音数据；

通过如权利要求1-5任意项所述的特征提取方法进行获取所述音节划分后的被检测语音数据的音节级发音特征向量；

7.根据权利要求6所述的方法，其特征在于，所述通过分类器将所述被检测语音数据的音节级发音特征向量进行检测并输出结果，包括：

获取所述被检测语音数据的韵律特征；

8.根据权利要求7所述的方法，其特征在于，所述通过第三分类器将所述被检测语音数据的音节级发音特征向量进行检测并输出结果，包括：

9.一种特征提取装置，其特征在于，包括：

10.一种重音检测的装置，其特征在于，包括：

接收模块，用于接收被检测语音数据；

特征提取模块，用于通过如权利要求1-5任意项所述的特征提取方法进行获取所述处理模块处理的被检测语音数据的音节级发音特征向量；