CN111292763A - 重音检测方法及装置、非瞬时性存储介质 - Google Patents

重音检测方法及装置、非瞬时性存储介质 Download PDF

Info

Publication number
CN111292763A
CN111292763A CN202010389701.4A CN202010389701A CN111292763A CN 111292763 A CN111292763 A CN 111292763A CN 202010389701 A CN202010389701 A CN 202010389701A CN 111292763 A CN111292763 A CN 111292763A
Authority
CN
China
Prior art keywords
audio data
word
matrix
prosodic
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010389701.4A
Other languages
English (en)
Other versions
CN111292763B (zh
Inventor
高兴龙
李悦
瞿炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Oriental Education Technology Group Co Ltd
Original Assignee
New Oriental Education Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Oriental Education Technology Group Co Ltd filed Critical New Oriental Education Technology Group Co Ltd
Priority to CN202010389701.4A priority Critical patent/CN111292763B/zh
Publication of CN111292763A publication Critical patent/CN111292763A/zh
Priority to US17/050,034 priority patent/US11158302B1/en
Priority to PCT/CN2020/105161 priority patent/WO2021227259A1/zh
Priority to CA3097328A priority patent/CA3097328C/en
Priority to GB2204835.9A priority patent/GB2603381B/en
Application granted granted Critical
Publication of CN111292763B publication Critical patent/CN111292763B/zh
Priority to JP2020168966A priority patent/JP7097416B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

一种重音检测方法、重音检测装置以及非瞬时性存储介质。该重音检测方法包括:获取单词的音频数据;提取音频数据的韵律特征,以得到韵律特征向量;基于音频数据生成语谱图,以得到语谱特征矩阵;对韵律特征向量和语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及通过分类器对第二特征矩阵进行处理,以得到音频数据的重音检测结果。该重音检测方法通过结合韵律特征和语谱特征进行重音检测,可以提升重音检测结果的准确性;同时,去冗余操作可以提升该重音检测方法的重音检测速度和效率。

Description

重音检测方法及装置、非瞬时性存储介质
技术领域
本公开的实施例涉及一种重音检测方法、重音检测装置以及非瞬时性存储介质。
背景技术
在英语口语学习中,每个音节发音的准确性将直接影响说话人的英语表达的标准性,其中,掌握英语重音发音的准确性是非常重要的一个环节。判断一个单词的发音是否准确无误,不仅取决于音节的发音,也取决于重音位置。重音位置的准确与否会影响单词的词义和词性,故重音检测也应作为评价单词发音质量的指标之一。综上所述,单词重音检测是口语评测工作中不可或缺的一环。重音检测的反馈有利于指导英语学习者提高口语能力,帮助英语学习者学习到正确的英语发音。
发明内容
本公开至少一个实施例提供一种重音检测方法,包括:获取单词的音频数据;提取所述音频数据的韵律特征,以得到韵律特征向量;基于所述音频数据生成语谱图,以得到语谱特征矩阵;对所述韵律特征向量和所述语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对所述第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及通过分类器对所述第二特征矩阵进行分类处理,以得到所述音频数据的重音检测结果。
例如,在本公开一些实施例提供的重音检测方法中,对所述韵律特征向量和所述语谱特征矩阵进行所述拼接操作,以得到所述第一特征矩阵,包括:分别对所述韵律特征向量和所述语谱特征矩阵进行均值方差归一化处理,以分别得到均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵;以及对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行拼接操作,以得到所述第一特征矩阵。
例如,在本公开一些实施例提供的重音检测方法中,所述均值方差归一化的语谱特征矩阵包括多个频率特征向量,对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行拼接操作,以得到所述第一特征矩阵,包括:对所述均值方差归一化的韵律特征向量进行维度变换操作,以得到第一特征向量,其中,所述第一特征向量的维度与所述均值方差归一化的语谱特征矩阵中的任一频率特征向量的维度相同;以及将所述第一特征向量与所述均值方差归一化的语谱特征矩阵进行拼接,以得到所述第一特征矩阵,其中,所述第一特征矩阵包括所述第一特征向量和所述均值方差归一化的语谱特征矩阵中的全部频率特征向量。
例如,在本公开一些实施例提供的重音检测方法中,对所述第一特征矩阵进行所述去冗余操作,以得到所述第二特征矩阵,包括:计算所述第一特征矩阵中的所述第一特征向量与所述第一特征矩阵中的各个频率特征向量的各个余弦相似度;以及响应于所述各个余弦相似度中的任一余弦相似度大于第一预设值,将所述任一余弦相似度对应的所述第一特征矩阵中的频率特征向量设置为全零向量或者将所述任一余弦相似度对应的所述第一特征矩阵中的频率特征向量从所述第一特征矩阵中删除,以得到所述第二特征矩阵。
例如,在本公开一些实施例提供的重音检测方法中,对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行所述拼接操作,以得到所述第一特征矩阵,包括:将所述均值方差归一化的韵律特征向量分别与所述均值方差归一化的语谱特征矩阵中的每个频率特征向量进行拼接,以得到所述第一特征矩阵。
例如,在本公开一些实施例提供的重音检测方法中,对所述第一特征矩阵进行所述去冗余操作,以得到所述第二特征矩阵,包括:获取第一权重矩阵;使用所述第一权重矩阵对所述第一特征矩阵进行处理,以得到降维矩阵,其中,所述降维矩阵的维度小于所述第一特征矩阵的维度;对所述降维矩阵进行维度变换操作,以得到第一中间特征矩阵,其中,所述第一中间特征矩阵的维度与所述第一特征矩阵的维度相同;将所述第一中间特征矩阵中的各个元素转换到预设区间,以得到第二中间特征矩阵;以及响应于所述第二中间特征矩阵中的任一元素小于第二预设值,将所述第二中间特征矩阵中的所述任一元素设置为零,以得到所述第二特征矩阵。
例如,本公开一些实施例提供的重音检测方法,还包括:对待训练的第一权重矩阵进行预训练,以得到所述第一权重矩阵;其中,对所述待训练的第一权重矩阵进行预训练,包括:获取样本单词的样本音频数据;基于所述样本音频数据,得到所述样本音频数据对应的第一特征矩阵;使用所述待训练的第一权重矩阵对所述样本音频数据对应的第一特征矩阵进行处理,以得到所述样本音频数据对应的降维矩阵;使用待训练的第二权重矩阵对所述样本音频数据对应的降维矩阵进行处理,以得到所述样本音频数据对应的第三特征矩阵,其中,所述样本音频数据对应的第三特征矩阵的维度与所述样本音频数据对应的第一特征矩阵的维度相同;基于所述样本音频数据对应的第三特征矩阵和所述样本音频数据对应的第一特征矩阵,通过损失函数计算损失值;以及根据所述损失值对所述待训练的第二权重矩阵和所述待训练的第一权重矩阵分别进行修正。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:确定所述单词对应的单词时长高斯混合模型;以及基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的单词时长似然度;其中,所述韵律特征向量的元素包括所述音频数据对应的所述单词时长似然度。
例如,在本公开一些实施例提供的重音检测方法中,构建所述单词时长高斯混合模型,包括:获取样本单词的样本音频数据;基于所述样本音频数据,得到所述样本音频数据对应的单词时长;计算所述样本单词的音素加权和,并根据所述样本单词的音素加权和,确定所述样本单词的类别;以及针对每种类别中的各样本单词的样本音频数据对应的单词时长,构建所述每种类别对应的单词时长高斯混合模型。
例如,在本公开一些实施例提供的重音检测方法中,确定所述单词对应的单词时长高斯混合模型,包括:基于所述音频数据,得到所述音频数据对应的单词时长;计算所述单词的音素加权和,并根据所述单词的音素加权和,确定所述单词的类别;以及根据所述单词的类别,确定所述单词对应的单词时长高斯混合模型;基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的所述单词时长似然度,包括:基于所述音频数据对应的单词时长,通过所述单词对应的单词时长高斯混合模型计算所述音频数据对应的第一概率密度值;以及基于所述音频数据对应的所述第一概率密度值,得到所述音频数据对应的所述单词时长似然度。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:确定所述单词对应的重音时长伽马混合模型;基于所述单词对应的所述重音时长伽马混合模型,提取所述音频数据对应的重音音节时长似然度;其中,所述韵律特征向量的元素包括所述音频数据对应的所述重音音节时长似然度。
例如,在本公开一些实施例提供的重音检测方法中,构建所述重音时长伽马混合模型,包括:获取样本单词的样本音频数据;基于所述样本音频数据,得到所述样本音频数据对应的单词时长和所述样本单词中的各个音素的音素时长,并基于得到的所述样本音频数据对应的单词时长和所述样本单词中的各个音素的音素时长,确定所述各个音素的归一化音素时长;对所有的所述归一化音素时长进行聚类,以得到至少一个音素组;将所述至少一个音素组作为问题集,对每种音素进行决策树聚类,以得到所述每种音素对应的聚类状态;以及针对所述每种音素对应的聚类状态,构建所述每种音素对应的重音时长伽马混合模型。
例如,在本公开一些实施例提供的重音检测方法中,确定所述单词对应的重音时长伽马混合模型,包括:基于所述音频数据,得到所述音频数据对应的单词时长和所述单词中的重音音节中的元音音素的音素时长,并基于得到的所述音频数据对应的所述单词时长和所述单词中的所述重音音节中的所述元音音素的音素时长,确定所述单词中的所述重音音节中的所述元音音素的归一化音素时长;以及根据所述单词中的所述重音音节中的所述元音音素,确定所述单词对应的所述重音时长伽马混合模型;基于所述单词对应的所述重音时长伽马混合模型,提取所述音频数据对应的所述重音音节时长似然度,包括:基于所述归一化音素时长,通过所述重音时长伽马混合模型计算所述音频数据对应的第二概率密度值;以及基于所述音频数据对应的第二概率密度值,得到所述音频数据对应的所述重音音节时长似然度。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的单词时长似然度;基于所述单词对应的重音时长伽马混合模型,提取所述音频数据对应的重音音节时长似然度;以及基于所述音频数据对应的所述单词时长似然度和所述音频数据对应的所述重音音节时长似然度,得到所述音频数据对应的重音音节与单词时长似然度比值;其中,所述韵律特征向量的元素包括所述音频数据对应的所述重音音节与单词时长似然度比值。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:提取所述音频数据对应的单词基频斜率;其中,所述韵律特征向量的元素包括所述音频数据对应的所述单词基频斜率。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:基于所述音频数据,确定所述单词中的重音音节对应的音频段;以及对所述单词中的所述重音音节对应的所述音频段依次进行分帧、频域变换和巴克域变换,并在预定的巴克域频带范围内提取所述音频数据对应的重音音节短时能量方差;其中,所述韵律特征向量的元素包括所述音频数据对应的所述重音音节短时能量方差。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:将所述音频数据按照所述单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组;计算所述重读音频组的平均基频值和所述非重读基频组的平均基频值;以及基于所述重读音频组的所述平均基频值和所述非重读基频组的所述平均基频值,得到所述音频数据对应的重读音频组与非重读音频组的平均基频比值;其中,所述韵律特征向量的元素包括所述音频数据对应的所述重读音频组与非重读音频组的平均基频比值。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:将所述音频数据按照所述单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组;计算所述重读音频组的平均能量值和所述非重读基频组的平均能量值;以及基于所述重读音频组的所述平均能量值和所述非重读基频组的所述平均能量值,得到所述音频数据对应的重读音频组与非重读音频组的平均能量比值;其中,所述韵律特征向量的元素包括所述音频数据对应的所述重读音频组与非重读音频组的平均能量比值。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:基于所述音频数据,确定所述单词中的重音音节对应的音频段;对所述单词中的所述重音音节对应的音频段依次进行分帧、频域变换和巴克域变换,并对预定的巴克域频带范围内的信号进行时域变换,以得到中间波形;以及对所述中间波形进行经验模态分解,以得到所述音频数据对应的至少一个模态分量;其中,所述韵律特征向量的元素包括所述音频数据对应的所述至少一个模态分量。
例如,在本公开一些实施例提供的重音检测方法中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:提取所述音频数据对应的单词时长、单词能量和单词基频组成的群组中的至少一个;其中,所述韵律特征向量的元素包括所述单词时长、所述单词能量和所述单词基频组成的群组中的至少一个。
例如,在本公开一些实施例提供的重音检测方法中,基于所述音频数据生成所述语谱图,以得到所述语谱特征矩阵,包括:基于所述单词和所述音频数据,确定所述单词对应的所述音频数据中的发音段;对所述音频数据中的发音段依次进行分帧、频域变换和巴克域变换,以得到所述语谱图;基于所述语谱图,在预定的巴克域频带范围内提取原始语谱特征矩阵;以及对所述原始语谱特征矩阵进行维度变换操作,以得到所述语谱特征矩阵。
例如,在本公开一些实施例提供的重音检测方法中,所述分类器包括卷积神经网络。
本公开至少一个实施例还提供一种重音检测装置,包括:获取单元,被配置为获取单词的音频数据;韵律特征提取单元,被配置为提取所述音频数据的韵律特征,以得到韵律特征向量;语谱矩阵提取单元,被配置为基于所述音频数据生成语谱图,以得到语谱特征矩阵;矩阵运算单元,被配置为对所述韵律特征向量和所述语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对所述第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及分类单元,被配置为对所述第二特征矩阵进行分类处理,以得到所述音频数据的重音检测结果。
本公开至少一个实施例还提供一种重音检测装置,包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行本公开任一实施例提供的重音检测方法。
本公开至少一个实施例还提供一种非瞬时性存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,能够执行本公开任一实施例提供的重音检测方法的指令。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一实施例提供的一种重音检测方法的流程图;
图2为本公开至少一实施例提供的一种预先构建单词时长高斯混合模型的流程图;
图3为本公开至少一实施例提供的一种提取音频数据对应的单词时长似然度的流程图;
图4为本公开至少一实施例提供的一种预先构建重音时长伽马混合模型的流程图;
图5为本公开至少一实施例提供的一种单词音频分段的示意图;
图6为本公开至少一实施例提供的一种提取音频数据对应的重音音节时长似然度的流程图;
图7为本公开至少一实施例提供的一种提取语谱特征矩阵的流程图;
图8为本公开至少一实施例提供的一种对第一权重矩阵进行预训练的流程图;
图9为本公开至少一实施例提供的一种重音检测装置的示意性框图;
图10为本公开至少一实施例提供的另一种重音检测装置的示意性框图;以及
图11为本公开至少一实施例提供的一种存储介质的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时,该部件在每个附图中由相同或类似的参考标号表示。
当前,英语发音的重音检测方法包括:首先将学习者的语音数据以音节为单位提取韵律特征参数,然后依据这些韵律特征参数通过分类器将学习者的语音数据进行分类检测并获得相关重音检测结果,以判断学习者的重音的发音是否准确,其中,韵律特征通常包括重音音节的时长、重音音节的能量、重音音节的基频、梅尔倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC)、一阶二阶梅尔倒谱系数等。然而,一方面,重音音节的时长、重音音节的能量、重音音节的基频等特征主要关注点在于重音音节段,而实际单词重读时,整个单词段的特征都会发生变化,这些特征的计算缺乏整体性,因此区分性受到了较大影响,在混响、背景噪声较大的情况下效果明显下降;另一方面,梅尔倒谱系数(MFCC),一阶二阶梅尔倒谱系数等非线性语音特征的计算相对复杂,其与音节重读的相关性不强,对于分类检测结果的提升十分有限。
本公开至少一实施例提供一种重音检测方法。该重音检测方法包括:获取单词的音频数据;提取所述音频数据的韵律特征,以得到韵律特征向量;基于所述音频数据生成语谱图,以得到语谱特征矩阵;对所述韵律特征向量和所述语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对所述第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及通过分类器对所述第二特征矩阵进行处理,以得到所述音频数据的重音检测结果。
本公开的一些实施例还提供对应于上述重音检测方法的重音检测装置以及非瞬时性存储介质。
本公开的实施例提供的重音检测方法,通过结合韵律特征和语谱特征进行重音检测,可以提升重音检测结果的准确性;同时,去冗余操作可以提升重音检测方法的重音检测速度和效率。
需要说明的是,在本公开的实施例中,“发音段”表示音频数据中单词对应的音频的时间长度,“音频段”表示音节对应的音频的时间长度(音节时长)或者音素对应的音频的时间长度(音素时长)。
下面结合附图对本公开的一些实施例及其示例进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1为本公开至少一实施例提供的一种重音检测方法的流程图。例如,如图1所示,该重音检测包括步骤S100至步骤S500。
步骤S100:获取单词的音频数据。
例如,在步骤S100中,该音频数据可以包括通过客户端的音频采集设备采集的语音,还可以包括通过机械的、电子等方法合成的语音,本公开的实施例对此不作限制。例如,客户端包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(Personal DigitalAssistant,PDA)、可穿戴设备、头戴显示设备等,例如,音频采集设备包括但不限于客户端内置或外接的麦克风。例如,音频数据可以是预先录制的,也可以是实时录制的,本公开的实施例对此不作限制。
例如,在一些实施例中,该单词的正确读音是已知的,即该单词包括的元音音素和辅音音素的种类和数量、重音位置等是已知的。
例如,单词可以为外文单词,例如,英文单词等。但本公开不限于此,单词也可以为中文单词。
步骤S200:提取音频数据的韵律特征,以得到韵律特征向量。
例如,在步骤S200中,可以提取步骤S100中获取的音频数据的一个或多个韵律特征,并基于该一个或多个韵律特征形成韵律特征向量(例如,包括一维向量或多维向量)。例如,上述韵律特征向量可以表示为列向量,本公开的实施例包括但不限于此。
例如,在一些实施例中,上述韵律特征包括单词时长似然度,也即上述韵律特征向量的元素包括音频数据对应的单词时长似然度。提取音频数据的韵律特征可以包括:确定单词对应的单词时长高斯混合模型;基于单词对应的单词时长高斯混合模型(GaussianMixed Model,GMM),提取音频数据对应的单词时长似然度。
例如,上述单词时长高斯混合模型可以是预先构建的。图2为本公开至少一实施例提供的一种构建单词时长高斯混合模型的流程图。例如,在一些实施例中,如图2所示,构建上述单词时长高斯混合模型可以包括步骤S201至步骤S204。
步骤S201:获取样本单词的样本音频数据。
例如,在步骤S201中,样本音频数据的获取方式可以与前述步骤S100中的音频数据的获取方式类似,在此不再赘述。
例如,与前述步骤S100中的单词类似,该样本单词的正确读音是已知的,即该样本单词包括的元音音素和辅音音素的种类和数量、重音位置等是已知的。
应当理解的是,样本单词不仅可以用于上述单词时长高斯混合模型的预先构建,还可以用于后续的重音时长伽马混合模型的预先构建以及第一权重矩阵的预训练等,本公开的实施例对此不作限制。还应当理解的是,在本公开的实施例中,通常可以包括多个样本单词,以实现相应的数学建模过程(例如,高斯混合模型的预先构建、重音时长伽马混合模型的预先构建)和/或训练过程(例如,第一权重矩阵的预训练)等。
步骤S202:基于样本音频数据,得到样本音频数据对应的单词时长。
例如,在步骤S202中,可以利用预定的声学模型(acoustic model)将样本音频数据与样本单词进行强制对齐(force alignment),由此确定样本单词对应的样本音频数据中的发音段,并将该发音段的时间长度作为样本音频数据对应的单词时长。
例如,一般地,声学模型是通过大量的英语发音人的录音训练而成的,利用声学模型可以计算输入语音对应于已知文本的可能性,进而能够将输入语音与已知文本进行强制对齐。这里,“输入语音”可以是上述音频数据或者上述样本音频数据,而“已知文本”可以是上述单词或者上述样本单词。例如,声学模型的相关技术以及强制对齐的相关技术均可以参考语音识别领域的相关技术,在此不再赘述。
还需要说明的是,利用预定的声学模型将输入语音与已知文本进行强制对齐,还可以确定已知文本中的每个音节(例如重音音节、非重音音节)与输入语音的部分语音(比如某个语音段)之间的对应关系以及已知文本中的每个音节的每个音素(例如元音音素、辅音音素)与输入语音的部分语音(比如某个语音段)之间的对应关系。
步骤S203:计算样本单词的音素加权和,并根据样本单词的音素加权和,确定样本单词的类别。
例如,步骤S203中,可以将元音音素的权重设置为a,辅音音素的权重设置为1 –a,从而可以根据下述公式(1)计算样本单词的音素加权和:
Wsum = Ceil(a*N1+(1-a)*N2) (1),
其中,Wsum表示样本单词的音素加权和,N1表示样本单词中的元音音素的数量,N2表示样本单词中的辅音音素的数量,Ceil(·)表示向上取整函数。
例如,元音音素的权重a的取值范围可以根据需要进行设置。例如,在一些实施例中,元音音素的权重a的取值范围可以设置为[0.6, 0.8],本公开的实施例包括但不限于此。
例如,在步骤S203中,可以根据多个样本单词各自的音素加权和的取值,将多个样本单词划分成一个或多个类别。例如,假设样本单词的音素加权和的取值的集合为{Wsum_1, Wsum_2, …, Wsum_M},则可以将多个样本单词划分成m个类别,其中,1≤m≤M。应当理解的是,在m<M的情况下,某一类别通常可以对应一种或多种音素加权和的取值。例如,在一些示例中,假设m = M–2,在此情况下,Wsum_1和Wsum_2可以对应同一类别C1,Wsum_3至Wsum_(M–2) 可以各自分别对应一种类别(C2至C(M–3)),而Wsum_(M–1)和Wsum_M可以对应同一类别C(M–2),需要说明的是,上述类别的划分是示例性的,本公开的实施例对此不作限制。例如,在一些实施例中,m的取值范围可以设置为[1, 8],为本公开的实施例包括但不限于此。
步骤S204:针对每种类别中的各样本单词的样本音频数据对应的单词时长,构建每种类别对应的单词时长高斯混合模型。
例如,在一些实施例中,可以采用期望最大(Expectation Maximization,简称EM)算法或者其他常用算法等求解每种类别对应的单词时长高斯混合模型(即求解或估算模型的参数)。例如,某种类别对应的单词时长高斯混合模型可以表示为:
Figure 401623DEST_PATH_IMAGE001
(2),
其中,p(x)表示单词时长高斯混合模型的概率密度函数,
Figure 446327DEST_PATH_IMAGE002
表示均值为
Figure 226064DEST_PATH_IMAGE003
、 方差为
Figure 745907DEST_PATH_IMAGE004
的单一高斯分布模型,
Figure 560279DEST_PATH_IMAGE005
Figure 382742DEST_PATH_IMAGE002
的权重系数,
Figure 774409DEST_PATH_IMAGE006
Figure 973309DEST_PATH_IMAGE007
,C表示单 一高斯分布模型的个数。
图3为本公开至少一实施例提供的一种提取音频数据对应的单词时长似然度的流程图。例如,在一些实施例中,如图3所示,确定单词对应的单词时长高斯混合模型可以包括步骤S205至步骤S207。
步骤S205:基于音频数据,得到音频数据对应的单词时长。
例如,在步骤S205中,可以利用前述预定的声学模型将音频数据与单词进行强制对齐,由此确定单词对应的音频数据中的发音段,并将该发音段的时间长度作为音频数据对应的单词时长。
步骤S206:计算单词的音素加权和,并根据单词的音素加权和,确定单词的类别。
步骤S207:根据单词的类别,确定与单词对应的单词时长高斯混合模型。
例如,步骤S206的具体实现方式和过程可以参考前述步骤S203的相关描述。例如,可以根据前述公式(1)计算单词的音素加权和,从而,可以根据单词的音素加权和确定单词的类别。
例如,如图3所示,基于单词对应的单词时长高斯混合模型,提取音频数据对应的单词时长似然度可以包括步骤S208至步骤S209。
步骤S208:基于音频数据对应的单词时长,通过单词对应的单词时长高斯混合模型计算音频数据对应的第一概率密度值。
例如,在步骤S208中,可以将音频数据对应的单词时长(由步骤S205得到)代入单词的类别(由步骤S206得到)对应的单词时长高斯混合模型(参考前述公式(2)),以得到音频数据对应的第一概率密度值,即p(x)表示音频数据对应的第一概率密度值。
步骤S209:基于音频数据对应的第一概率密度值,得到音频数据对应的单词时长似然度。
例如,在步骤S209中,可以根据下述公式(3)计算音频数据对应的单词时长似然度:
F1 = arctan(log(p(x))) (3),
其中,F1表示单词时长似然度,log(·)表示以10为底数的对数函数,arctan(·)表示反正切函数。
例如,在一些实施例中,可以直接将单词时长似然度F1作为韵律特征向量的元素;例如,在另一些实施例中,可以对单词时长似然度F1进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括重音音节时长似然度,也即上述韵律特征向量的元素还包括音频数据对应的重音音节时长似然度。提取音频数据的韵律特征可以包括:确定单词对应的重音时长伽马混合模型;基于重音时长伽马(Gamma)混合模型,提取音频数据对应的重音音节时长似然度。
图4为本公开至少一实施例提供的一种预先构建重音时长伽马混合模型的流程图。例如,在一些实施例中,如图4所示,上述重音时长伽马混合模型的预先构建,可以包括步骤S211至步骤S214。
步骤S211:获取样本单词的样本音频数据。
例如,步骤S211的具体实现方式和过程可以参考前述步骤S201的相关描述,在此不再重复赘述。
步骤S212:基于样本音频数据,得到样本音频数据对应的单词时长和样本单词中的各个音素的音素时长,并基于得到的样本音频数据对应的单词时长和样本单词中的各个音素的音素时长,确定各个音素的归一化音素时长。
例如,在步骤S212中,基于样本音频数据得到样本音频数据对应的单词时长的具体实现方式和过程可以参考前述步骤S202的相关描述,在此不再重复赘述。
例如,在一些实施例中,可以利用预定的声学模型(acoustic model)将样本音频数据与样本单词进行强制对齐(force alignment),由此确定样本单词中的每个音素与样本音频数据的部分音频数据(比如某个音频段)之间的对应关系,并将每个音素对应的部分音频数据的时间长度作为该每个音素的音素时长。
图5为本公开至少一实施例提供的一种单词音频分段的示意图。图5以单词“congratulations”为例,通过强制对齐操作对单词“congratulations”对应的音频数据进行分段,从而可以确定单词“congratulations”对应的单词时长、单词“congratulations”中的每个音节对应的音节时长以及单词“congratulations”中的每个音素对应的音素时长。
例如,在一些实施例中,可以根据下述公式(4)计算样本单词中的每个音素的归一化音素时长:
ti = Ti/Tw (4),
其中,ti表示样本单词中的任一音素的归一化音素时长,Ti表示样本单词中的该任一音素的音素时长,Tw表示样本单词的单词时长。
步骤S213:对所有的归一化音素时长进行聚类,以得到至少一个音素组。
例如,在一些实施例中,可以采用K均值(K-Means)聚类算法或者其他常用的聚类算法等对所有的归一化音素时长进行聚类,以得到至少一个因素组。例如,在实际应用中,上述至少一个因素组通常包括多个音素组,每个音素组包括至少一个音素。
步骤S214:将至少一个音素组作为问题集,对每种音素进行决策树聚类,以得到每种音素对应的聚类状态。
例如,在一些实施例中,可以对样本单词所属的语言(例如,英语、德语、汉语等)中的全部种类的音素中的每一种分别进行决策树聚类,从而得到每种音素对应的聚类状态。
例如,在一些实施例中,步骤S214中的决策树聚类可以包括以下步骤:针对每种音素,建立一颗树,并将该音素对应的所有归一化音素时长数据放在根节点,将步骤S213得到的因素组作为问题集,轮训问题集,若某一个问题能够使该音素的根节点处的归一化音素时长数据集获得最佳二分类,则将其数据集分成2类;递归进行上述过程,一直到叶子节点个数满足事先设定的门限值则停止分裂,完成决策树聚类,并将叶子节点作为聚类状态。
需要说明的是,上述决策树聚类的步骤是示意性的,本领域技术人员可以根据实际需要选择合适的方法和步骤以实现步骤S214中的决策树聚类。
步骤S215:针对每种音素对应的聚类状态,构建每种音素对应的重音时长伽马混合模型。
例如,在一些实施例中,可以采用EM算法或者其他常用算法等求解每种类别对应的重音时长伽马混合模型(即求解或估算模型的参数)。例如,某种音素对应的重音时长伽马混合模型可以表示为:
Figure 642188DEST_PATH_IMAGE008
(5),
其中,f(t)表示重音时长伽马混合模型的概率密度函数,
Figure 635552DEST_PATH_IMAGE009
表示均值为
Figure 389881DEST_PATH_IMAGE010
、方差为
Figure 251527DEST_PATH_IMAGE011
的单一伽马分布模型,
Figure 774912DEST_PATH_IMAGE012
Figure 204756DEST_PATH_IMAGE009
的权重系数,
Figure 446382DEST_PATH_IMAGE013
Figure 721505DEST_PATH_IMAGE014
,S表示单一伽马分布模型的个数。单一伽马分布模型
Figure 492540DEST_PATH_IMAGE009
可以表示 为:
Figure 827706DEST_PATH_IMAGE015
(6),
其中,
Figure 556628DEST_PATH_IMAGE016
表示伽马函数。
图6为本公开至少一实施例提供的一种提取音频数据对应的重音音节时长似然度的流程图。例如,在一些实施例中,如图6所示,确定单词对应的重音时长伽马混合模型,可以包括步骤S216至步骤S217。
步骤S216:基于音频数据,得到音频数据对应的单词时长和单词中的重音音节中的元音音素的音素时长,并基于得到的音频数据对应的单词时长和单词中的重音音节中的元音音素的音素时长,确定单词中的重音音节中的元音音素的归一化音素时长。
例如,步骤S216的具体实现方式和过程可以参考前述步骤S212的相关描述,在此不再重复赘述。应当理解的是,由于单词是已知的,通过强制对齐操作可以确定单词中的重音音节对应的部分音频数据(比如某个音频段),还可以确定单词中的重音音节中的元音音素对应的部分音频数据,从而可以将单词中的重音音节中的元音音素对应的部分音频数据的时间长度作为单词中的重音音节中的元音音素的音素时长。
步骤S217:根据单词中的重音音节中的元音音素,确定单词对应的重音时长伽马混合模型。
例如,基于与单词对应的所述重音时长伽马混合模型,提取音频数据对应的重音音节时长似然度,包括步骤S218-S219。
步骤S218:基于单词中的重音音节中的元音音素的归一化音素时长,通过单词中的重音音节中的元音音素对应的重音时长伽马混合模型计算音频数据对应的第二概率密度值。
例如,在步骤S218中,可以将单词中的重音音节中的元音音素的归一化音素时长(由步骤S216得到)代入单词中的重音音节中的元音音素(由步骤S216得到)对应的重音时长伽马混合模型(参考前述公式(5)),以得到音频数据对应的第二概率密度值,即f(t)表示音频数据对应的第二概率密度值。
步骤S219:基于音频数据对应的第二概率密度值,得到音频数据对应的重音音节时长似然度。
例如,在步骤S219中,可以根据下述公式(7)计算音频数据对应的重音音节时长似然度。
F2 = arctan(log(f(t))) (7),
其中,F2表示重音音节时长似然度,log(·)表示以10为底数的对数函数,arctan(·)表示反正切函数。
例如,在一些实施例中,可以直接将重音音节时长似然度F2作为韵律特征向量的元素;例如,在另一些实施例中,可以对重音音节时长似然度F2进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括重音音节与单词时长似然度比值,也即上述韵律特征向量的元素还包括重音音节与单词时长似然度比值。在提取得到上述单词时长似然度和重音音节时长似然度的基础上,提取音频数据的韵律特征还可以包括:基于音频数据对应的单词时长似然度和音频数据对应的重音音节时长似然度,得到音频数据对应的重音音节与单词时长似然度比值。
例如,在一些示例中,可以根据下述公式(8)计算音频数据对应的重音音节与单词时长似然度比值。
F3 = F2/F1 (8),
其中,F3表示重音音节与单词时长似然度比值。
例如,在一些实施例中,可以直接将重音音节与单词时长似然度比值F3作为韵律特征向量的元素;例如,在另一些实施例中,可以对重音音节与单词时长似然度比值F3进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括单词基频斜率,也即上述韵律特征向量的元素还包括单词基频斜率。提取音频数据的韵律特征可以包括:提取音频数据对应的单词基频斜率。
例如,在一些实施例中,提取音频数据对应的单词基频斜率可以包括以下步骤:对音频数据进行分帧;采用自相关算法或者倒谱法或者其他常用算法等计算每一帧的基频值;以及,对各帧的基频值进行线性拟合,以得到单词基频斜率F4。
例如,在一些示例中,每一帧的时长为25ms~35ms,帧移为10ms~15ms,本公开的实施例包括但不限于此。例如,自相关算法、倒谱法等计算基频值的方法可以参考语音识别领域的相关技术,在此不再赘述。
例如,在一些实施例中,可以直接将单词基频斜率F4作为韵律特征向量的元素;例如,在另一些实施例中,可以对单词基频斜率F4进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括重音音节短时能量方差,也即上述韵律特征向量的元素还包括重音音节短时能量方差。提取音频数据的韵律特征可以包括:基于音频数据,确定单词中的重音音节对应的音频段;以及对单词中的重音音节对应的音频段依次进行分帧、频域变换和巴克(Bark)域变换,并在预定的Bark域频带范围内提取音频数据对应的重音音节短时能量方差。
例如,在一些实施例中,可以通过强制对齐操作确定单词中的重音音节对应的部分音频数据(比如某个音频段)。例如,在一些实施例中,可以将单词中的重音音节对应的音频段切分成多帧,例如,每一帧的时长为25ms~35ms,帧移为10ms~15ms,本公开的实施例包括但不限于此。例如,在一些实施例中,可以采用傅里叶变换算法等对切分得到的各帧进行频域变换,然后再根据下述公式(9)进行Bark域变换:
fBark = 8.7 + 14.2*log(fL/1000) (9),
其中,fBark表示Bark域中的频率,fL表示Bark域变换前的频率(线性频率域中的频率),log(·)表示以10为底数的对数函数。
例如,在一些实施例中,可以在预定的Bark域频带范围内计算每一帧的能量,进而计算各帧的能量的方差,即可得到音频数据对应的重音音节短时能量方差F5。
在研究中,本申请的发明人发现:小于50 Hz的频带容易混杂恒频噪声,因而从小于50 Hz的频带提取的特征分量容易受到恒频噪声的干扰,可能不利于提高重音检测的准确性;而大于500 Hz的频带通常能量较低,因而从大于500 Hz的频带提取的特征分量通常不稳定,也可能不利于提高重音检测的准确性。因此,在一些示例中,预定的Bark域频带范围可以包括[50 Hz, 500Hz]的Bark域频率通道;应当理解的是,相比于使用Bark域的全部频带范围,使用上述[50 Hz, 500Hz]的Bark域频带范围可以减少运算量,从而提高运算效率。需要说明的是,本公开的实施例包括但不限于此,在实际应用中,预定的Bark域频带范围也可以根据需要进行选择。
例如,在一些实施例中,可以直接将重音音节短时能量方差F5作为韵律特征向量的元素;例如,在另一些实施例中,可以对重音音节短时能量方差F5进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括重读音频组与非重读音频组的平均基频比值,也即上述韵律特征向量的元素还包括重读音频组与非重读音频组的平均基频比值。提取音频数据的韵律特征可以包括:将音频数据按照单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组;计算重读音频组的平均基频值和非重读基频组的平均基频值;以及基于重读音频组的平均基频值和非重读基频组的平均基频值,得到音频数据对应的重读音频组与非重读音频组的平均基频比值。
例如,在一些实施例中,可以通过强制对齐操作对将音频数据按照单词的重读元音和非重读元音进行音节分段。例如,在一些示例中,如图5所示,以单词“congratulations”为例,通过强制对齐操作进行音节分段后,可以得到5个音频段,这5个音频段分别对应于音节“con”、“gra”、“tu”、“la”、“tions”;其中,单词“congratulations”在音节“la”处重读,从而可以得到包括1个重读音频段(对应于“la”)的重读音频组和包括4个非重读音频段(分别对应于“con”、“gra”、“tu”、“tions”)的非重读音频组。
例如,在一些实施例中,可以采用自相关算法或者倒谱法或者其他常用算法等计算重读音频组/非重读音频组中的每个音频段的基频值,然后对重读音频组/非重读音频组中的全部音频段的基频值取平均值,即可相应得到重读音频组/非重读音频组的平均基频值。应当理解的是,当重读音频组/非重读音频组中仅包括一个音频段时,可以直接将该音频段的基频值作为重读音频组/非重读音频组的平均基频值。
例如,在一些实施例中,可以取重读音频组的平均基频值与非重读基频组的平均基频值的比值作为音频数据对应的重读音频组与非重读音频组的平均基频比值F6。
例如,在一些实施例中,可以直接将重读音频组与非重读音频组的平均基频比值F6作为韵律特征向量的元素;例如,在另一些实施例中,可以对重读音频组与非重读音频组的平均基频比值F6进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括重读音频组与非重读音频组的平均能量比值,也即上述韵律特征向量的元素还包括重读音频组与非重读音频组的平均能量比值。提取音频数据的韵律特征可以包括:将述音频数据按照单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组;计算重读音频组的平均能量值和非重读基频组的平均能量值;以及基于重读音频组的平均能量值和非重读基频组的平均能量值,得到音频数据对应的重读音频组与非重读音频组的平均能量比值。
例如,在一些实施例中,可以通过强制对齐操作对将音频数据按照单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组。例如,该步骤可以参考提取重读音频组与非重读音频组的平均基频比值F6的操作中的相关描述,在此不再重复赘述。
例如,在一些实施例中,可以针对重读音频组/非重读音频组中的每个音频段的幅值的平方进行积分(或求和),再除以该每个音频段时长,从而得到重读音频组/非重读音频组中的每个音频段的平均能量值;然后对重读音频组/非重读音频组中的全部音频段的平均能量值取平均值,即可相应得到重读音频组/非重读音频组的平均能量值。应当理解的是,当重读音频组/非重读音频组中仅包括一个音频段时,可以直接将该音频段的平均能量值作为重读音频组/非重读音频组的平均能量值。
例如,在一些实施例中,可以取重读音频组的平均能量值与非重读基频组的平均能量值的比值作为音频数据对应的重读音频组与非重读音频组的平均能量比值F7。
例如,在一些实施例中,可以直接将重读音频组与非重读音频组的平均能量比值F7作为韵律特征向量的元素;例如,在另一些实施例中,可以对重读音频组与非重读音频组的平均能量比值F7进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,上述韵律特征还包括所述至少一个模态分量,也即上述韵律特征向量的元素还包括所述至少一个模态分量。提取音频数据的韵律特征可以包括:基于音频数据,确定单词中的重音音节对应的音频段;对单词中的重音音节对应的音频段依次进行分帧、频域变换和Bark域变换,并对预定的Bark域频带范围内的信号进行时域变换,以得到中间波形;对中间波形进行经验模态分解(empirical mode decomposition,简称EMD),以得到音频数据对应的至少一个模态分量。
例如,在一些实施例中,基于音频数据确定单词中的重音音节对应的音频段,以及对单词中的重音音节对应的音频段依次进行分帧、频域变换和Bark域变换,均可以参考提取音频数据对应的重音音节短时能量方差F5的操作中的相关描述,在此不再重复赘述。
例如,在一些实施例中,预定的Bark域频带范围可以包括[50 Hz, 500Hz]的Bark域频率通道,本公开的实施例包括但不限于此。例如,在一些实施例中,可以采用傅里叶逆变换算法等对预定的Bark域频带范围内的信号进行时域变换,以得到中间波形。
经验模态分解方法的具体实现过程可以参考现有的时频分析方法中的相关描述,在此不再赘述。
例如,在一些实施例中,音频数据对应的至少一个模态分量可以包括经验模态分解得到的前3个模态分量,分别记为第一模态分量F8、第二模态分量F9和第三模态分量F10。
例如,在一些实施例中,可以直接将第一模态分量F8、第二模态分量F9和第三模态分量F10分别作为韵律特征向量的元素;例如,在另一些实施例中,可以对第一模态分量F8、第二模态分量F9和第三模态分量F10分别进行均值方差归一化处理后作为韵律特征向量的元素。
需要说明的是,在本公开中,所述至少一个模态分量包括经验模态分解得到的前3个模态分量是示例性的。根据实际需要,所述至少一个模态分量可以包括更多或更少的模态分量,相应地,韵律特征向量的元素也可以包括更多或更少的模态分量,本公开的实施例对此不作限制。
例如,在一些实施例中,提取音频数据的韵律特征可以包括:提取音频数据对应的单词时长、单词能量和单词基频至少之一。
例如,在一些示例中,可以利用预定的声学模型将音频数据与单词进行强制对齐,由此确定单词对应的音频数据中的发音段,并将该发音段的时间长度作为音频数据对应的单词时长F11。例如,在一些示例中,可以针对音频数据中的发音段的幅值的平方进行积分(或求和),从而得到音频数据对应的单词能量F12。例如,在一些示例中,可以采用自相关算法或者倒谱法或者其他常用算法等计算音频数据中的发音段的基频值,从而得到音频数据对应的单词基频F13。
例如,在一些实施例中,可以直接将单词时长F11、单词能量F12和单词基频F13分别作为韵律特征向量的元素;例如,在另一些实施例中,可以对单词时长F11、单词能量F12和单词基频F13分别进行均值方差归一化处理后作为韵律特征向量的元素。
例如,在一些实施例中,提取音频数据的韵律特征还可以包括:提取音频数据对应的短时平均过零率、梅尔倒谱系数、一阶二阶梅尔倒谱系数等至少之一。例如,短时平均过零率、梅尔倒谱系数、一阶二阶梅尔倒谱系数等的提取方法可以参考语音识别领域的相关技术,在此不再赘述。
例如,在一些实施例中,步骤S200得到的韵律特征向量的元素可以包括上文涉及的全部韵律特征中的一个或多个(包括全部)。例如,在一些示例中,步骤S200得到的韵律特征向量的元素可以包括单词时长似然度F1、重音音节时长似然度F2、重音音节与单词时长似然度比值F3、单词基频斜率F4、重音音节短时能量方差F5、重读音频组与非重读音频组的平均基频比值F6、重读音频组与非重读音频组的平均能量比值F7、第一模态分量F8、第二模态分量F9、第三模态分量F10、单词时长F11、单词能量F12和单词基频F13;需要说明的是,本公开的实施例包括但不限于此。
步骤S300:基于音频数据生成语谱图,以得到语谱特征矩阵。
例如,在一些实施例中,可以采用短时傅里叶变换算法基于音频数据生成语谱图,然后再基于生成的语谱图得到语谱特征矩阵。需要说明的是,本公开的实施例包括但不限于此。
图7为本公开至少一实施例提供的一种提取语谱特征矩阵的流程图。例如,在一些实施例中,如图7所示,基于音频数据生成语谱图,以得到语谱特征矩阵,即步骤S300可以包括步骤S301至步骤S304。
步骤S301:基于单词和音频数据,确定单词对应的音频数据中的发音段。
例如,在一些实施例中,可以利用预定的声学模型将音频数据与单词进行强制对齐,由此确定单词对应的音频数据中的发音段。
步骤S302:对音频数据中的发音段依次进行分帧、频域变换和Bark域变换,以得到语谱图。
例如,步骤S302中的分帧、频域变换和Bark域变换等操作的具体实现过程和方法可以参考前述提取重音音节短时能量方差的步骤中的相关描述,在此不再重复赘述。
步骤S303:基于语谱图,在预定的Bark域频带范围内提取原始语谱特征矩阵。
例如,在一些实施例中,预定的Bark域频带范围可以包括[50 Hz, 500Hz]的Bark域频率通道,本公开包括但不限于此。例如,在一些实施例中,可以在预定的Bark域频带范围内对语谱图进行采样,以得到原始语谱特征矩阵。
例如,在一些实施例中,原始语谱特征矩阵的维度为A*B(A、B均为正整数),即原始语谱特征矩阵包括A*B个元素。其中,A的取值与预定的Bark域频带范围内的Bark域频率通道的数量相关,例如,A通常可以设置为一个固定值,例如64;B与步骤S302中的分帧操作有关,B的取值等于音频数据中的发音段切分得到的帧数,对于不同的单词,其单词时长(即发音段的时长)通常不同,从而B通常为一个变化值。因此,原始语谱特征矩阵的维度不是固定的,这不利于构建一个统一的分类器模型进行后续的分类处理。为了解决这个问题,可以执行下述步骤S304,以获得维度固定的语谱特征矩阵。
步骤S304:对原始语谱特征矩阵进行维度变换操作,以得到语谱特征矩阵。
例如,在一些实施例中,语谱特征矩阵的维度为U*V(U、V均为正整数),即语谱特征矩阵包括U*V个元素。例如,可以通过插值或采样等实现维度变换操作。例如,若U>A,则可以对原始语谱特征矩阵中的每个列向量进行插值,以增加列向量的元素数量;若U<A,则可以对原始语谱特征矩阵中的每个列向量进行采样,以减小列向量的元素数量;若U=A,则保持列向量的元素数量不变。例如,若V>B,则可以对原始语谱特征矩阵中的每个行向量进行插值,以增加行向量的元素数量;若U<A,则可以对原始语谱特征矩阵中的每个行向量进行采样,以减小行向量的元素数量;若U=A,则保持行向量的元素数量不变。
例如,在一些实施例中,为了使本公开的实施例提高的重音检测方法在检测准确性和检测效率两方面进行均衡,在语谱特征矩阵中,U、V的取值范围可以设置为[150,250]。需要说明的是,在实际应用中,U、V的取值范围可以根据需要进行设置。例如,在一些实施例中,U和V均为200。
步骤S400:对韵律特征向量和语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对第一特征矩阵进行去冗余操作,以得到第二特征矩阵。
例如,在一些实施例中,步骤S400可以包括:分别对韵律特征向量(由步骤S200得到)和语谱特征矩阵(由步骤S300得到)进行均值方差归一化处理,以分别对应得到均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵;对均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵进行拼接操作,以得到第一特征矩阵。
例如,在本公开的实施例中,可以采用下述公式(10)对任一变量y进行均值方差归一化处理:
Figure 635442DEST_PATH_IMAGE017
(10),
其中,
Figure 133419DEST_PATH_IMAGE018
表示变量y进行均值方差归一化处理后的结果,
Figure 29700DEST_PATH_IMAGE019
表示变量y的全部取值的均 值,
Figure 980339DEST_PATH_IMAGE020
表示变量y的全部取值的标准差。
例如,在对韵律特征向量进行均值方差归一化处理时,可以将韵律特征向量的每 个元素作为变量y,将韵律特征向量中的各个元素的取值的均值作为
Figure 862844DEST_PATH_IMAGE019
,将韵律特征向量的 各个元素的取值的标准差作为
Figure 215328DEST_PATH_IMAGE020
。例如,在对语谱特征矩阵进行均值方差归一化处理时,可 以将语谱特征矩阵中的每个元素作为变量y,将语谱特征矩阵中的每个元素所在的行向量 中的各元素的取值的均值作为
Figure 157876DEST_PATH_IMAGE019
,将语谱特征矩阵中的每个元素所在的行向量中的各元素 的取值的标准差作为
Figure 720445DEST_PATH_IMAGE020
应当理解的是,在均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵中,各元素的值处于同一数量级,这样便于执行后续的去冗余操作。还应当理解的是,均值方差归一化处理不会影响韵律特征向量和语谱特征矩阵的维度。
例如,在一些实施例中,均值方差归一化的语谱特征矩阵包括多个频率特征向量,例如,每个频率特征向量为列向量。对均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵进行拼接操作,以得到第一特征矩阵,可以包括:对均值方差归一化的韵律特征向量进行维度变换操作,以得到第一特征向量,其中,第一特征向量的维度与均值方差归一化的语谱特征矩阵中的任一频率特征向量的维度相同;以及将第一特征向量与均值方差归一化的语谱特征矩阵进行拼接,以得到第一特征矩阵,其中,第一特征矩阵包括第一特征向量和均值方差归一化的语谱特征矩阵中的全部频率特征向量。
例如,韵律特征向量的维度为Z*1(Z为正整数,例如,当韵律特征向量包括前述韵律特征F1~F13时,Z可以为13),均值方差归一化的韵律特征向量的维度为Z*1;语谱特征矩阵的维度为U*V(U、V均为正整数),均值方差归一化的语谱特征矩阵为U*V,频率特征向量表示列向量,从而每个频率特征向量的维度为U*1。例如,可以对均值方差归一化的韵律特征向量进行维度变换操作,以得到第一特征向量,其中,第一特征向量的维度为U*1,即第一特征向量的维度与均值方差归一化的语谱特征矩阵中的任一频率特征向量的维度相同。例如,此处的维度变换操作可以包括对均值方差归一化的韵律特征向量进行三次样条插值,以将均值方差归一化的韵律特征向量的维度扩展为U*1,从而得到第一特征向量。
例如,可以将第一特征向量与均值方差归一化的语谱特征矩阵进行拼接,以得到第一特征矩阵,其中,第一特征矩阵的维度为U*(V+1),即第一特征矩阵包括第一特征向量和均值方差归一化的语谱特征矩阵中的全部频率特征向量。
例如,在本实施例中,对第一特征矩阵进行去冗余操作,以得到第二特征矩阵,可以包括:计算第一特征矩阵中的第一特征向量与第一特征矩阵中的各个频率特征向量的各个余弦相似度;以及响应于各个余弦相似度中的任一余弦相似度大于第一预设值,将任一余弦相似度对应的第一特征矩阵中的频率特征向量设置为全零向量或者将任一余弦相似度对应的第一特征矩阵中的频率特征向量从第一特征矩阵中删除,以得到第二特征矩阵。
例如,在一些示例中,可以根据下述公式(11)计算两个向量的余弦相似度:
Figure 141062DEST_PATH_IMAGE021
(11),
其中,Sim表示余弦相似度,
Figure 613631DEST_PATH_IMAGE022
Figure 727081DEST_PATH_IMAGE023
分别表示两个向量,
Figure 652311DEST_PATH_IMAGE024
Figure 1253DEST_PATH_IMAGE025
分别表示两个向量的 模。
例如,在本公开的实施例中,第一预设值可以根据需要进行设置。例如,在一些示例中,第一预设值的取值区间可以设置为[0.75, 0.9],本公开的实施例包括但不限于此。例如,在一些示例中,第一预设值可以设置为0.75、0.8、0.85或0.9等,本公开的实施例对此不作限制。
例如,在另一些实施例中,对均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵进行拼接操作,以得到第一特征矩阵,可以包括:将均值方差归一化的韵律特征向量分别与均值方差归一化的语谱特征矩阵中的每个频率特征向量进行拼接,以得到第一特征矩阵。
例如,均值方差归一化的韵律特征向量的维度为Z*1,均值方差归一化的语谱特征矩阵为U*V,在将均值方差归一化的韵律特征向量分别与均值方差归一化的语谱特征矩阵中的每个频率特征向量(每个频率特征向量的维度为U*1)进行拼接后,得到的第一特征矩阵的维度为(U+Z)*V。
例如,在本实施例中,对第一特征矩阵进行去冗余操作,以得到第二特征矩阵,可以包括:获取第一权重矩阵;使用所述第一权重矩阵对第一特征矩阵进行处理,以得到降维矩阵,其中,降维矩阵的维度小于第一特征矩阵的维度;对降维矩阵进行维度变换操作,以得到第一中间特征矩阵,其中,第一中间特征矩阵的维度与第一特征矩阵的维度相同;将第一中间特征矩阵中的各个元素转换到预设区间,以得到第二中间特征矩阵;以及响应于第二中间特征矩阵中的任一元素小于第二预设值,将第二中间特征矩阵中的任一元素设置为零,以得到第二特征矩阵。
例如,在一些示例中,第一权重矩阵的维度为D* (U+Z),将第一权重矩阵与第一特征矩阵进行矩阵乘法运算以得到降维矩阵,得到的降维矩阵的维度为D*V。例如,在一些示例中,D小于(U+Z),从而降维矩阵的维度小于第一特征矩阵的维度。需要说明的是,在本公开的实施例中,D的取值可以根据实际需要进行设置。例如,在一些示例中,D的取值区间可以设置为[8, 12],本公开的实施例包括但不限于此。
例如,在一些示例中,预设区间可以根据需要进行设置。例如,在一些示例中,预设区间可以设置为[-1, 1],本公开的实施例包括但不限于此。例如,在一些示例中,以预设区间设置为[-1, 1]为例,可以根据下述公式(12)将第一中间特征矩阵中的各个元素转换到预设区间[-1, 1]:
Figure 62750DEST_PATH_IMAGE026
Figure 347101DEST_PATH_IMAGE027
(12),
其中,r表示第一中间特征矩阵的任一元素,rmax表示第一中间特征矩阵的各个元素的 最大值,rmin表示第一中间特征矩阵的各个元素的最小值,Rand(0, 0.1)表示区间[0, 0.1] 的随机数的生成函数(可以生成随机数,生成的随机数位于区间[0, 0.1]),
Figure 759628DEST_PATH_IMAGE028
表示元素r经 过转换后的得到的与元素r对应的第二中间特征矩阵的元素。
应当理解的是,本公开的实施例对将第一中间特征矩阵中的各个元素转换到预设区间的方法不作限制,本领域技术人员可以根据实际需要采用合适的数学模型实现上述转换过程。
例如,在一些示例中,第二预设值可以根据需要进行设置。例如,在一些示例中,在预设区间设置为[-1, 1]的情况下,第二预设值的取值区间可以设置为例如[0.1, 0.3],本公开的实施例包括但不限于此。例如,在一些示例中,第一预设值可以设置为0.1、0.15、0.2、0.25或0.3等,本公开的实施例对此不作限制。应当理解的是,第二预设值通常应当位于预设区间内。
例如,在本实施例中,重音检测方法还可以包括:对待训练的第一权重矩阵进行预训练,以得到第一权重矩阵。图8为本公开至少一实施例提供的一种对待训练的第一权重矩阵进行预训练的流程图。例如,如图8所示,对待训练的第一权重矩阵进行预训练,可以包括下述步骤S10至步骤S60。
步骤S10:获取样本单词的样本音频数据;
步骤S20:基于样本音频数据,得到样本音频数据对应的第一特征矩阵;
步骤S30:使用待训练的第一权重矩阵对样本音频数据对应的第一特征矩阵进行处理,以得到样本音频数据对应的降维矩阵;
步骤S40:使用待训练的第二权重矩阵对样本音频数据对应的降维矩阵进行处理,以得到样本音频数据对应的第三特征矩阵,其中,样本音频数据对应的第三特征矩阵的维度与样本音频数据对应的第一特征矩阵的维度相同;
步骤S50:基于样本音频数据对应的第三特征矩阵和样本音频数据对应的第一特征矩阵,通过损失函数计算损失值;以及
步骤S60:根据损失值对待训练的第二权重矩阵和待训练的第一权重矩阵分别进行修正。
例如,步骤S10的具体实现过程和方法可以参考前述步骤S201的相关描述,在此不再赘述。
例如,步骤S20的具体实现过程和方法可以参考前述步骤S200、步骤S300、步骤S400(得到的第一特征矩阵的维度为(U+Z)*V的情形)的相关描述,只要将此处的样本单词、样本音频数据作为前述步骤S200、步骤S300、步骤S400(得到的第一特征矩阵的维度为(U+Z)*V的情形)中的单词、音频数据即可。
例如,在步骤S30中,第一权重矩阵的维度与待训练的第一权重矩阵的维度相同,均为D* (U+Z)。将待训练的第一权重矩阵与样本音频数据对应的第一特征矩阵进行矩阵乘法运算,从而,得到的样本音频数据对应的降维矩阵的维度为D*V。
例如,在步骤S40中,待训练的第二权重矩阵的维度为(U+Z)*D,从而,将待训练的第二权重矩阵与样本音频数据对应的降维矩阵进行矩阵乘法运算,得到的样本音频数据对应的第三特征矩阵的维度为(U+Z)*V,即样本音频数据对应的第三特征矩阵的维度与样本音频数据对应的第一特征矩阵的维度相同。
例如,在步骤S50中,损失函数包括但不限于交叉熵损失函数(Cross EntropyLoss Function)。
例如,在步骤S60中,可以根据损失函数计算得到的损失值,采用优化函数计算待训练的第二权重矩阵的元素的误差值和待训练的第一权重矩阵的元素的误差值,并根据该待训练的第一权重矩阵的元素的误差值对第一权重矩阵的元素进行修正,根据该待训练的第二权重矩阵的元素的误差值对第二权重矩阵的元素进行修正。例如,优化函数可以采用批量梯度下降(batch gradient descent, BGD)算法、随机梯度下降(stochasticgradient descent,SGD)算法等计算待训练的第二权重矩阵的元素的误差值和待训练的第一权重矩阵的元素的误差值。
例如,在一些实施例中,对待训练的第一权重矩阵进行预训练,还可以包括:判断上述待训练的第二权重矩阵和待训练的第一权重矩阵的训练是否满足预定条件,若不满足预定条件,则重复执行上述训练过程(即步骤S10至步骤S60);若满足预定条件,则停止上述训练过程,得到训练好的第一权重矩阵和第二权重矩阵,其中,训练好的第一权重矩阵即可作为前述第一权重矩阵。例如,在一个示例中,上述预定条件为连续两个(或更多个)样本单词的样本音频图像对应的损失值不再显著减小。例如,在另一个示例中,上述预定条件为待训练的第二权重矩阵和待训练的第一权重矩阵的训练次数或训练周期达到预定数目。本公开对此不作限制。
例如,待训练的第二权重矩阵中的元素的初始值可以为随机值,待训练的第一权重矩阵中的元素的初始值可以为随机值。
例如,在一些实施例中,上述预训练过程可以通过例如通用自动编码器实现,本公开包括但不限于此。
需要说明的是,上述实施例仅是示意性说明第二权重矩阵和第一权重矩阵的训练过程。本领域技术人员应当知道,在训练阶段,需要利用大量样本单词的样本音频数据对待训练的第二权重矩阵和待训练的第一权重矩阵进行训练;同时,在每个样本单词的样本音频数据的训练过程中,都可以包括多次反复迭代以对待训练的第二权重矩阵和待训练的第一权重矩阵的元素进行修正。又例如,训练阶段还包括对待训练的第二权重矩阵和待训练的第一权重矩阵的元素进行微调(fine-tune),以获取更优化的参数。
应当理解的是,上述预训练过程可以参考神经网络的训练过程,只要将第一权重矩阵和第二权重矩阵视为神经网络的权重参数矩阵即可。
需要说明的是,步骤S400中的拼接操作可以使得本公开的实施例提供的重音检测方法结合韵律特征和语谱特征进行重音检测,有利于提升重音检测结果的准确性;同时,步骤S400中的去冗余操作可以提升重音检测方法的重音检测速度和效率。
步骤S500:通过分类器对第二特征矩阵进行分类处理,以得到音频数据的重音检测结果。
例如,在一些实施例中,步骤S500中的分类器可以采用包括卷积神经网络的分类器,也可以采用其他分类器(例如,支持向量机(Support Vector Machine,SVM)分类器等,本公开的实施例对此不作限制。
例如,在一些实施例中,步骤S500中的分类器包括卷积神经网络和softmax分类器。第二特征矩阵经过卷积神经网络和softmax分类器的依次处理,得到音频数据的重音检测结果。例如,在一些示例中,该softmax分类器用于进行二分类,其输出的结果可以表征音频数据中的重音音节是否被重读,例如,若输出的结果为1,则表示该音频数据中的重音音节被重读,若输出的结果为0,则表示该音频数据中的重音音节未被重读,本公开的实施例包括但不限于此。
应当理解的是,在一些实施例中,步骤S500中的分类器可以经过训练后再用于进行步骤S500中的分类处理。
需要说明的是,在本公开的实施例中,分类器可以采用软件、硬件、固件或其任意组合等方式实现,从而执行相应的处理过程。
需要说明的是,在本公开的实施例中,上述重音检测方法的流程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行。虽然上文描述的重音检测方法的流程包括特定顺序出现的多个操作,但是应该清楚地了解,多个操作的顺序并不受限制。另外,某些序号不同但本质相同的步骤可以仅执行一次,而其执行结果可以由后续的不同步骤共用,当然也可以在需要的时候重复执行。上文描述的重音检测方法可以执行一次,也可以按照预定条件执行多次。
本公开的实施例提供的重音检测方法通过结合韵律特征和语谱特征进行重音检测,可以提升重音检测结果的准确性;同时,去冗余操作可以提升该重音检测方法的重音检测速度和效率。
本公开至少一实施例还提供一种重音检测装置。图9为本公开至少一实施例提供的一种重音检测装置的示意性框图。
例如,如图9所示,该重音检测装置100包括获取单元110、韵律特征提取单元120、语谱矩阵提取单元130、矩阵运算单元140和分类单元150。例如,这些单元可以通过硬件(例如电路)模块或软件模块等实现,以下实施例与此相同,不再赘述。例如,可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应的计算机指令来实现这些单元。
例如,获取单元110被配置为获取单词的音频数据。例如,该获取单元110可以实现前述重音检测方法的步骤S100,其具体实现过程和方法可以参考步骤S100的相关描述,在此不再重复赘述。
例如,韵律特征提取单元120被配置为提取音频数据的韵律特征,以得到韵律特征向量。例如,该韵律特征提取单元120可以实现前述重音检测方法的步骤S200,其具体实现过程和方法可以参考步骤S200的相关描述,在此不再重复赘述。
例如,语谱矩阵提取单元130,被配置为被配置为基于音频数据生成语谱图,以得到语谱特征矩阵。例如,该语谱矩阵提取单元130可以实现前述重音检测方法的步骤S300,其具体实现过程和方法可以参考步骤S300的相关描述,在此不再重复赘述。
例如,矩阵运算单元140被配置为:对韵律特征向量和语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对第一特征矩阵进行去冗余操作,以得到第二特征矩阵。例如,该矩阵运算单元140可以实现前述重音检测方法的步骤S400,其具体实现过程和方法可以参考步骤S400的相关描述,在此不再重复赘述。
例如,分类单元150被配置为对第二特征矩阵进行分类处理,以得到音频数据的重音检测结果。例如,该分类单元150包括分类器;例如,该分类单元150可以实现前述重音检测方法的步骤S500,其具体实现过程和方法可以参考步骤S500的相关描述,在此不再重复赘述。
需要注意的是,在本公开的实施例中,该重音检测装置100可以包括更多或更少的电路或单元,并且各个电路或单元之间的连接关系不受限制,可以根据实际需求而定。各个电路的具体构成方式不受限制,可以根据电路原理由模拟器件构成,也可以由数字芯片构成,或者以其他适用的方式构成。
图10为本公开至少一实施例提供的另一种重音检测装置的示意性框图。例如,如图10所示,该重音检测装置200包括存储器210和处理器220。
例如,存储器210用于非暂时性存储计算机可读指令,处理器220用于运行该计算机可读指令,该计算机可读指令被处理器220运行时执行本公开任一实施例提供的重音检测方法。
例如,存储器210和处理器220之间可以直接或间接地互相通信。例如,在一些示例中,如图10所示,该重音检测装置200还可以包括系统总线230,存储器210和处理器220之间可以通过系统总线230互相通信,例如,处理器220可以通过系统总线230访问存储器210。例如,在另一些示例中,存储器210和处理器220等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。
例如,处理器220可以控制重音检测装置中的其它组件以执行期望的功能。处理器220可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。
例如,存储器210可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。
例如,在存储器210上可以存储一个或多个计算机指令,处理器220可以运行所述计算机指令,以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如韵律特征向量、语谱特征矩阵、第一特征矩阵、第二特征矩阵以及应用程序使用和/或产生的各种数据等。
例如,存储器210存储的一些计算机指令被处理器220执行时可以执行根据上文所述的重音检测方法中的一个或多个步骤。
例如,如图10所示,重音检测装置200还可以包括允许外部设备与重音检测装置200进行通信的输入接口240。例如,输入接口240可被用于从外部计算机设备、从用户等处接收指令。重音检测装置500还可以包括使重音检测装置200和一个或多个外部设备相互连接的输出接口250。例如,重音检测装置200可以通过输出接口250显示重音检测结果等。通过输入接口240和输出接口250与重音检测装置200通信的外部设备可被包括在提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如,图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的(诸)输入设备的输入,以及在诸如显示器之类的输出设备上提供输出。此外,自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与重音检测装置500交互。相反,自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语音、视觉、触摸、手势、以及机器智能等。
例如,在一些实施例中,该重音检测装置200还包括重音检测方法的实施例中描述的音频采集设备。
另外,重音检测装置200尽管在图10中被示出为单个系统,但可以理解,重音检测装置200也可以是分布式系统,还可以布置为云设施(包括公有云或私有云)。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由重音检测装置200执行的任务。例如,在一些示例中,可以通过智能手机采集单词的音频数据并上传至服务器,服务器执行重音检测的过程后将重音检测结果返回给智能手机,以提供给用户。
例如,关于重音检测方法的实现过程的详细说明可以参考上述重音检测方法的实施例中的相关描述,重复之处在此不再赘述。
例如,在一些示例中,该重音检测装置可以包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(Personal Digital Assistant,PDA)、可穿戴设备、头戴显示设备等。
需要说明的是,本公开的实施例提供的重音检测装置是示例性的,而非限制性的,根据实际应用需要,该重音检测装置还可以包括其他常规部件或结构,例如,为实现重音检测装置的必要功能,本领域技术人员可以根据具体应用场景设置其他的常规部件或结构,本公开的实施例对此不作限制。
本公开的实施例提供的重音检测装置的技术效果可以参考上述实施例中关于重音检测方法的相应描述,在此不再赘述。
本公开至少一实施例还提供一种非瞬时性存储介质。图11为本公开一实施例提供的一种非瞬时性存储介质的示意图。例如,如图11所示,该非瞬时性存储介质300非暂时性地存储计算机可读指令301,当非暂时性计算机可读指令301由计算机(包括处理器)执行时可以执行本公开任一实施例提供的重音检测方法的指令。
例如,在非瞬时性存储介质300上可以存储一个或多个计算机指令。非瞬时性存储介质300上存储的一些计算机指令可以是例如用于实现上述重音检测方法中的一个或多个步骤的指令。
例如,非瞬时性存储介质可以包括平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。
本公开的实施例提供的非瞬时性存储介质的技术效果可以参考上述实施例中关于重音检测方法的相应描述,在此不再赘述。
对于本公开,有以下几点需要说明:
(1)本公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开同一实施例及不同实施例中的特征可以相互组合。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (22)

1.一种重音检测方法,包括:
获取单词的音频数据;
提取所述音频数据的韵律特征,以得到韵律特征向量;
基于所述音频数据生成语谱图,以得到语谱特征矩阵;
对所述韵律特征向量和所述语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对所述第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及
通过分类器对所述第二特征矩阵进行分类处理,以得到所述音频数据的重音检测结果。
2.根据权利要求1所述的重音检测方法,其中,对所述韵律特征向量和所述语谱特征矩阵进行所述拼接操作,以得到所述第一特征矩阵,包括:
分别对所述韵律特征向量和所述语谱特征矩阵进行均值方差归一化处理,以分别得到均值方差归一化的韵律特征向量和均值方差归一化的语谱特征矩阵;以及
对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行拼接操作,以得到所述第一特征矩阵。
3.根据权利要求2所述的重音检测方法,其中,所述均值方差归一化的语谱特征矩阵包括多个频率特征向量,
对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行拼接操作,以得到所述第一特征矩阵,包括:
对所述均值方差归一化的韵律特征向量进行维度变换操作,以得到第一特征向量,其中,所述第一特征向量的维度与所述均值方差归一化的语谱特征矩阵中的任一频率特征向量的维度相同;以及
将所述第一特征向量与所述均值方差归一化的语谱特征矩阵进行拼接,以得到所述第一特征矩阵,其中,所述第一特征矩阵包括所述第一特征向量和所述均值方差归一化的语谱特征矩阵中的全部频率特征向量。
4.根据权利要求3所述的重音检测方法,其中,对所述第一特征矩阵进行所述去冗余操作,以得到所述第二特征矩阵,包括:
计算所述第一特征矩阵中的所述第一特征向量与所述第一特征矩阵中的各个频率特征向量的各个余弦相似度;以及
响应于所述各个余弦相似度中的任一余弦相似度大于第一预设值,将所述任一余弦相似度对应的所述第一特征矩阵中的频率特征向量设置为全零向量或者将所述任一余弦相似度对应的所述第一特征矩阵中的频率特征向量从所述第一特征矩阵中删除,以得到所述第二特征矩阵。
5.根据权利要求2所述的重音检测方法,其中,对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行所述拼接操作,以得到所述第一特征矩阵,包括:
将所述均值方差归一化的韵律特征向量分别与所述均值方差归一化的语谱特征矩阵中的每个频率特征向量进行拼接,以得到所述第一特征矩阵。
6.根据权利要求5所述的重音检测方法,其中,对所述第一特征矩阵进行所述去冗余操作,以得到所述第二特征矩阵,包括:
获取第一权重矩阵;
使用所述第一权重矩阵对所述第一特征矩阵进行处理,以得到降维矩阵,其中,所述降维矩阵的维度小于所述第一特征矩阵的维度;
对所述降维矩阵进行维度变换操作,以得到第一中间特征矩阵,其中,所述第一中间特征矩阵的维度与所述第一特征矩阵的维度相同;
将所述第一中间特征矩阵中的各个元素转换到预设区间,以得到第二中间特征矩阵;以及
响应于所述第二中间特征矩阵中的任一元素小于第二预设值,将所述第二中间特征矩阵中的所述任一元素设置为零,以得到所述第二特征矩阵。
7.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
确定所述单词对应的单词时长高斯混合模型;以及
基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的单词时长似然度;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述单词时长似然度。
8.根据权利要求7所述的重音检测方法,其中,
确定所述单词对应的单词时长高斯混合模型,包括:
基于所述音频数据,得到所述音频数据对应的单词时长;
计算所述单词的音素加权和,并根据所述单词的音素加权和,确定所述单词的类别;以及
根据所述单词的类别,确定所述单词对应的单词时长高斯混合模型;
基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的所述单词时长似然度,包括:
基于所述音频数据对应的单词时长,通过所述单词对应的单词时长高斯混合模型计算所述音频数据对应的第一概率密度值;以及
基于所述音频数据对应的所述第一概率密度值,得到所述音频数据对应的所述单词时长似然度。
9.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
确定所述单词对应的重音时长伽马混合模型;以及
基于所述单词对应的所述重音时长伽马混合模型,提取所述音频数据对应的重音音节时长似然度;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述重音音节时长似然度。
10.根据权利要求9所述的重音检测方法,其中,
确定所述单词对应的重音时长伽马混合模型,包括:
基于所述音频数据,得到所述音频数据对应的单词时长和所述单词中的重音音节中的元音音素的音素时长,并基于得到的所述音频数据对应的所述单词时长和所述单词中的所述重音音节中的所述元音音素的音素时长,确定所述单词中的所述重音音节中的所述元音音素的归一化音素时长;以及
根据所述单词中的所述重音音节中的所述元音音素,确定所述单词对应的所述重音时长伽马混合模型;
基于所述单词对应的所述重音时长伽马混合模型,提取所述音频数据对应的所述重音音节时长似然度,包括:
基于所述归一化音素时长,通过所述重音时长伽马混合模型计算所述音频数据对应的第二概率密度值;以及
基于所述音频数据对应的第二概率密度值,得到所述音频数据对应的所述重音音节时长似然度。
11.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的单词时长似然度;
基于所述单词对应的重音时长伽马混合模型,提取所述音频数据对应的重音音节时长似然度;以及
基于所述音频数据对应的所述单词时长似然度和所述音频数据对应的所述重音音节时长似然度,得到所述音频数据对应的重音音节与单词时长似然度比值;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述重音音节与单词时长似然度比值。
12.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:提取所述音频数据对应的单词基频斜率;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述单词基频斜率。
13.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
基于所述音频数据,确定所述单词中的重音音节对应的音频段;以及
对所述单词中的所述重音音节对应的所述音频段依次进行分帧、频域变换和巴克域变换,并在预定的巴克域频带范围内提取所述音频数据对应的重音音节短时能量方差;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述重音音节短时能量方差。
14.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
将所述音频数据按照所述单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组;
计算所述重读音频组的平均基频值和所述非重读基频组的平均基频值;以及
基于所述重读音频组的所述平均基频值和所述非重读基频组的所述平均基频值,得到所述音频数据对应的重读音频组与非重读音频组的平均基频比值;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述重读音频组与非重读音频组的平均基频比值。
15.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
将所述音频数据按照所述单词的重读元音和非重读元音进行音节分段,以得到包括重读音频段的重读音频组和包括非重读音频段的非重读音频组;
计算所述重读音频组的平均能量值和所述非重读基频组的平均能量值;以及
基于所述重读音频组的所述平均能量值和所述非重读基频组的所述平均能量值,得到所述音频数据对应的重读音频组与非重读音频组的平均能量比值;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述重读音频组与非重读音频组的平均能量比值。
16.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
基于所述音频数据,确定所述单词中的重音音节对应的音频段;
对所述单词中的所述重音音节对应的音频段依次进行分帧、频域变换和巴克域变换,并对预定的巴克域频带范围内的信号进行时域变换,以得到中间波形;以及
对所述中间波形进行经验模态分解,以得到所述音频数据对应的至少一个模态分量;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述至少一个模态分量。
17.根据权利要求1-6任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:提取所述音频数据对应的单词时长、单词能量和单词基频组成的群组中的至少一个;
其中,所述韵律特征向量的元素包括所述单词时长、所述单词能量和所述单词基频组成的群组中的至少一个。
18.根据权利要求1-6任一项所述的重音检测方法,其中,基于所述音频数据生成所述语谱图,以得到所述语谱特征矩阵,包括:
基于所述单词和所述音频数据,确定所述单词对应的所述音频数据中的发音段;
对所述音频数据中的发音段依次进行分帧、频域变换和巴克域变换,以得到所述语谱图;
基于所述语谱图,在预定的巴克域频带范围内提取原始语谱特征矩阵;以及
对所述原始语谱特征矩阵进行维度变换操作,以得到所述语谱特征矩阵。
19.根据权利要求1-6任一项所述的重音检测方法,其中,所述分类器包括卷积神经网络。
20.一种重音检测装置,包括:
获取单元,被配置为获取单词的音频数据;
韵律特征提取单元,被配置为提取所述音频数据的韵律特征,以得到韵律特征向量;
语谱矩阵提取单元,被配置为基于所述音频数据生成语谱图,以得到语谱特征矩阵;
矩阵运算单元,被配置为对所述韵律特征向量和所述语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对所述第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及
分类单元,被配置为对所述第二特征矩阵进行分类处理,以得到所述音频数据的重音检测结果。
21.一种重音检测装置,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行根据权利要求1-19任一项所述的重音检测方法。
22.一种非瞬时性存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,能够执行根据权利要求1-19任一项所述的重音检测方法的指令。
CN202010389701.4A 2020-05-11 2020-05-11 重音检测方法及装置、非瞬时性存储介质 Active CN111292763B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010389701.4A CN111292763B (zh) 2020-05-11 2020-05-11 重音检测方法及装置、非瞬时性存储介质
US17/050,034 US11158302B1 (en) 2020-05-11 2020-07-28 Accent detection method and accent detection device, and non-transitory storage medium
PCT/CN2020/105161 WO2021227259A1 (zh) 2020-05-11 2020-07-28 重音检测方法及装置、非瞬时性存储介质
CA3097328A CA3097328C (en) 2020-05-11 2020-07-28 Accent detection method and accent detection device, and non-transitory storage medium
GB2204835.9A GB2603381B (en) 2020-05-11 2020-07-28 Accent detection method and accent detection device, and non-transitory storage medium
JP2020168966A JP7097416B2 (ja) 2020-05-11 2020-10-06 アクセント検出方法、装置及び非一時的な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010389701.4A CN111292763B (zh) 2020-05-11 2020-05-11 重音检测方法及装置、非瞬时性存储介质

Publications (2)

Publication Number Publication Date
CN111292763A true CN111292763A (zh) 2020-06-16
CN111292763B CN111292763B (zh) 2020-08-18

Family

ID=71031213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010389701.4A Active CN111292763B (zh) 2020-05-11 2020-05-11 重音检测方法及装置、非瞬时性存储介质

Country Status (3)

Country Link
JP (1) JP7097416B2 (zh)
CN (1) CN111292763B (zh)
WO (1) WO2021227259A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331176A (zh) * 2020-11-03 2021-02-05 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
WO2021227259A1 (zh) * 2020-05-11 2021-11-18 新东方教育科技集团有限公司 重音检测方法及装置、非瞬时性存储介质
GB2603381A (en) * 2020-05-11 2022-08-03 New Oriental Education & Tech Group Inc Accent detection method and device and non-transitory storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751919A (zh) * 2008-12-03 2010-06-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
US20140052446A1 (en) * 2012-08-20 2014-02-20 Kabushiki Kaisha Toshiba Prosody editing apparatus and method
CN104575518A (zh) * 2013-10-17 2015-04-29 清华大学 韵律事件检测方法和装置
CN104732981A (zh) * 2015-03-17 2015-06-24 北京航空航天大学 一种结合电声门图的汉语语音情感数据库的语音标注方法
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms
JP5454317B2 (ja) * 2010-04-07 2014-03-26 ヤマハ株式会社 音響解析装置
JP5708155B2 (ja) * 2011-03-31 2015-04-30 富士通株式会社 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
CN111292763B (zh) * 2020-05-11 2020-08-18 新东方教育科技集团有限公司 重音检测方法及装置、非瞬时性存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751919A (zh) * 2008-12-03 2010-06-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
US20140052446A1 (en) * 2012-08-20 2014-02-20 Kabushiki Kaisha Toshiba Prosody editing apparatus and method
CN104575518A (zh) * 2013-10-17 2015-04-29 清华大学 韵律事件检测方法和装置
CN104732981A (zh) * 2015-03-17 2015-06-24 北京航空航天大学 一种结合电声门图的汉语语音情感数据库的语音标注方法
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵云雪: "噪声环境下汉语重音检测方法研究", 《哈尔滨师范大学硕士学位论文》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021227259A1 (zh) * 2020-05-11 2021-11-18 新东方教育科技集团有限公司 重音检测方法及装置、非瞬时性存储介质
GB2603381A (en) * 2020-05-11 2022-08-03 New Oriental Education & Tech Group Inc Accent detection method and device and non-transitory storage medium
GB2603381B (en) * 2020-05-11 2023-10-18 New Oriental Education & Tech Group Inc Accent detection method and accent detection device, and non-transitory storage medium
CN112331176A (zh) * 2020-11-03 2021-02-05 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112331176B (zh) * 2020-11-03 2023-03-10 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111292763B (zh) 2020-08-18
JP7097416B2 (ja) 2022-07-07
WO2021227259A1 (zh) 2021-11-18
JP2021179590A (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
US11158302B1 (en) Accent detection method and accent detection device, and non-transitory storage medium
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN111292763B (zh) 重音检测方法及装置、非瞬时性存储介质
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
Muckenhirn et al. Understanding and Visualizing Raw Waveform-Based CNNs.
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
Mon et al. Speech-to-text conversion (STT) system using hidden Markov model (HMM)
US20230343319A1 (en) speech processing system and a method of processing a speech signal
JPWO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Akbal et al. Development of novel automated language classification model using pyramid pattern technique with speech signals
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
Płonkowski Using bands of frequencies for vowel recognition for Polish language
Islam et al. Bangla dataset and MMFCC in text-dependent speaker identification.
TWI409802B (zh) 音頻特徵處理方法及其裝置
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Singh et al. Speech recognition system for north-east Indian accent
Schnell et al. Neural VTLN for speaker adaptation in TTS
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Kadhum et al. Survey of Features Extraction and Classification Techniques for Speaker Identification
Wang et al. Combining extreme learning machine and decision tree for duration prediction in HMM based speech synthesis.
Nath et al. VoiCon: a Matlab GUI-based tool for voice conversion applications
Yuan et al. Improving Voice Style Conversion via Self-attention VAE with Feature Disentanglement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025562

Country of ref document: HK