CN113066510B - 一种元音弱读检测方法及装置 - Google Patents

一种元音弱读检测方法及装置 Download PDF

Info

Publication number
CN113066510B
CN113066510B CN202110455748.0A CN202110455748A CN113066510B CN 113066510 B CN113066510 B CN 113066510B CN 202110455748 A CN202110455748 A CN 202110455748A CN 113066510 B CN113066510 B CN 113066510B
Authority
CN
China
Prior art keywords
sequence
network
vector
coding vector
current iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110455748.0A
Other languages
English (en)
Other versions
CN113066510A (zh
Inventor
王丽
柳宗铭
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202110455748.0A priority Critical patent/CN113066510B/zh
Publication of CN113066510A publication Critical patent/CN113066510A/zh
Application granted granted Critical
Publication of CN113066510B publication Critical patent/CN113066510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请提供了一种元音弱读检测方法及装置。该方法包括:提取用户朗读目标文本的语音信号的声学特征,并对声学特征进行编码,获得的声学编码向量序列;然后,将目标文本对应的带重音标签的音素序列作为发音先验信息,采用联结主义时间分类(Connectionisttemporal classification,CTC)和注意力相结合的解码方法进行解码,最后采用波束搜索方法获得最终的带元音弱读标签的音素序列。本申请将带重音标签的音素序列作为发音先验信息,辅助元音弱读检测,可提高检测的准确度;解码时采用CTC和注意力联合解码方法,解决了元音弱读情况下,采用强制对齐会导致检测的准确率下降的问题。

Description

一种元音弱读检测方法及装置
技术领域
本申请涉及语言发音评估技术领域,尤其涉及一种元音弱读检测方法及装置。
背景技术
计算机辅助语言学习系统期望运用计算机替代或辅助人工进行语言教学,对用户的发音进行评估的自动口语评估技术是该系统的重要组成部分。元音弱读是重音计时语言中广泛存在的口语现象,例如,在英语的使用过程中,熟练的使用者往往将一些位置的元音弱化为类似中央元音schwa的发音。以非重音计时语言(如汉语)作为母语的第二语言学习者难以掌握元音弱读,这很大程度上导致非自然口音的产生。采用自动口语评估中实现元音弱读检测,可以帮助学习者掌握元音弱读。
传统方法使用基于隐马尔科夫模型的语音识别框架进行音素识别,这种方法依赖强制对齐,但在元音弱读情况下,强制对齐的准确率会下降;同时,独立性假设的引入使得模型对上下文的利用受限,而元音弱读现象很受上下文影响。
发明内容
本申请实施例提供了一种元音弱读检测方法及装置,利用语音中的上下文发音关系,将重音音素作为元音弱读音素检测的先验信息,解决强制对齐的方法在元音弱读音素检测中准确率低的问题。
第一方面,本申请实施例提供了一种元音弱读检测方法,该方法包括:
对用户朗读目标文本的语音信号进行特征提取,获得声学特征向量序列;
利用编码器网络对所述声学特征向量序列进行编码,获得声学编码向量序列;
采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合;所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得;
利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列;
采用波束搜索方法对第四音素概率序列进行波束搜索,获得所述语音信号对应的带元音弱读标签的音素序列;所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得,所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得,所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。
本实施例中,将带重音标签的音素序列作为发音先验信息,辅助元音弱读检测,可提高检测的准确度;解码时采用CTC和注意力联合解码方法,解决了元音弱读情况下,采用强制对齐会导致检测的准确率下降的问题。采用波束搜索方法进行波束搜索,进一步提高了检测的准确率。
在一种可能的实施方式中,所述采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合包括:
将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络,获得当前迭代的第三加权向量;其中,所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得,所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得;
基于所述当前迭代的第三加权向量,对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和,获得当前迭代次数的融合编码向量。
在一种可能的实施方式中,所述方法还包括:
将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第一注意力网络,获得所述当前迭代次数的第一权值向量,以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第二注意力网络,获得所述当前迭代次数的第二权值向量。
在一种可能的实施方式中,所述利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列包括:
将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量,输入所述解码器网络进行解码,获得所述第三音素概率序列。
在一种可能的实施方式中,所述方法还包括:
获取训练样本;所述训练样本包括:语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本;
根据所述训练样本和损失函数,采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络;所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。
第二方面,本申请实施例提供了一种元音弱读检测装置,所述装置包括:
提取模块,用于对用户朗读目标文本的语音信号进行特征提取,获得声学特征向量序列;
编码模块,利用编码器网络对所述声学特征向量序列进行编码,获得声学编码向量序列;
融合模块,用于采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合;所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得;
解码模块,用于利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列;
波束搜索模块,用于采用波束搜索方法对第四音素概率序列进行波束搜索,获得所述语音信号对应的带元音弱读标签的音素序列;所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得,所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得,所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。
在一种可能的实施方式中,所述融合模块具体用于:将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络,获得当前迭代的第三加权向量;其中,所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得,所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得;基于所述当前迭代的第三加权向量,对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和,获得当前迭代次数的融合编码向量。
在一种可能的实施方式中,所述融合模块还具体用于:将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第一注意力网络,获得所述当前迭代次数的第一权值向量,以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第二注意力网络,获得所述当前迭代次数的第二权值向量。
在一种可能的实施方式中,所述解码模块具体用于:将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量,输入所述解码器网络进行解码,获得所述第三音素概率序列。
在一种可能的实施方式中,所述装置还包括训练模块,所述训练模块具体用于:获取训练样本;所述训练样本包括:语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本;根据所述训练样本和损失函数,采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络;所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。
附图说明
图1是本申请实施例提供的一种元音弱读检测方法的流程图;
图2是本申请实施例提供的一种采用注意力机制进行向量融合的方法流程图;
图3是本申请实施例提供的一种元音弱读检测装置的结构示意图;
图4是本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
图1是本申请实施例提供的一种元音弱读检测方法的流程图。如图1所示,该方法包括如下的步骤S1-S5。
在步骤S1中,获取用户朗读目标文本的语音信号,对其进行特征提取,获得声学特征向量序列。
本实施例中,对语音信号进行特征提取时,先对其进行分帧处理和加窗处理,然后转换到频域中,提取每帧频域信号的声学特征向量并归一化处理,归一化后的各帧对应的声学特征向量即为声学特征向量序列。可选的,声学特征可以包括:23维梅尔滤波器组特征和3维基频特征。
在步骤S2中,将声学特征向量序列输入编码器网络进行编码,获得编码器网络输出的声学编码向量序列,以及目标文本对应的带重音标签的音素序列输入辅助编码器网络进行编码,获得辅助编码器网络输出的先验编码向量序列。
本实施例中,编码器网络采用第一双向长短时记忆网络(BLSTM)构建。可选地,编码器网络可以是包含4层BLSTM结构,每层设有320个节点。
辅助编码器网络采用词嵌入网络和第二双向长短时记忆网络组成。可选地,词嵌入网络为全连接神经网络,包括20个输出节点,即带重音标签的音素序列输入词嵌入网络,可以得到20维的词向量序列;第二双向长短时记忆网络包括2层BLSTM结构,每层有80个节点,即词向量序列输入第二双向长短时记忆网络,可得到80维的先验编码向量序列。
在步骤S3中,使用CTC和注意力一次性联合解码方法,对声学编码向量序列和先验编码向量序列进行解码。
本实施例中,采用注意力机制对声学编码向量序列和先验编码向量序列进行多次迭代融合,获得多次迭代融合获得的融合编码向量,并采用解码器网络对每次迭代融合后的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列。其中,采用注意力网络和解码器网络的隐状态向量相结合的方法对声学编码向量序列和先验编码向量序列进行融合,融合的次数根据原始语音信号经分帧处理后的帧数确定。在每次融合时,先在时间维度上分别对声学编码向量序列和先验编码向量序列进行加权求和获得各自的句子级编码向量,然后在对两个句子级编码向量进行加权求和。
具体地,如图2所示,将声学编码向量序列
Figure BDA0003040457110000051
和解码器网络在l-1次解码输出的隐状态向量ql-1,输入第一注意力网络,获得第一注意力网络输出的当前迭代次数l的第一权值向量
Figure BDA0003040457110000052
基于
Figure BDA0003040457110000053
按照公式(1)在时间维度上对声学编码向量序列
Figure BDA0003040457110000054
进行加权求和,获得当前迭代次数l的句子级声学编码向量
Figure BDA0003040457110000055
同样地,将先验编码向量序列
Figure BDA0003040457110000056
和解码器网络在l-1次迭代中解码输出的隐状态向量ql-1,输入第二注意力网络,获得第一注意力网络输出的当前迭代次数l的第一权值向量
Figure BDA0003040457110000057
基于
Figure BDA0003040457110000058
按照公式(1)在时间维度上对先验编码向量序列
Figure BDA0003040457110000059
进行加权求和,获得当前迭代次数l的句子级先验编码向量
Figure BDA00030404571100000510
Figure BDA00030404571100000511
公式(1)中,i∈{1,2},t表示声学编码向量序列中向量的个数,l表示当前迭代次数,其中,每次迭代中均进行向量融合和解码。
继续参阅图2,在获得当前迭代次数l的句子级声学编码向量
Figure BDA0003040457110000061
和当前迭代次数l的句子级先验编码向量
Figure BDA0003040457110000062
后,将其同解码器网络在l-1次迭代中解码输出的隐状态向量ql-1输入层级注意力网络,获得层级注意力网络输出的当前迭代次数l的第三权值向量
Figure BDA0003040457110000063
基于
Figure BDA0003040457110000064
按照公式(2)对
Figure BDA0003040457110000065
Figure BDA0003040457110000066
进行加权求和,获得当前迭代次数l的融合编码向量rl
Figure BDA0003040457110000067
其中,上述的第一注意力网络和第二注意力网络均采用local attention类型,包含320个节点;层级注意力网络也采用local attention类型,包括320个节点。
然后,利用解码器网络进行解码时,将当前迭代次数l的融合编码向量rl和解码器网络在l-1次迭代中解码输出的隐状态向量ql-1均输入解码器网络进行解码,解码器网络对输入的向量进行部分解码,获得当前迭代次数l对应的第三音素序列。其中,解码器器网络采用1层320节点的BLSTM层构建。
上述的编码器网络、辅助编码器网络、第一注意力网络、第二注意力网络和解码器网络均采用训练样本进行训练,训练样本包括:已知的语音信号及其带重音标签的音素序列和带元音弱读标签的音素序列。训练各个网络时,计算编码器和辅助编码器网络的CTC损失函数pctc(C|X),以及计算解码器网络的损失函数作为注意力损失函数patt(C|X),并按公式(3)确定总体损失函数L。接着,采用梯度下降法计算损失函数L的梯度值,并回传梯度更新所有网络的参数。然后,根据公式(4)确定预测出的最接近带元音弱读标签的音素序列样本的预测序列
Figure BDA0003040457110000069
L=λlogpctc(C|X)+(1-λ)logpatt(C|X) (3)
公式(3)中,X为语音信号样本的声学特向量序列,C为语音信号样本的带元音弱读标签的音素预测序列,λ为权重,平衡两种损失函数。
Figure BDA0003040457110000068
公式(4)中,U为多次解码获得的语音信号样本的带元音弱读标签的音素预测序列的集合。
在步骤S4中,对解码获得的第三音素概率序列、第一CTC模块获得的第一音素概率序列和第二CTC模块获得的第二音素概率序列进行加权融合,获得第四音素概率序列,采用波束搜索方法对第四音素概率序列进行波束搜索,获得所述语音信号对应的带元音弱读标签的音素序列。
本实施例中,将波束大小(Beam Size)设定为10,在步骤S3获得的每次迭代对应的第三音素概率序列中保留总体概率最大的10个音素序列,将其作为下一次计算使用的部分序列,进行下一次迭代,直至生成整个序列,完成解码,该序列即为带元音弱读标签的音素序列。
本申请实施例提供了一种元音弱读检测装置,如图3所示,该装置包括:
提取模块,用于对用户朗读目标文本的语音信号进行特征提取,获得声学特征向量序列;
编码模块,利用编码器网络对所述声学特征向量序列进行编码,获得声学编码向量序列;
融合模块,用于采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合;所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得;
解码模块,用于利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列;
波束搜索模块,用于采用波束搜索方法对第四音素概率序列进行波束搜索,获得所述语音信号对应的带元音弱读标签的音素序列;所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得,所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得,所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。
本实施例中,该装置还包括训练模块,所述训练模块具体用于:
获取训练样本;所述训练样本包括:语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本;
根据所述训练样本和损失函数,采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络;所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。
其中,各模块的具体功能参见发明内容和前述方法实施例中的介绍,此处不再赘述。
基于上述方法实施例,本申请还提供一种计算设备,如图4所示,该计算设备包括存储器、处理器、通信接口以及总线。其中,存储器、处理器、通信接口通过总线实现彼此之间的通信连接。
存储器可以是只读存储器(read only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、硬盘和快闪存储器中一个或其任意组合。存储器可以存储程序,当存储器中存储的程序被处理器执行时,处理器和通信接口用于执行计算设备为用户提供元音弱读检测方法。
处理器可以采用中央处理器(central processing unit,CPU),应用专用集成电路(application specific integrated circuit,ASIC),GPU或其任意组合。处理器可以包括一个或多个芯片。处理器可以包括AI加速器,例如神经网络处理器(neural processingunit,NPU)。
通信接口使用例如收发器一类的收发模块,来实现计算设备与其他设备或通信网络之间的通信。
总线可包括在计算设备各个部件(例如,存储器、处理器、通信接口)之间传送信息的通路。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。

Claims (10)

1.一种元音弱读检测方法,其特征在于,所述方法包括:
对用户朗读目标文本的语音信号进行特征提取,获得声学特征向量序列;
利用编码器网络对所述声学特征向量序列进行编码,获得声学编码向量序列;
采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合;所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得;
利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列;
采用波束搜索方法对第四音素概率序列进行波束搜索,获得所述语音信号对应的带元音弱读标签的音素序列;所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得,所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得,所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。
2.根据权利要求1所述的方法,其特征在于,所述采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合包括:
将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络,获得当前迭代的第三加权向量;其中,所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得,所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得;
基于所述当前迭代的第三加权向量,对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和,获得当前迭代次数的融合编码向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第一注意力网络,获得所述当前迭代次数的第一权值向量,以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第二注意力网络,获得所述当前迭代次数的第二权值向量。
4.根据权利要求1所述的方法,其特征在于,所述利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列包括:
将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量,输入所述解码器网络进行解码,获得所述第三音素概率序列。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取训练样本;所述训练样本包括:语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本;
根据所述训练样本和损失函数,采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络;所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。
6.一种元音弱读检测装置,其特征在于,所述装置包括:
提取模块,用于对用户朗读目标文本的语音信号进行特征提取,获得声学特征向量序列;
编码模块,利用编码器网络对所述声学特征向量序列进行编码,获得声学编码向量序列;
融合模块,用于采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合;所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得;
解码模块,用于利用解码器网络对每次迭代获得的融合编码向量进行解码,获得每次迭代对应的第三音素概率序列;
波束搜索模块,用于采用波束搜索方法对第四音素概率序列进行波束搜索,获得所述语音信号对应的带元音弱读标签的音素序列;所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得,所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得,所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。
7.根据权利要求6所述的装置,其特征在于,所述融合模块具体用于:
将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络,获得当前迭代的第三加权向量;其中,所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得,所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得;
基于所述当前迭代的第三加权向量,对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和,获得当前迭代次数的融合编码向量。
8.根据权利要求7所述的装置,其特征在于,所述融合模块还具体用于:
将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第一注意力网络,获得所述当前迭代次数的第一权值向量,以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量,输入所述第二注意力网络,获得所述当前迭代次数的第二权值向量。
9.根据权利要求6所述的装置,其特征在于,所述解码模块具体用于:
将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量,输入所述解码器网络进行解码,获得所述第三音素概率序列。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块具体用于:
获取训练样本;所述训练样本包括:语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本;
根据所述训练样本和损失函数,采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络;所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。
CN202110455748.0A 2021-04-26 2021-04-26 一种元音弱读检测方法及装置 Active CN113066510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110455748.0A CN113066510B (zh) 2021-04-26 2021-04-26 一种元音弱读检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110455748.0A CN113066510B (zh) 2021-04-26 2021-04-26 一种元音弱读检测方法及装置

Publications (2)

Publication Number Publication Date
CN113066510A CN113066510A (zh) 2021-07-02
CN113066510B true CN113066510B (zh) 2022-08-12

Family

ID=76567493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110455748.0A Active CN113066510B (zh) 2021-04-26 2021-04-26 一种元音弱读检测方法及装置

Country Status (1)

Country Link
CN (1) CN113066510B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689882A (zh) * 2021-08-24 2021-11-23 上海喜马拉雅科技有限公司 发音评测方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000031723A1 (en) * 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
CN104575519A (zh) * 2013-10-17 2015-04-29 清华大学 特征提取方法、装置及重音检测的方法、装置
CN111312231A (zh) * 2020-05-14 2020-06-19 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型
CN112331229A (zh) * 2020-10-23 2021-02-05 网易有道信息技术(北京)有限公司 语音检测方法、装置、介质和计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101417647B1 (ko) * 2013-06-13 2014-07-09 포항공과대학교 산학협력단 모음 약화를 학습하기 위한 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000031723A1 (en) * 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
CN104575519A (zh) * 2013-10-17 2015-04-29 清华大学 特征提取方法、装置及重音检测的方法、装置
CN111312231A (zh) * 2020-05-14 2020-06-19 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型
CN112331229A (zh) * 2020-10-23 2021-02-05 网易有道信息技术(北京)有限公司 语音检测方法、装置、介质和计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于区分性特征的音素识别;李立永等;《信息工程大学学报》;20131215;第14卷(第06期);692-699 *

Also Published As

Publication number Publication date
CN113066510A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
Toshniwal et al. Multilingual speech recognition with a single end-to-end model
CN107305768B (zh) 语音交互中的易错字校准方法
Seki et al. An end-to-end language-tracking speech recognizer for mixed-language speech
CN111402895B (zh) 语音处理、语音评测方法、装置、计算机设备和存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
KR20180005850A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN111798840B (zh) 语音关键词识别方法和装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111144110A (zh) 拼音标注方法、装置、服务器及存储介质
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
JP2020042257A (ja) 音声認識方法及び装置
US20220028367A1 (en) Expressive text-to-speech utilizing contextual word-level style tokens
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
CN114360504A (zh) 音频处理方法、装置、设备、程序产品及存储介质
CN115881104A (zh) 基于热词编码的语音识别方法、装置和存储介质
Raval et al. Improving deep learning based automatic speech recognition for Gujarati
CN113066510B (zh) 一种元音弱读检测方法及装置
Alrumiah et al. Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues
Lin et al. Improving pronunciation erroneous tendency detection with multi-model soft targets
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN113096646B (zh) 音频识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant