CN111583961A - 一种重音评价方法、装置及电子设备 - Google Patents

一种重音评价方法、装置及电子设备 Download PDF

Info

Publication number
CN111583961A
CN111583961A CN202010377024.4A CN202010377024A CN111583961A CN 111583961 A CN111583961 A CN 111583961A CN 202010377024 A CN202010377024 A CN 202010377024A CN 111583961 A CN111583961 A CN 111583961A
Authority
CN
China
Prior art keywords
accent
voice data
hmm
dnn
stress
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010377024.4A
Other languages
English (en)
Inventor
饶丰
应燚标
庞永强
王丹
汪巍
杨熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyi Education Information Consulting Co ltd
Original Assignee
Beijing Yiyi Education Information Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyi Education Information Consulting Co ltd filed Critical Beijing Yiyi Education Information Consulting Co ltd
Priority to CN202010377024.4A priority Critical patent/CN111583961A/zh
Publication of CN111583961A publication Critical patent/CN111583961A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种重音评价方法、装置及电子设备,其中,该方法包括:获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN‑隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN‑HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。通过本发明实施例提供的重音评价方法、装置及电子设备,能够对语音数据中的各音素的重音进行准确评价。

Description

一种重音评价方法、装置及电子设备
技术领域
本发明涉及深度学习技术领域,具体而言,涉及一种重音评价方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,语音评测是K12在线教育场景中的重要场景,通过在线进行语音评测,可以有效的提升学生的口语水平。而重音作为发音的重要评价部分,对口语打分的准确性起着至关重要的作用。
重音作为一个重要的评分标准,可以采用基于韵律的重音打分模型,从语言学的角度去理解重音的打分。
重音的打分过程中容易实现过拟合或者是欠拟合的现象,影响最终的打分效果。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种重音评价方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例提供了一种重音评价方法,包括:
获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
第二方面,本发明实施例提供了一种重音评价装置,包括:
获取模块,用于获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
处理模块,用于将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
评价模块,用于利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
第三方面,本发明实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现如上述第一方面所述的重音评价方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的重音评价方法中的步骤。
本发明实施例提供的第一方面至第四方面提供的方案中,通过将待评价的语音数据中的各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧音频数据在所有音素上的重音置信度,并利用所述重音置信度,对语音数据中各所述音素的重音进行评价,与相关技术中采用基于韵律的重音打分模型,从语言学的角度去理解重音的打分的方式相比,可以在重音音素数量有限的情况下,尽可能避免重音打分过程中的过拟合向现象或者是欠拟合现象,能够对语音数据中的各音素的重音进行准确评价。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例1所提供的一种重音评价方法的流程图;
图2示出了本发明实施例2所提供的一种重音评价装置的结构示意图;
图3示出了本发明实施例3所提供的一种电子设备的结构示意图。
具体实施方式
为了本发明实施例的描述清楚简洁,首先给出相关概念或技术的简要介绍:
音素,用于描述一种语言的基本单位称为音素。例如:good就是由g、u:和d三个音素组成。
语音数据是一个连续的信号,不像图像一样是可分割的,发音一般都连续的,所以一般采用三音素(tri-phoneme)来描述语音数据中的每一帧语音。
为了得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度,首先,对本申请各实施例提出的重音评价方法中使用的具有非重音标签的输出层的DNN-HMM的训练过程进行描述:
(1)提取输入语音的语音特征;输入语音作为具有非重音标签的输出层的DNN-HMM训练的基础信号,提取语音的梅尔频率倒谱系数特征(Mel-scaleFrequency CepstralCoefficients,MFCC)作为训练的具有非重音标签的输出层的DNN-HMM的输入特征;
(2)采用Tri-phoneme作为混合高斯模型(Gaussian Mixture Model,GMM)建模的最小单元,通过期望最大算法(Expectatioin-Maximalization,EM)和决策树的方法对输入语音的单音素(Mono phoneme)扩展为三音素(Tri-phoneme);
(3)利用HMM-GMM模型的输出作为每一帧语音信号的非重音标签,解决连续数据无法通过人工进行标签的问题;HMM-GMM模型的输出层使用非重音词典,也就是说,针对输入语音,HMM-GMM模型不考虑重音,无论这个音素是否应该重度,HMM-GMM模型都用同一个音标来进行标识;
(4)利用时延神经网络(Time delay neural network,TDNN)对HMM-GMM模型进行有监督的模型训练,得到具有非重音标签的输出层的DNN-HMM;其中,DNN-HMM中输出层使用的词典依然是非重音词典;具有非重音标签的输出层的DNN-HMM能够输出包括音素在观测序列上的发射概率分布。
在上述步骤(1)中,所述输入语音是K12用户的相对优质的语音数据。
在上述步骤(3)中,所述非重音词典,用于存储不带重音的音标。
上述步骤(1)至步骤(4)为现有的DNN-HMM训练方法,相比传统的GMM-HMM模型,DNN在字错率和系统鲁棒性上均要优于GMM模型。
所述具有非重音标签的输出层的DNN-HMM,是非重音的声学模型,用于对音素进行较好的似然度分析;但是对音素是否为重音,所述具有非重音标签的输出层的DNN-HMM。
本申请各实施例提出的DNN-HMM网络结构和现有的不同,同时也没有采用RNN为代表的循环卷积网络。因为使用DNN-HMM的目的不是为了获取更好的语音识别性能,而是为了更好的获取每一帧语音更精确的音素分布。所以我们采用了TDNN作为深度学习网络的基本建模单元。
基于此,本实施例提出一种重音评价方法、装置、电子设备及计算机可读存储介质,通过将待评价的语音数据中的各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧音频数据在所有音素上的重音置信度,并利用所述重音置信度,对语音数据中各所述音素的重音进行评价,可以在重音音素数量有限的情况下,能够对语音数据中的各音素的重音进行准确评价。
所属技术领域的技术人员应当知道,本发明实施例可以实现为重音评价方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
下面将参照本发明实施例的重音评价方法、装置、电子设备及计算机可读存储介质的流程图和/或方框图描述本发明实施例。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
实施例1
本实施例提出的一种重音评价方法的执行主体时服务器。
在执行以下重音评价方法描述的步骤100至步骤104之前,本实施例提出的重音评价方法需要先训练得到具有重音标签的输出层的DNN-HMM。
为了训练得到具有重音标签的输出层的DNN-HMM,本实施例提出的重音评价方法,可以执行以下步骤(1)至步骤(2):
(1)利用重音词典对具有非重音标签的输出层DNN-HMM中输出层的非重音词典进行替换,得到替换后的DNN-HMM;
(2)利用重音语音数据对替换后的DNN-HMM进行训练,得到具有重音标签的输出层的DNN-HMM。
在上述步骤(1)中,所述重音词典是,
在上述步骤(2)中,为了使得替换后的DNN-HMM能够区分出音素是重音还是非重音,首先对DNN-HMM的输出层使用的词典进行修改,用重音词典替换非重音词典;也就是说,DNN-HMM使用的音素的数据集比以前要多,而且另外每个单词进行了重音词典标注,例如:将语音数据homework的非重音音素
Figure BDA0002480516200000071
替换为具有重音音素的
Figure BDA0002480516200000072
具有重音标签的输出层的DNN-HMM通过这种操作,可以让所有通过具有重音标签的输出层的DNN-HMM处理的语音数据带有重音标签。
通过调整输出层,用重音词典替换掉了非重音词典,并利用重音语音数据对替换后的DNN-HMM进行重新训练。即对DNN-HMM进行模型的Fine-Tune训练,得到具有重音标签的输出层的DNN-HMM。
所述重音语音数据,可以是人工判定后确定的重音发音准确的语音数据。
所述重音标签,也可以称为重音音素。
在训练得到具有重音标签的输出层的DNN-HMM后,可以执行本实施例提出的重音评价方法描述的步骤100至步骤104,对语音数据的
所述服务器,可以采用现有技术中任何可以对语音数据进行重音评价的计算设备,这里不再一一赘述。
参见图1所示的一种重音评价方法的流程图,本实施例提出一种重音评价方法,包括以下具体步骤:
步骤100、获取待评价的语音数据,利用具有非重音标签的输出层的DNN-HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度。
在上述步骤100中,在一个实施方式中,待评价的语音数据可以是用户发出的具有任何文字语句的语音,可以是但不限于:中文语音以及英文语音。
利用具有非重音标签的输出层的DNN-HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度的过程是现有技术,这里不再赘述。
各音素的发音起始时间和发音终止时间,确定了各音素在语音数据中的发音位置;而所述非重音置信度,用于表示各音素在语音数据中的每一帧语音数据中的概率分布。
步骤102、将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度。
在上述步骤102中,将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度可以采用现有任何DNN-HMM对数据的处理流程实现,这里不再赘述。
所述重音置信度,用于表示语音数据中的每一帧音频数据在包括重音音素的所有音素上的概率分布。
步骤104、利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
这里,为了对所述语音数据中各所述音素的重音进行评价,上述步骤104可以执行以下步骤:
将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果。
其中,所述XGBoost分类器运行在服务器中,能够对服务器输入的重音置信度进行处理,得到所述语音数据中各所述音素的重音进行评价结果。
在一个实施方式中,可以采用如下公式对将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果的过程进行描述:
y=XGBoost(f(x))
其中,y表示语音数据中各所述音素的重音进行评价结果;f(x)表示重音置信度。
所述评价结果,为0到1之间的任意数值;评价结果越接近1,那么说明音素的重音越准确。
综上所述,本实施例提出的重音评价方法,通过将待评价的语音数据中的各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧音频数据在所有音素上的重音置信度,并利用所述重音置信度,对语音数据中各所述音素的重音进行评价,与相关技术中采用基于韵律的重音打分模型,从语言学的角度去理解重音的打分的方式相比,可以在重音音素数量有限的情况下,尽可能避免重音打分过程中的过拟合向现象或者是欠拟合现象,能够对语音数据中的各音素的重音进行准确评价。
实施例2
本实施例提出一种重音评价装置,用于执行上述实施例1提出的重音评价方法。
参见图2所示的一种重音评价装置的结构示意图,所述重音评价装置,包括:
获取模块200,用于获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
处理模块202,用于将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
评价模块204,用于利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
所述重音评价装置,还包括:
替换模块,用于利用重音词典对具有非重音标签的输出层的DNN-HMM中输出层的非重音词典进行替换,得到替换后的DNN-HMM;
训练模块,用于利用重音语音数据对替换后的DNN-HMM进行训练,得到具有重音标签的输出层的DNN-HMM。
所述评价模块,具体用于:
将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果。
综上所述,本实施例提出的重音评价装置,通过将待评价的语音数据中的各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧音频数据在所有音素上的重音置信度,并利用所述重音置信度,对语音数据中各所述音素的重音进行评价,与相关技术中采用基于韵律的重音打分模型,从语言学的角度去理解重音的打分的方式相比,可以在重音音素数量有限的情况下,尽可能避免重音打分过程中的过拟合向现象或者是欠拟合现象,能够对语音数据中的各音素的重音进行准确评价。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述重音评价方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图3所示的一种电子设备的结构示意图,本发明实施例还提供了一种电子设备,该电子设备包括总线71、处理器72、收发器73、总线接口74、存储器75和用户接口76。
在本发明实施例中,该电子设备还包括:存储在存储器75上并可在处理器72上运行的计算机程序,计算机程序被处理器72执行时实现以下步骤:
获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
可选地,计算机程序被处理器72执行时还可实现以下步骤:
利用重音词典对具有非重音标签的输出层的DNN-HMM中输出层的非重音词典进行替换,得到替换后的DNN-HMM;
利用重音语音数据对替换后的DNN-HMM进行训练,得到具有重音标签的输出层的DNN-HMM。
上述利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价,包括:
将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果。
收发器73,用于在处理器72的控制下接收和发送数据。
在图3中,总线架构(用总线71来代表),总线71可以包括任意数量互联的总线和桥,总线71将包括由处理器72代表的一个或多个处理器与存储器75代表的存储器的各种电路连接在一起。
总线71表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器72可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器72可以是微处理器或任何常规的处理器。结合本发明实施例所公开的重音评价方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(Flash Memory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线71还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口74在总线71和收发器73之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器73可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器73从其他设备接收外部数据,收发器73用于将处理器72处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口76,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器75可进一步包括相对于处理器72远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器75可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器75包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器75存储了操作系统751和应用程序752的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统751包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序752包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序752中。应用程序752包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述重音评价方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体而言,计算机程序被处理器执行时可实现以下步骤:
获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
可选地,计算机程序被处理器执行时还可实现以下步骤:
利用重音词典对具有非重音标签的输出层的DNN-HMM中输出层的非重音词典进行替换,得到替换后的DNN-HMM;
利用重音语音数据对替换后的DNN-HMM进行训练,得到具有重音标签的输出层的DNN-HMM。
上述利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价,包括:
将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或二者的结合来实现,为了清楚说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序指令。所述计算机程序指令包括:汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言,例如:Smalltalk、C++以及过程式编程语言,例如:C语言或类似的编程语言。
在计算机上加载和执行所述计算机程序指令时,全部或部分的产生按照本发明实施例所述的流程或功能,所述计算机可以是通过计算机、专用计算机、计算机网络或其他可编辑装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如:所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、双绞线、光纤、数字用户线路(digitalsubscriber line,DSL))或无线(例如:红外、无线、微波)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、磁盘、磁带)、光介质(例如:光盘)或半导体介质(例如:固态硬盘(Solid State Drive,SSD))等。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述本发明方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
综上所述,本实施例提出的电子设备和计算机可读存储介质,通过将待评价的语音数据中的各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧音频数据在所有音素上的重音置信度,并利用所述重音置信度,对语音数据中各所述音素的重音进行评价,与相关技术中采用基于韵律的重音打分模型,从语言学的角度去理解重音的打分的方式相比,可以在重音音素数量有限的情况下,尽可能避免重音打分过程中的过拟合向现象或者是欠拟合现象,能够对语音数据中的各音素的重音进行准确评价。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种重音评价方法,其特征在于,包括:
获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用重音词典对具有非重音标签的输出层的DNN-HMM中输出层的非重音词典进行替换,得到替换后的DNN-HMM;
利用重音语音数据对替换后的DNN-HMM进行训练,得到具有重音标签的输出层的DNN-HMM。
3.根据权利要求1所述的方法,其特征在于,利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价,包括:
将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果。
4.一种重音评价装置,其特征在于,包括:
获取模块,用于获取待评价的语音数据,利用具有非重音标签的输出层的深度神经网络DNN-隐马尔科夫模HMM对待评价的语音数据进行强制对齐,得到待评价的语音数据中各音素的发音起始时间、发音终止时间以及非重音置信度;
处理模块,用于将各所述音素的发音起始时间、发音终止时间以及非重音置信度输入到具有重音标签的输出层的DNN-HMM中,得到待评价的语音数据中的每一帧语音数据在所有音素上的重音置信度;
评价模块,用于利用所述重音置信度,对所述语音数据中各所述音素的重音进行评价。
5.根据权利要求4所述的装置,其特征在于,还包括:
替换模块,用于利用重音词典对具有非重音标签的输出层的DNN-HMM中输出层的非重音词典进行替换,得到替换后的DNN-HMM;
训练模块,用于利用重音语音数据对替换后的DNN-HMM进行训练,得到具有重音标签的输出层的DNN-HMM。
6.根据权利要求4所述的装置,其特征在于,所述评价模块,具体用于:
将所述重音置信度输入到XGBoost分类器中,得到所述语音数据中各所述音素的重音进行评价结果。
7.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的重音评价方法中的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的重音评价方法中的步骤。
CN202010377024.4A 2020-05-07 2020-05-07 一种重音评价方法、装置及电子设备 Withdrawn CN111583961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010377024.4A CN111583961A (zh) 2020-05-07 2020-05-07 一种重音评价方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010377024.4A CN111583961A (zh) 2020-05-07 2020-05-07 一种重音评价方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111583961A true CN111583961A (zh) 2020-08-25

Family

ID=72117002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010377024.4A Withdrawn CN111583961A (zh) 2020-05-07 2020-05-07 一种重音评价方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111583961A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492418A (zh) * 2022-02-09 2022-05-13 西安讯飞超脑信息科技有限公司 文本转换方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62262099A (ja) * 1986-05-08 1987-11-14 日本電気株式会社 発音辞書更新装置
CN101751919A (zh) * 2008-12-03 2010-06-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及系统
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
US20170358293A1 (en) * 2016-06-10 2017-12-14 Google Inc. Predicting pronunciations with word stress
CN109872727A (zh) * 2014-12-04 2019-06-11 上海流利说信息技术有限公司 语音质量评价设备、方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62262099A (ja) * 1986-05-08 1987-11-14 日本電気株式会社 発音辞書更新装置
CN101751919A (zh) * 2008-12-03 2010-06-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及系统
CN109872727A (zh) * 2014-12-04 2019-06-11 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
US20170358293A1 (en) * 2016-06-10 2017-12-14 Google Inc. Predicting pronunciations with word stress

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李超雷: "交互式语言学习系统中的发音质量客观评价方法研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492418A (zh) * 2022-02-09 2022-05-13 西安讯飞超脑信息科技有限公司 文本转换方法及相关装置

Similar Documents

Publication Publication Date Title
US11996088B2 (en) Setting latency constraints for acoustic models
US10586533B2 (en) Method and device for recognizing speech based on Chinese-English mixed dictionary
CN109767752B (zh) 一种基于注意力机制的语音合成方法及装置
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
CN109545243B (zh) 发音质量评价方法、装置、电子设备及存储介质
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
Shi et al. Context-aware goodness of pronunciation for computer-assisted pronunciation training
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
CN112397056B (zh) 语音评测方法及计算机存储介质
WO2023093295A1 (zh) 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质
EP3910625A2 (en) Method and apparatus for utterance time estimation
CN112802456A (zh) 一种语音评测打分方法、装置、电子设备及存储介质
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
US9953638B2 (en) Meta-data inputs to front end processing for automatic speech recognition
CN113450760A (zh) 一种文本转语音的方法、装置及电子设备
CN111583961A (zh) 一种重音评价方法、装置及电子设备
CN112863486B (zh) 一种基于音素的口语评测方法、装置及电子设备
CN113506563A (zh) 一种发音识别的方法、装置及电子设备
US11670292B2 (en) Electronic device, method and computer program
CN114242035A (zh) 语音合成方法、装置、介质以及电子设备
JP4864783B2 (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
CN111199750B (zh) 一种发音评测方法、装置、电子设备及存储介质
Tits et al. Flowchase: a Mobile Application for Pronunciation Training
CN112951276B (zh) 一种综合评价语音的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200825