CN101510423A

CN101510423A - 发音检测方法及装置

Info

Publication number: CN101510423A
Application number: CNA200910081046XA
Authority: CN
Inventors: 李伟; 徐波
Original assignee: Individual
Current assignee: Tianjin Xunfei Information Technology Co ltd
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2009-08-19
Anticipated expiration: 2029-03-31
Also published as: CN101510423B

Abstract

本发明公开了一种发音检测方法及装置，该方法包括录制音频信号的步骤和检测录制的音频信号中每个音素是否发音错误的步骤，该步骤具体包括：针对录制的音频信号中的每个音素分别执行：获得该音素的第一特征向量，将获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较，将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，并在比较结果不一致时，确定该音素为发音错误的音素。采用本发明技术方案，解决了现有技术中存在的如果要改变规定发音内容，则需要重新录制与该规定发音内容对应的标准发音音频信号的问题。

Description

发音检测方法及装置

技术领域

本发明涉及信号检测技术领域，特别涉及一种发音检测方法及装置。

背景技术

近年来，基于多媒体技术的语言学习系统得到了广泛应用，这些系统主要侧重于解决语言理解方面的问题，而发音质量的提高则主要通过学习者自身的练习来实现。在发音自学过程中，学习者一般依靠自身的感知能力去比较自身发音与标准发音的差别，从而修正其发音，但是这种方式具有很大的局限性。针对上述问题，现有技术提出了计算机辅助发音检测系统，该系统可以在学习者进行发音的过程中，自动地、实时地检测学习者的发音，并指出错误发音，从而使学习者可以根据该系统反馈的信息，及时纠正自身的错误发音，提高了语言学习的效率。

如图1所示，为现有的发音检测方法流程图，其具体步骤如下：

步骤11，根据预设的规定发音内容，录制对应的标准发音音频信号；

步骤12，接收用户输入的音频信号；

步骤13，对接收到的音频信号进行语音识别，得到每个单词或单字的分段信息；

步骤14，提取用户输入的每个单词或单字对应的音频信号的特征信息；

步骤15，根据步骤13得到的分段信息，将用户输入的每个单词或单字对应的音频信号的特征信息，与标准发音音频信号中对应位置的音频信号的特征信息进行比较；

步骤16，根据比较结果，确定用户输入的每个单词或单字的发音是否正确。

由上述处理过程可知，现有的发音检测方法需要将用户输入的音频信号与标准发音音频信号进行比较，并根据比较结果确定用户的发音是否正确，但是如果要改变规定发音内容，则需要重新录制与该规定发音内容对应的标准发音音频信号，这就使得发音检测的灵活性较低。

发明内容

本发明实施例提供一种发音检测方法及装置，用以解决现有技术中存在的如果要改变规定发音内容，则需要重新录制与该规定发音内容对应的标准发音音频信号的问题。

本发明实施例技术方案如下：

一种发音检测方法，该方法包括步骤：录制音频信号的步骤；和检测录制的音频信号中每个音素是否发音错误的步骤，该步骤具体包括：针对录制的音频信号中的每个音素分别执行：获得该音素的第一特征向量；将获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；并在比较结果不一致时，确定该音素为发音错误的音素。

一种发音检测装置，包括：录制单元，用于录制音频信号；第一获得单元，用于针对录制单元录制的音频信号中的每个音素，分别获得该音素的第一特征向量；第一比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一获得单元获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；第二比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一比较单元比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；第一确定单元，用于针对录制单元录制的音频信号中的每个音素，在第二比较单元比较结果不一致时，确定该音素为发音错误的音素。

一种发音检测方法，该方法包括步骤：录制音频信号的步骤；和检测录制的音频信号中每个音素是否发音错误的步骤，该步骤具体包括：针对录制的音频信号中的每个音素分别执行：获得该音素的第一特征向量；根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合；将获得的该音素的第一特征向量，分别与确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；并在比较结果不一致时，确定该音素为发音错误的音素。

一种发音检测装置，包括：录制单元，用于录制音频信号；第一获得单元，用于针对录制单元录制的音频信号中的每个音素，分别获得该音素的第一特征向量；第一确定单元，用于针对录制单元录制的音频信号中的每个音素，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合；第一比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一获得单元获得的该音素的第一特征向量，分别与第一确定单元确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；第二比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一比较单元比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；第二确定单元，用于针对录制单元录制的音频信号中的每个音素，在第二比较单元比较结果不一致时，确定该音素为发音错误的音素。

本发明实施例技术方案中，首先录制音频信号，针对录制的音频信号中的每个音素分别执行：获得该音素的第一特征向量，将获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较，将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，并在比较结果不一致时，确定该音素为发音错误的音素；本发明实施例技术方案还提出，针对录制的音频信号中的每个音素，在获得该音素的第一特征向量后，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合，将获得的该音素的第一特征向量，分别与确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较，再将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，并在比较结果不一致时，确定该音素为发音错误的音素。由于用户输入的发音音频信号是由各个音素组成，而每个音素对应的发音内容可以在预设的或根据发音内容类型信息确定的发音内容集合中确定，在确定出每个音素的发音内容后，可以根据确定出的发音内容与对应规定发音内容的一致性来检测用户的发音，而不需要将用户的发音音频信号与标准音频信号进行比较，因此在对用户的发音进行检测时，若需改变用户的规定发音内容，则不再需要重新录制对应的标准发音音频信号，这就有效的提高了发音检测的灵活性。

附图说明

图1为现有技术中，发音检测方法流程示意图；

图2为本发明实施例一中，发音检测方法流程示意图；

图3为本发明实施例一中，发音检测方法具体实现流程示意图；

图4为本发明实施例一中，发音检测装置结构示意图；

图5为本发明实施例二中，发音检测方法流程示意图；

图6为本发明实施例二中，发音检测方法具体实现流程示意图；

图7为本发明实施例二中，发音检测装置结构示意图。

具体实施方式

下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

如图2所示，为本发明实施例一中发音检测方法流程图，其具体处理过程如下：

步骤21，录制音频信号；

步骤22，针对录制的音频信号中的每个音素，获得该音素的第一特征向量；

其中上述第一特征向量可以但不限于包含下述特征向量中的一种或多种：时长向量、基音频率向量、脉冲能量向量、溢出能量向量等。

在执行步骤22前，可以先对录制的音频信号的语音信号的音量进行检测，其中该过程的具体实现方式可以如下：

首先确定录制的音频信号中是否存在语音信号，在确定出存在语音信号时，获得录制的音频信号的幅度信息和信噪比信息，根据获得的幅度信息和信噪比信息，判断出录制的音频信号中的语音信号的音量正常。

若检测出录制的音频信号的音量正常，则执行步骤22，对录制的音频信号进行发音检测，而在检测出录制的音频信号的音量不正常时，不再对该录制的音频信号进行发音检测，可以向用户发出相应的提示信息，提示录音设备出现故障或录音设置存在问题，这样就避免了在录制的音频信号的语音信号的音量不正常时也进行发音检测，从而节省了检测资源，有效的提高了发音检测的灵活性。

此外，在执行步骤22前，还可以先检测用户在发音检测过程中是否按照规定发音内容进行发音，其中该过程的具体实现方式可以如下：

首先确定出录制的音频信号中每个音素对应的估计发音内容，再分别将每个音素的估计发音内容与该音素对应的规定发音内容进行比较，根据比较结果，计算在录制的音频信号所包含的所有音素中估计发音内容与对应的规定发音内容一致的音素所占的比例值，并确定计算得到的比例值大于规定阈值。

若检测出用户的发音音频信号中，估计发音内容和对应的规定发音内容一致的音素在该音频信号中所有音素中所占的比例值达到规定的阈值，则确定用户在按照规定的发音内容发音，此时执行步骤22，对录制的音频信号进行发音检测，否则确定用户没有按照规定发音内容发音，此时不再对该录制的音频信号进行发音检测，而是向用户发出相应的提示信息，提示用户按照规定发音内容进行发音，这样就避免了在用户没有按照规定的发音内容进行发音时也进行发音检测，从而节省了检测资源，有效的提高了发音检测的灵活性。

此外，在本发明实施例中，可以在录制用户的发音音频信号后，首先检测音频信号中的语音信号的音量是否正常，在检测出语音信号音量正常后，再检测用户是否按照规定发音内容进行发音，在检测出用户按照规定发音内容进行发音后，再对用户的发音进行检测。

步骤23，将获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

上述第一发音内容集合可以但不限于为所有发音内容所组成的集合，以汉语发音为例，每个汉字的发音均由声母和韵母两个发音内容组成，其中声母的个数为24个，韵母的个数为37个，每个声母和每个韵母都为一个音素对应的发音内容，此时上述第一发音内容集合为24个声母和37个韵母所组成的发音内容集合。

步骤24，将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；

步骤25，在步骤24的比较结果不一致时，确定该音素为发音错误的音素。

在步骤24的比较结果不一致时，可以确定该音素为发音错误的音素，但是在步骤24的比较结果一致时，该音素不一定为发音正确的音素，因为某些发音内容在发音技巧、听觉感受方面很相似，而且第一特征向量可能不能区分这些发音内容，因此即使此时步骤24的比较结果一致，但是此时该音素并不一定为发音正确的音素，也可能为发音缺陷的音素，进一步检测该音素是否为发音缺陷的音素的具体实现方式可以如下：

首先根据该音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合，将该音素对应的第二特征向量，分别与查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较，将比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，在比较结果一致时，确定该音素为发音正确的音素，在比较结果不一致时，确定该音素为发音缺陷的音素。其中每个发音内容对应的第二发音内容集合中包含该发音内容、与该发音内容易混淆的发音内容、以及第一特征向量难以与该发音内容进行区分的发音内容，第二特征向量为能够区分第二发音内容集合中包含的发音内容的特征向量，因此不同的第二发音内容集合可能对应不同的第二特征向量，此外每个发音内容都对应一个第二发音内容集合，不同的发音内容对应的第二发音内容集合可能不同。

综上可知，在对用户进行发音检测时，可以首先判断录制的音频信号的音量是否正常，在判断出音量正常后，进一步判断用户是否按照规定发音内容进行发音，若判断出用户按照规定发音内容进行发音，则采用第一特征向量在第一发音内容集合中对每个音素进行发音错误的检测，针对没有检测出发音错误的音素，继续采用第二特征向量在第二发音内容集合中进行发音缺陷的检测，进而可以检测出该音素是否为发音缺陷的音素，这就提高了发音检测的准确性和灵活性。

在对录制的音频信号的每个音素进行发音检测时，可以将检测信息实时输出给用户，例如，在检测到录制的音频信号中不存在语音信号时，可以发出检查录音硬件设备的提示信息或检查录音软件设置的提示信息；在检测到录制的音频信号中的语音信号的音量不正常时，可以发出音量过大/过小的提示信息或环境过于吵闹的提示信息；在检测到用户没有按照规定的发音内容进行发音时，可以发出请用户按照规定发音内容进行发音的提示信息；在对录制的音频信号进行发音错误检测后，可以发出检测到的发音错误的音素的信息、以及这些音素的正确发音信息；在对录制的音频信号进行发音缺陷检测后，可以发出检测到的发音缺陷的音素的信息、以及这些发音缺陷的形成原因和纠正方法信息；此外还可以进一步根据检测结果对用户的发音质量进行评分，并将评分结果进行输出。

下面给出更为具体的实施方式。

在本发明实施例一中，假设对用户的汉语进行发音检测，用户的规定发音内容为“北京是中国的首都”，如图3所示，为本发明实施例一中发音检测方法具体实现流程图，其具体处理过程如下：

步骤31，录制音频信号；

步骤32，判断录制的音频信号中是否存在语音信号，若判断结果为是，则转至步骤33，若判断结果为否，则转至步骤319；

步骤33，获得录制的音频信号的幅度信息和信噪比信息；

步骤34，根据获得的幅度信息和信噪比信息，判断录制的音频信号中的语音信号的音量是否正常，若判断结果为是，则转至步骤35，若判断结果为否，则转至步骤320；

步骤35，确定出该录制的音频信号中的音素为16个，其中第一个音素对应的发音内容为声母，规定发音内容为“b”，第二个音素对应的发音内容为韵母，规定发音内容为“ei”，依次类推；

步骤36，确定出录制的音频信号中每个音素对应的估计发音内容；

步骤37，将每个音素的估计发音内容与该音素对应的规定发音内容进行比较；

步骤38，根据步骤37的比较结果，计算在录制的音频信号所包含的所有音素中，估计发音内容与对应的规定发音内容一致的音素所占的比例值；

步骤39，判断计算得到的比例值是否大于规定阈值，若判断结果为是，则转至步骤310，若判断结果为否，则转至步骤321；

步骤310，获得每个音素的第一特征向量；

步骤311，将获得的每个音素的第一特征向量，分别与包含所有声母和韵母的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

步骤312，将步骤311比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，若比较结果为一致，则转至步骤313，若比较结果为不一致，则转至步骤322，假设将第一个音素的第一特征向量与所有声母和韵母所组成的集合中的发音内容的第一特征向量一一进行比较，得到该音素的第一特征向量与发音内容“b”的第一特征向量的差异值最小，那么就将发音内容“b”与该音素的规定发音内容进行比较，得到的结果为一致，则转至步骤313；

步骤313，根据每个音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合，其中规定发音内容与第二发音集合的对应关系可以但不限于如下表所示：

发音内容	第二发音内容集合	发音内容	第二发音内容集合
发音内容	第二发音内容集合	发音内容	第二发音内容集合	b	b f d	y	y r b
c	c ch zh	z	z zh c	b	b f d	y	y r b
c	c ch zh	z	z zh c	ch	zh ch	zh	zh ch z
d	d zh z	a	a ua ang	ch	zh ch	zh	zh ch z
d	d zh z	a	a ua ang	f	f sh s	ai	ai a uai
g	g k zh	an	an a uan	f	f sh s	ai	ai a uai
g	g k zh	an	an a uan	h	h k p	ang	ang uang eng
j	j q zh	ao	ao ou a	h	h k p	ang	ang uang eng
j	j q zh	ao	ao ou a	k	k y t	e	e uo o
l	l r y	ei	ei uei ai	k	k y t	e	e uo o
l	l r y	ei	ei uei ai	m	m l n	en	en van uen
n	n l y	eng	eng ang ong	m	m l n	en	en van uen
n	n l y	eng	eng ang ong	nil	nil fk	er	er e a
p	p t k	i	i in ing	nil	nil fk	er	er e a
p	p t k	i	i in ing	q	q j ch	ia	ia a e
r	r l y	ian	ian van ie	q	q j ch	ia	ia a e
r	r l y	ian	ian van ie	s	s sh c	iang	iang iao ang
sh	sh ch zh	iao	iao iou ao	s	s sh c	iang	iang iao ang
sh	sh ch zh	iao	iao iou ao	t	t p ch	ib	ib e if
w	w h f	ie	ie ve ian	t	t p ch	ib	ib e if
w	w h f	ie	ie ve ian	x	x q sh	if	if e a
in	in ing vn	iong	iong ong iou	x	x q sh	if	if e a
in	in ing vn	iong	iong ong iou	ing	ing in iong	iou	iou iao ou
o	o uo e	ua	ua a uang	ing	ing in iong	iou	iou iao ou
o	o uo e	ua	ua a uang	ong	ong ou uang	uai	uai uan ua
ou	ou ao u	uan	uan ua uang	ong	ong ou uang	uai	uai uan ua
ou	ou ao u	uan	uan ua uang	u	u ou ong	uang	uang o uo

uei	uei ei uai	v	v ib ve
uei	uei ei uai	v	v ib ve	uen	uen uan en	van	van ve an
uo	uo o u	ve	ve van ib	uen	uen uan en	van	van ve an
uo	uo o u	ve	ve van ib	vn	vn ib ing

针对录制的音频信号中的第一个音素，第二发音内容集合为{b、d、f}。

步骤314，根据查找到的第二发音内容集合，确定该音素对应的第二特征向量；

步骤315，将该音素对应的第二特征向量，分别与查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较；

步骤316，将步骤315比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，若比较结果为一致，则转至步骤317，若比较结果为不一致，则转至步骤318，针对第一个音素，步骤315比较得到，与第一个音素的第二特征向量差异最小的第二特征向量所对应的发音内容为“d”，该发音内容与第一个音素的规定发音内容的比较结果不一致，因此转至步骤318；

步骤317，确定该音素为发音正确的音素；

步骤318，确定该音素为发音缺陷的音素；

步骤319，发出音频信号中不存在语音信号的提示信息；

步骤320，发出音频信号中的语音信号的音量不正常的提示信息；

步骤321，发出用户没有按照规定发音内容进行发音的提示信息；

步骤322，确定该音素为发音错误的音素。

由上述处理过程可知，本发明实施例一技术方案中，首先录制音频信号，针对录制的音频信号中的每个音素分别执行：获得该音素的第一特征向量，将获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较，将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，并在比较结果不一致时，确定该音素为发音错误的音素，由于用户输入的发音音频信号是由各个音素组成，而每个音素对应的发音内容可以在预设的发音内容集合中确定，在确定出每个音素的发音内容后，可以根据确定出的发音内容与对应规定发音内容的一致性来检测用户的发音，而不需要将用户的发音音频信号与标准音频信号进行比较，因此在对用户的发音进行检测时，若需改变用户的规定发音内容，则不再需要重新录制对应的标准发音音频信号，这就有效的提高了发音检测的灵活性。

本发明实施例一提供一种发音检测装置，如图4所示，包括录制单元41、第一获得单元42、第一比较单元43、第二比较单元44和第一确定单元45，其中：

录制单元41，用于录制音频信号；

第一获得单元42，用于针对录制单元41录制的音频信号中的每个音素，分别获得该音素的第一特征向量；

第一比较单元43，用于针对录制单元41录制的音频信号中的每个音素，将第一获得单元42获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

第二比较单元44，用于针对录制单元41录制的音频信号中的每个音素，将第一比较单元43比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；

第一确定单元45，用于针对录制单元41录制的音频信号中的每个音素，在第二比较单元44比较结果不一致时，确定该音素为发音错误的音素。

较佳地，上述发音检测装置进一步包括第二确定单元、第二获得单元和第三确定单元，其中第二确定单元，用于在第一获得单元42获得录制单元41录制的音频信号中的每个音素的第一特征向量之前，确定录制单元41录制的音频信号中是否存在语音信号；第二获得单元，用于在第二确定单元确定出录制单元41录制的音频信号中存在语音信号时，获得录制单元41录制的音频信号的幅度信息和信噪比信息；第三确定单元，用于根据第二获得单元获得的幅度信息和信噪比信息，确定出录制的音频信号中的语音信号的音量正常，以及第一获得单元42在第三确定单元确定出录制的音频信号中的语音信号的音量正常时，获得录制单元41录制的音频信号中的每个音素的第一特征向量。

较佳地，上述发音检测装置进一步包括第四确定单元、第三比较单元、计算单元和第五确定单元，其中第四确定单元，用于在第一获得单元42获得录制单元41录制的音频信号中的每个音素的第一特征向量之前，确定出录制的音频信号中每个音素对应的估计发音内容；第三比较单元，用于分别将第四确定单元确定出的每个音素的估计发音内容与该音素对应的规定发音内容进行比较；计算单元，用于根据第三比较单元的比较结果，计算在录制单元41录制的音频信号所包含的所有音素中估计发音内容与对应的规定发音内容一致的音素所占的比例值；第五确定单元，用于确定计算单元计算得到的比例值大于规定阈值，以及第一获得单元42在第五确定单元确定计算单元计算得到的比例值大于规定阈值时，获得录制单元41录制的音频信号中的每个音素的第一特征向量。

较佳地，上述发音检测装置进一步包括查找单元、第四比较单元、第五比较单元和第六确定单元，其中查找单元，用于针对录制单元41录制的音频信号中的每个音素，在第二比较单元44比较结果一致时，根据该音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合；第四比较单元，用于针对录制单元41录制的音频信号中的每个音素，将该音素对应的第二特征向量，分别与查找单元查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较；第五比较单元，用于针对录制单元41录制的音频信号中的每个音素，将第四比较单元比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；第六确定单元，用于针对录制单元41录制的音频信号中的每个音素，在第五比较单元比较结果一致时，确定该音素为发音正确的音素，以及在第五比较单元比较结果不一致时，确定该音素为发音缺陷的音素。

本发明实施例二提供一种发音检测方法，如图5所示，为本发明实施例二中发音检测方法流程图，其具体处理过程如下：

步骤51，录制音频信号；

步骤52，针对录制的音频信号中的每个音素，获得该音素的第一特征向量；

在执行步骤52前，可以先对录制的音频信号的语音信号的音量进行检测，其中该过程的具体实现方式可以如下：

若检测出录制的音频信号的音量正常，则执行步骤52，对录制的音频信号进行发音检测，而在检测出录制的音频信号的音量不正常时，不再对该录制的音频信号进行发音检测，可以向用户发出相应的提示信息，提示录音设备出现故障或录音设置存在问题，这样就避免了在录制的音频信号的语音信号的音量不正常时也进行发音检测，从而节省了检测资源，有效的提高了发音检测的灵活性。

此外，在执行步骤52前，还可以先检测用户在发音检测过程中，是否按照规定发音内容进行发音，其中该过程的具体实现方式可以如下：

若检测出用户的发音音频信号中，估计发音内容和对应的规定发音内容一致的音素在该音频信号中所有音素中的比例值达到规定的阈值，则确定用户在按照规定的发音内容发音，此时执行步骤52，对录制的音频信号进行发音检测，否则确定用户没有按照规定发音内容发音时，此时不再对该录制的音频信号进行发音检测，可以向用户发出相应的提示信息，提示用户按照规定发音内容进行发音，这样就避免了在用户没有按照规定的发音内容进行发音时也进行发音检测，从而节省了检测资源，有效的提高了发音检测的灵活性。

步骤53，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合；

其中，针对汉语发音而言，音素的发音内容类型包含声母和韵母两种类型，若音素的发音内容类型为声母，则第一发音内容集合为所有声母所组成的发音内容集合，若音素的发音内容类型为韵母，则第一发音内容集合为所有韵母所组成的发音内容集合。

步骤54，将获得的该音素的第一特征向量，分别与确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

步骤55，将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；

步骤56，在步骤55的比较结果不一致时，确定该音素为发音错误的音素。

在步骤55的比较结果一致时，可以确定该音素为发音正确的音素，但是在步骤55的比较结果一致时，该音素不一定为发音正确的音素，因为某些发音内容在发音技巧、听觉感受方面很相似，而且第一特征向量可能不能区分这些发音内容，因此即使此时步骤55的比较结果一致，但是此时该音素并不一定为发音正确的音素，也可能为发音缺陷的音素，进一步检测该音素是否为发音缺陷的音素的具体实现方式可以如下：

首先根据该音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合，将该音素对应的第二特征向量，分别与查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较，将比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，在比较结果一致时，确定该音素为发音正确的音素，在比较结果不一致时，确定该音素为发音缺陷的音素。其中第二特征向量为针对该音素的规定发音内容确定的，且每个发音内容都对应一个第二发音内容集合，该集合中包含该发音内容、与该发音内容易混淆的发音内容、以及第一特征向量难以与该发音内容进行区分的发音内容。

综上可知，在对用户进行发音检测时，首先检测采用第一特征向量在第一发音内容集合中对每个音素进行检测，针对没有检测出发音错误的音素，继续采用第二特征向量在第二发音内容集合中进行检测，进而可以检测出该音素是否为发音缺陷的音素，这就提高了发音检测的准确性。

在对录制的音频信号的每个音素进行发音检测后，还可以将检测结果信息输出给用户，还可以进一步根据检测结果对用户的发音质量进行评分，并将评分结果进行输出。

在上述处理过程中，第一发音内容集合并不是提前预设的，而是根据音素的发音内容类型确定的，若音素的发音类型为声母，则其对应的发音内容为声母，那么只在所有声母包含的发音内容集合中进行确定，而不是在所有发音内容组成的发音内容集合中进行确定，这就节省了系统资源，提高了发音检测的效率。

下面给出更为具体的实施方式。

在本发明实施例二中，假设对用户的汉语进行发音检测，用户的规定发音内容为“北京是中国的首都”，如图6所示，为本发明实施例二中发音检测方法具体实现流程图，其具体处理过程如下：

步骤61，录制音频信号；

步骤62，判断录制的音频信号中是否存在语音信号，若判断结果为是，则转至步骤63，若判断结果为否，则转至步骤620；

步骤63，获得录制的音频信号的幅度信息和信噪比信息；

步骤64，根据获得的幅度信息和信噪比信息，判断录制的音频信号中的语音信号的音量是否正常，若判断结果为是，则转至步骤65，若判断结果为否，则转至步骤621；

步骤65，确定出该录制的音频信号中的音素为16个，其中第一个音素对应的发音内容为声母，规定发音内容为“b”，第二个音素对应的发音内容为韵母，规定发音内容为“ei”，依次类推；

步骤66，确定出录制的音频信号中每个音素对应的估计发音内容；

步骤67，将每个音素的估计发音内容与该音素对应的规定发音内容进行比较；

步骤68，根据步骤67的比较结果，计算在录制的音频信号所包含的所有音素中，估计发音内容与对应的规定发音内容一致的音素所占的比例值；

步骤69，判断计算得到的比例值是否大于规定阈值，若判断结果为是，则转至步骤610，若判断结果为否，则转至步骤622；

步骤610，获得每个音素的第一特征向量；

步骤611，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合，针对录制的音频信号中的第一个音素，该音素的发音内容类型为声母，因此第一发音内容集合为所有声母所组成的发音内容集合，针对录制的音频信号中的第二个音素，该音素的发音内容类型为韵母，因此第一发音内容集合为所有韵母所组成的发音内容集合；

步骤612，将获得的每个音素的第一特征向量，分别与确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

步骤613，将步骤612比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，若比较结果为一致，则转至步骤614，若比较结果为不一致，则转至步骤623，假设将第一个音素的第一特征向量与所有声母所组成的集合中的发音内容的第一特征向量一一进行比较，得到该音素的第一特征向量与发音内容“b”的第一特征向量的差异值最小，那么就将发音内容“b”与该音素的规定发音内容进行比较，得到的结果为一致，则转至步骤614；

步骤614，根据每个音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合，针对录制的音频信号中的第一个音素，第二发音内容集合为{b、d、f}。

步骤615，根据查找到的第二发音内容集合，确定该音素对应的第二特征向量；

步骤616，将该音素对应的第二特征向量，分别与查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较；

步骤617，将步骤616比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，若比较结果为一致，则转至步骤618，若比较结果为不一致，则转至步骤619，针对第一个音素，步骤616比较得到，与第一个音素的第二特征向量差异最小的第二特征向量所对应的发音内容为“d”，该发音内容与第一个音素的规定发音内容的比较结果不一致，因此转至步骤619；

步骤618，确定该音素为发音正确的音素；

步骤619，确定该音素为发音缺陷的音素；

步骤620，发出音频信号中不存在语音信号的提示信息；

步骤621，发出音频信号中的语音信号的音量不正常的提示信息；

步骤622，发出用户没有按照规定发音内容进行发音的提示信息；

步骤623，确定该音素为发音错误的音素。

由上述处理过程可知，本发明实施例二技术方案中，首先录制音频信号，针对录制的音频信号中的每个音素分别执行：获得该音素的第一特征向量，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合，将获得的该音素的第一特征向量，分别与确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较，将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较，并在比较结果不一致时，确定该音素为发音错误的音素，由于用户输入的发音音频信号是由各个音素组成，而每个音素对应的发音内容可以在根据发音内容类型信息确定的发音内容集合中确定，在确定出每个音素的发音内容后，可以根据确定出的发音内容与对应规定发音内容的一致性来检测用户的发音，而不需要将用户的发音音频信号与标准音频信号进行比较，因此在对用户的发音进行检测时，若需改变用户的规定发音内容，则不再需要重新录制对应的标准发音音频信号，这就有效的提高了发音检测的灵活性。

本发明实施例二还提供一种发音检测装置，如图7所示，包括录制单元71、第一获得单元72、第一确定单元73、第一比较单元74、第二比较单元75和第二确定单元76，其中：

录制单元71，用于录制音频信号；

第一获得单元72，用于针对录制单元71录制的音频信号中的每个音素，分别获得该音素的第一特征向量；

第一确定单元73，用于针对录制单元71录制的音频信号中的每个音素，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合；

第一比较单元74，用于针对录制单元71录制的音频信号中的每个音素，将第一获得单元72获得的该音素的第一特征向量，分别与第一确定单元73确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

第二比较单元75，用于针对录制单元71录制的音频信号中的每个音素，将第一比较单元74比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；

第二确定单元76，用于针对录制单元71录制的音频信号中的每个音素，在第二比较单元75比较结果不一致时，确定该音素为发音错误的音素。

较佳地，上述发音检测装置进一步包括第三确定单元、第二获得单元和第四确定单元，其中第三确定单元，用于在第一获得单元72获得录制单元71录制的音频信号中的每个音素的第一特征向量之前，确定录制单元71录制的音频信号中是否存在语音信号；第二获得单元，用于在第三确定单元确定出录制单元71录制的音频信号中存在语音信号时，获得录制单元71录制的音频信号的幅度信息和信噪比信息；第四确定单元，用于根据第二获得单元获得的幅度信息和信噪比信息，确定出录制的音频信号中的语音信号的音量正常，以及第一获得单元72在第四确定单元确定出录制的音频信号中的语音信号的音量正常时，获得录制单元71录制的音频信号中的每个音素的第一特征向量。

较佳地，上述发音检测装置进一步包括第五确定单元、第三比较单元、计算单元和第六确定单元，其中第五确定单元，用于在第一获得单元72获得录制单元71录制的音频信号中的每个音素的第一特征向量之前，确定出录制的音频信号中每个音素对应的估计发音内容；第三比较单元，用于分别将第五确定单元确定出的每个音素的估计发音内容与该音素对应的规定发音内容进行比较；计算单元，用于根据第三比较单元的比较结果，计算在录制单元71录制的音频信号所包含的所有音素中估计发音内容与对应的规定发音内容一致的音素所占的比例值；第六确定单元，用于确定计算单元计算得到的比例值大于规定阈值，以及第一获得单元72在第六确定单元确定计算单元计算得到的比例值大于规定阈值时，获得录制单元71录制的音频信号中的每个音素的第一特征向量。

较佳地，上述发音检测装置进一步包括查找单元、第四比较单元、第五比较单元和第七确定单元，其中查找单元，用于针对录制单元71录制的音频信号中的每个音素，在第二比较单元75比较结果一致时，根据该音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合；第四比较单元，用于针对录制单元71录制的音频信号中的每个音素，将该音素对应的第二特征向量，分别与查找单元查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较；第五比较单元，用于针对录制单元71录制的音频信号中的每个音素，将第四比较单元比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；第七确定单元，用于针对录制单元71录制的音频信号中的每个音素，在第五比较单元比较结果一致时，确定该音素为发音正确的音素，以及在第五比较单元比较结果不一致时，确定该音素为发音缺陷的音素。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种发音检测方法，其特征在于，包括：

录制音频信号的步骤；和

检测录制的音频信号中每个音素是否发音错误的步骤，该步骤具体包括：

针对录制的音频信号中的每个音素分别执行：

获得该音素的第一特征向量；

将获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

将比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；并

在比较结果不一致时，确定该音素为发音错误的音素。

2、如权利要求1所述的发音检测方法，其特征在于，检测录制的音频信号中每个音素是否发音错误的步骤之前还包括：

在确定出录制的音频信号中存在语音信号时，获得录制的音频信号的幅度信息和信噪比信息；以及

根据获得的幅度信息和信噪比信息，确定出录制的音频信号中的语音信号的音量正常。

3、如权利要求1所述的发音检测方法，其特征在于，检测录制的音频信号中每个音素是否发音错误的步骤之前还包括：

确定出录制的音频信号中每个音素对应的估计发音内容；

分别将每个音素的估计发音内容与该音素对应的规定发音内容进行比较；

根据比较结果，计算在录制的音频信号所包含的所有音素中估计发音内容与对应的规定发音内容一致的音素所占的比例值；以及

确定计算得到的比例值大于规定阈值。

4、如权利要求1所述的发音检测方法，其特征在于，检测录制的音频信号中每个音素是否发音错误的步骤中还包括：

在比较结果一致时，根据该音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合；以及

将该音素对应的第二特征向量，分别与查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较；

将比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；并

在比较结果一致时，确定该音素为发音正确的音素；以及

在比较结果不一致时，确定该音素为发音缺陷的音素。

5、一种发音检测装置，其特征在于，包括：

录制单元，用于录制音频信号；

第一获得单元，用于针对录制单元录制的音频信号中的每个音素，分别获得该音素的第一特征向量；

第一比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一获得单元获得的该音素的第一特征向量，分别与预设的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

第二比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一比较单元比较得到的与该音素的第一特征向量差异最小的第一特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；

第一确定单元，用于针对录制单元录制的音频信号中的每个音素，在第二比较单元比较结果不一致时，确定该音素为发音错误的音素。

6、如权利要求5所述的发音检测装置，其特征在于，还包括：

第二确定单元，用于在第一获得单元获得录制单元录制的音频信号中的每个音素的第一特征向量之前，确定录制单元录制的音频信号中是否存在语音信号；

第二获得单元，用于在第二确定单元确定出录制单元录制的音频信号中存在语音信号时，获得录制单元录制的音频信号的幅度信息和信噪比信息；

第三确定单元，用于根据第二获得单元获得的幅度信息和信噪比信息，确定出录制的音频信号中的语音信号的音量正常，以及第一获得单元在第三确定单元确定出录制的音频信号中的语音信号的音量正常时，获得录制单元录制的音频信号中的每个音素的第一特征向量。

7、如权利要求5所述的发音检测装置，其特征在于，还包括：

第四确定单元，用于在第一获得单元获得录制单元录制的音频信号中的每个音素的第一特征向量之前，确定出录制的音频信号中每个音素对应的估计发音内容；

第三比较单元，用于分别将第四确定单元确定出的每个音素的估计发音内容与该音素对应的规定发音内容进行比较；

计算单元，用于根据第三比较单元的比较结果，计算在录制单元录制的音频信号所包含的所有音素中估计发音内容与对应的规定发音内容一致的音素所占的比例值；

第五确定单元，用于确定计算单元计算得到的比例值大于规定阈值，以及第一获得单元在第五确定单元确定计算单元计算得到的比例值大于规定阈值时，获得录制单元录制的音频信号中的每个音素的第一特征向量。

8、如权利要求5所述的发音检测装置，其特征在于，还包括：

查找单元，用于针对录制单元录制的音频信号中的每个音素，在第二比较单元比较结果一致时，根据该音素的规定发音内容，在规定发音内容与第二发音内容集合的对应关系中，查找与该音素的规定发音内容对应的第二发音集合；

第四比较单元，用于针对录制单元录制的音频信号中的每个音素，将该音素对应的第二特征向量，分别与查找单元查找到的第二发音内容集合中的各发音内容对应的第二特征向量进行比较；

第五比较单元，用于针对录制单元录制的音频信号中的每个音素，将第四比较单元比较得到的与该音素的第二特征向量差异最小的第二特征向量所对应的发音内容，与该音素对应的规定发音内容进行比较；

第六确定单元，用于针对录制单元录制的音频信号中的每个音素，在第五比较单元比较结果一致时，确定该音素为发音正确的音素，以及在第五比较单元比较结果不一致时，确定该音素为发音缺陷的音素。

9、一种发音检测方法，其特征在于，包括：

录制音频信号的步骤；和

针对录制的音频信号中的每个音素分别执行：

获得该音素的第一特征向量；

根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合；

将获得的该音素的第一特征向量，分别与确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

在比较结果不一致时，确定该音素为发音错误的音素。

10、如权利要求9所述的发音检测方法，其特征在于，检测录制的音频信号中每个音素是否发音错误的步骤之前还包括：

在录制的音频信号中存在语音信号时，获得录制的音频信号的幅度信息和信噪比信息；以及

11、如权利要求9所述的发音检测方法，其特征在于，检测录制的音频信号中每个音素是否发音错误的步骤之前还包括：

确定出录制的音频信号中每个音素对应的估计发音内容；

确定计算得到的比例值大于规定阈值。

12、如权利要求9所述的发音检测方法，其特征在于，检测录制的音频信号中每个音素是否发音错误的步骤中还包括：

在比较结果一致时，确定该音素为发音正确的音素；以及

在比较结果不一致时，确定该音素为发音缺陷的音素。

13、一种发音检测装置，其特征在于，包括：

录制单元，用于录制音频信号；

第一确定单元，用于针对录制单元录制的音频信号中的每个音素，根据该音素的发音内容类型信息，确定该音素对应的第一发音内容集合；

第一比较单元，用于针对录制单元录制的音频信号中的每个音素，将第一获得单元获得的该音素的第一特征向量，分别与第一确定单元确定的第一发音内容集合中的各发音内容对应的第一特征向量进行比较；

第二确定单元，用于针对录制单元录制的音频信号中的每个音素，在第二比较单元比较结果不一致时，确定该音素为发音错误的音素。

14、如权利要求13所述的发音检测装置，其特征在于，还包括：

第三确定单元，用于在第一获得单元获得录制单元录制的音频信号中的每个音素的第一特征向量之前，确定录制单元录制的音频信号中是否存在语音信号；

第二获得单元，用于在第三确定单元确定出录制单元录制的音频信号中存在语音信号时，获得录制单元录制的音频信号的幅度信息和信噪比信息；

第四确定单元，用于根据第二获得单元获得的幅度信息和信噪比信息，确定出录制的音频信号中的语音信号的音量正常，以及第一获得单元在第四确定单元确定出录制的音频信号中的语音信号的音量正常时，获得录制单元录制的音频信号中的每个音素的第一特征向量。

15、如权利要求13所述的发音检测装置，其特征在于，还包括：

第五确定单元，用于在第一获得单元获得录制单元录制的音频信号中的每个音素的第一特征向量之前，确定出录制的音频信号中每个音素对应的估计发音内容；

第三比较单元，用于分别将第五确定单元确定出的每个音素的估计发音内容与该音素对应的规定发音内容进行比较；

第六确定单元，用于确定计算单元计算得到的比例值大于规定阈值，以及第一获得单元在第六确定单元确定计算单元计算得到的比例值大于规定阈值时，获得录制单元录制的音频信号中的每个音素的第一特征向量。

16、如权利要求13所述的发音检测装置，其特征在于，还包括：

第七确定单元，用于针对录制单元录制的音频信号中的每个音素，在第五比较单元比较结果一致时，确定该音素为发音正确的音素，以及在第五比较单元比较结果不一致时，确定该音素为发音缺陷的音素。