CN102184654A

CN102184654A - 诵读监督方法及装置

Info

Publication number: CN102184654A
Application number: CN 201110101000
Authority: CN
Inventors: 何婷婷; 胡郁; 魏思; 胡国平; 葛勇; 王智国; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2011-04-21
Filing date: 2011-04-21
Publication date: 2011-09-14
Anticipated expiration: 2031-04-21
Also published as: CN102184654B

Abstract

本发明涉及学习辅助技术领域，公开了一种诵读监督方法及装置，该方法包括：接收用户登录；获取登录用户设置的诵读任务；根据登录用户设置的诵读任务监督登录用户的诵读行为；诵读任务完成后，反馈诵读监督结果。利用本发明，可以实现对诵读任务完成情况的实时自动跟踪。

Description

诵读监督方法及装置

技术领域

本发明涉及学习辅助技术领域，特别涉及一种诵读监督方法及装置。

背景技术

朗读有助于培养学生正确的语音、语调和语感，是语言教学中的重要环节。现今语文新课标特别强调培养学生正确、流利、有感情的朗读课文的能力。然而课内朗读训练时间毕竟有限，将朗读延伸至课外势在必行。然而中小学生由于年纪较小自控能力往往较弱，对教师布置的如听磁带读课文等非常重要但是不易教学监督的口头作业往往不能完成或只是敷衍了事，显然教学上需要加强对诵读“软”任务的监督。目前该类任务的监督主要依靠家长来协助完成。这种监督方式占用了家长大量的时间，加重了负担，因此，如何代替家长实时跟踪学生诵读，确保学生可以完成预定诵读任务成为了有待解决的新问题。

发明内容

本发明实施例提供一种朗读监督方法及装置，以解决现有技术中通过人工监督方式占用人工时间的问题，实现对诵读任务完成情况的实时自动跟踪。

一方面，本发明实施例提供一种诵读监督方法，包括：

接收用户登录；

获取登录用户设置的诵读任务；

根据登录用户设置的诵读任务监督登录用户的诵读行为；

诵读任务完成后，反馈诵读监督结果。

另一方面，本发明实施例提供一种诵读监督装置，包括：

登录单元，用于接收用户登录；

任务获取单元，用于获取登录用户设置的诵读任务；

监督单元，用于根据登录用户设置的诵读任务监督登录用户的诵读行为；

反馈单元，用于诵读任务完成后，反馈诵读监督结果。

本发明实施例诵读监督方法及装置，可以根据登录用户设置的诵读任务对登录用户的诵读行为进行监督，并在诵读任务完成后，反馈诵读监督结果，从而实现了对诵读任务完成情况的实时自动跟踪。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例诵读监督方法的流程图；

图2是本发明实施例中进行发音有效性检测的一种流程图；

图3是本发明实施例中进行发音有效性检测的另一种流程图；

图4是本发明实施例中发音质量评测的一种实现流程图；

图5是本发明实施例诵读监督装置的一种结构示意图；

图6是本发明实施例中监督单元的一种具体实现结构示意图；

图7是本发明实施例中监督单元的另一种具体实现结构示意图；

图8是本发明实施例诵读监督装置的另一种结构示意图；

图9是本发明实施例中质量评测单元的一种具体实现结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例诵读监督方法及装置，针对现有的通过人工方式对学生诵读任务进行监督会占用人工大量时间的问题，根据用户设置的诵读任务自动监督用户诵读行为，能够代替家长实时跟踪学生诵读，实现对诵读任务完成情况的实时自动跟踪。

如图1所示，是本发明实施例诵读监督方法的流程图，包括以下步骤：

步骤101，接收用户登录。

比如，用户可以预先进行注册，并设置密码，以便下次登录时系统可以根据设置的密码对登录用户进行登录密码验证。

步骤102，获取登录用户设置的诵读任务。

在用户成功登录后，可以设置相应的诵读任务，系统获取登录用户设置的诵读任务。

在具体应用中，可以将诵读任务比如，文章、段落、生词、句子等文本内容载入系统中，比如将相应的文本内容通过系统的USB(Universal SerialBUS，通用串行总线)接口拷贝到系统的指定目录中。

步骤103，根据登录用户设置的诵读任务监督登录用户的诵读行为。

步骤104，诵读任务完成后，反馈诵读监督结果。

具体地，可以将监督到的状态反馈给用户，比如通过显示屏显示的方式来反馈，也可以将反馈的内容保存到一个只读文件中进行保存。

另外，在实际应用中，在本次设置的诵读任务完成后，还可以进一步提示用户是否继续当前诵读任务，以及是否重新设置新的诵读任务等。这些提示信息可以同时显示，也可以依序显示。

由此可见，本发明实施例诵读监督方法可以根据登录用户设置的诵读任务对登录用户的诵读行为进行监督，并在诵读任务完成后，反馈诵读监督结果，从而实现了对诵读任务完成情况的实时自动跟踪。

在上述步骤103中，根据登录用户设置的诵读任务监督登录用户的诵读行为，以确保诵读行为的有效性。

在监督登录用户的诵读行为过程中，可以对用户诵读的每个语句的语音进行检测，当然，为了节省计算资源，提高系统运行效率，也可以采用随机检测方式，对用户诵读的部分语句的语音进行检测。

在随机检测方式中，可以设置随机检测的检测触发条件，一旦满足该检测触发条件，则触发检测过程，在该检测过程中，根据当前诵读的语句进行发音有效性检测。

所述检测触发条件可以根据登录用户设置的诵读任务自动生成，具体可以有多种方式，比如，可以采用以下几种方式：

(1)根据登录用户设置的诵读任务产生一个随机数，然后按照该随机数对所述诵读任务进行划分，对划分后每一部分的最后一个语句进行发音有效性检测。比如，所述诵读任务包括10个语句(可以以句号、感叹号、分号作为语句分隔标志)，产生的随机数为3，则可以将诵读任务划分为四部分，前三部分分别包括3个语句，第四部分包括1个语句。这样，检测触发条件即为诵读到的语句的序号为3、6、9、10时，触发检测过程。当然，也可以只对前三部分的最后一个语句进行发音有效性检测，对语句不足的第四部分不进行检测。

(2)根据登录用户设置的诵读任务产生多个不大于该诵读任务包含的语句数的随机数，当诵读到的语句的序号与所述随机数的值相匹配时，触发检测过程。

当然，还可以采用其他方式生成所述检测触发条件，在此不再一一举例说明。

在本发明实施例中，根据当前诵读的语句进行发音有效性检测包括：

根据当前诵读语句的语音与登录用户的声纹模型及通用模仿者声纹模型确定当前诵读语句的语音是否为登录用户本人的发音；和/或

根据当前诵读语句的语音与相同文本内容的历史语音确定当前诵读语句的语音是否为登录用户的现场发音。

上述第1种检测的目的主要是确定当前诵读语句的语音是否为登录用户本人的发音，以防止他人替读。在该检测过程中，可以基于传统的身份验证技术，首先计算当前诵读语句的语音相对于登录用户的声纹模型及通用模仿者声纹模型的似然度，然后判断其似然比是否大于预设的阈值，若是，则确定当前诵读语句的语音为登录用户本人的发音，即该诵读行为有效，否则，则确定当前诵读语句的语音为他人替读，即该诵读行为无效。

如图2所示，是本发明实施例中进行发音有效性检测的一种流程图。

在该检测过程中，采用了文本无关的声纹识别技术，所谓声纹识别是根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性；而语音识别的目的是识别出语音信号中的字词意思，并不考虑说话人是谁，它强调共性。

图2所示流程包括以下步骤：

步骤201，从当前诵读语句的语音信号中提取声纹特征。

该声纹特征可以有效地区分不同的说话人，且对同一说话人的语音变化(同一说话人的声纹特点既有相对稳定性，又有变异性，不是绝对的、一成不变的，易受身体状况、年龄、情绪等的影响。例如，一个说话人在随意说话和认真说话时的语音信息是不同的，其说话方式也会不断变化，再如，说话人感冒时的发音和正常状况时的发音也不尽相同)保持相对稳定。

所述声纹特征主要包括：谱包络参数语音特征，基音轮廓、共振峰频率带宽特征，线性预测系数，倒谱系数等。考虑到上述这些声纹特征的可量化性、以及训练样本的数量和系统性能的评价等问题，在实际应用中，可以按照时序顺序依次提取预设时间内的13维MFCC(Mel Frequency CepstrumCoefficient，Mel频率倒谱系数)特征用于表征说话人特性，将原始易受干扰的语音信号转换为具有更高鲁棒性的特征。

需要说明的是，这里MFCC特征只是一种举例，对此本发明实施例不做限定，在实际应用中，也可以采用其他类型的声纹特征，比如PLP(Perceptual Linear Predictive，感觉加权线性预测)特征等。

步骤202，将提取的声纹特征与登录用户的声纹模型及通用模仿者声纹模型进行匹配，得到对应的相似度。

登录用户的声纹模型主要用来模拟用户个性化的发音特点如音色基频等，用于在后续过程中计算输入语音来自该登录用户发音的可能性。而通用模仿者声纹模型用于模拟大众发音特征。

假设提取的声纹特征为X，登录用户的声纹模型为U，通用模仿者声纹模型为G，则得到的相似度分别为p(X|U)和p(X|G)。

在本发明实施例中，模型匹配可以选用各种不同的方式，如模板匹配、动态时间规划、神经网络等等。在具体应用中，可采用多种不同方式的模型，比如GMM(Gaussian Mixture Model，多高斯)模型、HMM模型等。

以采用GMM模型为例，在构建GMM模型时，可以为每个注册用户和通用模仿者建立单独的GMM模型，通过训练得到各高斯分量系数以及各高斯均值，方差等参数。这里注册用户的GMM模型可以利用用户注册时录制的部分语音数据训练得到，而通用模仿者GMM模型则是由系统预置，通过采集大量不同人的语音数据提前训练得到。

步骤203，根据得到的相似度计算似然比。

所述似然比是反映真实性的一个指标，在本发明实施例中，所述似然比指对应登录用户的声纹模型相似度与对应通用模仿者声纹模型相似度的比值，即似然比P＝p(X|U)/p(X|G)。

为了避免数值下溢等计算问题，可以在log域值计算该似然比，定义为P’＝ln(p(X|U)/p(X|G))。

步骤204，判断得到的似然比是否大于第一预设值；如果是，则执行步骤205；否则，执行步骤206。

步骤205，确定当前诵读语句的语音为登录用户本人的发音，诵读行为有效。

步骤206，确定当前诵读语句的语音不是登录用户本人的发音，诵读行为无效。

上述第一预设值(以下称为Pt)是系统预设的参数，主要用于控制检测的敏感度。一般来说，Pt越大，则对用户发音要求越高，要求用户在后续使用中的发音尽可能接近其注册时的语音特征。Pt值的设定依赖于语音特征的提取和统计模型的选择，若选择的特征和模型较为鲁棒，则系统容错能力较强，可以设置较大的Pt以提高精度。

比如，在13维MFCC特征以及GMM模型具有1024个高斯的设置下，通过在训练集上测试比较，可以设置第一预设值Pt＝3。即若P’＝ln(p(X|U)/p(X|G))大于3，则判断当前诵读语句的语音为登录用户的发音，否则可能为其他人的发音。所述高斯是指一个正态分布，GMM就是多个正态分布函数的加权和。

上述第2种检测的目的主要是确定当前诵读语句的语音是否为登录用户的现场发音，以避免登录用户利用录音等转读设备以重复播放的方式减少预定诵读任务量。在该检测过程中，可以通过比对当前诵读语句的语音和相同文本内容的历史语音的相似度来判断当前诵读语句的语音是否为登录用户的现场发音，若相似度较高，则很可能为录音转读，即该诵读行为无效。

如图3所示，是本发明实施例中进行发音有效性检测的另一种流程图。

在该检测过程中，可以根据现场诵读和重复播放的发音特点确定当前诵读语句的语音是否为登录用户的现场发音。考虑到录音转读的语音来自同源信号，在发音频度、时长等语音特征上往往表现出极高的一致性；而相反，现场诵读则具有一定的随机性。因而在本发明实施例中，可以将当前诵读语句的语音和缓冲区内存储的对应的历史语音一一对比，计算其相似度或相关度以确认其是否为录音转读语音。

图3所示流程包括以下步骤：

步骤301，从当前诵读语句的语音信号中提取声学特征。

由于该检测过程是为了区分同一发音人在不同时间对同一内容的发音相似度，因而该声学特征需要具有一定的稳定性，以避免受到背景等噪音的干扰。而同时其应该具有较高的区分精确度，以确保不同次的发音能正确区分。为此，可以优先采用提取连续语音的基频序列作为区分性特征。

步骤302，获取与当前诵读语句具有相同文本内容的历史语音段的声学特征。

需要说明的是，若用户为首次诵读，则对应的历史语音为空，可以默认当前诵读语句的语音为登录用户的现场发音，否则需要找到具有相同文本内容的所有历史语音段的声学特征。

为了节省存储空间，在实际应用中，可以只针对诵读任务中需要检测的语句，在用户首次诵读该语句时，提取该语句的声学特征并保存。这样，如果需要检测多个语句的语音，则在用户诵读完诵读任务中的全部语句后，在内存中会保存一个或多个历史语音段的声学特征，对这些不同历史语音段的声学特征可以按对应的历史语音段在诵读内容中的序号进行标记。相应地，在获取与当前诵读语句具有相同文本内容的历史语音段的声学特征时，也可以根据当前诵读语句的序号来获得相应的历史语音段的声学特征。

需要说明的是，对应每个历史语音段的声学特征可以是一个特征序列，该特征序列包括：谱包络参数语音特征，基音轮廓、共振峰频率带宽特征，线性预测系数，倒谱系数等信息。

步骤303，对提取到的声学特征和获取的历史语音段的声学特征进行比对，得到相似度。

前面提到，对应每个历史语音段的声学特征可以是一个特征序列，同样，从当前诵读语句的语音信号中提取的声学特征也可以是一个特征序列，在这种情况下，需要对这两个特征序列中的特征进行一一比对。

考虑到影响说话人语音的因素不仅有稳定因素，如发声器官的结构和发声习惯等，而且有时变因素，如语速、语调、重音和韵律等。因此，在本发明实施例中，可以采用DTW(Dynamic Time Warping，动态时间归整)算法对比提取到的声学特征和获取的历史语音段的声学特征，得到两者之间的相似度。若得到的相似度大于第二预设值，则说明当前的语音很可能为登录用户历史语音的录音翻录结果。否则为登录用户的现场发音。

步骤304，判断得到的相似度是否小于第二预设值；如果是，则执行步骤305；否则，执行步骤306。

步骤305，确定当前诵读语句的语音为登录用户的现场发音，诵读行为有效。

步骤306，确定当前诵读语句的语音不是登录用户的现场发音，诵读行为无效。

比如，在提取13维MFCC特征、以及采用DTW匹配的设置下，可以设定第二预设值为-2。即若当前诵读语句的语音的特征序列和缓存区历史语音特征序列的差异大于该值，即认为是登录用户的真实现场发音，否则很大可能为录音播放。

需要说明的是，上述图2所示对是否为登录用户本人的发音的检测、以及图3所示对是否为登录用户现场发音的检测，在实际应用中可以根据需要来选择使用，为了更好地保证诵读行为是登录用户本人的现场发音，避免用户(比如学生)利用各种手段弄虚作假达到减少任务量的目的，也可以同时选用。

另外，上述检测过程中所用到的一些信息，比如上述步骤202中用到的登录用户的声纹模型及通用模仿者声纹模型等可以预先置入系统，在系统初始化和用户成功登录后载入相应的信息。比如，可以在注册成功后，输入该注册用户的一段语音，用于提取其声纹特征，训练注册用户的声纹模型。

为了对诵读行为更好地监督，在对同一诵读任务的所有检测过程得到的检测结果均为诵读行为有效后，对诵读任务的完成次数计数，在用户选择不再继续当前诵读任务后，反馈诵读监督结果，在该监督结果中包含诵读任务的完成次数这一信息。当然，如果对同一诵读任务需要重复诵读多次，则在每次任务完成后，也可以反馈当前累计的该诵读任务的完成次数。

另外，为了进一步保证诵读质量，在本发明实施例中，还可以对有效的诵读行为进行发音质量评测，具体地，可以在检测过程得到检测结果为诵读行为有效后，开始进行发音质量评测，得到发音质量评测结果。相应地，在反馈的诵读监督结果中包括：所述发音质量评测结果。

需要说明的是，发音质量评测是一个持续执行的过程，也就是说，如果当前的检测过程得到的检测结果是诵读行为有效，则开始对其后续的诵读内容都进行发音质量评测，直到进入下一次检测过程。如果检测过程得到的检测结果是诵读行为有效，则继续进行发音质量评测；否则就不再进行发音质量评测了。

如果对同一诵读任务进行多次检测过程，则可以对各次检测过程的评测结果进行综合，比如加权平均，得到对本次诵读任务的评测结果。

如果对同一诵读任务重复诵读多次，则可以对各次的评测结果进行综合，比如加权平均，得到一个总的评测结果，并反馈该总的评测结果。

如图4所示，是本发明实施例中发音质量评测的一种实现流程图。

在发音质量评测过程中，将从当前诵读语句的语音信号中提取声学特征O和对应相同文本的标准声学模型T匹配，借以衡量发音是否存在错误。

图4所示流程包括以下步骤：

步骤401，从当前诵读语句的语音信号中提取声学特征。

具体地，可以选用语音识别领域常用的MFCC特征，对窗长25ms帧移10ms的每帧语音数据做短时分析，得到MFCC参数及其一阶、二阶差分，共计39维。这样可以将当前诵读语句的语音段量化为一个39维的特征序列O。

步骤402，获取与当前诵读语句具有相同文本的标准声学模型。

所述标准声学模型用于模拟字符标准发音特征，以便在后续过程中计算用户发音和字符标准发音的差异，从而指导用户进行正确发音。

步骤403，根据所述标准声学模型和所述诵读语句的文本内容，对提取的声学特征进行切分。

给定语音段特征序列O和对应的相同文本的标准声学模型T，

具体地，可以使用基于HMM的语音识别器计算语音段特征序列O相对于指定文本的输出概率，即语音段特征序列O相对于相同文本的HMM模型T的似然度P(O|T)。而同时根据系统预置的声学模型库和对应的文本标注内容，对语音段特征序列O进行切分，将其切分为一系列对应独立字符的语音特征序列。其中每个字符Wi的发音相似度记为p(X|Wi)，X是切分后对应字符Wi的语音特征序列。

步骤404，根据切分后的声学特征计算所述文本内容中每个字符的后验概率。

所谓后验概率是指根据基于HMM的语音识别器得到的后验概率。这里后验概率是对孤立字符进行的，利用语音特征序列X对指定文本Wi的后验概率p(Wi|X)作为发音质量评测手段。利用贝叶斯公式，在假设先验概率一致的前提下，可以得到后验概率p(Wi|X)如下：

P (Wi | X) = \frac{p (X | Wi) p (Wi)}{p (X)} = \frac{p (X | Wi) p (Wj)}{\underset{j}{Σ} p (X | Wj) p (Wj)} = \frac{p (X | Wi)}{\underset{j}{Σ} p (X | Wj)}

为了提高系统效率，可以将Wj定义为来自和当前真实字符Wi较易混淆的字符模糊集。

步骤405，判断得到的后验概率是否大于第三预设值；如果是，则执行步骤406；否则执行步骤407。

比如，在39维MFCC特征及HMM模型的设置下，第三预设值可以在(0，-5)范围内根据开发集上的测试效果选择，比如可以设置该值为-2。

步骤406，确定该后验概率对应的字符发音准确。

步骤407，确定该后验概率对应的字符发音错误。

需要说明的是，在本发明实施例中，如果确定字符发音错误，还可以计算该字符最可能的发音，以提醒用户注意。

该字符最可能的发音模型

计算为：

是上述模糊集具有最大似然度的模型。

需要说明的是，对发音质量的评测还可以采用其他方式实现，比如，采用PLP特征，对整句语音综合评测而不经过语音对齐切分的步骤。另外，在对齐匹配方式下，为了提高系统运算效率以及降低内存需求量，可以直接相对于音节模型对齐切分，而不是相对于独立字符对齐切分，对此本发明实施例不做限定。

由此可见，本发明实施例诵读监督方法，可以根据登录用户设置的诵读任务对登录用户的诵读行为进行监督，并在诵读任务完成后，反馈诵读监督结果，从而实现了对诵读任务完成情况的实时自动跟踪。

进一步地，对登录用户的诵读行为进行监督过程中，不仅可以进行发音有效性检测，确保诵读的语音是登录用户本人的现场真实发音；而且，还可以对发音质量进行评测，将用户发音和标准发音对比，以指导用户可能存在的发音问题，提高用户的诵读质量。相应地，还可以将相应信息，比如诵读次数、评测结果等进行反馈，以帮助用户更好地了解诵读任务的完成情况及完成质量。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

相应地，本发明实施例还提供一种诵读监督装置，如图5所示，是该诵读监督装置的一种结构示意图。

在该实施例中，所述装置包括：登录单元501、任务获取单元502、监督单元503和反馈单元504。其中：

登录单元501，用于接收用户登录；

任务获取单元502，用于获取登录用户设置的诵读任务；

监督单元503，用于根据登录用户设置的诵读任务监督登录用户的诵读行为；

反馈单元504，用于诵读任务完成后，反馈诵读监督结果。

具体地，反馈单元504可以将监督到的状态反馈给用户，比如通过显示屏显示的方式来反馈，也可以将反馈的内容保存到一个只读文件中进行保存。另外，在实际应用中，反馈单元504还可以在本次设置的诵读任务完成后，进一步提示用户是否继续当前诵读任务，以及是否重新设置新的诵读任务等。这些提示信息可以同时显示，也可以依序显示。

本发明实施例诵读监督装置，可以根据登录用户设置的诵读任务对登录用户的诵读行为进行监督，并在诵读任务完成后，反馈诵读监督结果，从而实现了对诵读任务完成情况的实时自动跟踪。

在本发明实施例中，监督单元503需要根据登录用户设置的诵读任务监督登录用户的诵读行为，以确保诵读行为的有效性。在监督登录用户的诵读行为过程中，可以对用户诵读的每个语句的语音进行检测，当然，为了节省计算资源，提高系统运行效率，也可以采用随机检测方式，对用户诵读的部分语句的语音进行检测。

下面以随机检测方式为例，说明监督单元503的一种具体实现结构。

如图6所示，是本发明实施例中监督单元的一种具体实现结构示意图。

在该实施例中，所述监督单元包括：

触发条件生成单元601，用于根据登录用户设置的诵读任务生成检测触发条件；

触发单元602，用于当诵读到的语句满足所述检测触发条件时，触发检测过程；

发音有效性检测单元603，用于在检测过程中，根据当前诵读的语句进行发音有效性检测。

需要说明的是，上述触发条件生成单元601可以采用多种方式生成相应的检测触发条件，比如，

触发条件生成单元601可以根据登录用户设置的诵读任务产生多个不大于所述诵读任务包含的语句数的随机数。相应地，触发单元602在诵读到的语句的序号与所述随机数的值相匹配时，触发检测过程。当然，本发明实施例并不仅限于这种实现方式，还可以有其他实现方式，具体可参照前面本发明实施例诵读监督方法中的描述，在此不再赘述。

由此可见，该监督单元根据登录用户设置的诵读任务生成检测触发条件，在随机检测方式中，可以设置随机检测的检测触发条件，一旦满足该检测触发条件，则触发检测过程，在该检测过程中，根据当前诵读的语句进行发音有效性检测。

在该实施例中，发音有效性检测单元603可以对诵读语音是否为登录用户本人发音、即是否存在他人替读现象进行检测，和/或对诵读语音是否为登录用户的现场发音、即是否存在录音转读的可能进行检测。

为此，发音有效性检测单元603包括：第一检测子单元，和/或第二检测子单元。其中：

上述第一检测子单元用于根据当前诵读语句的语音与登录用户的声纹模型及通用模仿者声纹模型确定当前诵读语句的语音是否为登录用户本人的发音。在该检测过程中，可以基于传统的身份验证技术，首先计算当前诵读语句的语音相对于登录用户的声纹模型及通用模仿者声纹模型的似然度，然后判断其似然比是否大于预设的阈值，若是，则确定当前诵读语句的语音为登录用户本人的发音，即该诵读行为有效，否则，则确定当前诵读语句的语音为他人替读，即该诵读行为无效。

在具体应用中，上述第一检测子单元的一种具体实现结构包括：

声纹特征提取模块，用于从当前诵读语句的语音信号中提取声纹特征；

匹配模块，用于将所述声纹特征提取模块提取的声纹特征与登录用户的声纹模型及通用模仿者声纹模型进行匹配，得到对应的相似度；

似然比计算模块，用于根据所述匹配模块得到的相似度计算似然比；

第一确定模块，用于在所述计算模块得到的似然比大于第一预设值时，确定当前诵读语句的语音为登录用户本人的发音，诵读行为有效。

上述第一检测子单元根据当前诵读语句的语音与登录用户的声纹模型及通用模仿者声纹模型确定当前诵读语句的语音是否为登录用户本人的发音的详细过程可参照前面本发明实施例诵读监督方法中的描述，在此不再赘述。

利用上述第一检测子单元可以确定当前诵读语句的语音是否为登录用户本人的发音，以防止他人替读。

上述第二检测子单元根据当前诵读语句的语音与相同文本内容的历史语音确定当前诵读语句的语音是否为登录用户的现场发音。在该检测过程中，可以通过比对当前诵读语句的语音和相同文本内容的历史语音的相似度来判断当前诵读语句的语音是否为登录用户的现场发音，若相似度较高，则很可能为录音转读，即该诵读行为无效。

在具体应用中，上述第二检测子单元的一种具体实现结构包括：

声学特征提取模块，用于从当前诵读语句的语音信号中提取声学特征；

历史特征获取模块，用于获取与当前诵读语句具有相同文本内容的历史语音段的声学特征；

比对模块，用于对所述声学特征提取模块提取到的声学特征和所述获取模块获取的历史语音段的声学特征进行比对，得到相似度；

第二确定模块，用于在所述比对模块得到的相似度小于第二预设值时，确定当前诵读语句的语音为登录用户的现场发音，诵读行为有效。

上述第二检测子单元根据当前诵读语句的语音与相同文本内容的历史语音确定当前诵读语句的语音是否为登录用户的现场发音的详细过程可参照前面本发明实施例诵读监督方法中的描述，在此不再赘述。

利用上述第二检测子单元，可以确定当前诵读语句的语音是否为登录用户的现场发音，以避免登录用户利用录音等转读设备以重复播放的方式减少预定诵读任务量。

需要说明的是，在实际应用中，上述第一检测子单元和第二检测子单元可根据需要选用，也可以全部选用，以最大限度地保证用户的诵读是真实有效的。

如图7所示，是本发明实施例中监督单元的另一种具体实现结构示意图。

与图6所示实施例的区别在于，在该实施例中，该监督单元还包括：

计数单元604，用于在所述发音有效性检测单元603对同一诵读任务的所有检测过程得到的检测结果均为诵读行为有效时，对诵读任务的完成次数计数。

应用该实施例的监督单元时，图5中所示的反馈单元504反馈的诵读监督结果中还包括：计数单元604统计的诵读任务的完成次数。当然，如果对同一诵读任务需要重复诵读多次，则在每次任务完成后，反馈单元504也可以反馈计数单元604当前累计的该诵读任务的完成次数。

如图8所示，是本发明实施例诵读监督装置的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，该诵读监督装置还包括：

质量评测单元505，用于在所述监督单元503中的发音有效性检测单元在检测过程得到的检测结果为诵读行为有效时，进行发音质量评测，得到发音质量评测结果。

相应地，在这种情况下，所述反馈单元504反馈的诵读监督结果中还包括：上述质量评测单元505得到的发音质量评测结果。

该实施例的诵读监督装置，不仅可以实现对诵读任务完成情况的实时自动跟踪，而且还可以对有效的诵读行为进行质量评测，得到发音质量评测结果并反馈相应信息，有效地保证了诵读质量。

当然，在实际应用中，如果对同一诵读任务进行多次检测过程，则可以对各次检测过程的评测结果进行综合，比如加权平均，得到对本次诵读任务的评测结果。另外，如果对同一诵读任务重复诵读多次，则可以对各次的评测结果进行综合，比如加权平均，得到一个总的评测结果，并反馈该总的评测结果。

如图9所示，是本发明实施例中质量评测单元的一种具体实现结构示意图。

在该实施例中，所述质量评测单元包括：

声学特征提取模块901，用于从当前诵读语句的语音信号中提取声学特征；

标准特征获取模块902，用于获取与当前诵读语句具有相同文本的标准声学模型；

切分模块903，用于根据所述标准声学模型和所述诵读语句的文本内容，对提取的声学特征进行切分；

概率计算模块904，用于根据所述切分模块903切分后的声学特征计算所述文本内容中每个字符的后验概率；

第三确定模块905，用于在所述概率计算模块904计算得到的后验概率大于第三预设值时，确定该后验概率对应的字符发音准确。

上述质量评测单元根据当前诵读的语句进行发音质量评测，得到发音质量评测结果的详细过程可参照前面本发明实施例诵读监督方法中的描述，在此不再赘述。

由上述各实施例的描述可见，本发明实施例诵读监督装置，可以根据登录用户设置的诵读任务对登录用户的诵读行为进行监督，并在诵读任务完成后，反馈诵读监督结果，从而实现了对诵读任务完成情况的实时自动跟踪。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种诵读监督方法，其特征在于，包括：

接收用户登录；

获取登录用户设置的诵读任务；

根据登录用户设置的诵读任务监督登录用户的诵读行为；

诵读任务完成后，反馈诵读监督结果。

2.如权利要求1所述的方法，其特征在于，所述根据登录用户设置的诵读任务监督登录用户的诵读行为包括：

根据登录用户设置的诵读任务生成检测触发条件；

当诵读到的语句满足所述检测触发条件时，触发检测过程；

在检测过程中，根据当前诵读的语句进行发音有效性检测。

3.如权利要求2所述的方法，其特征在于，

所述根据登录用户设置的诵读任务生成检测触发条件包括：根据登录用户设置的诵读任务产生多个不大于所述诵读任务包含的语句数的随机数；

所述当诵读到的语句满足所述检测触发条件时，触发检测过程包括：当诵读到的语句的序号与所述随机数的值相匹配时，触发检测过程。

4.如权利要求2所述的方法，其特征在于，所述根据当前诵读的语句进行发音有效性检测包括：

5.如权利要求4所述的方法，其特征在于，所述根据当前诵读语句的语音与登录用户的声纹模型及通用模仿者声纹模型确定当前诵读语句的语音是否为登录用户本人的发音包括：

从当前诵读语句的语音信号中提取声纹特征；

将提取的声纹特征与登录用户的声纹模型及通用模仿者声纹模型进行匹配，得到对应的相似度；

根据得到的相似度计算似然比；

如果得到的似然比大于第一预设值，则确定当前诵读语句的语音为登录用户本人的发音，诵读行为有效。

6.如权利要求4所述的方法，其特征在于，所述根据当前诵读语句的语音与相同文本内容的历史语音的定当前诵读语句的语音是否为登录用户的现场发音包括：

从当前诵读语句的语音信号中提取声学特征；

获取与当前诵读语句具有相同文本内容的历史语音段的声学特征；

对提取到的声学特征和获取的历史语音段的声学特征进行比对，得到相似度；

如果得到的相似度小于第二预设值，则确定当前诵读语句的语音为登录用户的现场发音，诵读行为有效。

7.如权利要求2至6任一项所述的方法，其特征在于，所述根据登录用户设置的诵读任务监督登录用户的诵读行为还包括：

如果对同一诵读任务的所有检测过程得到的检测结果均为诵读行为有效，则对诵读任务的完成次数计数；

所述反馈诵读监督结果包括：反馈诵读任务的完成次数。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

如果检测过程得到的检测结果为诵读行为有效，则进行发音质量评测，得到发音质量评测结果；

所述反馈诵读监督结果还包括：反馈所述发音质量评测结果。

9.如权利要求8所述的方法，其特征在于，所述进行发音质量评测，得到发音质量评测结果包括：

从当前诵读语句的语音信号中提取声学特征；

获取与当前诵读语句具有相同文本的标准声学模型；

根据所述标准声学模型和所述诵读语句的文本内容，对提取的声学特征进行切分；

根据切分后的声学特征计算所述文本内容中每个字符的后验概率；

如果得到的后验概率大于第三预设值，则确定该后验概率对应的字符发音准确。

10.一种诵读监督装置，其特征在于，包括：

登录单元，用于接收用户登录；

任务获取单元，用于获取登录用户设置的诵读任务；

反馈单元，用于诵读任务完成后，反馈诵读监督结果。

11.如权利要求10所述的装置，其特征在于，所述监督单元包括：

触发条件生成单元，用于根据登录用户设置的诵读任务生成检测触发条件；

触发单元，用于当诵读到的语句满足所述检测触发条件时，触发检测过程；

发音有效性检测单元，用于在检测过程中，根据当前诵读的语句进行发音有效性检测。

12.如权利要求11所述的装置，其特征在于，

所述触发条件生成单元，具体用于根据登录用户设置的诵读任务产生多个不大于所述诵读任务包含的语句数的随机数；

触发单元，具体用于在诵读到的语句的序号与所述随机数的值相匹配时，触发检测过程。

13.如权利要求11所述的装置，其特征在于，所述发音有效性检测单元包括：

第一检测子单元，用于根据当前诵读语句的语音与登录用户的声纹模型及通用模仿者声纹模型确定当前诵读语句的语音是否为登录用户本人的发音；和/或

第二检测子单元，用于根据当前诵读语句的语音与相同文本内容的历史语音确定当前诵读语句的语音是否为登录用户的现场发音。

14.如权利要求13所述的装置，其特征在于，所述第一检测子单元包括：

15.如权利要求13所述的装置，其特征在于，所述第二检测子单元包括：

16.如权利要求11至15任一项所述的装置，其特征在于，所述监督单元还包括：

计数单元，用于在所述发音有效性检测单元对同一诵读任务的所有检测过程得到的检测结果均为诵读行为有效时，对诵读任务的完成次数计数；

所述反馈单元反馈的诵读监督结果包括：所述计数单元统计的诵读任务的完成次数。

17.如权利要求16所述的装置，其特征在于，所述装置还包括：

质量评测单元，用于在所述发音有效性检测单元在检测过程得到的检测结果为诵读行为有效时，进行发音质量评测，得到发音质量评测结果；

所述反馈单元反馈的诵读监督结果还包括：所述质量评测单元得到的发音质量评测结果。

18.如权利要求17所述的装置，其特征在于，所述质量评测单元包括：

标准特征获取模块，用于获取与当前诵读语句具有相同文本的标准声学模型；

切分模块，用于根据所述标准声学模型和所述诵读语句的文本内容，对提取的声学特征进行切分；

概率计算模块，用于根据所述切分模块切分后的声学特征计算所述文本内容中每个字符的后验概率；

第三确定模块，用于在所述概率计算模块计算得到的后验概率大于第三预设值时，确定该后验概率对应的字符发音准确。