CN103035244A

CN103035244A - 一种可实时反馈用户朗读进度的语音跟踪方法

Info

Publication number: CN103035244A
Application number: CN2012104830568A
Authority: CN
Inventors: 潘颂声; 赵乾; 吴玲; 何春江; 王兵; 朱群
Original assignee: iFlytek Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2012-11-24
Filing date: 2012-11-24
Publication date: 2013-04-10
Anticipated expiration: 2032-11-24
Also published as: CN103035244B

Abstract

一种可实时反馈用户朗读进度的语音跟踪方法，（1）输入待跟踪的文本；（2）根据所述文本搭建跟踪解码网络，并将跟踪解码网络、声学模型传给解码器；（3）实时提取声学特征序列，并实时传递给解码器；（4）解码器实时判断用户朗读的进度，同时检测用户是否朗读了文本外的内容；（5）实时显示跟踪进度。本发明解决了用户不按正常顺序朗读而无法正常跟踪的问题，提高了系统的抗环境噪音干扰能力，使语音朗读跟踪功能真正达到实用的水平。

Description

一种可实时反馈用户朗读进度的语音跟踪方法

技术领域

本发明涉及一种连续语音识别跟踪方法。本发明可实现在用户朗读固定文本时，实时获知用户朗读的文本内容，从而实现自动跟踪用户朗读文本的功能。

背景技术

传统的口语评测和学习全部依赖于人，随着语音识别技术的发展和成熟，智能语音评测技术孕育而生，机器逐渐替代人进行口语评测和学习。智能语音评测技术涉及的知识领域包括语音技术、自然语言理解、人工智能、数据挖掘、机器学习等多学科知识，通过此技术可实现对发音人的口语水平进行评估，并根据评估结果指导发音人进行学习。例如：一百易公司的互联网学习系统包含的英文句子评分功能，科大讯飞公司的畅言网包含的中文字词句的评分和音素检错功能以及英文文章的评分功能，目前的这些学习系统均能在朗读完成后给出反馈，但是在朗读过程中是没有交互的。

在学习者进行口语练习的过程中，增加一些人机交互的过程会提高用户体验，增强学习者的兴趣。例如：在用户朗读短文时，机器根据用户朗读内容实时高亮显示朗读文本的位置。传统的实现方法只对用户按文本顺序正常朗读的情况适用，而对用户不按文本顺序朗读或存在环境噪音干扰时，传统的实现方法无法正常进行朗读跟踪。本发明中介绍的方案能有效解决此类问题。

现有的朗读跟踪技术是通过语音端点检测（Voice Activity Detection,VAD）技术找到语音开始点，检测到用户开始朗读后，匀速显示用户朗读的文本位置，其具体流程如图1所示，输入用户语音；VAD判断用户是否已经开始朗读；检测到开始位置；匀速告知用户朗读位置。现有技术在用户规范、匀速朗读的情况下，可以得到较好体验，但是在实际使用中，用户的行为是不可控制的，所以存在以下几个缺点：（1）用户朗读的速度同系统预设的显示速度不一致时，体验效果很差；（2）用户没有严格按照文本的正常顺序朗读时（例如：回读、漏读文本内容）会导致跟踪进度跟朗读进度不一致；（3）用户朗读预定内容外内容（下面统称为无关语音）时会导致跟踪进度跟朗读进度不一致；（4）用户开始朗读前存在环境噪音干扰时可能导致跟踪进度跟朗读进度不一致。

综上所述，现有方法的最大缺点在于没有考虑到用户的朗读习惯，从而使用户体验效果较差。而本发明很好地解决了以上问题，它采用成熟的语音识别技术，可以使学习系统精确地识别出用户当前朗读的进度，并引入实时无关语音检测机制，有效地解决了在用户朗读预期内容外的内容时，无法智能识别的问题。极大地提高了用户的主观体验。

发明内容

本发明技术解决问题：克服现有技术没有考虑到用户的朗读习惯和应用环境的复杂性方面的不足，提供一种可实时反馈用户朗读进度的语音跟踪方法，既解决了用户不按正常顺序朗读而无法正常跟踪的问题，又提高了系统的抗环境噪音干扰能力，使语音朗读跟踪功能真正达到实用的水平。

本发明技术解决方案：一种可实时反馈用户朗读进度的语音跟踪方法，实现步骤下：

（1）输入待跟踪的文本，并进行文本处理；

（2）根据所述文本搭建跟踪解码网络，并将跟踪解码网络、声学模型传给解码器；所述声学模型是语音识别的基础数学模型，模型单元是基础数学模型的组成部分，它是音素、音节或字，目前主流的建模方式是采用隐马尔科夫建模。解码器是语音识别系统的核心之一，其任务是对输入的声学特征序列，根据声学模型、解码网络，寻找该声学特征序列对应的概率最大的语言单元序列；解码网络又称语法网络，是解码器的输入之一，解码网络限定了解码器输出语言单元序列的范围；

（3）实时提取声学特征序列，所述声学特征序列是指声学特征中多个单元，每一个单元称为一帧，并实时传递给解码器；所述声学特征是描述短时语音本质特征的一组值，通常是一种固定维数的特征向量（如39维的MFCC特征向量）；

（4）解码器基于步骤（3）中输入的声学特征序列，在跟踪解码网络中对所有可能的网络路径进行搜索，每隔一定时间检查当前的搜索路径，并找出当前概率最优路径，基于此最优路径判断用户朗读进度，获取当前朗读内容在文本中的位置和状态；同时结合最大路径中发音单元的概率信息检测用户是否朗读了文本外的内容；

（5）根据步骤（4）中反馈的当前朗读内容在文本中的位置和状态，实时显示跟踪进度；

所述步骤（2）中搭建跟踪解码网络的过程如下：

（21）获取文本处理步骤中得到的朗读文本模型单元序列，所述模型单元序列是指多个模型单元按顺序排列在一起称为模型单元序列；

（22）计算节点和连接弧的数目，分配内存，即根据模型单元序列个数计算跟踪解码网络中的空节点、朗读文本模型单元节点、无关语音模型单元节点及连接弧个数，并为这些节点和弧分配存储单元；

（23）构造无关语音吸收网络，即将无关语音吸收网络中的关联节点用弧进行连接；

（24）将朗读文本模型单元节点、空节点、无关语音吸收网络通过弧连接。

所述步骤（4）中找出当前概率最优路径的过程为：

（41）取出解码器上一次输出的最优路径，若模型单元中为字，则此处的路径即为朗读文本序列，若模型单元为音素或音节，则需要将其解析成朗读文本序列；

（42）获取解码器当前输出的最优路径，并解析成朗读文本序列，将新的朗读文本序列与上一次的朗读文本序列进行差异比较；

（43）根据步骤（42）中的文本序列差异，标记每个字的状态，所述每个字的状态包括：UNREAD、CHECKING、HASREAD，UNREAD表明前面抛出过该字已朗读，但是在后期的检查中发现用户没有朗读该字，需取消前面的判断；CHECKING表明用户正在朗读该字，且尚未朗读完整；HASREAD表明用户已朗读了该字；

（44）得到最优路径，并保存（42）中获取的最优路径供下一次差异比较。

所述步骤（3）中声学特征包括梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。

所述步骤（4）中解码器包括Viterbi解码，或是基于动态时间规整（DTW）的解码。

所述步骤第（2）构建跟踪解码网络时，根据应用需要构造不同结构的跟踪解码网络，包括调整节点间跳转的灵活性、连接弧的惩罚。

本发明与现有技术相比的优点在于：

（1）本发明充分考虑了用户的朗读习惯，分析用户在朗读过程中可能出现的不按文本正常顺序朗读的情况，这些情况主要包括：回读：对已经读过的内容再重复朗读一遍或多遍；漏读：跳过当前应该朗读的内容而读后面的内容；增读：额外朗读一些文本内内容或文本外内容；本发明构建了灵活的跟踪解码网络，任何文字间均可重复跳转，用户不按文本正常顺序朗读也能精确、实时地判断出当前朗读的位置，极大提高了系统的可用性。

（2）用户朗读预定内容外内容不影响正常跟踪进度。由于本发明构建的跟踪解码网络中加入了无关语音吸收网络，这种网络包含静音模型单元节点和无关语音模型单元节点，其中静音模型单元节点能吸收非人声语音，无关语音模型单元节点采用混合人声语音训练能吸收预定内容外内容，因此朗读预定内容外内容时，系统能够检测出来。

（3）抗环境噪音干扰能力更强。优点（2）中提到的跟踪解码网络中加入了无关语音吸收网络，由于无关语音模型的训练数据中加入了各种实际应用场景的噪音数据，因此无关语音吸收网络对环境噪音干扰具有一定的吸收作用，此优点可以保证用户在存在环境噪音干扰的场所使用也能达到同样的效果，提高了系统的鲁棒性。

（4）本发明采用解码器智能判断用户朗读进度，从根本上区别于现有技术采用的按固定时间显示用户朗读进度的方法，因此本发明无需提前预设显示速度。

附图说明

图1为现有技术的实现流程图；

图2为本发明实现流程图；

图3为本发明跟踪网络构建流程图；

图4为本发明跟踪网络结构示例图；

图5为本发明跟踪网络中的无关语音吸收网络示例图；

图6为本发明最优路径实时判断图；

图7为本发明文本序列中字的状态图；

图8为本发明声学特征提取流程图。

具体实施方式

如图2所示，本发明采用语音识别解码器并结合灵活的跟踪解码网络，实时处理每一段语音数据，并实时反馈用户朗读进度，具体实施过程如下：

（1）文本输入及处理

输入的文本是用户预定的朗读内容，也是构建解码网络的依据之一。此步骤主要完成二个任务：首先需要对文本的编码格式进行统一转换，比如统一转换成UTF8格式，这样做的好处在于解析文本的代码仅需要实现一套；其次按照声学模型中对应模型单元的颗粒度(如字、音节、音素)进行解析（一般采用音素作为建模单元效果更佳，以下描述均以音素为例），生成解析结果树状结构，该结构包含篇章、句子、词语、字、音节、音素六个层次的完整信息，其中前4个层次可以按照文本前端分词算法进行解析，后2个层次可以根据发音词典进行解析。

（2）构建跟踪解码网络

实施流程如图3所示，以文本“中国人”为例，输出结果见图4，具体操作流程如下：获取文本处理步骤中得到的模型单元序列；

（a）计算节点和连接弧数目，分配内存。根据模型单元序列个数计算网络中的空节点、朗读文本模型单元节点、无关语音模型单元节点以及连接弧个数，并为这些节点和弧分配存储单元；空节点包含三类：开始节点、结束节点、普通空节点（如无特殊说明，空节点默认属于普通空节点，普通空节点的作用是为了让网络更加灵活）；

（b）构造无关语音吸收网络（网络示例图见图5），即将无关语音吸收网络中的关联节点用弧进行连接。先构造开始节点和结束节点，然后将空节点、静音单元节点、无关语音模型单元节点并联。此处的无关语音吸收网络主要为了吸收朗读文本外内容、静音及环境噪音，这样的网络可以保证对各种无关语音的连续吸收；

（c）将朗读文本模型单元节点、空节点、无关语音吸收网络通过弧连接。

（3）提取声学特征

声学特征的类型较多，下面以MFCC特征为例说明，MFCC特征的提取流程如图8所示，具体步骤如下:

（a）A/D变换，将模拟信号转换为数字信号；

（b）预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响；

（c）分帧：根据语音的短时平稳特性，语音可以以帧为单位进行处理，一般可以取25毫秒(ms)作为一帧；

（d）加窗：采用哈明窗对一帧语音加窗，以减小吉布斯效应的影响；

（e）快速傅立叶变换（Fast Fourier Transformation,FFT）：将时域信号变换成为信号的功率谱；

（f）三角窗滤波：用一组Mel频标上线性分布的三角窗滤波器（共24个三角窗滤波器），对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应；

（g）求对数：三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果；

离散余弦变换（Discrete Cosine Transformation,DCT）：去除各维信号之间的相关性，将信号映射到低维空间；

（h）谱加权：由于倒谱的低阶参数易受说话人特性、信道特性等的影响，而高阶参数的分辨能力比较低，所以需要进行谱加权，抑制其低阶和高阶参数；

（i）倒谱均值减（Cepstrum Mean Subtraction,CMS）：CMS可以有效地减小语音输入信道对特征参数的影响；

（j）差分参数：大量实验表明，在语音特征中加入表征语音动态特性的差分参数，能够提高系统的识别性能。也用到了MFCC参数的一阶差分参数和二阶差分参数。

（4）语音解码

语音解码是本发明中重要的一步（以Viterbi解码为例），本发明中语音解码的实施过程分以下几步：

（a）对输入的每帧声学特征，计算解码网络中当前每条可行路径对应节点的输出概率和节点内部状态转移概率，并更新当前路径的累计概率。此处的输出概率可根据节点音素对应的隐马尔科夫模型和声学特征计算，节点内部状态转移概率直接从模型中读取；

（b）步骤（a）中当解码到节点内部最后一个状态时，可对当前解码路径进行扩展，扩展的依据就是跟踪解码网络，当此节点连接到多个节点时，需要扩展多条路径继续进行解码，若跟踪解码网络的弧上存在路径惩罚，则需要将惩罚累加到路径的累计概率中；

（c）每隔固定时间（一般是0.1s）检查一次当前的最优路径，获取当前朗读内容在文本中的位置和状态，过程如下：

（c1）取出解码器上一次输出的最优路径，若模型单元为字，则此处的路径即为朗读文本序列，若模型单元为音素或音节，则需要将其解析成朗读文本序列，解析的方法可以是通过查找词典（词典中包含音素或音节跟字的对应关系）来实现；

（c2）获取解码器当前输出的最优路径，并解析成朗读文本序列，将新的朗读文本序列与上一次的朗读文本序列进行差异比较。以图6为例，新的朗读文本序列为ABCDEFGHIJK，上一次的朗读文本序列为ABCDEFGHY，重合部分为ABCDEFGH，可认为用户已经朗读的文本内容为ABCDEFGH；

（c3）根据步骤（c2）中的文本序列差异，标记每个字的状态，所述每个字的状态包括：UNREAD、CHECKING、HASREAD。UNREAD表明前面抛出过该字已朗读，但是在后期的检查中发现用户没有朗读该字，需取消前面的判断；CHECKING表明用户正在朗读该字，且尚未朗读完整；HASREAD表明用户已朗读了该字，每个字的状态可以根据文本序列差异进行变化，变化的过程参见图7，比如上一次的朗读文本序列中Y的状态为HASREAD，新的朗读文本序列中没有出现Y，则Y的状态变成UNREAD；

（c4）得到最优路径，并保存（c2）中获取的最优路径供下一次差异比较。将此处得到的最优路径解析成朗读文本序列，并标记好朗读文本序列在朗读文本中的位置和状态。

（5）跟踪结果反馈

解码器实时反馈当前朗读内容在文本中的位置和状态，反馈的方式可以是回调，也可以由外部应用程序定时获取，基于此信息外部应用程序按照一定的方式实时刷新跟踪进度，比如可通过改变文字的颜色来显示，对用户没有朗读到内容用灰色字体显示，对用户正在朗读的内容用黄色背景显示，对用户已经朗读的内容用黑色字体显示。显示的方式不限于此。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种可实时反馈用户朗读进度的语音跟踪方法，其特征在于实现步骤如下：

（1）输入待跟踪的文本，并进行文本处理；

（2）根据所述文本搭建跟踪解码网络，并将跟踪解码网络、声学模型传给解码器；所述声学模型是语音识别的基础数学模型，模型单元是基础数学模型的组成部分，可以是音素、音节或字；

（3）实时提取声学特征序列，所述声学特征序列是指声学特征中多个单元，每一个单元称为一帧，并实时传递给解码器；所述声学特征是描述短时语音本质特征的一组值；

所述步骤（2）中搭建跟踪解码网络的过程如下：

2.根据权利要求1所述的一种可实时反馈用户朗读进度的语音跟踪方法，其特征在于：所述步骤（4）中找出当前概率最优路径的过程为：

3.根据权利要求1所述的一种可实时反馈用户朗读进度的语音跟踪方法，其特征在于：所述步骤（3）中声学特征包括梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。

4.根据权利要求1所述的一种可实时反馈用户朗读进度的语音跟踪方法，其特征在于：所述步骤（4）中解码器包括Viterbi解码，或是基于动态时间规整（DTW）的解码。

5.根据权利要求1所述的一种可实时反馈用户朗读进度的语音跟踪方法，其特征在于：所述步骤第（2）构建跟踪解码网络时，根据应用需要构造不同结构的跟踪解码网络，包括调整节点间跳转的灵活性、连接弧的惩罚。