CN106548785A

CN106548785A - 一种语音处理方法及装置、终端设备

Info

Publication number: CN106548785A
Application number: CN201510595881.0A
Authority: CN
Inventors: 阮卫东
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2017-03-29
Also published as: WO2016165334A1

Abstract

本发明公开了一种语音处理方法及装置、终端设备，涉及智能终端技术。本发明公开的方法包括：播放流媒体音视频；获取用户输入的语音信号，将所述用户输入的语音信号作为被测音频进行缓存，并暂停播放所述流媒体音视频；获取所述流媒体音视频在暂停播放时刻之前的音频数据，并将所述音频数据作为标准音频进行缓存；将所述被测音频与所述标准音频进行对比，得到被测音频与标准音频的相似度；将所述被测音频与标准音频的相似度显示给用户。本发明还公开了一种语音处理装置及包含此语音处理装置的终端设备。本申请技术方案能够及时比较用户发音和教学发音的相似度，纠正发音，提高自学效率。

Description

一种语音处理方法及装置、终端设备

技术领域

本发明涉及智能终端技术，特别涉及一种语音处理方法及装置、终端设备。

背景技术

智能终端已经很普及了，在智能终端上学习外语更加方便，用户可以在网络上找到很多音视频学习资源，通常的学习方法是，通过一些应用如优酷、爱奇艺、喜马拉雅、荔枝FM等下载音视频资源，离线打开下载的资源来学习，或直接在应用中在线打开资源来学习。

在使用优酷等视频网站的视频资源或一些外语学习网站的音频资源学习外语时，视频或音频中的老师教了一个音标或单词的读音后，学习人都会跟读，但是学习人无法确定是否和老师的读音完全一致，只能凭自己的感觉，这样的话学习效果不佳。

发明内容

本发明所要解决的技术问题是，提供一种语音处理方法及装置、终端设备，以解决现有通过智能终端自学语言时无法判断自学音标是否准确的问题。

为了解决上述技术问题，本发明公开了一种语音处理方法，该方法包括：

播放流媒体音视频；

获取用户输入的语音信号，将所述用户输入的语音信号作为被测音频进行缓存，并暂停播放所述流媒体音视频；

获取所述流媒体音视频在暂停播放时刻之前的音频数据，并将所述音频数据作为标准音频进行缓存；

将所述被测音频与所述标准音频进行对比，得到被测音频与标准音频的相似度；

将所述被测音频与标准音频的相似度显示给用户。

可选地，上述方法中，将所述被测音频与所述标准音频进行对比，得到被测音频与标准音频的相似度的过程包括：

对缓存的被测音频以及标准音频分别进行预处理；

对预处理的被测音频进行计算，从中提取被测音频的特征参数，对预处理的标准音频进行计算，从中提取标准音频的特征参数；

计算所述被测音频的特征参数和所述标识音频的特征参数的差距，得到所述被测音频与所述标准音频的相似度。

可选地，上述方法中，所述被测音频的特征参数包括如下一种或几种：

线性预测系数(LPCC)、美尔倒谱系数(MFCC)和口音敏感参数(ASCC)。

可选地，上述方法中，获取暂停时刻之前的流媒体音视频中的音频数据包括：

首次暂停播放流媒体音视频时，获取暂停时刻之前所播放的流媒体音视频中的所有音频数据；

非首次暂停播放流媒体音视频时，获取最近一次缓存的流媒体音视频之后至暂停时刻的音频数据。

可选地，上述方法中，将被测音频与标准音频的相似度显示给用户后，该方法还包括：

接收用户发起的流媒体暂停指令时，暂停播放流媒体音视频；

接收用户发起的流媒体播放指令时，继续播放流媒体音视频。

本发明还公开了一种语音处理装置，该装置包括：

识别单元，播放流媒体音视频时，获取用户输入的语音信号，以及在获取到用户输入的语音信号时，暂停播放流媒体音视频并将所获取的音频数据作为标准音频进行缓存；

音频获取单元，获取暂停时刻之前的流媒体音视频中的音频数据，并将获取到的用户输入的语音信号作为被测音频进行缓存；

比较单元，将所述被测音频与所述标准音频进行对比，得到被测音频与标准音频的相似度；

显示单元，将被测音频与标准音频的相似度显示给用户。

可选地，上述装置中，所述比较单元包括：

预处理模块，对缓存的被测音频和标准音频分别进行预处理；

音频特征提取模块，对预处理的被测音频进行计算，从中提取被测音频的特征参数，以及对预处理的标准音频进行计算，从中提取标准音频的特征参数；

音频比较模块，计算所述被测音频的特征参数和所述标识音频的特征参数的差距，得到所述被测音频与所述标准音频的相似度。

可选地，上述装置中，所述被测音频的特征参数包括如下一种或几种：

可选地，上述装置还包括：

控制单元，在所述显示单元将被测音频与标准音频的相似度显示给用户后，接收用户发起的流媒体暂停指令时，暂停播放流媒体音视频，以及接收用户发起的流媒体播放指令时，继续播放流媒体音视频。

可选地，上述装置中，音频获取单元获取暂停时刻之前的流媒体音视频中的音频数据指：

本发明还公开了一种终端设备，至少包括如所述的语音处理装置。

采用本申请技术方案，可以在利用网络上丰富的语言教学节目学习外语时，能够及时比较自己的发音和教学发音的相似度，纠正自己的发音，提高自学效率，使用户有更好的学习互动性，不像之前只能被动的学习，无法确认自己发音的正确性。

附图说明

图1是本发明提供的一种语音处理流程图；

图2是本发明提供的一种语音处理装置结构示意图；

图3是本发明提供的一种语音处理装置中比较单元模块的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是，在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

实施例1

本实施例提供一种语音处理方法，可以通过语音对比提高学习外语成效，该方法有实现过程如图1所示，包括如下操作步骤：

步骤S101：播放流媒体音视频的同时，获取到用户输入的语音信号，则保存用户输入的语音信号，并暂停播放流媒体音视频；

其中，播放的流媒体音视频可以是本地或在线流媒体音视频；

而所获取到的用户输入的语音信号即可认为是被测音频。

该步骤中，可将用户输入的语音信号作为被测音频进行保存。

步骤S102：获取暂停时刻的流媒体音视频中的音频数据，并保存在一个文件；

其中，所保存的暂停时刻的流媒体音视频中的音频数据可以认为是标准音频。

步骤S103：使用语音对比技术，比较用户输入的语音信号和保存的音频数据的相似度(即得到被测音频与标准音频的相似度)，可以给出发音打分；

步骤S104：将比较的相似度结果显示给用户。

另外，按照上述方法向用户显示相似度结果后，还可以进行后续的操作，即如果相似度高，用户可以选择继续学习，此时，就会收到用户发起的流媒体播放指令，按照该指令继续播放流媒体音视频。

如果相似度低，用户可以选择再次发音，此时，就会收到用户发起的流媒体暂停指令时，暂停播放流媒体音视频即可。同时，用户选择再次发音时，可以重新比较用户再次发音时输入的语音信号与标准音频之间的相似度，具体比较过程如上所述。

下面以Android系统的终端为例，说明上述方法的具体实施过程。

步骤S101，Android系统终端可以通过以下方法获取系统正在播放的音频，音频系统的最底层是/dev/eac设备文件，AudioHardwareInterface硬件抽象层的接口是AudioFlinger和Audio硬件的接口。AudioFlinger向下访问AudioHardware，实现输出音频数据，控制音频参数。同时，AudioFlinger向上通过IAudioFinger接口提供服务。所以，AudioFlinger在Android的音频系统框架中起着承上启下的作用，地位相当重要，可以通过AudioFlinger获取到系统音频。

AudioFlinger通过原生代码的frameworks/base/services/audioflinger/目录来实现，在文件AudioFlinger.cpp中可以找到AudioFlinger::MixerThread::threadLoop()，作用是混合各track音频数据，将混合后的音频数据写到底层音频设备，在该线程的代码中搜索mOutput->write，可以找到以下代码。

就在此处混合后的音频数据被写入缓存，传输到硬件相关代码，音频片段储存在mMixbuffer中，是PCM音频数据，将这个缓存写入到指定的文件中，如/data/wav.raw，就可以获取到系统正在播放的音频数据。

另外，在Android系统终端上，收到暂停指令后，可以使用mediaPlayer.pause来暂停播放。

步骤S102，将用户的发音写入缓存。Android提供了两个API用于实现录音功能：android.media.AudioRecord、android.media.MediaRecorder。

1、AudioRecord

主要是实现边录边播(AudioRecord+AudioTrack)以及对音频的实时处理。此种方式对语音的实时处理，可以用代码实现各种音频的封装。但输出是PCM语音数据，如果保存成音频文件，是不能够被播放器播放的，所以必须先写代码实现数据编码以及压缩。例如：使用AudioRecord类录音，并实现WAV格式封装。录音20s，输出的音频文件大概为3.5M左右。

2、MediaRecorder

已经集成了录音、编码、压缩等，支持少量的录音音频格式，大概有.aac(API＝16)、.amr和.3gp。此种方式大部分采用集成，直接调用相关接口即可，代码量小。但无法实时处理音频；输出的音频格式不是很多，例如没有输出mp3格式文件。使用MediaRecorder类录音，输出amr格式文件。录音20s，输出的音频文件大概为33K。

对上述两种录音方式比较可以看出，WAV格式，录音质量高，但是压缩率小，文件大，AAC格式，相对于mp3，音质更佳，文件更小；有损压缩；一般苹果或者Android SDK4.1.2(API 16)及以上版本支持播放。AMR格式，压缩比比较大，但相对其他的压缩格式质量比较差，多用于人声，通话录音。由于用户录音时间不会很长，为了取得更好对比效果，本实施例优选采用AudioRecord录音，录音文件格式为WAV。

要说明的是，获取暂停时刻之前的流媒体音视频中的音频数据的过程中，如果是首次暂停播放流媒体音视频，可以获取暂停时刻之前所播放的流媒体音视频中的所有音频数据，当然，能获取的音频数据的多少还要取决于系统分配的缓存大小。而针对非首次暂停播放流媒体音视频的，可以获取最近一次缓存的流媒体音视频之后至暂停时刻的音频数据。即用户对上一次发音比较结果满意，选择继续学习后，终端开始获取新的音频数据即可。

步骤S103，可以使用现有的音频比对技术，实现用户读音和教学音频的对比。

本实施例中，实现音频比对技术的方法是利用提取音频特征参数来进行音频相似度比对。该过程主要包括如下操作：

对缓存的被测音频以及标准音频分别进行预处理；

其中，本实施例中所涉及的特征参数可以是美尔倒谱系数(MFCC)、有线性预测系数(LPCC)和口音敏感参数(ASCC)等等，不作特别限制。

实施例2

本实施例提供一种语音处理装置，如图2所示，包括：

识别单元201用于获取用户的发音(即可认为是被测音频)并存储下来，发送暂停指令给控制单元；

获取单元202用于获取本地或在线流媒体音视频中的音频流内容(即可认为是标准音频)；

比较单元203用于从音频获取单元和语音识别单元获取教学音频和用户发音，使用语音对比技术，比较用户的发音和教学音频的相似度(即比较被测音频和标准音频之间的相似度)，将结果传递给显示单元；

显示单元将用于比较结果显示给用户204；控制单元205用于控制本地或在线流媒体音视频的播放。

下面结合具体应用场景详细说明上述装置的工作过程。

应用场景1

用户从网上下载一个外语教学节目(音频或音视频)，选择播放开始学习，节目中的教学者给出一个单词的发音后，装置缓存教学者发音的音频，用户立刻跟读，装置识别到用户语音，暂停节目播放，并缓存用户的发音，跟读结束后，装置比较用户发音和教学者的发音，并给出比较结果，如果相似度高，用户选择继续学习，如果相似度低，用户可以重新发音，再次比较。即此时，在上述装置的基础上，可增加一控制单元，该控制单元，主要在显示单元将被测音频与标准音频的相似度显示给用户后，若接收到用户发起的流媒体暂停指令，则暂停播放流媒体音视频，若接收到用户发起的流媒体播放指令，则继续播放流媒体音视频。

应用场景例2

用户使用在网上在线播放一个外语教学节目(音频或音视频)，节目中的教学者给出一个单词的发音后，装置缓存教学者发音的音频，用户立刻跟读，装置识别到用户语音，暂停节目播放，并缓存用户的发音，跟读结束后，装置比较用户发音和教学音频，并给出比较结果，如果相似度高，用户选择继续学习，如果相似度低，用户可以重新发音，再次比较。

下面参见图3说明上述比较单元实现语音比较的过程，该比较单元包括预处理模块301、音频特征提取模块302和音频比较模块303；

预处理模块301用于处理语音信号，预处理过程通常来说包括语音信号的数字化、预加重、端点检测等，主要对被测音频和标准音频分别进行预处理；

音频特征提取模块302负责计算和提取反映语音信号特征的关键参数，即分别计算提取被测音频和标准音频的特征参数，现在较常用的特征参数有线性预测系数(LPCC)、美尔倒谱系数(MFCC)和口音敏感参数(ASCC)等；

音频比较模块303通过计算提取出的语音信号特征参数和教学音频的特征参数的差距来反映两者之间的相似度。

由于MFCC在实际应用中能够更好的反应语音特性，并且有良好抗噪能力，被证明实在语音识别领域最成功的特征描述之一，因此本发明以使用MFCC作为特征参数为例，说明比较的具体过程。

MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。Mel频率可以用如下公式表示：

Mel(f)＝2595×lg(1+f/700)

Mel频率倒谱系数(MFCC)参数的提取过程，包括如下操作步骤：

步骤(1)预加重(pre-emphasis)

将经采样后的数字语音信号s(n)通过一个高通滤波器(high pass filter)：H(z)＝1–a×z-1,0.9 a 1.0(一般取0.95左右)。经过预加重后的信号为：(n)＝s(n)–a×s(n-1)。因为发声过程中声带和嘴唇的效应，使得高频共振峰的振幅低于低频共振峰的振幅，进行预加重的目的就是为了消除声带和嘴唇的效应，来补偿语音信号的高频部分。

步骤(2)分帧(frame blocking)

一般取10-20ms为一帧，为了避免窗边界对信号的遗漏，因此对帧做偏移时候，要有帧迭(帧与帧之间需要重叠一部分)。一般取帧长的一半作为帧移，也就是每次位移一帧的二分之一后再取下一帧，这样可以避免帧与帧之间的特性变化太大。

步骤(3)计算短时能量(energy)

短时能量代表着音量的高低，亦即声音振幅的大小，可以根据此能量的值来过滤掉语音信号中的一些细微噪声。当一帧的能量值低于我们定的门槛值(threshold)时，则将此帧作为静音段(silence)。

步骤(4)加窗(hamming window)

语音在长范围内是不停变动的，没有固定的特性无法做处理，所以将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等，根据窗函数的频域特性，常采用汉明窗。公式是在加窗范围内，w(n)＝0.54-0.46*cos(2*pi*n/(n-1))。

步骤(5)快速傅立叶变换(FFT transform)

由于语音信号在时域上的变化快速而不稳定，所以通常都将它转换到频域上来观察，此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过FFT(Fast Fourier Transform)求出每帧的频谱参数。

步骤(6)三角形带通滤波器(triangular band-pass filter)

将每帧的频谱参数通过一组N个三角形带通滤波器(N一般为20～30个)所组成的梅尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量(log energy)，k＝1,2,…N。再将此N个参数进行余弦变换(cosinetransform)求出L阶的Mel-scale cepstrum参数。

还要说明的是，上述比较单元中，除了使用美尔倒谱系数(MFCC)提取语音信号特征参数外，也可以使用有线性预测系数(LPCC)和口音敏感参数(ASCC)来提取。

另外，上述音频获取单元获取暂停时刻之前的流媒体音视频中的音频数据时，如果是首次暂停播放流媒体音视频，则获取暂停时刻之前所播放的流媒体音视频中的所有音频数据。当然，所能获取的所有的音频数据的大小还要取决于为音频获取单元分配的缓存大小。而针对非首次暂停播放流媒体音视频的，可以获取最近一次缓存的流媒体音视频之后至暂停时刻的音频数据。即用户对上一次发音比较结果满意，选择继续学习后，终端开始获取新的音频数据即可。

由于上述语音处理装置可置于终端设备内，故本实施例还单独提供一种终端设备，其至少包括上述语音处理装置，该语音处理装置的工作原理可参见上述内容，在此不再赘述。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，该方法包括：

播放流媒体音视频；

将所述被测音频与标准音频的相似度显示给用户。

2.如权利要求1所述的方法，其特征在于，将所述被测音频与所述标准音频进行对比，得到被测音频与标准音频的相似度的过程包括：

对缓存的被测音频以及标准音频分别进行预处理；

3.如权利要求2所述的方法，其特征在于，所述被测音频的特征参数包括如下一种或几种：

4.如权利要求1至3任一项所述的方法，其特征在于，获取暂停时刻之前的流媒体音视频中的音频数据包括：

5.如权利要求4所述的方法，其特征在于，将被测音频与标准音频的相似度显示给用户后，该方法还包括：

6.一种语音处理装置，其特征在于，该装置包括：

显示单元，将被测音频与标准音频的相似度显示给用户。

7.如权利要求6所述的装置，其特征在于，所述比较单元包括：

8.如权利要求7所述的装置，其特征在于，所述被测音频的特征参数包括如下一种或几种：

9.如权利要求6至8中任一项所述的装置，其特征在于，该装置还包括：

10.如权利要求9所述的装置，其特征在于，音频获取单元获取暂停时刻之前的流媒体音视频中的音频数据指：

11.一种终端设备，其特征在于，至少包括如权利要求6至10所述的语音处理装置。