CN103871417A

CN103871417A - 一种移动手机特定连续语音过滤方法及过滤装置

Info

Publication number: CN103871417A
Application number: CN201410112404.XA
Authority: CN
Inventors: 汪金辉; 龙哲华; 侯立刚; 耿淑琴; 彭晓宏; 宫娜
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-03-25
Filing date: 2014-03-25
Publication date: 2014-06-18

Abstract

一种移动手机特定连续语音过滤方法及过滤装置，属于通讯方法及设备技术领域。通过使用者使用此功能时，先录入用户语音，在移动手机内记录一个已识别特定语音，建立一个移动手机的语音库；每次使用移动手机进行通话，用户可以选择手机只识别特定语音。通过本发明，在嘈杂的环境下通话，可以有效的解决在这种环境下通话的不便性，也可以保证通话的另一端，能听到高质量的语音通话，当然这个功能使用时，也可以让移动手机只通过用户自己的语音，可以不让身边其他人的话语传递到另一方，在保护用户隐私方面同样有着很广泛的适用性。

Description

一种移动手机特定连续语音过滤方法及过滤装置

技术领域

本发明涉及一种用于移动手机通话识别特定人的连续语音的过滤方法及过滤装置，适用于语音降噪，滤除非目标语音，属于语音通讯技术领域。

背景技术

语音识别技术自诞生以来就对人类的生活方式产生了深远的影响，因此语音识别技术一直以来都是世界各地学者们深入研究的热点。目前语音识别广泛采用动态时间规整(DTW)技术和基于概率统计原理的隐马尔可夫模型(HMM)技术。语音是一个复杂的非线性过程，因此基于非线性理论，具有自适应性、并行性、鲁棒性、容错性和学习性等特点的人工神经网络技术逐渐成为时下语音识别新的研究方向。如今的移动通话，已成为人们生活必不可少的一部分，但是通话环境对于我们的通话质量影响非常明显，尤其在一个特别嘈杂的环境，但需要通话的情况下，移动手机的一个识别特定人的连续语音的功能，就会给用户一个极好的用户体验，是一个被广大用户需要的功能。

语音识别的层次模型和系统模型上分析语音识别的基本原理。语音预处理的整个流程，包括对原始语音信号的采集、预加重、分帧加窗、端点检测和不同语音特征值的获取。移动设备的特定语音识别有着广泛的应用前景和商业价值。鉴于语音识别的重要性，各国都把其当作本国的一个重点项目投入重金加以研究。然而语音信号的声学特征极其复杂，不同国家的人们语言各不相同，同一个国家之间又存在方言的差异，即使是同一个人在不同环境下，不同心里因素下都可能造成语音特征的波动。在语音识别的研究过程中不可避免的会遇到诸多困难，这主要表现在以下几个方面上

(1)噪声的干扰

语音识别系统在最初开发的时候往往是在相对安静的环境下进行，而在实际投入使用的时候，其周围环境往往是难以预料的。在有噪声干扰的情况下，系统识别率往往会受到巨大影响，主要是因为此时系统捕获的声音会发生很大的变化即发生所谓的Lombard效应。目前常采用抑制噪声的方法来进行去噪，主要技术有：环境规整术、建立噪声模型、谱减法和修正识别器模型使之适合噪声

(2)语音信号本身的复杂性和多变性

由于世界各地的人们使用不同的语音，而同一个国家内部又存在着众多的方言，这都对语音特征参数的研究提出了巨大的挑战，因此目前很难实现一个对各种语音能够完全通用的语音识别系统。即便是同一个人在不同时间所说的同一个语音都不是完全一致的，因此语音信号自身的复杂和多变性也制约着语音识别的进一步发展。

(3)语音系统的复杂性

语音识别系统是一项及其复杂的工程，它涉及到众多领域的学科，像语音声学、人工智能学、模式识别、数理统计学、通信学、计算机科学甚至心理学。因此如果这些学科得不到快速的发展，出现了所谓的瓶颈，最终也会制约着语音识别向更高的方向发展。

综上所述,语音识别技术虽然还有一些技术没有很好得到解决,但是语音识别的应用在近年来呈现出较大的增长需求,如在安全领域,相关部门结合相关业务提出了相应的需求;在教育领域,大人群的普通话水平测试与口语评估迫切需要客观的、自动的评估技术;在电信领域,国内外语音识别技术和部门进入了中国市场;在手机、汽车导航等嵌入式市场,对语音识别技术需求也日益增长;在人机交互领域,语音伴侣、移动终端的语音搜索等得到广泛的应用。因此,语音识别技术作为非常重要的人机交互的技术,有着非常广阔的应用领域和市场前景。

发明内容

本发明目的在于提供一种用于移动手机通话识别特定人的连续语音的过滤技术，尤其在嘈杂的环境下通话，可以有效的解决在这种环境下通话的不便性，同时保护用户隐私方面同样有着很广泛的适用性。该移动手机通话特定连续语音识别系统包括：语音信号接受单元、语音信号预处理单元、提取语音信号基音频率单元、基音频率配比单元、语音基音频率库、语音信号输出单元。语音信号接收单元用于检测到语音信号，接受并输入到本发明模块信号链路；语音信号与处理单元用于保证系统获得一个比较理想的对象；提取语音信号特征单元用于提取进入手机的所有语音基音频率；基音频率配比单元用于将已有在语音库里的基音频率和提取到的基音频率进行比较，并把不匹配的基音频率过滤，留下配比成功的基音频率；语音基音频率库，是事先由用户进行语音训练生成的用户特定语音参数的库，用来和通话时进入手机的语音进行配比；语音信号输出单元用于把最终得到的目标语音发送到手机的通信模块。

为了实现上述目的，本发明采用的技术方案如下：

一种移动手机特定连续语音过滤方法，首先建立一个特定用户的语音基音频率库，用来作为用户特定连续语音的特征标记；然后语音通话时对接收到的语音信号，进行特征提取，然后进行基音频率的配比，并把不匹配的基音频率滤除。具体步骤如下：

S_1。建立一个特定用户的语音基音频率库Q，基音频率库Q中存储着用户的语音基音频率，在手机开启此功能时，每次语音通话都把接收到的语音进行基音频率配比，滤除不匹配的基音频率。

S_2。对接收到的所有语音进行预处理，处理过程是预滤波、采样和量化、加窗和分帧、端点检测等等。这样可以让系统获取一个比较理想的对象，以利于后续工作的展开。对于语音识别系统，信号预处理的好坏直接关系到最后系统的识别率。

S_3。将预处理后的语音信号进行基音频率提取，基音频率指的是发浊音时声带振动所引起的周期性特征，基音周期的倒数即为基因频率。基音频率提取包括两个主要过程谱平整和基因轨迹平滑，把经过预处理后的信号先进行谱平整，然后进行基音轨迹平滑。这样就可以把不同语音的基因频率分离出来，滤除所有非目标语音的基因频率

S_4。对提取到的基音频率和语音基音频率库中已有的基音频率进行配比，因为每个人的基因频率都是不一样的，然后将与基音频率库中不一致的基音频率滤除，使配比后的基音频率作为最终得到的用户语音发送到后续的单元。

S_5。滤除了语音信号中的非目标语音就可以得到用户的语音，作为手机后续的通信信号发送出去，从而实现在不同语音环境下，用户都能进行通畅的通话，并只发送用户的语音，也可以在保护用户隐私方面有着重要应用。

为了实现上述步骤，该移动手机通话识别特定人的连续语音的过滤系统各个单元的功能如下：

1.语音信号接受单元：用于检测到环境中语音信号，并作为移动手机设备的语音信号接收端，将信号接入到设备中。

2.语音信号预处理单元：用于将已接收到的语音信号进行预处理包括预滤波、采样和量化、加窗和分帧、端点检测等等，保证系统能获取一个比较理想的对象，以利于后续工作的展开。

3.提取语音信号基音频率单元：将预处理后的语音信号进行基音频率提取，将语音中所有被接受到的声音基音频率都提取出来，以进行后续基音频率配比。

4.基音频率配比单元：将接收到语音信号提取到的基音频率与已经建立的语音基音频率库中的基音频率进行配比，并将不匹配的基音频率滤除，得到匹配的基音频率，已达到目标语音识别，非目标语音滤除的功能。

5.语音基音频率库：在用户开启语音识别功能时，进行特定用户的语音训练，从而生成的语音基音频率库，用于和通话接收到的语音进行配比，是实现语音识别的标杆。

6.语音信号输出单元：将识别后的语音基音频率，进行信号处理，并作为移动手机语音通信模块最终要处理的信号。

总体而言，与现有技术相比，本发明可以获得如下有益效果：对于用户可能会处于不同通话环境，并且可能会严重影响用户的通话语音信号质量，从而给用户带来通话的不便性；通过本发明的特定连续语音过滤方法，可以有效的解决嘈杂环境下通话的不便性，并且开启此功能，用户还可以只通过自己语音信号，滤除环境中其他人的语音，可以达到某些保护隐私的功能，这些都是达到使用户语音通话更方便。

附图说明

图1为特定连续语音过滤技术的总体系统图；

图2为用户特定语音特征提取，特征参数匹配过程图；

图3为语音训练及生成语音特征参数库过程图；

图4为移动手机特定语音过滤模块，功能划分图；

图5为特定连续语音过滤技术流程示意图。

图中：M1、M2、M3、M4、M5、M6——语音环境中的6个人；

A1、A2、A3、A4、A5、A6——6个人各自发出的语音信号；

P1——移动手机；

A6——目标语音信号；

C1——通信网络；

Q1——语音信号接收单元；

Q2——语音信号预处理单元；

Q3——提取语音信号特征单元；

Q4——特征参数配比单元；

Q5——语音信号输出单元；

Q6——语音信号特征参数库；

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，为特定连续语音的过滤系统的总体框图，该框图包括语音环境中M1、M2、M3、M4、M5和M6一共六个人；A1、A2、A3、A4、A5和A6分别为M1、M2、M3、M4、M5和M6发出的六种不同的语音信号；P1用户的移动手机；M6目标语音；C1通信网络；

如图4所示，就是图1中P1具备的本发明模块，包括6个单元，分别为语音信号接受单元、语音信号预处理单元、提取语音信号特征单元、特征参数配比单元、语音特征参数库、语音信号输出单元。

如图2所示，语音特定参数配比过程，将接收到语音信号提取到的特征参数与已经建立的语音特征参数库中的参数进行配比，并将不匹配的参数滤除，得到匹配的参数，以达到目标语音识别，非目标语音滤除的功能。

如图3所示，特定语音库的建立，在用户开启语音识别功能时，进行特定用户的语音训练，从而生成的语音特征参数库，用于和通话接收到的语音进行配比，是实现语音识别的标杆。整个语音识别模块，如图4所示，移动手机的语音识别系统具体的6个模块语音信号接受单元、语音信号预处理单元、提取语音信号特征单元、特征参数配比单元、语音特征参数库、语音信号输出单元。

以下是本发明的具体实施步骤：

信号在识别模块中先后经过6个模块如图5所示，通过语音信号接受单元进入移动手机；经过语音信号预处理单元获取一个比较理想的对象；再由提取语音信号特征单元获得接收语音的所有特征参数，在特征参数配比单元，语音信号特征单元获得所有特征语音参数和语音特征参数库中的参数进行匹配，如图2所示；滤除不匹配的特征参数，得到目标语音，从而实现特定语音识别，滤除非目标语音的功能。语音特征数据库的生成过程如图3所示。

Claims

1.一种移动手机特定连续语音过滤方法，其特征在于：首先建立一个特定用户的语音基音频率库，用来作为用户特定连续语音的特征标记；然后语音通话时对接收到的语音信号，进行特征提取，然后进行基音频率的配比，并把不匹配的基音频率滤除；具体步骤如下：

S₁建立一个特定用户的语音基音频率库Q，基音频率库Q中存储着用户的语音基音频率，在手机开启此功能时，每次语音通话都把接收到的语音进行基音频率配比，滤除不匹配的基音频率；

S₂对接收到的所有语音进行预处理，处理过程是预滤波、采样和量化、加窗和分帧、端点检测；

S₃将预处理后的语音信号进行基音频率提取，基音频率指的是发浊音时声带振动所引起的周期性特征，基音周期的倒数即为基因频率；基音频率提取包括两个主要过程即谱平整和基因轨迹平滑，把经过预处理后的信号先进行谱平整，然后进行基音轨迹平滑；这样就可以把不同语音的基因频率分离出来，滤除所有非目标语音的基因频率；

S₄对提取到的基音频率和语音基音频率库中已有的基音频率进行配比，然后将与基音频率库中不一致的基音频率滤除，使配比后的基音频率作为最终得到的用户语音发送到后续单元；

S₅滤除了语音信号中的非目标语音就可以得到用户的语音，作为手机后续的通信信号发送出去，从而实现在不同语音环境下，用户都能进行通畅的通话，并只发送用户的语音，也可以在保护用户隐私方面有着重要应用。

2.实现权利要求1所述的一种移动手机特定连续语音过滤方法的过滤系统，其特征在于：其包括如下单元：

语音信号接受单元：用于检测到环境中语音信号，并作为移动手机设备的语音信号接收端，将信号接入到设备中将语音信号输入到语音信号预处理单元；

语音信号预处理单元：用于将已接收到的语音信号进行预处理包括预滤波、采样和量化、加窗和分帧、端点检测；

提取语音信号基音频率单元：将经过语音信号预处理单元预处理过后的语音信号进行基音频率提取，将语音中所有被接受到的声音基音频率都提取出来，以进行后续基音频率配比；

基音频率配比单元：将接收到语音信号提取到的基音频率与已经建立的语音基音频率库中的基音频率进行配比，并将不匹配的基音频率滤除，得到匹配的基音频率，已达到目标语音识别，非目标语音滤除的功能；

语音基音频率库：在用户开启语音识别功能时，进行特定用户的语音训练，从而生成的语音基音频率库，用于和通话接收到的语音进行配比，是实现语音识别的标杆；

语音信号输出单元：将识别后的语音基音频率，进行信号处理，并作为移动手机语音通信模块最终要处理的信号。