CN109036387A

CN109036387A - 视频语音识别方法及系统

Info

Publication number: CN109036387A
Application number: CN201810779665.5A
Authority: CN
Inventors: 徐晓娜; 裴欢欢; 王进贵; 赵悦
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2018-12-18

Abstract

本申请公开了一种视频语音识别方法及系统。该方法包括：对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果；采用对所述音频信息进行特征提取，得到所述音频信息的第一特征向量的方式，通过对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型，达到了根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果的目的，进而解决了相关技术中对视频中的语音不能及时识别和处理的问题。

Description

视频语音识别方法及系统

技术领域

本申请涉及语音识别领域，具体而言，涉及一种视频语音识别方法及系统。

背景技术

由于少数民族农牧民长期处于分散状态，各地的联系与交流受到地域限制的因素，使得少数民族地区各地产生地方性的方言。因此要消除少数民族语言交流的困局，就要在现今的这个信息化时代，充分使用信息化技术，实现少数民族语言文字信息化，以助于更好的少数民族语言交流环境的形成。而少数民族语言语言文字信息化中，少数民族语言语音识别是其中途径之一。但在现今互联网背景下，为了能更好地实现人机交互，提高少数民族人民对语音识别系统的使用程度，语音识别也要有相应的多媒体功能，这样才能更好地方便少数民族人民学习少数民族语言视频和各地区少数民族群众之间的少数民族语言交流。

发明人发现，相关技术中对少数民族语言语音识别的研究较多，但并没有存在对视频进行音频抽取，进而对音频进行语音识别的系统，只有对少数民族语言语音识别，没有少数民族语言视频语音识别。

因此，急需一种视频语音识别方法及系统，以解决相关技术中对视频中的语音不能及时识别和处理的问题。

发明内容

本申请的主要目的在于提供一种视频语音识别方法及系统，以解决相关技术中对视频中的语音不能及时识别和处理的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种视频语音识别方法。

根据本申请的视频语音识别方法包括：对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果。

进一步的，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量包括：提取所述音频信息中每一帧的频谱系数，得到第一特征参数序列。

进一步的，所述根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型包括：根据所述第一特征参数序列，对预设隐马尔可夫语音模型进行模型训练，得到训练后的所述第一语音识别模型。

进一步的，所述根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果包括：将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列；根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息。

进一步的，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：将所述音频信息按照预设规则切割成至少一个音频文件，得到第一音频文件。

进一步的，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：对所述音频信息进行抗混叠滤波处理，得到经过处理后的第二音频文件。

进一步的，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：对所述音频信息进行预加重处理，得到经过处理后的第三音频文件。

进一步的，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：对所述音频信息进行端点检测处理，得到经过处理后的第四音频文件。

为了实现上述目的，根据本申请的另一方面，提供了一种视频语音系统。

根据本申请的视频语音系统包括：提取单元，用于对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；训练单元，用于根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；识别单元，用于根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果。

进一步的，所述识别单元包括：模式匹配模块，用于将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列；语音识别模块，用于根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息。

在本申请实施例中，采用对所述音频信息进行特征提取，得到所述音频信息的第一特征向量的方式，通过对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型，达到了根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果的目的，进而解决了相关技术中对视频中的语音不能及时识别和处理的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例所述的语音识别方法示意图；

图2是根据本申请第二实施例所述的语音识别方法示意图；

图3是根据本申请第一实施例所述的语音识别系统示意图；以及

图4是根据本申请第二实施例所述的语音识别系统示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S101至步骤S103：

步骤S101，对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；

优选的，所述音频信息为从视频文件中提取出来的音频文件，并基于预设的切割规则对音频文件进行切割，得到至少一个较短的音频文件，并以wave 格式重新封装，最后输出到指定目录；具体的，基于精确时间切割是，每六秒对音频文件进行切割，因为音频文件是一帧帧的，是根据帧数对其进行切割，而切割好的较短音频，有利于语音识别，切割好后，将音频文件重新封装成 wave格式的文件。

优选的，在对所述音频文件进行特征提取之前，还需要做预处理步骤，具体的，预处理步骤主要包括以下三个工作：

(1)抗混叠滤波。用一个防混叠的带通滤波器将语音信号频谱分量比较集中的段取出，然后对语音信号进行采样，得到离散的时域语音信号。

(2)预加重。语音信号是一种随时间而变化的信号，语音从嘴唇发出会有6dB/oct的衰减，因此在对语音信号进行处理之前，为了提高语音信号的高频部分，希望可以按照6dB/oct的比例对语音信号进行加强，从而使得输出信号的电平与发出的语音信号相似。

(3)端点检测。从包含语音的一段信号中确定语音信号的起始点及结束点，是进行其它语音信号处理(如语音识别、讲话人识别等)时特别重要而且非常关键的第一步。有效的端点检测不但可以使处理时间减少到最小，还能够排除无声段的噪声干扰，从而使得语音识别系统具有良好的识别性能。

步骤S102，根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；

优选的，所述第一特征向量为MFCC特征的提取，具体的，如果每一帧音频对应的MFCC特征长度为39，那么每个音频文件就会转换成N个MFCC 向量(不同音频文件对应的N可能不同)，这样就形成一个序列。在训练HMM 模型参数的时候，要求每次输入到HMM中的数据就是一个观测值序列。

优选的，本申请采用隐马尔可夫模型，具体的，隐马尔可夫模型是对语音信号的时间序列结构建立统计模型，将语音信号看作一个数学上的双重随机过程，一个是具有一定状态数的隐马尔可夫链，另一个是显示随机状态集。而人说话的过程也是一个双重随机的过程。因此，隐马尔可夫模型是比较理想的一种语音模型，它很好地模拟了人说话的过程。

步骤S103，根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果。

优选的，在语音识别的过程中，声学模型是必不可少的，在建立特征参数后，不断训练语音模型，计算出语音信号的特征矢量与每个声学模型的距离来进行模式匹配，这个过程将语音特征数据识别为声学模型串。因此，声学模型的好坏对语音识别系统的整体性能有很重要的作用；在目前的语音识别领域中，VQ、DTW、HMM技术是最常用的。而隐马尔可夫模型是建立声学模型的主流技术。本文建模使用的也是这种模型。

优选的，本申请借助于HTK(Hidden Markov ToolKit)来搭建一个针对少数民族语言(比如藏语)的连续语音识别系统。HTK是由剑桥大学用C语言开发的用于建立基于HMM的大规模语音识别系统的开源工具，可以在 UNIX/Linux和Windows操作系统上都可以使用。HTK是专门用于建立和处理 HMM的实验工具包，不但应用于语音识别领域，也经常用于语音合成、字符识别和DNA排序等领域。HTK可以实现语音匹配进行语音识别。

从以上的描述中，可以看出，本发明实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量包括：提取所述音频信息中每一帧的频谱系数，得到第一特征参数序列。

根据本申请实施例，作为本实施例中的优选，所述根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型包括：根据所述第一特征参数序列，对预设隐马尔可夫语音模型进行模型训练，得到训练后的所述第一语音识别模型。

如图2所示，根据本申请实施例，作为本实施例中的优选，所述根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果包括如下的步骤S201至步骤S202：

步骤S201，将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列；

步骤S202，根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息。

根据本申请实施例，作为本实施例中的优选，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：将所述音频信息按照预设规则切割成至少一个音频文件，得到第一音频文件。

根据本申请实施例，作为本实施例中的优选，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：对所述音频信息进行抗混叠滤波处理，得到经过处理后的第二音频文件。

优选的，用一个防混叠的带通滤波器将语音信号频谱分量比较集中的段取出，然后对语音信号进行采样，得到离散的时域语音信号。

根据本申请实施例，作为本实施例中的优选，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：对所述音频信息进行预加重处理，得到经过处理后的第三音频文件。

优选的，语音信号是一种随时间而变化的信号，语音从嘴唇发出会有 6dB/oct的衰减，因此在对语音信号进行处理之前，为了提高语音信号的高频部分，希望可以按照6dB/oct的比例对语音信号进行加强，从而使得输出信号的电平与发出的语音信号相似。

根据本申请实施例，作为本实施例中的优选，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：对所述音频信息进行端点检测处理，得到经过处理后的第四音频文件。

优选的，从包含语音的一段信号中确定语音信号的起始点及结束点，是进行其它语音信号处理(如语音识别、讲话人识别等)时特别重要而且非常关键的第一步。有效的端点检测不但可以使处理时间减少到最小，还能够排除无声段的噪声干扰，从而使得语音识别系统具有良好的识别性能。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述视频语音识别方法的系统，如图3所示，该装置包括：提取单元10，用于对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；训练单元20，用于根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；识别单元30，用于根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果。

根据本实施例所述的提取单元10用于对所述音频信息进行特征提取，得到所述音频信息的第一特征向量，优选的，所述音频信息为从视频文件中提取出来的音频文件，并基于预设的切割规则对音频文件进行切割，得到至少一个较短的音频文件，并以wave格式重新封装，最后输出到指定目录；具体的，基于精确时间切割是，每六秒对音频文件进行切割，因为音频文件是一帧帧的，是根据帧数对其进行切割，而切割好的较短音频，有利于语音识别，切割好后，将音频文件重新封装成wave格式的文件。

根据本实施例所述的训练单元20用于根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型，优选的，所述第一特征向量为MFCC特征的提取，具体的，如果每一帧音频对应的MFCC特征长度为39，那么每个音频文件就会转换成N个MFCC向量(不同音频文件对应的N可能不同)，这样就形成一个序列。在训练HMM模型参数的时候，要求每次输入到HMM中的数据就是一个观测值序列。

根据本实施例所述的识别单元30用于根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果，优选的，在语音识别的过程中，声学模型是必不可少的，在建立特征参数后，不断训练语音模型，计算出语音信号的特征矢量与每个声学模型的距离来进行模式匹配，这个过程将语音特征数据识别为声学模型串。因此，声学模型的好坏对语音识别系统的整体性能有很重要的作用；在目前的语音识别领域中，VQ、DTW、HMM技术是最常用的。而隐马尔可夫模型是建立声学模型的主流技术。本文建模使用的也是这种模型。

如图4所示，根据本申请实施例，作为本实施例中的优选，所述识别单元 30包括：模式匹配模块31，用于将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列；语音识别模块32，用于根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息。

根据本实施例所述的模式匹配模块31用于将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列，优选的，在语音识别的过程中，声学模型是必不可少的，在建立特征参数后，不断训练语音模型，计算出语音信号的特征矢量与每个声学模型的距离来进行模式匹配，这个过程将语音特征数据识别为声学模型串。因此，声学模型的好坏对语音识别系统的整体性能有很重要的作用；在目前的语音识别领域中，VQ、DTW、HMM技术是最常用的。而隐马尔可夫模型是建立声学模型的主流技术。本文建模使用的也是这种模型。

根据本实施例所述的语音识别模块32用于根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息，优选的，本申请借助于HTK(Hidden MarkovToolKit)来搭建一个针对少数民族语言(比如藏语)的连续语音识别系统。HTK是由剑桥大学用C语言开发的用于建立基于HMM 的大规模语音识别系统的开源工具，可以在UNIX/Linux和Windows操作系统上都可以使用。HTK是专门用于建立和处理HMM的实验工具包，不但应用于语音识别领域，也经常用于语音合成、字符识别和DNA排序等领域。HTK 可以实现语音匹配进行语音识别。

本申请的工作原理为：

针对少数民族语音开发的语音识别系统，以藏语为例，本申请的视频语音识别系统是在Ubuntu系统下，利用HTK作为开发的开源工具箱，以QT作为应用及界面开发的框架，搭建而成的。搭建整体过程中，主要实现三部分内容。第一，实现简单的本地播放器，并提供视频播放的接口。而该播放器有简单的播放、暂停、静音和调节音量大小的功能，并且能够打开本地视频文件进行播放，同时支持多种视频格式。第二，对播放的视频文件进行音频提取，同时对提取的音频按一定时间进行切割，并在相应的文件目录下生成wave音频文件。第三，対生成的音频文件进行语音信号的特征提取，并进行语音识别生成相应的文本。

藏语视频语音识别系统要实现的功能就是在播放藏语视频时，能对其中的视频进行音频提取，并能转录为文本，建立视频语音和文字之间的对应关系。而这种关系体现在播放界面上，就是在播放藏语视频的同时，转译出来的藏语文字显示在视频下方，供使用者观看。从而，才能大大方便藏族人民地使用，使他们能更好地学习与交流。

具体的，在Qt里面调用了MPlayer，而且可以再使用GUI程序也就是图形界面来控制MPlayer,从而完成一个简单的基于MPlayer播放器的设计。此次播放器设计主要包含两部分内容，一部分是基于MPlayer进行其图形界面的设计，其中是利用Qt的图形库进行播放器的UI设计。而另一部分是对播放器进行功能设计，设计完的播放器具有简单的播放、暂停、静音和调节音量大小的功能，并且能够打开本地视频文件进行播放，其同时也支持多种视频格式的视频播放。

因为要在播放视频过程中，实时进行语音识别，那就意味着在考虑语音识别效率的情况下，语音识别系统只能识别短时间的音频文件。因此音频的提取工作，不仅要将视频中的音频提取出来，而且还要批量且精确时间的对音频文件进行切割。所以，对于在视频中提取音频，就要先打破视频容器，其次读取独立的音频文件的帧，根据设计要求精确时间切割音频，然后对切割好的音频进行重新封装，最后输出到指定目录。

语音识别大致经过以下几个过程，先通过预加重和端点检测的方式，对原始语音进行部分消除噪声来增强语音信号，其次，对处理后的语音信号进行语音特征提取，而其过程既是一个信息压缩的过程，也是一个对信号解卷过程，这样才能更好地寻找语音的内在特征。然后再通过语音模型训练，并计算语音特征提取后的特征矢量与每个声学模型的距离来进行模式匹配。最后通过语音模型语法规则进行语音匹配，然后输出识别结果。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，从视频文件中提取音频信息，其特征在于，所述方法包括：

对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；

根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；

根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果。

2.根据权利要求1所述的语音识别方法，其特征在于，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量包括：

提取所述音频信息中每一帧的频谱系数，得到第一特征参数序列。

3.根据权利要求2所述的语音识别方法，其特征在于，所述根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型包括：

根据所述第一特征参数序列，对预设隐马尔可夫语音模型进行模型训练，得到训练后的所述第一语音识别模型。

4.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果包括：

将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列；

根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息。

5.根据权利要求1所述的语音识别方法，其特征在于，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：

将所述音频信息按照预设规则切割成至少一个音频文件，得到第一音频文件。

6.根据权利要求1所述的语音识别方法，其特征在于，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：

对所述音频信息进行抗混叠滤波处理，得到经过处理后的第二音频文件。

7.根据权利要求1所述的语音识别方法，其特征在于，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：

对所述音频信息进行预加重处理，得到经过处理后的第三音频文件。

8.根据权利要求1所述的语音识别方法，其特征在于，所述对所述音频信息进行特征提取，得到所述音频信息的第一特征向量之前包括：

对所述音频信息进行端点检测处理，得到经过处理后的第四音频文件。

9.一种语音识别系统，从视频文件中提取音频信息，其特征在于，包括：

提取单元，用于对所述音频信息进行特征提取，得到所述音频信息的第一特征向量；

训练单元，用于根据所述第一特征向量对语音识别模型进行模型训练，得到训练后的所述第一语音识别模型；

识别单元，用于根据所述第一语音识别模型对所述音频信息进行语音识别，得到第一语音识别结果。

10.根据权利要求9所述的语音识别系统，其特征在于，所述识别单元包括：

模式匹配模块，用于将所述第一语音识别模型与预设声学模型进行模式匹配，得到第一声学模型序列；

语音识别模块，用于根据所述第一声学模式序列对所述音频信息进行语音识别，得到第一识别文字信息。