CN110689875A

CN110689875A - 一种语种识别方法、装置及可读存储介质

Info

Publication number: CN110689875A
Application number: CN201911029387.2A
Authority: CN
Inventors: 邹学强; 包秀国; 袁庆升; 韩纪庆; 郑贵滨; 郑铁然
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-01-14

Abstract

本发明公开了一种语种识别方法、装置及可读存储介质，所述方法包括如下步骤：获取训练语音数据，并根据所述训练语音数据构建识别模型；获取待检测的语音数据，并提取所述待检测的语音数据的特征信息；通过识别模型对所述特征信息进行识别；在连续给定数量的特征信息均识别为同种语言的情况下，则将连续段的特征信息判定为识别种类的语音。本发明方法在采用所构建的识别模型对所述特征信息进行识别，由此解决了现有的识别结果会受到说话人本身音色特性的影响、通用背景等模型中没有考虑信道影响导致识别不准确的问题。

Description

一种语种识别方法、装置及可读存储介质

技术领域

本发明涉及音频识别技术领域，尤其涉及一种语种识别方法、装置及可读存储介质。

背景技术

语种识别技术是自动语音识别技术的关键组成部分之一，是指自动判定给定语音段语言种类的过程。语种识别的目的在于让计算机能够自主确定一段测试语音是哪种语言。语种识别技术作为语音信号处理的重要一环，逐步成为针对内容的语音识别的前置技术以及包括自然语言处理在内的后端人工智能的保障技术。

近年来，虽然语种识别技术已经取得了长足的进步，但是至今仍有许多问题没有很好的解决。目前大部分研究成果都是在传统的通用背景模型、识别向量方法或者是基于声学模型的方法的基础上获得的，主要借鉴说话人识别中的相同方法，因而在识别过程中可能会受到说话人本身音色特性的影响而导致识别结果不准确。

发明内容

本发明实施例提供一种语种识别方法、装置及可读存储介质，用以解决现有技术在识别过程中可能会受到说话人本身音色特性的影响而导致识别结果不准确的问题。

第一方面，本发明实施例提供一种语种识别方法，所述方法包括如下步骤：

获取训练语音数据，并根据所述训练语音数据构建识别模型；

获取待检测的语音数据，并提取所述待检测的语音数据的特征信息；

通过识别模型对所述特征信息进行识别；

在连续给定数量的特征信息均识别为同种语言的情况下，则将连续段的特征信息判定为识别种类的语音。

可选的，获取训练语音数据，并根据所述训练语音数据构建识别模型，包括：

获取已有语种的训练语音数据；

提取所述训练语音数据的声学特征；

将提取到的声学特征通过神经网络进行参数训练以获得训练后的识别模型。

可选的，所述获取待检测的语音数据，并提取所述待检测的语音数据的特征信息，包括：

获取待检测的语音数据，并所述待检测的语音数据进行预处理；

对预处理之后的语音数据进行分帧处理以获得待检测的语音数据的特征矢量序列。

可选的，对预处理之后的语音数据进行分帧处理，包括：

通过移动窗口对预处理之后的语音数据进行加权处理；

对加权处理之后的语音数据计算感知线性预系数PLP以获得待检测的语音数据的特征矢量序列。

可选的，在对预处理之后的语音数据进行分帧处理之后，所述方法还包括：

在每个分帧的基础上，添加所述分帧前后指定数量的帧到当前分帧中以获得分帧段。

可选的，通过识别模型对所述特征信息进行识别，包括：通过识别模型对分帧段的特征矢量序列进行识别。

可选的，在连续给定数量的特征信息均识别为同种语言的情况下，则将连续段的特征信息判定为识别种类的语音，包括：

在语种识别开始后，连续对待测语音的分帧段的特征矢量序列进行识别；

在判定当前分帧段的特征矢量序列不属于目标语种的情况下，记录当前连续识别出的属于目标语种的分帧段的数量；

在当前连续识别出的属于目标语种的分帧段的数量大于总分帧段数量50％的情况下，则将整个分帧段确定为目标语种的语音信息。

第二方面，本发明实施例提供一种语种识别装置，包括：

语音数据获取模块，用于获取训练语音数据，以及，获取待检测的语音数据；

特征提取模块，用于提取所述待检测的语音数据的特征信息；

识别模块，用于通过识别模型对所述特征信息进行识别，在连续给定数量的特征信息均识别为同种语言的情况下，则将连续段的特征信息判定为识别种类的语音。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现前述的方法的步骤。

本发明实施例通过根据所述训练语音数据构建识别模型；在采用所构建的识别模型对所述特征信息进行识别，由此解决了现有的识别结果会受到说话人本身音色特性的影响、通用背景等模型中没有考虑信道影响导致识别不准确的问题，取得了积极的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例流程图；

图2为本发明第二实施例维语识别流程图；

图3为本发明第二实施例与传统模型的性能对比图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明第一实施例提供一种语种识别方法，如图1所示，所述方法包括如下步骤：

通过识别模型对所述特征信息进行识别；

本发明实施例通过根据所述训练语音数据构建识别模型；在采用所构建的识别模型对所述特征信息进行识别，由此解决了现有的识别结果会受到说话人本身音色特性的影响、通用背景等模型中没有考虑信道影响导致识别不准确的问题。

获取已有语种的训练语音数据；

提取所述训练语音数据的声学特征；

具体的说，该方案为构建识别模型的步骤，包括，利用已有的语种数据集，按照某种声学特征，例如感知线性预测特征，对训练集的音频进行特征提取，使用一种深度神经网络，在本实施例中可以是多层感知器网络，进行网络参数训练，得到一个训练好的识别网络模型。

在本实施例中，已有的语种数据集的特征提取可以通过如下步骤完成，

对已有语种的语音信号s(n)进行采样量化和预加重处理，假设信号是短时平稳的，所以信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号sw(n)计算感知线性预测西树(PLP)，从而得到特征矢量序列X＝{x1,x2,…,xm}。

具体的说，例如，待检测的语音段的音频信号是s(n)，对输入的音频信号进行特征提取以得到特征矢量序列X＝{x₁,x₂,…,x_s}，其中S代表自然数。

可选的，对预处理之后的语音数据进行分帧处理，包括：

通过移动窗口对预处理之后的语音数据进行加权处理；

上述方案同样也可以采用与处理已有的语种数据集的特征提取相同的方案进行，也即，对待检测的语音信号s(n)进行采样量化和预加重处理，假设信号是短时平稳的，所以信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号sw(n)计算感知线性预测西树(PLP)，从而得到特征矢量序列X＝{x1,x2,…,xs}。

可选的，在本发明一个可选的实施例中，在对预处理之后的语音数据进行分帧处理之后，所述方法还包括：

具体的说，在分帧的基础上，对音频中的每帧取其前后T帧作为一段，其中T代表正整数，由此实现对分帧的扩充，以便更加精准的识别。

具体的说，在本实施例中，在识别开始之前，可以预先根据总分帧段数设定好参数M，若连续M(或以上)段识别为目标语种，则这些连续的段所对应的时间段即检测为目标语种的时间段。

本发明第二实施例提出一种语种识别方法的具体实例，本实施例中以识别维语为例，包括如下步骤：

步骤一、利用已有的维语语种数据集，按照指定声学特征，如感知线性预测特征，对训练集的音频进行特征提取，使用多层感知器网络进行网络参数训练，其中输入层为输入帧及其前后T帧(T＝10)的感知线性预测特征，共计39×21＝819维；输出层为softmax层，代表输出是维语或者不是维语的概率；隐藏层有5层，每层1280个节点；损失函数采用交叉熵函数，优化方法采用异步随机梯度下降方法，并采用L2正则化防止过拟合，得到一个训练好的识别网络模型。

步骤二、输入待检测的语音段的音频信号是s(n)，对输入的音频信号进行特征提取得到特征矢量序列X＝{x1,x2,…,xs}，其中S代表自然数；

步骤三、在分帧的基础上，对音频中的每帧取其前后T帧作为一段，其中T代表正整数，一般取10；

步骤四、使用训练好的深度神经网络(多层感知器网络)对每一段进行识别；

步骤五、对于设定的参数M，若连续M(或以上)段识别为维语，则这些连续的段所对应的时间段即检测为维语的时间段。

在本实施方式中步骤一、步骤二中的特征提取的过程为：对语音信号s(n)进行采样量化和预加重处理，假设信号是短时平稳的，所以信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号sw(n)计算感知线性预测西树(PLP)，从而得到特征矢量序列X＝{x1,x2,…,xs}。

本实施例中，PLP参数的提取过程如下：

(1)对输入的音频信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息。

设音频信号的DFT为

式中x(n)为输入的音频信号，N表示傅立叶变换的点数。

(2)频谱计算：语音信号在经过前端处理和离散傅里叶变换后，取短时语音频谱的实部和虚部的平方和，得到短时功率谱即：

P(ω)＝Re[X(ω)]²+Im[X(ω)]²

(3)临界带分析：将频谱P(ω)的频率轴ω映射到Bark频率Ω，有

Ω(ω)＝6ln{ω/1200π+[(ω/1200π)²+1]^1/2}

按临界带曲线对Ω进行变换，得

ψ(Ω)与P(ω)的离散卷积将产生临界带功率谱，即

一般θ(Ω)按每个Bark间隔进行采样，通过合适的采样间隔可以保证让整个分析频带被整数采样值全覆盖。本实施例中取0.994Bark间隔，用θ(Ω)的18个频谱采样覆盖0-16.9Bark(0-5kHz)的带宽。

(4)等响度预加重

θ[Ω(ω)]按模拟等响度曲线进行预加重，即

Ψ[Ω(ω)]＝E(ω)θ[Ω(ω)]

函数E(ω)满足：

该函数可以近似反映人耳对于高低频率的不同的敏感程度。

(5)强度响度变换

即为压缩响度幅值，目的是为了近似和模拟人耳所感受到的响度和声音自身强度之间的非线性模型。具体做法如下：

Φ(Ω)＝Ψ(Ω)^0.33

(6)利用全极点模型求解线性预测系数

进行此步前，还需要经过傅里叶逆变换，线性预测系数的求解使用的是莱文逊-杜宾(Levinson-Durbin)递推算法，最后的结果即为PLP特征参数。该算法的过程如下：

计算自相关系数:

R_n(j),j＝0,1,…,p

1、E⁽⁰⁾＝R_n(0)，i＝1

2、递推公式如下：

3.i＝i+1。若i>p则算法停止。若i≤p，则返回第3步，继续用递推公式进行计算。

本实施例的算法中，上标表示的是预测器的阶数。

表示第i阶预测器的第j个预测系数，E⁽ⁱ⁾为第i阶预测器的预测残差能量，经过递推公式的递推后，可得到p阶内全部各阶预测器的解。而最终解即为第p阶的运算结果，如下所示：

由于各阶预测器的预测残差能量E⁽ⁱ⁾都是非负的。因此由上式可知参数k_i必定满足：

|k_i|≤1,i＝1,2,…,p

而且由此可推断，E⁽ⁱ⁾会随预测器阶数的增加而减少。参数k_i在这里中也称为反射系数，即PARCOR系数。以上即为本实施例中PLP特征提取的全部过程。

在本实施例中，如图2所示，以维语识别为例，步骤五具体包括如下步骤，：

步骤51、将计数器n清零，其中n为自然数；

步骤52、取待测试语音，分帧后按照步骤三中的方法对其进行语音段的划分，共计N段

步骤53、按照步骤四的方法，对每一小段进行判断是否属于维语，如果是维语，则计数器加1，重复步骤53；否则转步骤54；

步骤54、判断计数器值是否大于N/2，若小于N/2，则不是维语语种语音段；否则是维语语种语音段，输出结果，停机。

经实验证明，如图3所示，本发明方法性能要优于传统的基于高斯混合模型-通用背景模型的方法。

综上，本发明方法相比传统模型，深度神经网络技术具有很强的深层信息提取能力和非线性模型构建能力，在对大规模语音数据做特征提取和识别分类的过程中帮助很大，并且已经在包括语音识别、语音合成、说话人识别等语音相关领域取得了成功，因而使用这种技术构建新的语种识别模型将会有更好的效果。

第三方面，本发明实施例提供一种语种识别装置，包括：

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现第一或第二实施例的方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语种识别方法，其特在于，所述方法包括如下步骤：

通过识别模型对所述特征信息进行识别；

2.如权利要求1所述的方法，其特征在于，获取训练语音数据，并根据所述训练语音数据构建识别模型，包括：

获取已有语种的训练语音数据；

提取所述训练语音数据的声学特征；

3.如权利要求2所述的方法，其特征在于，所述获取待检测的语音数据，并提取所述待检测的语音数据的特征信息，包括：

4.如权利要求3所述的方法，其特征在于，对预处理之后的语音数据进行分帧处理，包括：

通过移动窗口对预处理之后的语音数据进行加权处理；

5.如权利要求3所述的方法，其特征在于，在对预处理之后的语音数据进行分帧处理之后，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，通过识别模型对所述特征信息进行识别，包括：通过识别模型对分帧段的特征矢量序列进行识别。

7.如权利要求6所述的方法，其特征在于，在连续给定数量的特征信息均识别为同种语言的情况下，则将连续段的特征信息判定为识别种类的语音，包括：

8.一种语种识别装置，其特在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。