CN111402870B

CN111402870B - 一种语音识别方法、装置及设备

Info

Publication number: CN111402870B
Application number: CN201910001000.6A
Authority: CN
Inventors: 侯雷静
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2023-08-15
Anticipated expiration: 2039-01-02
Also published as: CN111402870A

Abstract

本发明提供了一种语音识别方法、装置及设备，其中，语音识别方法包括：利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；将目标语音信息识别转换为对应的文本信息；其中，目标语音信息的信号特征与预设信号特征之间相匹配。本方案能够实现充分利用声学特征中的发音特征自适应，从而消除了现有技术中的各地区需要分别训练模型以及必须依照身份ID信息、地域信息来加载模型的弊端，提高了资源利用率、实时响应速度和识别准确率，并降低了空间占用率。

Description

一种语音识别方法、装置及设备

技术领域

本发明涉及数据处理技术领域，特别是指一种语音识别方法、装置及设备。

背景技术

随着运营商手机业务应用的普及，客户群体基数越见庞大，与人工客服的数量具有显著差异；并且许多群体未能掌握应用程序APP端订购业务或自助短信办理业务的技能(如高龄或偏远地区的群体)，往往会选择电话拨打人工客服或前往营业厅办理，这无疑会浪费大量时间与服务资源。针对这个问题，现有技术提供一种方案：预先针对不同的地域信息或身份ID信息定制多个声学和语言模型；根据获取的用户身份ID信息或所述地域信息，选择对应的声学和语言模型；将接收到的用户语音信息转为文本信息；并进一步处理从而得到识别结果；以此实现装置自动完成手机业务订购的目的，提升服务效率。

但是，上述方案中：针对不同省份都需要训练地区内的模型，我国地域广袤需要占用大量的资源，这无疑将造成资源利用率的降低和空间占用率的增大；且即使同一省份内，也存在着发音的差异，并不能完全适用所有城市、县镇。

针对每个用户都需要预先获取其身份ID信息与地域信息，预处理模块及模型加载时间的耗费，将造成实时率的下降，使用户的等待回应时间延长。此外，随着社会发展，存在大量人员为寻找工作机会而在异乡临时工作的情况，这种条件下使用身份ID信息或地域信息会造成用户语音识别与模型的不匹配问题，当不匹配性较高，错误率将大幅增大。

发明内容

本发明的目的在于提供一种语音识别方法、装置及设备，解决现有技术中语音识别方案的资源利用率低、空间占用率高、实时响应速度低、识别准确率低的问题。

为了解决上述技术问题，本发明实施例提供一种语音识别方法，包括：

利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；

将所述目标语音信息识别转换为对应的文本信息；

其中，所述目标语音信息的信号特征与预设信号特征之间相匹配。

可选的，所述利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息，包括：

利用预设声学特征映射模型中的卷积层对待识别的语音信息进行卷积操作，得到第一语音信息；

利用预设声学特征映射模型中的池化层对所述第一语音信息进行平均池化操作，得到第二语音信息；

利用预设声学特征映射模型中的网络层对所述第二语音信息进行映射操作，得到目标语音信息。

可选的，所述卷积层的网络为卷积神经网络，所述网络层的激活函数为线性整流函数Relu。

可选的，利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息之前，还包括：

采用对抗式深度神经网络训练所述预设声学特征映射模型。

可选的，所述采用对抗式深度神经网络训练所述预设声学特征映射模型，包括：

利用公式一，训练所述预设声学特征映射模型，得到所述预设声学特征映射模型的目标参数配置信息；

其中，所述预设声学特征映射模型对应的损失函数包括对经过所述预设声学特征映射模型后的语音信息进行解码输出产生的第一损失函数和对经过所述预设声学特征映射模型后的语音信息进行地域分类产生的第二损失函数；

所述公式一为：F(Loss)＝F(L₁)-λF(L₂)；

F(Loss)表示总损失值；F(L₁)表示所述第一损失函数；λ表示预设调节系数；F(L₂)表示所述第二损失函数。

可选的，所述预设声学特征映射模型的目标参数配置信息为：所述公式一中的F(Loss)取最小值时，所述预设声学特征映射模型的参数配置信息。

本发明实施例还提供了一种语音识别装置，包括：

第一映射模块，用于利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；

第一转换模块，用于将所述目标语音信息识别转换为对应的文本信息；

可选的，所述第一映射模块，包括：

第一处理子模块，用于利用预设声学特征映射模型中的卷积层对待识别的语音信息进行卷积操作，得到第一语音信息；

第二处理子模块，用于利用预设声学特征映射模型中的池化层对所述第一语音信息进行平均池化操作，得到第二语音信息；

第三处理子模块，用于利用预设声学特征映射模型中的网络层对所述第二语音信息进行映射操作，得到目标语音信息。

可选的，还包括：

第一训练模块，用于利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息之前，采用对抗式深度神经网络训练所述预设声学特征映射模型。

可选的，所述第一训练模块，包括：

第一训练子模块，用于利用公式一，训练所述预设声学特征映射模型，得到所述预设声学特征映射模型的目标参数配置信息；

所述公式一为：F(Loss)＝F(L₁)-λF(L₂)；

本发明实施例还提供了一种语音识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述的语音识别方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的语音识别方法中的步骤。

本发明的上述技术方案的有益效果如下：

上述方案中，所述语音识别方法通过利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；将所述目标语音信息识别转换为对应的文本信息；其中，所述目标语音信息的信号特征与预设信号特征之间相匹配；能够实现充分利用声学特征中的发音特征自适应，从而消除了现有技术中的各地区需要分别训练模型以及必须依照身份ID信息、地域信息来加载模型的弊端，提高了资源利用率、实时响应速度和识别准确率，并降低了空间占用率。

附图说明

图1为本发明实施例的语音识别方法流程示意图；

图2为本发明实施例的自适应识别系统结构示意图；

图3为本发明实施例的语音识别方法具体应用流程示意图；

图4为本发明实施例的自适应特征提取模块训练示意图；

图5为本发明实施例的语音识别装置结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中语音识别方案的资源利用率低、空间占用率高、实时响应速度低、识别准确率低的问题，提供一种语音识别方法，如图1所示，包括：

步骤11：利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；

步骤12：将所述目标语音信息识别转换为对应的文本信息；

所述目标语音信息的信号特征与预设信号特征之间相匹配可以理解为所述目标语音信息的信号特征与预设信号特征之间的差异较小，或者完全一致；所述目标语音信息的信号特征具备地域口音的鲁棒性。

本发明实施例提供的所述语音识别方法通过利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；将所述目标语音信息识别转换为对应的文本信息；其中，所述目标语音信息的信号特征与预设信号特征之间相匹配；能够实现充分利用声学特征中的发音特征自适应，从而消除了现有技术中的各地区需要分别训练模型以及必须依照身份ID信息、地域信息来加载模型的弊端，提高了资源利用率、实时响应速度和识别准确率，并降低了空间占用率。

其中，所述利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息，包括：利用预设声学特征映射模型中的卷积层对待识别的语音信息进行卷积操作，得到第一语音信息；利用预设声学特征映射模型中的池化层对所述第一语音信息进行平均池化操作，得到第二语音信息；利用预设声学特征映射模型中的网络层对所述第二语音信息进行映射操作，得到目标语音信息。

也就是本发明实施例中的预设声学特征映射模型包括卷积层、池化层和网络层。

具体的，所述卷积层的网络为卷积神经网络，所述网络层的激活函数为线性整流函数Relu；但并不以此为限。

进一步的，利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息之前，还包括：采用对抗式深度神经网络训练所述预设声学特征映射模型。

其中，所述采用对抗式深度神经网络训练所述预设声学特征映射模型，包括：利用公式一，训练所述预设声学特征映射模型，得到所述预设声学特征映射模型的目标参数配置信息(具体可包含卷积层、池化层和网络层的目标参数配置信息)；其中，所述预设声学特征映射模型对应的损失函数包括对经过所述预设声学特征映射模型后的语音信息进行解码输出产生的第一损失函数和对经过所述预设声学特征映射模型后的语音信息进行地域分类产生的第二损失函数；

所述公式一为：F(Loss)＝F(L₁)-λF(L₂)；F(Loss)表示总损失值；F(L₁)表示所述第一损失函数；λ表示预设调节系数；F(L₂)表示所述第二损失函数。

具体的，所述预设声学特征映射模型的目标参数配置信息为：所述公式一中的F(Loss)取最小值时，所述预设声学特征映射模型的参数配置信息。

为了能够更好的对语音进行识别，本发明实施例中，所述利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息，包括：对待识别的语音信息进行预处理，得到待映射的语音信息；利用预设声学特征映射模型对所述待映射的语音信息进行映射，得到目标语音信息。

具体的，所述对待识别的语音信息进行预处理，得到待映射的语音信息，包括：滤除待识别的语音信息中的静音段，得到待映射的语音信息。

更具体的，所述滤除待识别的语音信息中的静音段，得到待映射的语音信息，包括：对待识别的语音信息进行去噪处理，得到第三语音信息；滤除所述第三语音信息中的静音段，得到待映射的语音信息。

本发明实施例中，所述将所述目标语音信息识别转换为对应的文本信息，包括：根据所述目标语音信息确定目标解码方案；利用所述目标解码方案对所述目标语音信息进行解码，得到对应的文本信息。

下面对本发明实施例提供的所述语音识别方法进行进一步说明，关于语音识别的具体场景以手机业务订购为例。

针对上述技术问题，本发明实施例提供一种语音识别方法，针对手机业务订购的语音识别本发明实施例具体提供一种手机业务订购的自适应识别系统，旨在从资源利用率、空间占用率、实时响应速度、识别准确率这几个方面对现有技术方案进行改进提升；主要涉及，通过使用声学特征的自适应模块(自适应特征提取模块)，能够充分利用声学特征中的发音特征自适应，从而消除了现有技术中的各地区需要分别训练模型以及必须依照身份ID信息、地域信息来加载模型的弊端。

具体的，上述手机业务订购的自适应识别系统，主要包括如图2所示的各个模块：语音信号预处理模块21、自适应特征提取模块22(下面的第一映射模块可包含语音信号预处理模块21和自适应特征提取模块22)、模型处理模块23和解码器模块24(下面的第一转换模块可包含模型处理模块23和解码器模块24)。关于手机业务订购的语音识别采用上述系统实现，具体流程可如图3所示，包括：

步骤31：获取用户语音；

步骤32：信号预处理；

对获取的用户语音首先进行信号预处理操作(比如去噪操作)，还可通过端点检测滤除静音段，得到有用语音信息(也就是去除静音后的语音信息)。

步骤33：自适应特征提取；

特别地，针对本发明实施例提出的自适应特征提取模块，本方案采用对抗式深度神经网络进行自适应特征提取模块中的声学特征映射函数(即上述的预设声学特征映射模型，声学特征映射函数的参数配置信息可包含上述卷积层、池化层和/或网络层的参数配置信息)的训练(这是一种策略的使用，关于神经网络训练函数已经成熟，在此不再赘述)。基于此模块完成对不同用户所提取的声学特征的自适应，得到在一定程度上具有不变性的信号特征，从而削弱了由于用户自带的地区口音、年龄、口唇辐射等因素造成的个体差异。

其中，自适应特征提取模块使用的是卷积神经网络，本方案使用连续前后几帧的信号输入来进行平均池化操作，使用Relu(rectified linear unit，线性整流函数)作为网络层的激活函数。这样能够有效地回避某一帧信号未包含有口音信号信息的情况。

具体的，关于自适应特征提取模块的训练可如图4所示：将预处理后的用户语音输入自适应特征提取模块，经过自适应特征提取模块的卷积层、池化层(平均池化)和网络层(激活函数)，然后进入识别模块和域分类模块；其中的识别模块，实际包含图2中的模型处理模块和解码器模块。

本发明实施例在图4中描述了自适应特征提取模块的训练，其中，在对抗式深度神经网络训练过程中使用的损失函数是由两部分构成的，其中一部分是通过识别模块(在解码输出时)产生的损失函数L₁(即上述第一损失函数)，另一部分是通过域分类模块(在地域分类时)产生的损失函数L₂(即上述第二损失函数)。

在对抗式训练中，最优需要使得识别模块的损失函数L₁最小化的同时，使域分类模块的损失函数L₂最大化。本发明实施例中给损失函数L₂添加一个调节系数λ(即上述预设调节系数，可预定义)，来完成最优(比如输出最优、识别率最优)的自适应特征提取模块的获得(关于最优的自适应特征提取模块的获得，具体可包括获取下面公式一左侧函数数值最小时声学特征映射函数的参数配置信息)。

进一步的，可针对不同数值的λ进行训练，在训练时还可通过调整调节系数λ得到各个λ对应的下面公式一左侧函数的最小值，对应得到多个自适应特征提取模块，然后将得到的多个自适应特征提取模块经过对比，确定更加优的自适应特征提取模块；也就是相当于通过调整调节系数λ获取多个λ分别对应的最优的自适应特征提取模块，然后从获取的多个最优的自适应特征提取模块中选出一个更加优的自适应特征提取模块，作为最终的自适应特征提取模块。

公式一为：

F(Loss)＝F(L₁)-λF(L₂)；

其中，F(Loss)表示总损失值；F(L₁)表示损失函数L₁；λ表示调节系数；F(L₂)表示损失函数L₂。

本发明实施例通过对抗训练(具体可包括迭代更新：比如预处理后的用户语音经过自适应特征提取模块进行特征提取，然后进入识别模块进行语音识别以及进入域分类模块进行域分类，之后识别模块和域分类模块会反向传输(包括分别反馈各自对应的损失函数L₁、L₂)；自适应特征提取模块根据反馈的损失函数再次进行特征提取，然后进入识别模块进行语音识别以及进入域分类模块进行域分类···如此反复循环执行，直到得到最优的自适应特征提取模块)而习得的自适应特征提取模块，由于训练时加入了域分类模块，从而能够有效地实现对带口音的语音信号的识别。这是因为训练后得到的网络(自适应特征提取模块)是获取的多域间的不变性特征。

在经过上述训练后得到最优的自适应特征提取模块以进行后续应用中的语音识别中的特征提取；并且在得到最优的自适应特征提取模块的同时，也会得到对应的识别模块。

步骤33中采用上述训练得到的最优的自适应特征提取模块进行自适应特征的提取。

步骤34：模型处理；

加载上述训练得到的识别模块，利用识别模块中的模型处理模块对经过自适应特征提取模块处理后的已经去除了个性化的口音、年龄、口唇辐射等因素影响的用户语音进行处理(具体的模型处理模块包括声学模型与语言模型，此处对经过自适应特征提取模块后的用户语音进行处理，具体可包括确定一种解码方案)。

步骤35：解码器处理；

根据步骤34确定的解码方案，通过解码操作对经过自适应特征提取模块处理后的用户语音进行解码，完成从用户语音到文字的转变，进而得到手机业务订购的匹配词条。

步骤36：订购业务输出。

具体为输出步骤35得到的手机业务订购的匹配词条。

由上可知，本发明实施例提供的方案涉及一种通过语音方式实现手机业务订购的自适应识别方法；具体在于采用一种自适应识别系统实现用户语音操作进行手机业务订购：通过对抗式深度神经网络训练提取出在一定程度上具有不变性的语音特征，从而不需要针对各个省份地区单独训练模型；并且通过自适应特征提取模块实现用户语音信号与上述系统匹配性能的提升，有效提升了识别准确率与资源利用率。

综上，本发明实施例提供的方案：1)避免了系统对用户身份ID信息与地域信息的依赖，从而有效回避了外地工作人群或各城市地区存在较大发音差异的省份而导致的模型失效；2)不需要针对各个地区单独训练识别系统，避免了所需大规模语料库的收集与标注，节省了大量人力物力资源，提升了资源利用率，减少了空间占用；3)不需要进行先验信息(用户身份ID、地域信息)的加载与判断，节约了系统识别时间，实时率得以提升；4)提高了系统模型与用户语音信号的匹配程度，提高了识别准确率；

具体的，(1)通过对抗式深度神经网络训练模型(自适应特征提取模块)，得到在一定程度上具有不变性的信号特征，从而削弱了由于用户自带的地区口音、年龄、口唇辐射等因素造成的个体差异；不需要针对各个省份地区单独训练识别系统，避免了所需大规模语料库的收集与标注，节省了大量人力物力资源，提升了资源利用率，与此同时减少了空间的占用；

(2)通过自适应特征提取模块对信号提取特征，实现用户语音信号与上述系统匹配性能的提升，避免了系统对用户身份ID信息与地域信息的依赖，从而有效回避了外地工作人群或各城市地区存在较大发音差异的省份而导致的模型失效，有效提升了识别准确率与资源利用率；

(3)不需要进行先验信息(用户身份ID、地域信息)的加载与判断，节约了系统识别时间，减少了用户等待回应时长，实时率得以提升。

本发明实施例还提供了一种语音识别装置，如图5所示，包括：

第一映射模块51，用于利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；

第一转换模块52，用于将所述目标语音信息识别转换为对应的文本信息；

本发明实施例提供的所述语音识别装置通过利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息；将所述目标语音信息识别转换为对应的文本信息；其中，所述目标语音信息的信号特征与预设信号特征之间相匹配；能够实现充分利用声学特征中的发音特征自适应，从而消除了现有技术中的各地区需要分别训练模型以及必须依照身份ID信息、地域信息来加载模型的弊端，提高了资源利用率、实时响应速度和识别准确率，并降低了空间占用率。

其中，所述第一映射模块，包括：第一处理子模块，用于利用预设声学特征映射模型中的卷积层对待识别的语音信息进行卷积操作，得到第一语音信息；第二处理子模块，用于利用预设声学特征映射模型中的池化层对所述第一语音信息进行平均池化操作，得到第二语音信息；第三处理子模块，用于利用预设声学特征映射模型中的网络层对所述第二语音信息进行映射操作，得到目标语音信息。

具体的，所述卷积层的网络为卷积神经网络，所述网络层的激活函数为线性整流函数Relu。

进一步的，所述语音识别装置还包括：第一训练模块，用于利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息之前，采用对抗式深度神经网络训练所述预设声学特征映射模型。

其中，所述第一训练模块，包括：第一训练子模块，用于利用公式一，训练所述预设声学特征映射模型，得到所述预设声学特征映射模型的目标参数配置信息；其中，所述预设声学特征映射模型对应的损失函数包括对经过所述预设声学特征映射模型后的语音信息进行解码输出产生的第一损失函数和对经过所述预设声学特征映射模型后的语音信息进行地域分类产生的第二损失函数；

其中，上述语音识别方法的所述实现实施例均适用于该语音识别装置的实施例中，也能达到相同的技术效果。

其中，上述语音识别方法的所述实现实施例均适用于该语音识别设备的实施例中，也能达到相同的技术效果。

其中，上述语音识别方法的所述实现实施例均适用于该计算机可读存储介质的实施例中，也能达到相同的技术效果。

需要说明的是，此说明书中所描述的许多功能部件都被称为模块/子模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块/子模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

将所述目标语音信息识别转换为对应的文本信息；

其中，所述目标语音信息的信号特征与预设信号特征之间相匹配；

利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息之前，还包括：

采用对抗式深度神经网络训练所述预设声学特征映射模型；

所述采用对抗式深度神经网络训练所述预设声学特征映射模型，包括：

所述公式一为：F(Loss)＝F(L₁)-λF(L₂)；

2.根据权利要求1所述的语音识别方法，其特征在于，所述利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述卷积层的网络为卷积神经网络，所述网络层的激活函数为线性整流函数Relu。

4.根据权利要求1所述的语音识别方法，其特征在于，所述预设声学特征映射模型的目标参数配置信息为：所述公式一中的F(Loss)取最小值时，所述预设声学特征映射模型的参数配置信息。

5.一种语音识别装置，其特征在于，包括：

第一训练模块，用于利用预设声学特征映射模型对待识别的语音信息进行映射，得到目标语音信息之前，采用对抗式深度神经网络训练所述预设声学特征映射模型；

所述第一训练模块，包括：

所述公式一为：F(Loss)＝F(L₁)-λF(L₂)；

6.根据权利要求5所述的语音识别装置，其特征在于，所述第一映射模块，包括：

7.根据权利要求6所述的语音识别装置，其特征在于，所述卷积层的网络为卷积神经网络，所述网络层的激活函数为线性整流函数Relu。

8.根据权利要求5所述的语音识别装置，其特征在于，所述预设声学特征映射模型的目标参数配置信息为：所述公式一中的F(Loss)取最小值时，所述预设声学特征映射模型的参数配置信息。

9.一种语音识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任一项所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的语音识别方法中的步骤。