CN110277088A

CN110277088A - 智能语音识别方法、装置及计算机可读存储介质

Info

Publication number: CN110277088A
Application number: CN201910467875.5A
Authority: CN
Inventors: 王健宗; 彭俊清; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-24
Anticipated expiration: 2039-05-29
Also published as: WO2020238045A1; CN110277088B

Abstract

本发明涉及一种人工智能技术，揭露了一种智能语音识别方法，包括：接收语音集和文本集，对所述语音集和文本集进行预处理操作；从所述预处理完成的语音集中提取声学特征得到声学特征集，基于所述声学特征集组建音素集，在所述预处理完成的文本集和所述音素集之间建立状态联系；基于朴素贝叶斯和LSTM算法构建声学模型，将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练；接收用户语音，利用所述声学模型识别所述用户语音后，将所述用户语音转换为文本格式，输出文本结果。本发明还提出一种智能语音识别方法装置以及一种计算机可读存储介质。本发明可以将用户的语音转换为文字输出。

Description

智能语音识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音输入后智能进行语音识别的方法、装置及计算机可读存储介质。

背景技术

语音识别方法能够使人与人、人与机器实现更顺畅的交流，可以让机器在字面上明白用户在说什么，是自然的人机交互的基础。现在语音识别方法的运用已经十分广泛，对于语音识别的需求也日益庞大。但是目前语音识别方法需要大量的语音数据以及和这些语音相对应的文本的支持，且多数语音识别方法效率一般，效果有待提升。

发明内容

本发明提供一种智能语音识别方法、装置及计算机可读存储介质，其主要目的在于当用户进行语音输入时，给用户呈现出精准的语音识别效果。

为实现上述目的，本发明提供的一种智能语音识别方法，包括：

数据处理层接收语音集和文本集，对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作；

特征提取层接收所述预处理完成的语音集，从所述预处理完成的语音集中提取声学特征得到声学特征集，并基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系；

模型训练层基于朴素贝叶斯和LSTM算法构建声学模型，并将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练；

接收用户语音，利用所述声学模型识别所述用户语音后，将所述用户语音转换为文本格式，并输出文本结果。

可选地，其特征在于，对所述语音集进行包括预加重、加窗分帧的预处理操作，包括：

基于数字滤波器对所述语音集的声音频率进行预加重，所述预加重的方法为：

H(z)＝1-μz^-1

其中，H(z)为所述预加重后的语音集，z为所述声音频率，μ为预加重系数；

基于所述预加重后的语音集，根据汉明窗法进行加窗分帧处理，所述汉明窗法ω(n)为：

其中，n为所述预加重后的语音集，N为所述汉明窗法的窗长，cos为余弦函数。

可选地，从所述预处理完成的语音集中提取声学特征得到声学特征集，包括：

基于语音端点检测技术切除所述语音集内数据首尾端的静音部分；

对所述切除数据首尾端静音部分的语音集做波形变化，基于梅尔频率倒谱系数特征提取法提取所述波形变化后的语音集的声学特征，并输出多维向量矩阵形式的声学特征集。

可选地，所述梅尔频率倒谱系数特征提取法为：

其中，C(n)为所述多维向量矩阵形式的声学特征集，n为矩阵的维度，L为所述梅尔频率倒谱系数特征提取法的系数阶数，M为滤波器个数，cos为所述余弦函数，s(m)所述滤波器的输出的对数能量。

可选地，基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系，包括：

将所述多维向量矩阵形式的声学特征集内的数据拆分为固定维度的向量矩阵，所述固定维度的向量矩阵称为状态矩阵；

将每三个所述状态矩阵组建为一个音素，构建完成音素集；

将每七个所述音素映射为一个文本单词，建立所述预处理完成的文本集和所述音素集之间的状态联系。

此外，为实现上述目的，本发明还提供一种智能语音识别方法装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的智能语音识别方法程序，所述智能语音识别方法程序被所述处理器执行时实现如下步骤：

数据处理层接收语音集和文本集，并对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作；

H(z)＝1-μz^-1

可选地，所述梅尔频率倒谱系数特征提取法为：

将每三个所述状态矩阵组建为一个音素，构建完成音素集；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能语音识别方法程序，所述智能语音识别方法程序可被一个或者多个处理器执行，以实现如上所述的智能语音识别方法的步骤。

本发明提出的智能语音识别方法、装置及计算机可读存储介质，接收语音集和文本集，并对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作；从所述预处理完成的语音集中提取声学特征得到声学特征集，并基于所述声学特征集组建音素集；基于朴素贝叶斯和LSTM算法构建声学模型，并将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练。本发明使用深度学习算法，可有效提高对所述音素集和所述文本集的特征分析能力，因此本发明可以实现精准的智能语音识别功能。

附图说明

图1为本发明一实施例提供的智能语音识别方法的流程示意图；

图2为本发明一实施例提供的智能语音识别方法装置的内部结构示意图；

图3为本发明一实施例提供的智能语音识别方法装置中智能语音识别方法程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种智能语音识别方法。参照图1所示，为本发明一实施例提供的智能语音识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，智能语音识别方法包括：

S1、数据处理层接收语音集和文本集，并对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作。

本发明较佳实施例所述语音集是在安静的环境下，通过单个碳粒麦克风录取，所述语音集总时长超过30个小时，且参与录音的人员具有说标准普通话的能力。进一步地，所述语音集的采样频率16kHz，采样大小16bits。所述文本集可选取华尔街日报数据集WSJ。

本发明较佳实施例，基于数字滤波器对所述语音集的声音频率进行预加重，所述预加重的方法为：

H(z)＝1-μz^-1

S2、特征提取层接收所述预处理完成的语音集，从所述预处理完成的语音集中提取声学特征得到声学特征集，并基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系。

本发明较佳实施，从所述预处理完成的语音集中提取声学特征得到声学特征集包括：基于信号处理语音端点检测(Voice Activity Detection,VAD)技术切除所述语音集内数据首尾端的静音部分，对所述切除数据首尾端静音部分的语音集做波形变化，基于梅尔频率倒谱系数特征提取法提取所述波形变化后的语音集的声学特征，并输出多维向量矩阵形式的声学特征集。

本发明较佳实施例中，所述基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系包括：将所述多维向量矩阵形式的声学特征集内的数据拆分为固定维度的向量矩阵，所述固定维度的向量矩阵称为状态矩阵，将每三个所述状态矩阵组建为一个音素，构建完成音素集，将每七个所述音素映射为一个文本单词，建立所述预处理完成的文本集和所述音素集之间的状态联系。

本发明较佳实施所述梅尔频率倒谱系数特征提取法为：

S3、模型训练层基于朴素贝叶斯和LSTM算法构建声学模型，并将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练。

本发明较佳实施例所述声学模型包括基于朴素贝叶斯建立概率模型和LSTM模型，所述概率模型为：

其中，Context(ω)为所述文本集，ω为所述文本集内的单词，l^ω为所述ω的前后段的单词数，θ为概率模型参数，X_ω为所述ω的向量表示形式，为所述ω的霍夫曼编码形式，p()表示求解概率形式。

本发明较佳实施例所述LSTM模型包括遗忘门、输入门、输出门，所述输入门接收所述概率模型的输出数据并进行激活处理后输入至所述遗忘门。

所述遗忘门为：

f_t＝σ(w_t[h_t-1,x_t]+b_t)

其中，f_t为所述遗忘门的输出数据，x_t为所述遗忘门的输入数据，t为所述文本集的当前时间，t-1为所述文本集当前时间的前一个时间，h_t-1为所述输出门在所述文本集当前时间的前一个时间的输出数据，w_t为所述当前时间的权重，b_t为所述当前时间的偏置，[]为矩阵乘法操作，σ表示所述sigmoid函数。

所述输出门包括激活函数和损失函数。

本发明较佳实施例将所述预处理完成的文本集输入至所述概率模型中训练，直至所述概率模型的训练值小于预设概率阈值后退出训练，将所述音素集输入至所述LSTM模型训练，直至所述LSTM模型的训练值小于预设阈值时退出训练，将所述概率模型的输出值和所述LSTM模型的训练值输入至所述LSTM输出门的损失函数中，判断所述损失函数的损失值是否在所述预处理完成的文本集和所述音素集之间建立状态联系的误差范围内，当超出所述误差范围，继续训练所述概率模型和所述LSTM模型，直至所述损失函数的损失值在所述预处理完成的文本集和所述音素集之间建立状态联系的误差范围内，并根据每七个所述音素映射为一个文本单词，将每七个所述LSTM模型的训练值映射为所述概率模型的输出数据，直至映射结束，输出所述映射结果，得到文本结果，完成智能语音识别。

S4、接收用户语音，利用所述声学模型识别所述用户语音后，将所述用户语音转换为文本格式，并输出文本结果。

发明还提供一种智能语音识别方法装置。参照图2所示，为本发明一实施例提供的智能语音识别方法装置的内部结构示意图。

在本实施例中，所述智能语音识别方法装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该智能语音识别方法装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能语音识别方法装置1的内部存储单元，例如该智能语音识别方法装置1的硬盘。存储器11在另一些实施例中也可以是智能语音识别方法装置1的外部存储设备，例如智能语音识别方法装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括智能语音识别方法装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能语音识别方法装置1的应用软件及各类数据，例如智能语音识别方法程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行智能语音识别方法程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在智能语音识别方法装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能语音识别方法程序01的智能语音识别方法装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对智能语音识别方法装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有智能语音识别方法程序01；处理器12执行存储器11中存储的智能语音识别方法程序01时实现如下步骤：

步骤一、数据处理层接收语音集和文本集，并对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作。

H(z)＝1-μz^-1

步骤二、特征提取层接收所述预处理完成的语音集，从所述预处理完成的语音集中提取声学特征得到声学特征集，并基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系。

本发明较佳实施，基于语音端点检测技术(Voice Activity Detection,VAD)切除所述语音集内数据首尾端的静音部分，对所述切除数据首尾端静音部分的语音集做波形变化，基于梅尔频率倒谱系数特征提取法提取所述波形变化后的语音集的声学特征，并输出多维向量矩阵形式的声学特征集。

本发明较佳实施例，将所述多维向量矩阵形式的声学特征集内的数据拆分为固定维度的向量矩阵，所述固定维度的向量矩阵称为状态矩阵，将每三个所述状态矩阵组建为一个音素，构建完成音素集，将每七个所述音素映射为一个文本单词，建立所述预处理完成的文本集和所述音素集之间的状态联系。

本发明较佳实施所述梅尔频率倒谱系数特征提取法为：

步骤三、模型训练层基于朴素贝叶斯和LSTM算法构建声学模型，并将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练。

本发明较佳实施例所述LSTM包括遗忘门、输入门、输出门，所述输入门接收所述概率模型的输出数据并进行激活处理后输入至所述遗忘门

所述遗忘门为：

f_t＝σ(w_t[h_t-1,x_t]+b_t)

所述输出门包括激活函数和损失函数。

步骤四、接收用户语音，利用所述声学模型识别所述用户语音后，将所述用户语音转换为文本格式，并输出文本结果。

可选地，在其他实施例中，智能语音识别方法程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述智能语音识别方法程序在智能语音识别方法装置中的执行过程。

例如，参照图3所示，为本发明智能语音识别方法装置一实施例中的智能语音识别方法程序的程序模块示意图，该实施例中，所述智能语音识别方法程序可以被分割为数据接收模块10、特征提取模块20、模型训练模块30以及语音识别输出模块40，示例性地：

所述数据接收模块10用于：接收语音集和文本集，对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作。

所述特征提取模块20用于：接收所述预处理完成的语音集，从所述预处理完成的语音集中提取声学特征得到声学特征集，并基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系。

所述模型训练模块30用于：基于朴素贝叶斯和LSTM算法构建声学模型，并将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练。

所述语音识别输出模块40用于：接收用户语音，利用所述声学模型识别所述用户语音后，将所述用户语音转换为文本格式，并输出文本结果。

上述数据接收模块10、特征提取模块20、模型训练模块30以及语音识别输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有智能语音识别方法程序，所述智能语音识别方法程序可被一个或多个处理器执行，以实现如下操作：

接收语音集和文本集，对所述语音集进行包括预加重、加窗分帧的预处理操作，并对所述文本集进行包括去标点符号、分词的预处理操作。

接收所述预处理完成的语音集，从所述预处理完成的语音集中提取声学特征得到声学特征集，并基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系。

基于朴素贝叶斯和LSTM算法构建声学模型，并将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练。

本发明计算机可读存储介质具体实施方式与上述智能语音识别方法装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能语音识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的智能语音识别方法，其特征在于，对所述语音集进行包括预加重、加窗分帧的预处理操作，包括：

H(z)＝1-μz^-1

3.如权利要求1或2所述的智能语音识别方法，其特征在于，从所述预处理完成的语音集中提取声学特征得到声学特征集，包括：

4.如权利要求3所述的智能语音识别方法，其特征在于，所述梅尔频率倒谱系数梅尔频率倒谱系数特征提取法为：

5.如权利要求4所述的智能语音识别方法，其特征在于，基于所述声学特征集组建音素集，并在所述预处理完成的文本集和所述音素集之间建立状态联系，包括：

将每三个所述状态矩阵组建为一个音素，构建完成音素集；

6.一种智能语音识别方法装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的智能语音识别方法程序，所述智能语音识别方法程序被所述处理器执行时实现如下步骤：(对应修改)

7.如权利要求6所述的智能语音识别方法装置，其特征在于，对所述语音集进行包括预加重、加窗分帧的预处理操作，包括：

H(z)＝1-μz^-1

8.如权利要求6或7所述的智能语音识别方法装置，其特征在于，从所述预处理完成的语音集中提取声学特征得到声学特征集，包括：

9.如权利要求8所述的智能语音识别方法装置，其特征在于，所述梅尔频率倒谱系数特征提取法为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有智能语音识别方法程序，所述智能语音识别方法程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的智能语音识别方法的步骤。