CN111429913A

CN111429913A - 一种数字串语音识别方法、身份验证装置及计算机可读存储介质

Info

Publication number: CN111429913A
Application number: CN202010224785.6A
Authority: CN
Inventors: 曾志先; 肖龙源; 李稀敏; 叶志坚; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-17
Anticipated expiration: 2040-03-26
Also published as: CN111429913B

Abstract

本发明涉及人计算机技术领域，提供了一种数字串语音识别方法，包含步骤：获取待识别语音；将所述语音输入至数字串语音识别模型进行识别，以得到所述待识别语音对应的数字串文本，其中，构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络，所述待识别语音进入所述数字串语音识别模型后，先后经由卷积神经网络、长短期记忆网络及全连接网络的计算，得到所述数字串文本。基于本发明实施例所提供的数字串语音识别方法通过对数字串语音识别模型的算法构建进行设计，在识别过程中结合了音频数据的局部特征及时间维度特征，可提升识别准确率。

Description

一种数字串语音识别方法、身份验证装置及计算机可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种数字串语音识别方法、身份验证装置及计算机可读存储介质。

背景技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

数字串的语音识别的应用也越来越广泛，尤其是在身份验证中，传统的数字串识别技术是直接通过语音识别在大范围语料的学习基础上，进行数字的识别，该方法虽然能够识别出数字的内容，但是识别准确率低，误识别率高，有可能将数字识别成其他的字符，在稳定性上无法进行保证。

发明内容

针对上述问题，本发明的实施例提供了一种数字串语音识别方法，所述方法包含步骤：获取待识别语音；将所述语音输入至数字串语音识别模型进行识别，以得到所述待识别语音对应的数字串文本，其中，构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络，所述待识别语音进入所述数字串语音识别模型后，先后经由卷积神经网络、长短期记忆网络及全连接网络的计算，得到所述数字串文本。基于本发明实施例所提供的数字串语音识别方法，可基于预先构建并训练完成的数字串语音识别模型对待识别语音进行识别，从而得到对应的数字文本内容，同时通过对数字串语音识别模型的算法构建进行设计，在识别过程中结合了音频数据的局部特征及时间维度特征，可提升识别准确率。

一种身份验证装置，包含输入单元、验证单元和输出单元，其中，所述输出单元向用户展示语音输入要求，所述语音输入要求中包含预设数字串或提示信息；所述输入单元用于接收用户输入的语音信号，并传输至验证单元；所述验证单元对接收到的语音信号进行验证，包含基于上述的数字串语音识别方法，对所述语音信号进行识别，并基于识别出的数字串文本对所述用户身份进行验证，并发送验证结果至所述输出单元；所述输出单元接收所述验证结果，并对其进行显示。

以及，一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的数字串语音识别方法。

在一实施中，构建所述数字串语音识别模型中的所述卷积神经网络结构包含一层卷积网络和一层maxpooling,其中，卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构。

在一实施中，所述卷积神经网络的输入层为所述待识别语音的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。

在一实施中，所述长短期记忆网络的结构为3层,每层网络包含300个神经元。

在一实施中，所述长短期记忆网络的输入层为所述卷积神经网络的输出结果，输出层为帧数乘以300维的矩阵。

在一实施中，所述长短期记忆网络的上层封装神经网络注意机制，以对所述长短期记忆网络的输出结果进行过滤。

在一实施中，所述全连接网络对所述长短期记忆网络的每帧300维的输出结果转换为10个分类，10个分类分别对应数字0到9。

在一实施中，所述数字串语音识别模型的训练方法包含：收集内容为数字串的音频数据，并对所述音频数据进行标注；对所述标注后的音频数据进行频谱转换，得到对应的频谱特征数据；基于所述音频数据的频谱特征数据及标注对所述数字串语音识别模型的损失值进行计算；并在得到损失值后，对所述数字串语音识别模型进行迭代训练，从而实现模型优化。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明实施例所提供的数字串语音识别方法流程图；

图2绘示本实施例中数字串语音识别模型的训练方法流程图；

图3绘示本发明实施例所提供的身份验证装置结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

在本发明的第一实施例中，提出了一种数字串语音识别方法，所述方法基于数字串语音识别模型对待识别语音进行识别，相应的公开了一种同时基于卷积神经网络、长短期记忆网络及全连接网络而构建的数字串语音识别模型，可提升数字串语音识别准确度，所述方法可应用于需要将数字串语音识别成对应文本的场景中。

请参考图1，图1绘示本发明实施例所提供的数字串语音识别方法流程图。如图1所示，所述方法包含步骤：

S101，获取待识别语音。

具体而言，根据实际的应用场景，待识别语音的获取方法可包含多种，包含但不限于实时的采集，例如，待识别语音可通过音频采集设备采集得到，可包含用户基于提示信息中的数字而输入的语音信号，也可以包含用户随机读出的语音信号。

S102，将所述语音输入至数字串语音识别模型进行识别，以得到所述待识别语音对应的数字串文本。

在实施中，构建所述数字串语音识别模型的算法可包含卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)及全连接网络，以下将先对数字串语音识别模型的构建过程进行详细说明。

首先，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。在本发明的实施例中，考虑到CNN卷积网络的作用可以是提取频谱图的局部特征,能够综合考虑样本的区域性特征，故构建数字串语音识别模型中的卷积神经网络结构可包含一层卷积网络和一层maxpooling,其中，卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构，其中卷积神经网络的输入层为语音样本的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。在完成CNN卷积网络的计算之后，可将输出的结果作为长短期记忆网络LSTM的输出，以进一步对数据进行处理。

LSTM网络的作用是综合考虑特征数据在时间维度上的关系,在本发明的实施例中，LSTM网络的输入是上层CNN网络的输出结果,同时，长短期记忆网络的结构可设计为3层,每层网络可包含300个神经元，其输入层为卷积神经网络的输出结果，输出层可为帧数乘以300维的矩阵。

更进一步的，本发明的实施例中，可在长短期记忆网络的上层封装神经网络注意机制，以对长短期记忆网络的输出结果进行过滤。具体而言，可在LSTM网络的结构上再封装一层Attention网络结构，该网络接口可以通过概率矩阵的方式来过滤LSTM输出结果中的无效信息。例如，Attention网络可生成一个与LSTM输出结果结构一致的矩阵，并且该矩阵中的值都为0-1之间的概率值，然后将该概率矩阵与LSTM网络的输出结构进行点乘处理，从而对LSTM网络输出结果进行过滤。

当获得LSTM网络的输出结果后，可基于全连接网络对LSTM网络的每帧300维的输出结果转换为10个分类，10个分类分别对应数字0到9。本发明实施例所提供的方法是对数字串的识别，因为总共有10个数字,所以需要将每帧的音频数据分为10个数字中的对应数字类别，因此通过创建的结构为300×10的全连接网络,可以将输入的数据转为当前音频帧数×10的矩阵，从而对应于各个数字。

基于以上方法可完成数字串语音识别模型中的算法的构建，然后，需要计算损失值，并进一步进行优化训练。请参照图2，图2绘示本实施例中数字串语音识别模型的训练方法流程图。

如图2所述，上述计算损失值及优化训练的方法具体步骤：

S201，收集内容为数字串的音频数据，并对所述音频数据进行标注。

在实施中，可通过录音设备，收集不同人读取对应数字串的音频，收集数量在3000条左右，每条数字串内容包含8位数字，同时，可以收集网络中关于数字串的音频数据，比如在DataOcean的公司的官网中都能够收集到现成的内容为数字串的音频数据。

当收集完足够数量的数字串音频数据之后，可对音频数据进行标注，将每个音频标注出对应的数字串文本内容，并进行所有文本内容统一的保存，并且将文本和音频内容的对应关系给处理好，比如第一个音频对应第一条文本，较佳的，可以将该音频的文件名命名为对应的数字串内容文本，比如12345678.wav即为一条内容为数字串”12345678”的音频文件，从而便于对应关系的管理。

值得注意的是，本发明的实施例中通过收集单纯的数字串音频作为训练样本，可通过样本的纯净度来强化识别模型的准确性。

S202，对所述标注后的音频数据进行频谱转换，得到对应的频谱特征数据。

在实施中，可通过Python的Matplotlib工具将数值形式的所有数字串内容的音频文件转为Spectrogram频谱图,频谱图的特征维度为1024,时间单位为帧,提取频谱图的窗口大小为25ms,位置大小为10ms。

S203，基于所述音频数据的频谱特征数据及标注对所述数字串语音识别模型的损失值进行计算。

具体而言，可通过预先收集并构造样本数据，包含数字串音频及对应的标注标签，以作为训练的标签,将上述全连接网络输出的帧数×10的矩阵,作为Loss层计算的输入,通过CTC算法来计算loss损失值,在实施中，可直接使用tensorflow的ctc_loss函数来进行计算,输入的是样本音频对应的全连接网络计算结果,标签为预先标注的数字串内容文本，从而得到损失值。

S204，在得到损失值后，对所述数字串语音识别模型进行迭代训练，从而实现模型优化。

在实施中，可以通过Adam算法来对数字串语音识别模型进行迭代训练优化，从而保证识别模型的准确率。

基于上述方法完成对数字串语音识别模型的训练后，可训练后的模型取出来即可实现对语音的识别，同时，还需进一步对模型的输出结果进行解码，从而得到待识别语音对应的数字串文本。具体而言，数字串语音识别模型的初步输出结果的结构为1×帧数×10，通过ctc_beam_search_decoder函数进行解码,将10维输出结果解码为数字串文本形式,并将数字串文本作为最终的识别结果进行输出。

综上所述，基于本发明实施例所提供的数字串语音识别方法，可基于预先构建并训练完成的数字串语音识别模型对待识别语音进行识别，从而得到对应的数字文本内容，同时通过对数字串语音识别模型的算法构建进行设计，在识别过程中结合了音频数据的局部特征及时间维度特征，可提升识别准确率。更进一步的，在计算损失值和优化训练中，使用的样本为数字串对应的语音样本，保证了样本的有效性及纯净度，提高训练质量。

基于同样的发明构思，本发明的实施例还提供了一种身份验证装置，请参照图3，图3绘示本发明实施例所提供的身份验证装置结构示意图。如图3所示，身份验证装置300包含输入单元310、验证单元320和输出单元330。

输出单元330可向用户展示语音输入要求，语音输入要求中可包含预设数字串或提示信息，其中提示信息可包含提醒用户输入仅与数字相关的语音信号，可以是用户自主创建的，也可以是基于提示信息可联想得到的。在实施中，输出单元330可包含显示屏、扬声器等可向用户输出信息的装置。

输入单元310可用于接收用户输入的语音信号，并传输至验证单元320，输入单元310可对应为语音采集设备，例如麦克风。

验证单元320对接收到的语音信号进行验证，包含基于上述实施例中的数字串语音识别方法，对所述语音信号进行识别，基于识别出的数字串文本对用户身份进行验证，并发送验证结果至输出单元330。

输出单元330接收验证结果，并对其进行显示。

值得注意的是，本实施例所提供的身份验证装置可基于实际的应用场景进行相应的调整，而各组件之间的逻辑关联则可参照图示。

本实施例所提供的身份验证装置，可基于用户输入的数字串语音对用户身份进行验证，不仅可用于保证当前用户为真实用户，防止黑客入侵，还可用于实现与用户的简单互动。同时，通过基于上述数字串语音识别方法对用户输入的语音进行识别，保证了识别的准确性，减少误操作，从而提升用户体验。

此外，本发明另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现上述方法实施例。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字串语音识别方法，其特征在于，所述方法包含步骤：

获取待识别语音；

将所述语音输入至数字串语音识别模型进行识别，以得到所述待识别语音对应的数字串文本，其中，构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络，所述待识别语音进入所述数字串语音识别模型后，先后经由卷积神经网络、长短期记忆网络及全连接网络的计算，得到所述数字串文本。

2.如权利要求1所述的方法，其特征在于，构建所述数字串语音识别模型中的所述卷积神经网络结构包含一层卷积网络和一层maxpooling,其中，卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构。

3.如权利要求2所述的方法，其特征在于，所述卷积神经网络的输入层为所述待识别语音的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。

4.如权利要求1所述的方法，其特征在于，所述长短期记忆网络的结构为3层,每层网络包含300个神经元。

5.如权利要求4所述的方法，其特征在于，所述长短期记忆网络的输入层为所述卷积神经网络的输出结果，输出层为帧数乘以300维的矩阵。

6.如权利要求4所述的方法，其特征在于，所述长短期记忆网络的上层封装神经网络注意机制，以对所述长短期记忆网络的输出结果进行过滤。

7.如权利要求1所述的方法，其特征在于，所述全连接网络对所述长短期记忆网络的每帧300维的输出结果转换为10个分类，10个分类分别对应数字0到9。

8.如权利要求1所述的方法，其特征在于，所述数字串语音识别模型的训练方法包含：

收集内容为数字串的音频数据，并对所述音频数据进行标注；

对所述标注后的音频数据进行频谱转换，得到对应的频谱特征数据；

基于所述音频数据的频谱特征数据及标注对所述数字串语音识别模型的损失值进行计算；

并在得到损失值后，对所述数字串语音识别模型进行迭代训练，从而实现模型优化。

9.一种身份验证装置，其特征在于，所述装置包含输入单元、验证单元和输出单元，其中，

所述输出单元向用户展示语音输入要求，所述语音输入要求中包含预设数字串或提示信息；

所述输入单元用于接收用户输入的语音信号，并传输至验证单元；

所述验证单元对接收到的语音信号进行验证，包含基于权利要求1至8中任一所述的数字串语音识别方法，对所述语音信号进行识别，并基于识别出的数字串文本对所述用户身份进行验证，并发送验证结果至所述输出单元；

所述输出单元接收所述验证结果，并对其进行显示。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。