CN111933113A - 一种语音识别的方法、装置、设备及介质 - Google Patents
一种语音识别的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111933113A CN111933113A CN202011046734.5A CN202011046734A CN111933113A CN 111933113 A CN111933113 A CN 111933113A CN 202011046734 A CN202011046734 A CN 202011046734A CN 111933113 A CN111933113 A CN 111933113A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- frame number
- preset
- model
- network part
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000006870 function Effects 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 1
- 230000002349 favourable effect Effects 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种语音识别的方法、装置、设备及介质。所述方法包括:通过将获取的音频数据转化为对应的语谱图;判断所述语谱图的帧数是否为预设帧数;若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;将所述待识别语谱图输入到多任务卷积神经网络声学模型中。实现了直接向声学模型输入语谱图,进而识别出音频数据的文本。相较现有技术计算MFCC特征造成的频域上的信息损失,本发明减少了输入特征的损失,增加了音频数据的辨识度,并且更加有利于声学模型提取特征信息。
Description
技术领域
本发明涉及语音识别技术和深度学习技术,具体涉及一种语音识别的方法、装置、设备及介质。
背景技术
随着智能化产品的普及,作为人机交互的语音识别技术越现重要。
在语音识别中,目前大多数采用传统语音特征进行语音识别。其中,传统语音特征包括:MFCC特征、FBANK特征等各种人工设计特征,这造成了频域上的信息损失,在高频区域的信息损失尤为明显,导致对语音识别的准确率不高。同时,传统的单任务网络模型可容易在训练数据上过拟合,导致对测试集上识别率下降。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别的方法、装置、设备及介质。
第一方面,为了解决上述问题,本发明实施例公开了一种语音识别的方法,所述方法包括:
将获取的音频数据转化为对应的语谱图;
判断所述语谱图的帧数是否为预设帧数;
若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;
将所述待识别语谱图输入到声学模型;
获得所述声学模型输出的识别文本。
优选的,所述方法还包括:
获取多个语谱图样本;
将所述多个语谱图样本输入至预设模型中,以对所述预设模型进行训练,所述预设模型包括主体网络部分和分支网络部分;其中,所述主体网络部分用于输出与所述多个语谱图样本对应的文本,所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像;
将训练结束时的预设模型作为声学模型。
优选的,所述对所述预设模型进行训练的步骤,包括:
根据所述主体网络部分、文本标签和所述多个语谱图样本,获取所述主体网络部分的CTC损失函数;
将所述多个语谱图样本分别输入到所述分支网络部分,获取与各语谱图样本对应的重建图像,并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像,获取所述分支网络部分的损失函数;
根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数,确定所述预设模型的损失函数;
将所述多个语谱图样本输入到所述预设模型中进行训练,直到所述预设模型的损失函数收敛。
优选的,所述获得所述声学模型输出的识别文本的步骤,包括:
获得所述声学模型输出的多个待识别文本和与所述多个识别文本分别对应的第一得分;
所述方法还包括:
将所述多个识别文本分别输入到语言模型;
获得所述语言模型分别对所述多个识别文本进行识别的第二得分;
根据所述第一得分和所述第二得分,确定所述多个识别文本分别对应的最终得分;
比较各识别文本对应的最终得分,确定最终得分最高的对应识别文为最终的识别文本。
优选的,所述获取多个语谱图样本的步骤,包括:
获取多条音频数据数据,并将所述多条音频数据转化为对应的多个语谱图;
将所述多个语谱图中帧数少于所述预设帧数的语谱图,进行补零操作,使得补零后得到的语谱图的帧数等于所述预设帧数;
将所述多个语谱图中帧数大于所述预设帧数的语谱图删除,并对剩下的语谱图进行数据增强,获得所述多个语谱图样本。
第二方面,为了解决上述问题,本发明实施例公开了一种语音识别的装置,所述装置包括:
音频转化模块,用于将获取的音频数据转化为对应的语谱图;
帧数判断模块,用于判断所述语谱图的帧数是否为预设帧数;
补零模块,用于若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;
语谱图输入模块,用于将所述待识别语谱图输入到声学模型;
识别文本获得模块,用于获得所述声学模型输出的识别文本。
优选的,所述装置还包括:
样本获取模块,用于获取多个语谱图样本;
模型训练模块,用于将所述多个语谱图样本输入至预设模型中,以对所述预设模型进行训练,所述预设模型包括主体网络部分和分支网络部分;其中,所述主体网络部分用于输出与所述多个语谱图样本对应的文本,所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像;将训练结束时的预设模型作为声学模型。
优选的,所述模型训练模块,包括:
CTC损失函数获取子模块,用于根据所述主体网络部分、文本标签和所述多个语谱图样本,获取所述主体网络部分的CTC损失函数;
分支网络部分的损失函数获取子模块,用于将所述多个语谱图样本分别输入到所述分支网络部分,获取与各语谱图样本对应的重建图像,并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像,获取所述分支网络部分的损失函数;
预设模型的损失函数确定子模块,用于根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数,确定所述预设模型的损失函数;
模型训练子模块,用于将所述多个语谱图样本输入到所述预设模型中进行训练,直到所述预设模型的损失函数收敛。
第三方面,为了解决上述问题,本发明实施例还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面的一种语音识别的方法的步骤。
第四方面,为了解决上述问题,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面的一种语音识别的方法的步骤。
本发明实施例包括以下优点:
在本发明实施例中,通过将获取的音频数据转化为对应的语谱图;判断所述语谱图的帧数是否为预设帧数;若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;将所述待识别语谱图输入到声学模型。实现了音频数据的文本识别。同时,因是将符合预设帧数的语谱图直接输入声学模型中进行识别,所以相较现有技术计算MFCC特征造成的频域上的信息损失,本发明减少了输入特征的损失,增加了音频数据的辨识度。此外,本发明针对帧数不为预设帧数的语谱图进行了补零操作,使得补零后的语谱图的图形更加的平滑,增加了辨识度,更加有利于声学模型提取语谱图上的特征信息。
附图说明
图1是本发明的一种语音识别的方法应用步骤流程图;
图2是本发明的一种语音识别的方法步骤流程图;
图3是本发明的一种语音识别的装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明的核心思想是:根据语谱图的文本标签和重建图像确定预设模型的损失函数,直接向训练获得的声学模型输入语谱图,声学模型输出识别文本。使得相较现有技术计算MFCC特征造成的频域上的信息损失,本发明减少了输入特征的损失,增加了音频数据的辨识度。同时,本发明的损失函数不仅考虑了文本标签,还考虑了重建图像,减轻了声学模型的过拟合,提高了语音识别率。
参见图1,图1示出了本发明的一种语音识别的方法应用步骤流程图,具体可以包括如下步骤:
步骤101,将获取的音频数据转化为对应的语谱图。
本发明中,语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,坐标点值为语言数据能量。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
在本发明实施例中,将获取的音频数据进行傅里叶变换得到对应的频率,之后生成时间-频率的语谱图。
步骤102,判断所述语谱图的帧数是否为预设帧数。
在本发明中,声学模型(Acoustic Model,简称AM)是对声学、语音学、环境的变量、说话人性别、 口音等的差异的知识表示。本发明实施例中声学模型可以为HMM声学模型、DNN-HMM声学模型、FFDNN声学模型、CNN声学模型、CTC声学模型等,本发明实施例不限制具体的声学模型,可按照实际情况选择合适的声学模型。
在本发明实施例中,声学模型对输入的语谱图有大小要求,因此需要限定语谱图的高度和帧数。
一般根据声学模型的大小要求设置一个对应的预设帧数,例如预设帧数是700帧。当音频数据转化为对应的语谱图后,需要判断该语谱图是否满足声学模型的大小要求,即判断该语谱图的帧数是否满足预设帧数,以及可以判断该语谱图的高度是否满足预设高度。
步骤103,若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数。
在本发明实施例中,当语谱图的帧数小于预设帧数时,会对该语谱图进行补零,补零后的语谱图不仅让语谱图更加的平辨滑,增加了识度,更加有利于声学模型提取语谱图上的特征信息,还满足了声学模型对帧数的要求。同时,若该语谱图的高度不满足声学模型的高度要求时,还会对语谱图进行放大或缩小操作,以使被改变后的语谱图满足声学模型的高度要求。
本发明中,补零为针对语谱图的每帧增添采样点的数量。
步骤104,将所述待识别语谱图输入到声学模型。
在本发明实施例中,将符合声学模型输入要求的语谱图输入到声学模型中。
步骤105,获得所述声学模型输出的识别文本。
在本发明实施例中,声学模型将待识别语谱图中的帧按照时间先后顺序进行提取,依次输出与对应帧匹配的多个文本,并对每个文本的打分。
例如,一个语谱图包括30帧,那么将该语谱图输入到合适的声学模型中,声学模型针对前15帧输出“你”、“您”、“另”、“例”,并输出对“你”的打分0.5、关于“您”的打分0.3、关于“另”的打分0.1、关于“例”的打分0.1;接着针对后15帧输出“号”、“好”、“豪”,并输出关于“号”的打分0.2、关于“好”的打分“0.6”、关于“豪”的打分“0.2”。
在本发明实施例中,通过将获取的音频数据转化为对应的语谱图;判断所述语谱图的帧数是否为预设帧数;若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;将所述待识别语谱图输入到声学模型。实现了音频数据的文本识别。同时,因是将符合预设帧数的语谱图直接输入声学模型中进行识别,相较现有技术计算MFCC特征造成的频域上的信息损失,本发明减少了输入特征的损失,增加了音频数据的辨识度。此外,本发明针对帧数不为预设帧数的语谱图进行了补零操作,使得补零后的语谱图的图形更加的平滑,增加了辨识度,更加有利于声学模型提取语谱图上的特征信息。
参见图2,图2示出了本发明的一种语音识别的方法步骤流程图,具体可以包括如下步骤:
步骤201,获取多个语谱图样本。
在本发明实施例中,获取多条音频数据数据,并将所述多条音频数据转化为对应的多个语谱图;将所述多个语谱图中帧数少于所述预设帧数的语谱图,进行补零操作,使得补零后得到的语谱图的帧数等于所述预设帧数;将所述多个语谱图中帧数大于所述预设帧数的语谱图删除,并对剩下的语谱图进行数据增强,获得所述多个语谱图样本。
具体的,先获取多条音频数据,并对每条音频数据进行傅里叶变换成频率,接着按照转化为频率的先后顺序生成对应的时间-频率语谱图;接着,判断该语谱图中的帧数和预设帧数的大小关系,该预设帧数为声学模型的输入帧大小;其中,帧数小于预设帧数的语谱图需要进行补零操作,以使补零后的语谱图的帧数等于预设帧数;其中,帧数大于预设帧数的语谱图抛弃。同时,这些语谱图的高度需一致,且满足声学模型的输入要求;最后,对满足声学模型输入要求的语谱图进行扩充语谱图样本的数量并数据增强,包括扭曲时域信号,掩盖频域通道,和掩盖时域通道等方式修改语谱图。这种增强方式可以增加网络的鲁棒性,提高识别率,增加的数量也可根据实际效果调整。
例如,现有10万句长短不一的8k语音数据,对每一句语音数据进行傅里叶变换得到频率,然后生成时间—频率的语谱图,其中所有语谱图高度均为8000,宽度则为每句语音的帧数。由于声学模型要求输入的语谱图大小统一,因此设定一个阈值如700帧,对所有不满700帧的语谱图补零为700帧,少数超过700帧的语谱图抛弃,得到大约10万幅长度为700,高度为8000的语谱图。之后采用如SpecAugment(一种数据增强的方法)对语谱图样本进行数据扩充增强。具体为:复制这大约10万幅语谱图,并对复制得到的语谱图进行包括扭曲时域信号,掩盖频域通道,和掩盖时域通道等方式修改频谱图,最终语谱图样本如扩充1倍得到大约20万幅语谱图。
步骤202,将所述多个语谱图样本输入至预设模型中,以对所述预设模型进行训练。
具体的,所述预设模型包括主体网络部分和分支网络部分;其中,所述主体网络部分用于输出与样本对应的文本,所述分支网络部分用于重建所述输入的语谱图,具体的训练过程如下:
根据所述主体网络部分、文本标签和所述多个语谱图样本,获取所述主体网络部分的CTC损失函数;
将所述多个语谱图样本分别输入到所述分支网络部分,获取与各语谱图样本对应的重建图像,并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像,获取所述分支网络部分的损失函数;
根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数,确定所述预设模型的损失函数;
将所述多个语谱图样本输入到所述预设模型中进行训练,直到所述预设模型的损失函数收敛结束。
实际应用中,通过人工识别的方式对所有语谱图样本中的每张语谱图对应的音频数据进行识别,获得每张语谱图的对应文本标签。其中,每个文本标签为对应语谱图所表示的正确文本。将全部语谱图和对应的文本标签输入到主体网络部分,将主体网络的输出文本和与对应文本标签进行比较,确定两者的差值。可以通过求所有差值的平均值的方式确定所有语谱图和对应文本标签之间的最终差值,并根据该最终差值确定主体网络部分的CTC损失函数。
将全部语谱图样本一一输入到分支网络部分,获得与各语谱图样本对应的重建图像,其中,重建图像为对输入语谱图的重新还原的图像。根据各语谱图和其对应重建图像之间的均方误差,即指所有输出的重组图像偏离对应输入语谱图的距离平方和的平均数,确定分支网络部分的损失函数。该分支网络的作用为正则化,避免预设模型过拟合,提高模型的识别率。
最后,CTC损失函数,与上述分支网络部分的损失函数乘以预设系数之和,为预设模型的损失函数。其中,预设系数为0~1之间某个值,且该系数可以通过预设模型的训练结果进行调整,调整后预设模型需要重新进行训练,直到预设模型的损失函数完全收敛结束,将训练结束时的预设模型作为声学模型。
在本发明实施例中,分支网络部分的作用就是提供关于重建图像对应的损失函数。
步骤203,将获取的音频数据转化为对应的语谱图。
在本发明实施例中,获取一段需要设别的音频数据,并对该音频数据进行傅里叶变换得到对应的频率,接着按照该频率的时间先后生成时间-频率的语谱图。
步骤204,判断所述语谱图的帧数是否为预设帧数。
由于声学模型对输入语谱图的大小有要求,因此需要判断预输入的语谱图的宽度是否符合要求。即判断语谱图的帧数是否满足声学模型的大小要求。
为了提高声学模型的识别效率,还可以判断语谱图的高度是否满足声学模型的最佳输入要求,以便对语谱图的高度进行调整。
步骤205,若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数。
在本发明实施例中,若语谱图的帧数小于声学模型的预设帧数,则对该语谱图进行补零操作,以使补零后的语谱图的帧数等于预设帧数,补零后的语谱图的图形更加的平滑,增加了辨识度。
若语谱图的帧数大于预设帧数,可以对语谱图进行裁剪,以使裁剪后的每个语谱图的帧数小于或等于预设帧数,并将裁剪后的语谱图一一送入声学模型进行识别。
同时,还可以对高度超过或小于声学模型高度要求的语谱图进行图像处理,以使处理后的语谱图的高度满足声学模型的高度要求。具体的图像处理技术参见现有技术。
步骤206,将所述待识别语谱图输入到声学模型,获得所述声学模型输出的识别文本。
在本发明实施例中,将待识别的语谱图输入到声学模型中,声学模型输出该语谱图中每帧声学特征代表的多个文本,以及每个文本的分数。
步骤207,通过语言模型获取最终的识别文本。
在本发明中,语言模型(Language Model,简称LM)。语言模型是对一组字(词)序列构成的知识表示,其目的是让输出的文本尽可能符合语法,前后通顺。在本发明实施例中语言模型可以为TF-IDE语言模型、N-gram语言模型、Word2vec语言模型、CBOW语言模型、Glove语言模型等,本发明实施例不做具体的限制,可以根据具体的情况确定使用哪种语言模型。
在本发明实施例中,语言模型可以通过大量的纯文本语料进行训练得到,该纯文本语料可以是语谱图样本对应的文本标签信息,也可以是其它文本信息,例如利用爬虫技术获取的新闻等。
具体的,获得所述声学模型输出的多个待识别文本和与所述多个识别文本分别对应的第一得分;将所述多个识别文本分别输入到语言模型;获得所述语言模型分别对所述多个识别文本进行识别的第二得分;根据所述第一得分和所述第二得分,确定所述多个识别文本对应的最终得分;比较各识别文本对应的最终得分,确定最终得分最高的对应识别文为最终的识别文本。
实际应用中,由于声学模型是在物理层面确定声学模型中每帧声学特征对应的文本,该文本不满足人们的实际需求,就需要通过语言模型来进行调整。将声学模型的输出文本输入到语言模型中,语言模型根据词典确定最佳的识别文本。具体的,声学模型会输出多个文本,并输出对应文本的分数,这些文本是单个字。语言模型按照顺序接收这些单个字和每个字对应的打分,语言模型根据词典对这些字进行重新组合、纠错等,输出多个文本并对这些文本进行打分,最后结合声学模型的打分和语言模型的打分确定最佳的文本。
例如,一个语谱图包括30帧,那么将该语谱图输入到合适的声学模型中,声学模型针对前15帧输出“你”、“您”、“另”,并输出对“你”的打分0.5,、关于“您”的打分0.3、关于“另”的打分0.2;接着针对后15帧输出“好”,并输出关于“好”的打分“1”。将这些文本输入到语言模型中,语言模型输出“你好”和对应的打分0.4、“您好”和对应的打分0.4、“另好”和对应的打分0.2。将声学模型的打分和语言模型的打分进行结合,例如,“你好”的最总得分为0.5+1+0.4=1.9,“您好”的最总得到为0.3+1+0.4=1.7,“另好”的最总得到为0.2+1+0.2=1.4,那么确定语谱图的最终的文本为“你好”。在本发明实施例中声学模型的打分和语言模型的打分进行结合的方式还可以为:分别给声学模型和语言模型的打分分配权重,结合权重确定最总的识别文本,本发明不对结合的方式进行限定。
本发明实施例的有益效果:
1、本发明实施例将音频数据直接转化为语谱图后到声学模型中进行文本识别,减少弥补了传统计算MFCC特征造成的频域上的特征信息损失。
2、本发明实施例的损失函数不仅考虑了文本标签,还使用了重建图像作为正则项,提高了声学模型的识别率,更加有利于声学模型提取语谱图上的特征信息。
3、本发明实施例的将语谱图直接输入到声学模型中,可以用于语音识别及以语音识别为依托的语音导航、语音质检等含有语音识别需求的业务中,应用面广,精确度高。
参见图3,示出了本发明的一种语音识别的装置实施例的结构框图。具体装置如下:
音频转化模块301,用于将获取的音频数据转化为对应的语谱图;
帧数判断模块302,用于判断所述语谱图的帧数是否为预设帧数;
补零模块303,用于若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;
语谱图输入模块304,用于将所述待识别语谱图输入到声学模型;
识别文本获得模块305,用于获得所述声学模型输出的识别文本。
优选的,所述装置还包括:
样本获取模块,用于获取多个语谱图样本;
模型训练模块,用于将所述多个语谱图样本输入至预设模型中,以对所述预设模型进行训练,所述预设模型包括主体网络部分和分支网络部分;其中,所述主体网络部分用于输出与所述多个语谱图样本对应的文本,所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像;将训练结束时的预设模型作为声学模型。
第一得分获取模块,用于获得所述声学模型输出的多个待识别文本和与所述多个识别文本分别对应的第一得分;
识别文本输入模块,用于将所述多个识别文本分别输入到所述语言模型;
第二得分获取模块,用于获得所述语言模型分别对所述多个识别文本进行识别的第二得分;
最终得分模块,用于根据所述第一得分和所述第二得分,确定所述多个识别文本分别对应的最终得分;
最终的识别文本确定模块,用于比较各识别文本对应的最终得分,确定最终得分最高的对应识别文为最终的识别文本。
优选的,其中,所述样本获取模块具体包括如下子模块:
音频数据转化子模块,用于获取多条音频数据数据,并将所述多条音频数据转化为对应的多个语谱图;
补零子模块,用于将所述多个语谱图中帧数少于所述预设帧数的语谱图,进行补零操作,使得补零后得到的语谱图的帧数等于所述预设帧数;
数据增强子模块,用于将所述多个语谱图中帧数大于所述预设帧数的语谱图删除,并对剩下的语谱图进行数据增强,获得所述多个语谱图样本。
所述模型训练模块,包括:
CTC损失函数获取子模块,用于根据所述主体网络部分、文本标签和所述多个语谱图样本,获取所述主体网络部分的CTC损失函数;
分支网络部分的损失函数获取子模块,用于将所述多个语谱图样本分别输入到所述分支网络部分,获取与各语谱图样本对应的重建图像,并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像,获取所述分支网络部分的损失函数;
预设模型的损失函数确定子模块,用于根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数,确定所述预设模型的损失函数;
模型训练子模块,用于将所述多个语谱图样本输入到所述预设模型中进行训练,直到所述预设模型的损失函数收敛。
基于同一发明构思,本发明另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音识别的方法、装置、设备及介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音识别的方法,其特征在于,所述方法包括:
将获取的音频数据转化为对应的语谱图;
判断所述语谱图的帧数是否为预设帧数;
若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;
将所述待识别语谱图输入到声学模型;
获得所述声学模型输出的识别文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个语谱图样本;
将所述多个语谱图样本输入至预设模型中,以对所述预设模型进行训练,所述预设模型包括主体网络部分和分支网络部分;其中,所述主体网络部分用于输出与所述多个语谱图样本对应的文本,所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像;
将训练结束时的预设模型作为声学模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述预设模型进行训练的步骤,包括:
根据所述主体网络部分、文本标签和所述多个语谱图样本,获取所述主体网络部分的CTC损失函数;
将所述多个语谱图样本分别输入到所述分支网络部分,获取与各语谱图样本对应的重建图像,并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像,获取所述分支网络部分的损失函数;
根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数,确定所述预设模型的损失函数;
将所述多个语谱图样本输入到所述预设模型中进行训练,直到所述预设模型的损失函数收敛。
4.根据权利要求1所述的方法,其特征在于,所述获得所述声学模型输出的识别文本的步骤,包括:
获得所述声学模型输出的多个待识别文本和与所述多个识别文本分别对应的第一得分;
所述方法还包括:
将所述多个识别文本分别输入到语言模型;
获得所述语言模型分别对所述多个识别文本进行识别的第二得分;
根据所述第一得分和所述第二得分,确定所述多个识别文本分别对应的最终得分;
比较各识别文本对应的最终得分,确定最终得分最高的对应识别文为最终的识别文本。
5.根据权利要求2所述的方法,其特征在于,所述获取多个语谱图样本的步骤,包括:
获取多条音频数据数据,并将所述多条音频数据转化为对应的多个语谱图;
将所述多个语谱图中帧数少于所述预设帧数的语谱图,进行补零操作,使得补零后得到的语谱图的帧数等于所述预设帧数;
将所述多个语谱图中帧数大于所述预设帧数的语谱图删除,并对剩下的语谱图进行数据增强,获得所述多个语谱图样本。
6.一种语音识别的装置,其特征在于,所述装置包括:
音频转化模块,用于将获取的音频数据转化为对应的语谱图;
帧数判断模块,用于判断所述语谱图的帧数是否为预设帧数;
补零模块,用于若所述语谱图的帧数不为预设帧数,则对所述语谱图进行补零,以使补零后得到的待识别语谱图的帧数为所述预设帧数;
声学模型模块,用于建立所述待识别语谱图和对应文本的映射关系;
解码器模块,用于识别获得所述声学模型输出的文本。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取多个语谱图样本;
模型训练模块,用于将所述多个语谱图样本输入至预设模型中,以对所述预设模型进行训练,所述预设模型包括主体网络部分和分支网络部分;其中,所述主体网络部分用于输出与所述多个语谱图样本对应的文本,所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像;将训练结束时的预设模型作为声学模型。
8.根据权利要求7所述的装置,其特征在于,所述模型训练模块,包括:
CTC损失函数获取子模块,用于根据所述主体网络部分、文本标签和所述多个语谱图样本,获取所述主体网络部分的CTC损失函数;
分支网络部分的损失函数获取子模块,用于将所述多个语谱图样本分别输入到所述分支网络部分,获取与各语谱图样本对应的重建图像,并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像,获取所述分支网络部分的损失函数;
预设模型的损失函数确定子模块,用于根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数,确定所述预设模型的损失函数;
模型训练子模块,用于将所述多个语谱图样本输入到所述预设模型中进行训练,直到所述预设模型的损失函数收敛。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的一种语音识别的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种语音识别的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011046734.5A CN111933113B (zh) | 2020-09-29 | 2020-09-29 | 一种语音识别的方法、装置、设备及介质 |
PCT/CN2021/096848 WO2022068233A1 (zh) | 2020-09-29 | 2021-05-28 | 一种语音识别的方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011046734.5A CN111933113B (zh) | 2020-09-29 | 2020-09-29 | 一种语音识别的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933113A true CN111933113A (zh) | 2020-11-13 |
CN111933113B CN111933113B (zh) | 2021-03-02 |
Family
ID=73333712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011046734.5A Active CN111933113B (zh) | 2020-09-29 | 2020-09-29 | 一种语音识别的方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111933113B (zh) |
WO (1) | WO2022068233A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114078475A (zh) * | 2021-11-08 | 2022-02-22 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
WO2022068233A1 (zh) * | 2020-09-29 | 2022-04-07 | 北京捷通华声科技股份有限公司 | 一种语音识别的方法、装置及计算机可读存储介质 |
CN114974220A (zh) * | 2022-06-17 | 2022-08-30 | 中国电信股份有限公司 | 网络模型的训练方法、语音对象的性别识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017217412A1 (ja) * | 2016-06-16 | 2017-12-21 | 日本電気株式会社 | 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体 |
CN111063342A (zh) * | 2020-01-02 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111292727A (zh) * | 2020-02-03 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111599363A (zh) * | 2019-02-01 | 2020-08-28 | 浙江大学 | 一种语音识别的方法及其装置 |
CN111681669A (zh) * | 2020-05-14 | 2020-09-18 | 上海眼控科技股份有限公司 | 一种基于神经网络的语音数据的识别方法与设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
US10971170B2 (en) * | 2018-08-08 | 2021-04-06 | Google Llc | Synthesizing speech from text using neural networks |
CN111145729B (zh) * | 2019-12-23 | 2022-10-28 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111210807B (zh) * | 2020-02-21 | 2023-03-31 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN112349289B (zh) * | 2020-09-28 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种语音识别方法、装置、设备以及存储介质 |
CN111933113B (zh) * | 2020-09-29 | 2021-03-02 | 北京捷通华声科技股份有限公司 | 一种语音识别的方法、装置、设备及介质 |
-
2020
- 2020-09-29 CN CN202011046734.5A patent/CN111933113B/zh active Active
-
2021
- 2021-05-28 WO PCT/CN2021/096848 patent/WO2022068233A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017217412A1 (ja) * | 2016-06-16 | 2017-12-21 | 日本電気株式会社 | 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体 |
CN111599363A (zh) * | 2019-02-01 | 2020-08-28 | 浙江大学 | 一种语音识别的方法及其装置 |
CN111063342A (zh) * | 2020-01-02 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111292727A (zh) * | 2020-02-03 | 2020-06-16 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111681669A (zh) * | 2020-05-14 | 2020-09-18 | 上海眼控科技股份有限公司 | 一种基于神经网络的语音数据的识别方法与设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068233A1 (zh) * | 2020-09-29 | 2022-04-07 | 北京捷通华声科技股份有限公司 | 一种语音识别的方法、装置及计算机可读存储介质 |
CN114078475A (zh) * | 2021-11-08 | 2022-02-22 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
CN114974220A (zh) * | 2022-06-17 | 2022-08-30 | 中国电信股份有限公司 | 网络模型的训练方法、语音对象的性别识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022068233A1 (zh) | 2022-04-07 |
CN111933113B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933113B (zh) | 一种语音识别的方法、装置、设备及介质 | |
CN113168828B (zh) | 基于合成数据训练的会话代理管线 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN111816165A (zh) | 语音识别方法、装置及电子设备 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN112614510B (zh) | 一种音频质量评估方法及装置 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
CN109493846B (zh) | 一种英语口音识别系统 | |
CN108231063A (zh) | 一种语音控制指令的识别方法及装置 | |
CN106782503A (zh) | 基于发音过程中生理信息的自动语音识别方法 | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
CN112667787A (zh) | 基于话术标签的智能应答方法、系统及存储介质 | |
CN114203180A (zh) | 会议纪要的生成方法、装置、电子设备及存储介质 | |
CN112767961B (zh) | 一种基于云端计算的口音矫正方法 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
CN110858268B (zh) | 一种检测语音翻译系统中不流畅现象的方法及系统 | |
CN113689885A (zh) | 基于语音信号处理的智能辅助引导系统 | |
JP5344396B2 (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
CN113035247B (zh) | 一种音频文本对齐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |