CN110556126A - 语音识别方法、装置以及计算机设备 - Google Patents
语音识别方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN110556126A CN110556126A CN201910871726.5A CN201910871726A CN110556126A CN 110556126 A CN110556126 A CN 110556126A CN 201910871726 A CN201910871726 A CN 201910871726A CN 110556126 A CN110556126 A CN 110556126A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- frame
- distance
- windowed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 82
- 239000012634 fragment Substances 0.000 claims abstract description 21
- 238000009432 framing Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 36
- 230000007613 environmental effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别方法,该方法包括:获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;计算所述MFCC与声纹鉴别向量的距离;当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。本发明还提供一种语音识别装置、计算机设备以及计算机可读存储介质。本发明提供的语音识别方法、装置、计算机设备及计算机可读存储介质能够更加精确地计算出语音片段中的特征向量,从而提升语音识别的精度。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
语音识别属于生物特征识别技术的一种,是一项根据语音波形中反映语音中生理或行为的特征的语音参数,自动识别出语音对应的用户身份的技术。现有技术中,语音识别一般都是利用语音信号中的声纹特征进行识别,其中,在声纹特征提取阶段,现有的加窗处理过程,比如使用汉宁窗、汉明窗、三角窗、高斯窗等对语音数据进行加窗,几乎都会对原始语音信号进行了修改,从而造成了部分声纹特征信息的丢失,降低了语音识别的准确率。
发明内容
有鉴于此,本发明提出一种语音识别方法、装置、计算机设备及计算机可读存储介质,能够获取语音片段之后进行分帧得到每一帧语音数据,然后根据预设的平稳加窗算法对所每一帧语音数据进行加窗以得到加窗语音帧;接着,再提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC,并计算所述MFCC与声纹鉴别向量的距离;当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。通过以上方式,在对语音信号进行少量修改的情况下能够更加精确地计算出语音片段中的特征向量,从而提升语音识别的精度。
首先,为实现上述目的,本发明提供一种语音识别方法,所述方法包括:
获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到;当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
可选地,所述平稳加窗算法为:其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
可选地,所述方法还包括步骤:对每一帧语音数据进行加窗时,获取语音数据中的环境噪声的频率分布信息,再根据噪声的最高频率分布调整所述K。
可选地,声纹特征训练模型为高斯混合模型GMM,所述方法还包括步骤:通过将GMM训练出不同用户的声纹鉴别向量与将所述MFCC分别进行距离计算;选择出小于预设阈值且最小的距离所对应的第一声纹鉴别向量;将所述第一声纹鉴别向量对应的第一用户作为所述语音片段对应的目标用户。
可选地,所述距离为余弦距离,所述距离对应的计算公式为:
其中,x代表标准声纹鉴别向量,y代表当前声纹鉴别向量。
可选地,在所述对所述语音片段进行分帧之前,所述方法还包括:对所述语音片段进行预加重处理,补偿语音片段中的高频成分。
此外,为实现上述目的,本发明还提供一种语音识别装置,所述装置包括:
分帧模块,用于获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;加窗模块,用于根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;提取模块,用于提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;计算模块,用于计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到;识别模块,用于当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
可选地,所述平稳加窗算法为:其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
进一步地,本发明还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的语音识别方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音识别方法的步骤。
相较于现有技术,本发明所提出的语音识别方法、装置、计算机设备及计算机可读存储介质,能够获取语音片段之后进行分帧得到每一帧语音数据,然后根据预设的平稳加窗算法对所每一帧语音数据进行加窗以得到加窗语音帧;接着,再提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC,并计算所述MFCC与声纹鉴别向量的距离;当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。通过以上方式,在对语音信号进行少量修改的情况下能够更加精确地计算出语音片段中的特征向量,从而提升语音识别的精度。
附图说明
图1是本发明计算机设备一可选的硬件架构的示意图;
图2是本发明语音识别装置一实施例的程序模块示意图;
图3是本发明语音识别方法一实施例的流程示意图。
附图标记:
计算机设备 | 1 |
存储器 | 11 |
处理器 | 12 |
网络接口 | 13 |
语音识别装置 | 200 |
分帧模块 | 201 |
加窗模块 | 202 |
提取模块 | 203 |
计算模块 | 204 |
识别模块 | 205 |
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明计算机设备1一可选的硬件架构的示意图。
本实施例中,所述计算机设备1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。
所述计算机设备1通过网络接口13连接网络(图1未标出),通过网络连接到其他终端设备如移动终端(Mobile Terminal)、移动电话(Mobile Telephone)、用户设备(UserEquipment,UE)、手机(handset)及便携设备(portable equipment),PC端等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System ofMobile communication,GSM)、宽带码分多址(Wideband Code Division MultipleAccess,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要指出的是,图1仅示出了具有组件11-13的计算机设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述计算机设备1的内部存储单元,例如该计算机设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述计算机设备1的外部存储设备,例如该计算机设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件,例如语音识别装置200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的语音识别装置200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述计算机设备1与其他终端设备如移动终端、移动电话、用户设备、手机及便携设备,PC端等之间建立通信连接。
本实施例中,所述计算机设备1内安装并运行有语音识别装置200时,当所述语音识别装置200运行时,能够获取语音片段之后进行分帧得到每一帧语音数据,然后根据预设的平稳加窗算法对所每一帧语音数据进行加窗以得到加窗语音帧;接着,再提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC,并计算所述MFCC与声纹鉴别向量的距离;当所述距离小于预设阈值时,判断所述语音信息的识别结果为通过。通过以上方式,能够更加精确地计算出语音片段中的特征向量,从而提升语音识别的精度。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
首先,本发明提出一种语音识别装置200。
参阅图2所示,是本发明语音识别装置200一实施例的程序模块图。
本实施例中,所述语音识别装置200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的语音识别功能。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,语音识别装置200可以被划分为一个或多个模块。例如,在图2中,所述语音识别装置200可以被分割成分帧模块201、加窗模块202、提取模块203、计算模块204和识别模块205。其中:
所述分帧模块201,用于获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据。
在本实施例中,所述计算机设备1与用户终端,比如手机,移动终端,PC端等设备连接,然后通过用户终端获取用户的语音信息。当然,在其他实施例中,所述计算机设备1也可以直接提供拾音器单元采集用户的语音数据,所述语音数据包括至少一个语音片段,因此,所述分帧模块201可以获取语音片段。所述分帧模块201获取到语音片段之后,则进一步对所述语音片段进行分帧,得到每一帧的语音数据。当然,由于人体的生理特性,语音片段中的高频部分往往被压抑,因此,在其他实施例中,所述分帧模块201还会对所述语音片段进行预加重处理,从而补偿语音片段中的高频成分。
所述加窗模块202,用于根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧。
具体地,所述分帧模块201将语音片段分帧之后,所述加窗模块202进一步对所述语音片段的每一帧语音数据进行加窗。在本实施例中,所述加窗模块202根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,然后得到所述语音片段的加窗语音帧。其中,所述平稳加窗算法为:
其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
在本实施例中,所述计算机设备1对每一帧语音数据进行加窗时,首先获取语音数据中的环境噪声的频率分布信息,然后自动调整变量K,再根据变量K对所述分帧进行分段加窗,包括:对于语音帧的帧首和帧尾采用类似余弦波形的加窗,减少低频部分的环境噪声干扰;对于语音帧的中间部分采用类似矩形的加窗,从而避免突发变异产生的高频噪声。其中,对于自动调整变量K的过程,所述计算机设备1可以预先随机从所述语音片段中的语音分帧中选择两个语音分帧,然后经傅里叶变换转换到频域,检测其中的环境噪声的频率分布,然后将所述KT1设置在高于所述环境噪声的最大频率的位置。
所述提取模块203,用于提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC。
具体地,所述加窗模块202对所述语音片段的所有语音分帧进行加窗之后,所述提取模块203进一步对所述语音片段的加窗语音帧进行处理,提取梅尔频率倒谱特征向量MFCC。在本实施例中,所述提取模块203首先对加窗语音帧进行离散傅里叶变换,从时域转换到频域;接着再根据公式:
将加窗语音帧的线性频谱域映射到梅尔频谱域;最后再输入到一组梅尔三角滤波器组,计算每个频段的滤波器输出的信号对数能量,得到一个对数能量序列;再将所述对数能量序列做离散余弦变换,从而提取出所述加窗语音帧的梅尔频率倒谱特征向量MFCC。
所述计算模块204,用于计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到。所述识别模块205,用于当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
具体地,所述计算机设备1预先将对所述用户进行语音信息采样,然后将采用语音信息输入到声纹特征训练模型进行训练,从而获得所述用户对应的声纹鉴别向量。因此,在所述提取模块203提取到所述语音片段的MFCC之后,所述计算模块204进一步计算所述MFCC与所述声纹鉴别向量的距离。所述距离为余弦距离,所述距离对应的计算公式为:
其中,x代表标准声纹鉴别向量,y代表当前声纹鉴别向量。在本实施例中,所述计算模块204通过余弦距离公式计算出所述语音片段的MFCC与预设的声纹鉴别向量之间的距离,然后所述识别模块205将所述距离与预先设定的阈值进行比较;当所述距离小于所述阈值时,则判断所述语音片段的识别结果为通过。
具体地,所述计算机设备1预先通过将GMM训练出不同用户的声纹鉴别向量与将所述MFCC分别进行距离计算,从而选择出小于预设阈值且最小的距离所对应的第一声纹鉴别向量,将所述第一声纹鉴别向量对应的第一用户作为所述语音片段对应的目标用户。
当然,在其他实施例中,所述计算机设备1还会预先训练一个准确度较高的GMM(Gaussian Mixture Model,高斯混合模型),其中,所述GMM作为通用背景模型(UBM,Universal Background Model),可以用于提取语音中的声纹鉴别向量,其中,所述GMM可以经过一系列的样本数据训练,从而能够提升声纹鉴别向量的训练准确度。其中,所述GMM的训练过程如下:
B1、获取预设数量(例如,10万个)的语音数据样本,每个语音数据样本可以采集自不同的人在不同环境中的语音(即对应一个声纹鉴别向量),这样的语音数据样本用来训练能够表征一般语音特性的通用背景模型。
B2、分别对各个语音数据样本进行处理以提取出各个语音数据样本对应的预设类型声纹特征,并基于各个语音数据样本对应的预设类型声纹特征构建各个语音数据样本对应的声纹特征向量;
B3、将构建出的所有预设类型声纹特征向量分为第一百分比的训练集和第二百分比的验证集,所述第一百分比和第二百分比之后小于或等于100%;
B4、利用训练集中的声纹特征向量对所述第一模型进行训练,并在训练完成之后利用验证集对训练的所述第一模型的准确率进行验证;
B5、若准确率大于预设准确率(例如,98.5%),则模型训练结束,否则,增加语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤B2、B3、B4、B5。
因此,所述计算机设备1先根据训练好的GMM对采集的用户的语音信息进行训练,得到对应的声纹鉴别向量,然后所述计算模块204利用所述声纹鉴别向量计算与所述语音片段对应的MFCC的距离,从而提升精确度。
从上文可知,所述计算机设备1能够获取语音片段之后进行分帧得到每一帧语音数据,然后根据预设的平稳加窗算法对所每一帧语音数据进行加窗以得到加窗语音帧;接着,再提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC,并计算所述MFCC与声纹鉴别向量的距离;当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。通过以上方式,能够在对语音信号进行少量修改的情况下更加精确地计算出语音片段中的特征向量,从而提升语音识别的精度。
此外,本发明还提出一种语音识别方法,所述方法应用于计算机设备。
参阅图3所示,是本发明语音识别方法一实施例的流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S500,获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据。
在本实施例中,所述计算机设备与用户终端,比如手机,移动终端,PC端等设备连接,然后通过用户终端获取用户的语音信息。当然,在其他实施例中,所述计算机设备也可以直接提供拾音器单元采集用户的语音数据,所述语音数据包括至少一个语音片段,因此,所述计算机设备可以获取语音片段。所述计算机设备获取到语音片段之后,则进一步对所述语音片段进行分帧,得到每一帧的语音数据。当然,由于人体的生理特性,语音片段中的高频部分往往被压抑,因此,在其他实施例中,所述计算机设备还会对所述语音片段进行预加重处理,从而补偿语音片段中的高频成分。
步骤S502,根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧。
具体地,所述计算机设备将语音片段分帧之后,进一步对所述语音片段的每一帧语音数据进行加窗。在本实施例中,所述计算机设备根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,然后得到所述语音片段的加窗语音帧。其中,所述平稳加窗算法为:
其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
在本实施例中,所述计算机设备对每一帧语音数据进行加窗时,首先获取语音数据中的环境噪声的频率分布信息,然后自动调整变量K,再根据变量K对所述分帧进行分段加窗,包括:对于语音帧的帧首和帧尾采用类似余弦波形的加窗,减少低频部分的环境噪声干扰;对于语音帧的中间部分采用类似矩形的加窗,从而避免突发变异产生的高频噪声。其中,对于自动调整变量K的过程,所述计算机设备可以预先随机从所述语音片段中的语音分帧中选择两个语音分帧,然后经傅里叶变换转换到频域,检测其中的环境噪声的频率分布,然后将所述KT1设置在高于所述环境噪声的最大频率的位置。
步骤S504,提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC。
具体地,所述计算机设备对所述语音片段的所有语音分帧进行加窗之后,还进一步对所述语音片段的加窗语音帧进行处理,提取梅尔频率倒谱特征向量MFCC。在本实施例中,所述计算机设备首先对加窗语音帧进行离散傅里叶变换,从时域转换到频域;接着再根据公式:
将加窗语音帧的线性频谱域映射到梅尔频谱域;最后再输入到一组梅尔三角滤波器组,计算每个频段的滤波器输出的信号对数能量,得到一个对数能量序列;再将所述对数能量序列做离散余弦变换,从而提取出所述加窗语音帧的梅尔频率倒谱特征向量MFCC。
步骤S506,计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到。
步骤S508,当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
具体地,所述计算机设备预先将对所述用户进行语音信息采样,然后将采用语音信息输入到声纹特征训练模型进行训练,从而获得所述用户对应的声纹鉴别向量。因此,在所述计算机设备提取到所述语音片段的MFCC之后,还会进一步计算所述MFCC与所述声纹鉴别向量的距离。所述距离为余弦距离,所述距离对应的计算公式为:
其中,x代表标准声纹鉴别向量,y代表当前声纹鉴别向量。在本实施例中,所述计算机设备通过余弦距离公式计算出所述语音片段的MFCC与预设的声纹鉴别向量之间的距离,然后所述计算机设备将所述距离与预先设定的阈值进行比较;当所述距离小于所述阈值时,则判断所述语音片段的识别结果为通过。
具体地,所述计算机设备预先通过将GMM训练出不同用户的声纹鉴别向量与将所述MFCC分别进行距离计算,从而选择出小于预设阈值且最小的距离所对应的第一声纹鉴别向量,将所述第一声纹鉴别向量对应的第一用户作为所述语音片段对应的目标用户。
当然,在其他实施例中,所述计算机设备还会预先训练一个准确度较高的GMM(Gaussian Mixture Model,高斯混合模型),其中,所述GMM作为通用背景模型(UBM,Universal Background Model),可以用于提取语音中的声纹鉴别向量,其中,所述GMM可以经过一系列的样本数据训练,从而能够提升声纹鉴别向量的训练准确度。其中,所述GMM的训练过程如下:
B1、获取预设数量(例如,10万个)的语音数据样本,每个语音数据样本可以采集自不同的人在不同环境中的语音(即对应一个声纹鉴别向量),这样的语音数据样本用来训练能够表征一般语音特性的通用背景模型。
B2、分别对各个语音数据样本进行处理以提取出各个语音数据样本对应的预设类型声纹特征,并基于各个语音数据样本对应的预设类型声纹特征构建各个语音数据样本对应的声纹特征向量;
B3、将构建出的所有预设类型声纹特征向量分为第一百分比的训练集和第二百分比的验证集,所述第一百分比和第二百分比之后小于或等于100%;
B4、利用训练集中的声纹特征向量对所述第一模型进行训练,并在训练完成之后利用验证集对训练的所述第一模型的准确率进行验证;
B5、若准确率大于预设准确率(例如,98.5%),则模型训练结束,否则,增加语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤B2、B3、B4、B5。
因此,所述计算机设备先根据训练好的GMM对采集的用户的语音信息进行训练,得到对应的声纹鉴别向量,然后所述计算模块204利用所述声纹鉴别向量计算与所述语音片段对应的MFCC的距离,从而提升精确度。
本实施例所提出的语音识别方法能够获取语音片段之后进行分帧得到每一帧语音数据,然后根据预设的平稳加窗算法对所每一帧语音数据进行加窗以得到加窗语音帧;接着,再提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC,并计算所述MFCC与声纹鉴别向量的距离;当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。通过以上方式,能够在对语音信号进行少量修改的情况下更加精确地计算出语音片段中的特征向量,从而提升语音识别的精度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括步骤:
获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;
根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;
提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;
计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到;
当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
2.如权利要求1所述的语音识别方法,其特征在于,所述平稳加窗算法为:
其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
3.如权利要求2所述的语音识别方法,其特征在于,所述方法还包括:
对每一帧语音数据进行加窗时,获取语音数据中的环境噪声的频率分布信息,再根据噪声的最高频率分布调整所述K。
4.如权利要求1所述的语音识别方法,其特征在于,所述声纹特征训练模型为高斯混合模型GMM,所述方法还包括:
通过将GMM训练出不同用户的声纹鉴别向量与将所述MFCC分别进行距离计算;
选择出小于预设阈值且最小的距离所对应的第一声纹鉴别向量;
将所述第一声纹鉴别向量对应的第一用户作为所述语音片段对应的目标用户。
5.如权利要求1或4所述的语音识别方法,其特征在于,所述距离为余弦距离,所述距离对应的计算公式为:
其中,x代表标准声纹鉴别向量,y代表当前声纹鉴别向量。
6.如权利要求1所述的语音识别方法,其特征在于,在所述对所述语音片段进行分帧之前,所述方法还包括:
对所述语音片段进行预加重处理,补偿语音片段中的高频成分。
7.一种语音识别装置,其特征在于,所述装置包括:
分帧模块,用于获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;
加窗模块,用于根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;
提取模块,用于提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;
计算模块,用于计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到;
识别模块,用于当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
8.如权利要求5所述的语音识别装置,其特征在于,所述平稳加窗算法为:
其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的语音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-4中任一项所述的语音识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871726.5A CN110556126B (zh) | 2019-09-16 | 2019-09-16 | 语音识别方法、装置以及计算机设备 |
PCT/CN2019/117761 WO2021051572A1 (zh) | 2019-09-16 | 2019-11-13 | 语音识别方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871726.5A CN110556126B (zh) | 2019-09-16 | 2019-09-16 | 语音识别方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110556126A true CN110556126A (zh) | 2019-12-10 |
CN110556126B CN110556126B (zh) | 2024-01-05 |
Family
ID=68740361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910871726.5A Active CN110556126B (zh) | 2019-09-16 | 2019-09-16 | 语音识别方法、装置以及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110556126B (zh) |
WO (1) | WO2021051572A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210829A (zh) * | 2020-02-19 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、系统、设备和计算机可读存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111933153A (zh) * | 2020-07-07 | 2020-11-13 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN113098850A (zh) * | 2021-03-24 | 2021-07-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音验证方法、装置和电子设备 |
CN114945099A (zh) * | 2022-05-18 | 2022-08-26 | 广州博冠信息科技有限公司 | 语音监控方法、装置、电子设备及计算机可读介质 |
CN115129923A (zh) * | 2022-05-17 | 2022-09-30 | 荣耀终端有限公司 | 语音搜索方法、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744759B (zh) * | 2021-09-17 | 2023-09-22 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
CN117577137B (zh) * | 2024-01-15 | 2024-05-28 | 宁德时代新能源科技股份有限公司 | 切刀健康评估方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105232064A (zh) * | 2015-10-30 | 2016-01-13 | 科大讯飞股份有限公司 | 一种预测音乐对驾驶员行为影响的系统和方法 |
CN107527620A (zh) * | 2017-07-25 | 2017-12-29 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN109040913A (zh) * | 2018-08-06 | 2018-12-18 | 中国船舶科学研究中心(中国船舶重工集团公司第七0二研究所) | 窗函数加权电声换能器发射阵列的波束成形方法 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
JP4940347B1 (ja) * | 2010-12-17 | 2012-05-30 | 株式会社東芝 | 補正フィルタ処理装置、及びその方法 |
CN110197657B (zh) * | 2019-05-22 | 2022-03-11 | 大连海事大学 | 一种基于余弦相似度的动态音声特征提取方法 |
-
2019
- 2019-09-16 CN CN201910871726.5A patent/CN110556126B/zh active Active
- 2019-11-13 WO PCT/CN2019/117761 patent/WO2021051572A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105232064A (zh) * | 2015-10-30 | 2016-01-13 | 科大讯飞股份有限公司 | 一种预测音乐对驾驶员行为影响的系统和方法 |
CN107527620A (zh) * | 2017-07-25 | 2017-12-29 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN109040913A (zh) * | 2018-08-06 | 2018-12-18 | 中国船舶科学研究中心(中国船舶重工集团公司第七0二研究所) | 窗函数加权电声换能器发射阵列的波束成形方法 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210829A (zh) * | 2020-02-19 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、系统、设备和计算机可读存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111933153A (zh) * | 2020-07-07 | 2020-11-13 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN111933153B (zh) * | 2020-07-07 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种语音分割点的确定方法和装置 |
CN113098850A (zh) * | 2021-03-24 | 2021-07-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音验证方法、装置和电子设备 |
CN115129923A (zh) * | 2022-05-17 | 2022-09-30 | 荣耀终端有限公司 | 语音搜索方法、设备及存储介质 |
CN115129923B (zh) * | 2022-05-17 | 2023-10-20 | 荣耀终端有限公司 | 语音搜索方法、设备及存储介质 |
CN114945099A (zh) * | 2022-05-18 | 2022-08-26 | 广州博冠信息科技有限公司 | 语音监控方法、装置、电子设备及计算机可读介质 |
CN114945099B (zh) * | 2022-05-18 | 2024-04-26 | 广州博冠信息科技有限公司 | 语音监控方法、装置、电子设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021051572A1 (zh) | 2021-03-25 |
CN110556126B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110556126B (zh) | 语音识别方法、装置以及计算机设备 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
JP6621536B2 (ja) | 電子装置、身元認証方法、システム及びコンピュータ読み取り可能な記憶媒体 | |
CN108305633B (zh) | 语音验证方法、装置、计算机设备和计算机可读存储介质 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
WO2019136912A1 (zh) | 电子装置、身份验证的方法、系统及存储介质 | |
WO2021042537A1 (zh) | 语音识别认证方法及系统 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN108922544A (zh) | 通用向量训练方法、语音聚类方法、装置、设备及介质 | |
WO2019232826A1 (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN113035202B (zh) | 一种身份识别方法和装置 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN109545226B (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
WO2021128847A1 (zh) | 终端交互方法、装置、计算机设备及存储介质 | |
CN111737515B (zh) | 音频指纹提取方法、装置、计算机设备和可读存储介质 | |
CN108630208B (zh) | 服务器、基于声纹的身份验证方法及存储介质 | |
Maazouzi et al. | MFCC and similarity measurements for speaker identification systems | |
CN116486789A (zh) | 语音识别模型的生成方法、语音识别方法、装置及设备 | |
Mansour et al. | A comparative study in emotional speaker recognition in noisy environment | |
CN113409774A (zh) | 语音识别方法、装置及电子设备 | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |