CN109147796A

CN109147796A - 语音识别方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN109147796A
Application number: CN201811037287.XA
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-01-04
Anticipated expiration: 2038-09-06
Also published as: CN109147796B

Abstract

本发明实施例提供了一种语音识别方法、装置、计算机设备及计算机可读存储介质，该方法包括：实时有序地接收播音者的语音信号；提取所述语音信号的声纹信息；基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者；将所述语音信号转化为文字信息；将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。本发明实施例通过语音识别的模型实时识别说话者的语音内容，识别说话者的身份，将说话者的语音内容文本化形成对白或独白文档保存，提高记录语言的记录效率；另外，语音文本化后便于查询或查阅。

Description

语音识别方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

目前，在视频媒体和声音媒体的广播中，会有不同主体的声音，日常中存在记录视频或音频的内容的需求，需要将对话内容文本化后进行保存，以便后续查阅或查询；另外，文本化之后的不同视频或音频的内容之间关联性也更容易被获取。目前一般是通过人工记录视频或音频的内容，工作量大、需要耗费非常多的时间，效率低下。

发明内容

本发明实施例提供了一种语音识别方法、装置、计算机设备及计算机可读存储介质，旨在提高记录语音内容的效率。

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：实时有序地接收播音者的语音信号；提取所述语音信号的声纹信息；基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者；将所述语音信号转化为文字信息；将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

第二方面，本发明实施例还提供了一种语音识别装置，所述语音识别装置包括用于实现第一方面所述的语音识别方法的单元。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器，以及与所述存储器相连的处理器，所述存储器用于存储实现语音识别方法的计算机程序，所述处理器用于运行所述存储器中存储的计算机程序，以执行如上述第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序被处理器执行时实现上述第一方面所述的方法。

本发明实施例提供的语音识别方法、装置、计算机设备及计算机可读存储介质，通过识别语音的模型实时识别说话者的语音内容，识别说话者的身份，将说话者的语音内容文本化形成文档，提高记录语言的记录效率；另外，语音文本化后便于查询或查阅。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音识别方法的流程示意图；

图2是本发明一实施例提供的一种语音识别方法的子流程示意图；

图3是本发明另一实施例提供的一种语音识别方法的子流程示意图；

图4是本发明另一实施例提供的一种语音识别方法的子流程示意图；

图5是本发明另一实施例提供的一种语音识别方法的流程示意图；

图6是本发明一实施例提供的一种语音识别装置的示意性框图；

图7是本发明另一实施例提供的一种语音识别装置的子单元示意性框图；

图8是本发明另一实施例提供的一种语音识别装置的子单元示意性框图；

图9是本发明另一实施例提供的一种语音识别装置的子单元示意性框图；

图10是本发明另一实施例提供的一种语音识别装置的示意性框图；

图11是本发明一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

也应当理解，尽管术语第一、第二等可以在此用来描述各种元素，但这些元素不应该受限于这些术语，这些术语仅用来将这些元素彼此区分开。

图1为本发明实施例提供的一种语音识别方法的流程示意图，该方法包括步骤S101～S105。

S101、实时有序地接收播音者的语音信号。

利用音频采集器实时采集播音者/说话者的语音信号，语音的停顿点、不连续处作为分隔两段语音的标识，通过音频采集器采集到有时间顺序的多个片段的语音信号。

S102、提取所述语音信号的声纹信息。

根据说话的声音，即语音信号，可以识别说话者。由于每个人的声道、口腔和鼻腔具有个体差异性，因此反映到声音上也具有差异性，这便是我们所说的闻声识人。

在本发明实施例中，通过声纹信息来区别说话者的身份。语音的声纹信息具有一定的稳定性以及差异性，通过声纹的识别可以辨别出哪个声音是由哪个人发出的。

在一实施例中，所述声纹信息包括梅尔频率倒谱系数(Mel-scaleFrequencyCepstral Coefficients，简称MFCC)的p阶分量以及MFCC的一阶差分。

如图2所示，步骤S102的提取所述语音信号的声纹信息的过程包括步骤S201-S209：

S201、将所采集到的语音信号进行采样处理以得到数字语音信号。

原始采集到的语音信号为模拟信号，需要对这些语音信号进行采样处理得到数字信号，采样频率设置为8000hz或16000hz。

S202、将所述数字语音信号进行预加重处理。

预加重处理其实是将语音信号通过一个高通滤波器，可用以下公式表示：H(z)＝1-μz^-1。其中，μ介于0.9-1.0之间，通常取0.97。

预加重的目的是提升语音信号的高频部分，使语音信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

S203、将预加重处理后的数字语音信号进行分帧处理。

先将N个采样点集合成一个观测单位，称为帧，N的值为256或512，涵盖的时间约为20～30ms左右。为避免相邻两帧的变化过大，让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，M的值约为N的1/2或1/3。

S204、将分帧处理后的数字语音信号进行加窗处理。

加窗处理即为将每一帧的语音信号乘以窗函数，以增加相邻两帧信号的右端和左端的连续性。在本实施例中，窗函数例如为汉明窗或三角窗，将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

通过以上步骤S201-S204对语音信号进行了预处理，预处理后提取声纹信息。

S205、将加窗处理后的数字语音信号进行快速傅里叶变换以得到频域的语音信号。

信号在时域上的变化通常很难看出信号的特性，需要将它转换为频域上的能量分布来观察，不同的能量分布代表不同语音的特性，因此，加窗处理后将每帧语音信号经过快速傅里叶变换以得到它在频谱上的能量分布，即得到语音信号的能量谱。

语音信号的快速傅里叶变换为：

其中，x(n)为输入的语音信号，X(k)为快速傅里叶变换后输出的语音信号，N表示快速傅里叶变换的点数，例如为256或512。

S206、通过三角形带通滤波器组对所述频域的语音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果，其中，所述三角形带通滤波器包括p个滤波器。

定义一个有p个滤波器的三角形带通滤波器组，p在22-26范围内取值，采用的滤波器为三角滤波器，定义第m个滤波器的中心频率分别为f(m)，各f(m)之间的间隔随着m值的增大而增大。

三角滤波器的频率响应定义为:

其中，Mel(f(m+1))-Mel(f(m))＝Mel(f(m))-Mel(f(m-1))，Mel(f)表示滤波器在mel刻度上的中心频率。

人耳对不同频率的声波有不同的听觉敏感度，两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到人耳对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故低音容易掩蔽高音，而高音掩蔽低音较困难，在低频处的声音掩蔽的临界带宽较高频要小，因此，需要从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，即各个滤波器的中心频率之间的间隔随着p值的减小而缩小，随着p值的增大而增宽。

将语音信号的能量谱通过的三角形带通滤波器组对频谱进行平滑化，并消除谐波的作用，突显原先语音信号的共振峰。

每个滤波器输出的信号为：

S207、将每个滤波器输出的滤波结果分别取对数以得到所述语音信号的p个对数能量。

每个滤波器组输出的对数能量为：

S208、将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量。

为了得到各阶MCFF分量，需要对每个对数能量进行离散余弦变换以得到对应的MCFF分量，滤波器的个数与MCFF的阶数对应。

S209、利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。

MFCC只反映了语音的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述，在本实施例中，通过MFCC一阶差分来表示语音信号的动态特性。把动态特征和静态特征结合起来能有效提高语音识别的准确性。

为进一步提高语音识别的准确性，可丰富声纹信息中的特征，因此，在另一实施例中，声纹信息还包括语音的基音频率，基音频率的提取过程包括以下步骤：

(1)将加窗处理后的数字声音信号进行削波处理。

削波处理的公式如下：

其中s(n)表示声音信号，C_L表示削波电平。削波电平取声音信号峰值的60％-70％之间，削波处理可以过滤掉绝大多数的次要峰值仅保留主要峰值，使得基音周期更容易获得。

(2)将削波处理后的数字声音信号进行短时自相关计算以得到自相关图。

如果一个信号具有周期性，那么它的自相关函数也具有周期性，在周期的整数倍上，自相关函数能获得最大值，因此通过信号自相关函数来获得信号周期。

声音信号虽然具有一定的周期性，但是声音信号还是一种非稳态的信号，其特性还是随时间变化而变化，因此可取一段时间内的声音片段，这个片段很短，假设在这个很短的时间段内声音信号具有相对稳定的特征，即短时平稳性，再通过短时自相关计算得到声音信号得到自相关图。

(3)获取所述自相关图的相邻两个峰值。

(4)计算所述相邻两个峰值的差值，将所述差值确定为所述声音信号的基音周期。

自相关图的相邻两个峰值即为声音信号的基音周期。

(5)计算所述基音周期的倒数，将所述倒数确定为所述声音信号的基音频率。

基音频率等于基音周期的倒数。

S103、基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者。

预先训练声纹识别模型，利用不同的播音者的语音样本对初始的高斯混合模型进行训练得到不同播音者的声纹识别模型，形成声纹识别模型库，当需要进行声纹识别时，将声纹信息输入声纹识别模型库，利用不同播音者的声纹识别模型对声纹特征进行识别并输出匹配概率，最终将匹配概率最高对应的播音者作为对应一句语音的归属者。

S104、将所述语音信号转化为文字信息。

通过提取每一句语音中的语音特征，再利用语音识别技术将语音特征识别为文字。

在本发明实施例中，提取语音信号中的声纹信息作为语音的特征矢量，再通过声学模型和语言模型可识别出该特征矢量对应的文字信息。

如图3所示，步骤S104包括步骤S1041-S1042。

S1041、基于DNN-HMM声学模型识别所述声纹信息对应的音素串。

通过声纹信息不仅可识别出说话者的身份，还能识别出语音的内容。DNN-HMM声学模型的目的是计算语音信号的特征矢量序列与字典模板中每个音素之间的距离，将距离最小对应的音素作为一特征矢量的音素，以得到某一句语音信号的音素串。

S1042、将所述音素串输入至Seq2seq语言模型进行识别以得到对应的文字信息。

基于Seq2seq语言模型计算某一字序列发生的概率，把一个句子的概率拆解成每个词的概率之积，即假定某一个字的输出只与前面N-1个字出现的概率有关系。假设音素串中有n个音素，分别为A1，A2，……，An，假设该音素串对应的句子为W，W由词w1，w2，……，wn组成，由条件概率公式和乘法公式可知，该音素串对应的句子为W的概率P(W)如下：

P(W)＝P(w1)P(w2|w1)P(w3|w1,w2)...P(wn/wn-1,wn-2,...,w1)

P(wn)表示音素An为词wn的概率，P(wn/w1,w2,..wn-1)表示在之前所有词的概率条件下音素An为当前词wn的概率。

通过计算音素串为不同句子的概率找到概率最大的句子，这个概率最大的句子即为该语音信号对应的文字信息。

S105、将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

语音信号的接收顺序即说话者说话的顺序，根据接收顺序输出文字信息，并且标记文字信息的归属者，便可得到语音信号的文字信息。

在一实施例中，具有多个播音者。

如图4所示，步骤S105包括步骤S1051-S1054。

S1051、若相邻的若干句文字信息的归属者相同，将所述若干句文字信息合并为一段文字信息。

S1052、若相邻两句文字信息的归属者不同，按归属者将所述相邻两句文字信息进行分段处理。

S1053、在段头标记文字信息对应的归属者。

S1054、将标记归属者后的文字信息按语音信号的接收顺序分段输出。

将不同播音者/说话者的文字内容作为独立的段落，并在段头上标记播音者/说话者的姓名，便可得到对话者的文字对白，可以让文本的阅读者非常直观地看出哪些话是哪个人说的。

在另一实施例中，如图5所示，步骤S105之后还包括以下步骤：

S106、通过自然语言处理技术提取文字信息的关键词。

S107、将所述文字信息以及对应的关键词保存至数据库中。

通过自然语言处理技术提取文字信息的关键词来描述该文字信息的主要内容，将说话者语音信息的文本以及对应的关键词进行收录保存，以便后续查阅。

本发明实施例的语音识别方法，通过语音识别的模型自动识别语音信息和语音发出者的身份，自动生成文稿记录，不需要人工记录，节省了大量工作，提高语音文本化的效率，文本化后基于文本的关键词保存文本，便于文本的查询。

图6为本发明实施例提供的一种语音识别装置100示意性框图，该语音识别装置100包括接收单元101、第一提取单元102、识别单元103、转化单元104以及标记输出单元105。

接收单元101用于实时有序地接收播音者的语音信号。

第一提取单元102用于提取所述语音信号的声纹信息。

识别单元103用于基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者。

转化单元104用于将所述语音信号转化为文字信息。

标记输出单元105用于将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

在一实施例中，如图7所示，所述转化单元104包括：

第一识别子单元1041，用于基于DNN-HMM声学模型识别所述声纹信息对应的音素串；以及

第二识别子单元1042，用于将所述音素串输入至Seq2seq语言模型进行识别以得到对应的文字信息。

在一实施例中，如图8所示，所述第一提取单元102包括：

采样子单元201用于将所采集到的声音信号进行采样处理以得到数字声音信号；

预加重处理子单元202用于将所述数字声音信号进行预加重处理；

分帧处理子单元203用于将预加重处理后的数字声音信号进行分帧处理；

加窗处理子单元204用于将分帧处理后的数字声音信号进行加窗处理；

快速傅里叶变换子单元205用于将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号；

滤波子单元206用于通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果，其中，所述三角形带通滤波器包括p个滤波器；

第一计算子单元207用于将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量；

离散余弦变换子单元208用于将所得的p个对数能量进行离散余弦变换得到梅尔频率倒谱系数的p阶分量；以及

第二计算子单元209用于利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。

在另一实施例中，所述第一提取单元102还可以包括以下子单元：

削波子单元，用于将加窗处理后的数字声音信号进行削波处理；

自相关子单元，用于将削波处理后的数字声音信号进行短时自相关计算以得到自相关图；

获取子单元，用于获取所述自相关图的相邻两个峰值；

第三计算子单元，用于计算所述相邻两个峰值的差值，将所述差值确定为所述声音信号的基音周期；以及

第四计算子单元，用于计算所述基音周期的倒数，将所述倒数确定为所述声音信号的基音频率。

需要说明的是，第一提取子单元1021和第二提取子单元1031的结构一致，本发明不对第二提取子单元1031重复描述。

在一实施例中，如图9所示，所述标记输出单元105包括：

合并子单元1051，用于若相邻的若干句文字信息的归属者相同，将所述若干句文字信息合并为一段文字信息；

分段子单元1052，用于若相邻两句文字信息的归属者不同，按归属者将所述相邻两句文字信息进行分段处理；

标记子单元1053，用于在段头标记文字信息对应的归属者；以及

输出子单元1054，用于将标记归属者后的文字信息按语音信号的接收顺序分段输出。

在一实施例中，如图10所示，语音识别装置100还包括：

第二提取单元106，用于通过自然语言处理技术提取文字信息的关键词；以及

保存单元107，用于将所述文字信息以及对应的关键词保存至数据库中。

上述语音识别装置100与前述语音识别方法对应，本实施例中对语音识别装置100未详尽之处可参考前述方法实施例，此处不做赘述。

上述语音识别装置100可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的多个计算机设备上共同运行。

图11为本发明实施例提供的一种计算机设备300的结构示意性框图。该计算机设备300，该计算机设备300为服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括非易失性存储介质303和内存储器304。

该计算机设备300的非易失性存储介质303可存储操作系统3031和计算机程序3032，该计算机程序3032被执行时，可使得处理器302执行一种语音识别方法。该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境。该计算机设备300的处理器302用于提供计算和控制能力，支撑整个计算机设备300的运行。计算机设备300的网络接口305用于进行网络通信，如发送分配的任务、接收数据等。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

处理器302运行非易失性存储介质303中的计算机程序3032时，处理器302执行以下步骤：实时有序地接收播音者的语音信号；提取所述语音信号的声纹信息；基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者；将所述语音信号转化为文字信息；将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

在一实施例中，所述处理器302在执行所述将所述语音信号转化为文字信息的步骤时，具体执行以下步骤：基于DNN-HMM声学模型识别所述声纹信息对应的音素串；将所述音素串输入至Seq2seq语言模型进行识别以得到对应的文字信息。

在一实施例中，所述声纹信息包括梅尔频率倒谱系数的p阶分量以及梅尔频率倒谱系数的一阶差分；所述处理器302在执行所述从所述声音信号中提取声纹信息的步骤时，具体执行以下步骤：将所采集到的声音信号进行采样处理以得到数字声音信号；将所述数字声音信号进行预加重处理；将预加重处理后的数字声音信号进行分帧处理；将分帧处理后的数字声音信号进行加窗处理；将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号；通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果，其中，所述三角形带通滤波器包括p个滤波器；将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量；将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量；利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。

在一实施例中，所述声纹信息还包括基音频率；所述处理器302在执行将分帧处理后的数字声音信号进行加窗处理的步骤之后，还执行以下步骤：将加窗处理后的数字声音信号进行削波处理；将削波处理后的数字声音信号进行短时自相关计算以得到自相关图；获取所述自相关图的相邻两个峰值；计算所述相邻两个峰值的差值，将所述差值确定为所述声音信号的基音周期；计算所述基音周期的倒数，将所述倒数确定为所述声音信号的基音频率。

在一实施例中，所述播音者为多个；所述处理器302在执行所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出的步骤时，具体执行以下步骤：若相邻的若干句文字信息的归属者相同，将所述若干句文字信息合并为一段文字信息；若相邻两句文字信息的归属者不同，按归属者将所述相邻两句文字信息进行分段处理；在段头标记文字信息对应的归属者；将标记归属者后的文字信息按语音信号的接收顺序分段输出。

在一实施例中，所述处理器302在执行所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出的步骤后，还执行以下步骤：通过自然语言处理技术提取文字信息的关键词；将所述文字信息以及对应的关键词保存至数据库中。

应当理解，在本申请实施例中，处理器302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，可实现以下步骤：实时有序地接收播音者的语音信号；提取所述语音信号的声纹信息；基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者；将所述语音信号转化为文字信息；将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

在一实施例中，在实现所述将所述语音信号转化为文字信息的步骤时，具体实现以下步骤：提取所述语音信号的声纹信息；基于DNN-HMM声学模型识别所述声纹信息对应的音素串；将所述音素串输入至Seq2seq语言模型进行识别以得到对应的文字信息。

在一实施例中，所述声纹信息包括梅尔频率倒谱系数的p阶分量以及梅尔频率倒谱系数的一阶差分；在实现所述从所述声音信号中提取声纹信息的步骤时，具体实现以下步骤：将所采集到的声音信号进行采样处理以得到数字声音信号；将所述数字声音信号进行预加重处理；将预加重处理后的数字声音信号进行分帧处理；将分帧处理后的数字声音信号进行加窗处理；将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号；通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果，其中，所述三角形带通滤波器包括p个滤波器；将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量；将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量；利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。

在一实施例中，所述声纹信息还包括基音频率；在实现将分帧处理后的数字声音信号进行加窗处理的步骤之后，还实现以下步骤：将加窗处理后的数字声音信号进行削波处理；将削波处理后的数字声音信号进行短时自相关计算以得到自相关图；获取所述自相关图的相邻两个峰值；计算所述相邻两个峰值的差值，将所述差值确定为所述声音信号的基音周期；计算所述基音周期的倒数，将所述倒数确定为所述声音信号的基音频率。

在一实施例中，所述播音者为多个；在实现所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出的步骤时，具体实现以下步骤：若相邻的若干句文字信息的归属者相同，将所述若干句文字信息合并为一段文字信息；若相邻两句文字信息的归属者不同，按归属者将所述相邻两句文字信息进行分段处理；在段头标记文字信息对应的归属者；将标记归属者后的文字信息按语音信号的接收顺序分段输出。

在一实施例中，在实现所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出的步骤后，还实现以下步骤：通过自然语言处理技术提取文字信息的关键词；将所述文字信息以及对应的关键词保存至数据库中。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

实时有序地接收播音者的语音信号；

提取所述语音信号的声纹信息；

基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者；；

将所述语音信号转化为文字信息；

将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

2.根据权利要求1所述的语音识别方法，其特征在于，所述将所述语音信号转化为文字信息，包括：

基于DNN-HMM声学模型识别所述声纹信息对应的音素串；

将所述音素串输入至Seq2seq语言模型进行识别以得到对应的文字信息。

3.根据权利要求1所述的语音识别方法，其特征在于，所述声纹信息包括梅尔频率倒谱系数的p阶分量以及梅尔频率倒谱系数的一阶差分；

所述从所述声音信号中提取声纹信息，包括：

将所采集到的声音信号进行采样处理以得到数字声音信号；

将所述数字声音信号进行预加重处理；

将预加重处理后的数字声音信号进行分帧处理；

将分帧处理后的数字声音信号进行加窗处理；

将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号；

通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果，其中，所述三角形带通滤波器包括p个滤波器；

将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量；

将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量；

利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。

4.根据权利要求1所述的语音识别方法，其特征在于，所述播音者为多个；

所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出，包括：

若相邻的若干句文字信息的归属者相同，将所述若干句文字信息合并为一段文字信息；

若相邻两句文字信息的归属者不同，按归属者将所述相邻两句文字信息进行分段处理；

在段头标记文字信息对应的归属者；

将标记归属者后的文字信息按语音信号的接收顺序分段输出。

5.根据权利要求1所述的语音识别方法，其特征在于，所述将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出之后，还包括：

通过自然语言处理技术提取文字信息的关键词；

将所述文字信息以及对应的关键词保存至数据库中。

6.一种语音识别装置，其特征在于，包括：

接收单元，用于实时有序地接收播音者的语音信号；

第一提取单元，用于提取所述语音信号的声纹信息；

识别单元，用于基于声纹识别模型对所述声纹信息进行识别以识别出所述语音信号的归属者；

转化单元，用于将所述语音信号转化为文字信息；

标记输出单元，用于将所述文字信息进行归属者标记并按所述语音信号的接收顺序进行输出。

7.根据权利要求6所述的语音识别装置，其特征在于，所述播音者为多个；

所述标记输出单元包括：

合并子单元，用于若相邻的若干句文字信息的归属者相同，将所述若干句文字信息合并为一段文字信息；

分段子单元，用于若相邻两句文字信息的归属者不同，按归属者将所述相邻两句文字信息进行分段处理；

标记子单元，用于在段头标记文字信息对应的归属者；

输出子单元，用于将标记归属者后的文字信息按语音信号的接收顺序分段输出。

8.根据权利要求6所述的语音识别装置，其特征在于，还包括：

第二提取单元，用于通过自然语言处理技术提取文字信息的关键词；

保存单元，用于将所述文字信息以及对应的关键词保存至数据库中。

9.一种计算机设备，其特征在于，包括存储器以及与所述存储器相连的处理器，所述存储器用于存储实现语音识别方法的计算机程序，所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1至5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。