CN112420054A

CN112420054A - 一种基于说话人向量复用的语音识别系统及方法

Info

Publication number: CN112420054A
Application number: CN202011312979.8A
Authority: CN
Inventors: 秦艳姣
Original assignee: Hubei University of Education
Current assignee: Hubei University of Education
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20
Also published as: CN112420054B

Abstract

本发明提供一种基于说话人向量复用的语音识别系统，包括终端设备、说话人向量提取器、说话向量云缓存器、云端语音识别服务器和语音识别引擎，终端设备、说话人向量提取器、说话向量云缓存器和语音识别引擎分别与云端语音识别服务器连接。本发明的有益效果：本发明通过对说话人向量进行复用，并在语音识别引擎识别前通过云端语音识别服务器对终端说话人向量和云端说话人向量进行融合，从而提高语音识别引擎识别率，解决因提取的说话人向量的精度不高导致语音开始部分的识别率不高的问题。

Description

一种基于说话人向量复用的语音识别系统及方法

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于说话人向量复用的语音识别系统及方法。

背景技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition(ASR)。它的目标是将包含在语音信号中的内容转换为计算机可读的输入，例如文本序列等。目前业界主流的语音识别的方法包括基于混合模型(Hybird)的方法以及基于端到端模型(End-to-End)的方法。

基于混合模型的语音识别引擎，一般由声学模型和语言模型两部分构成。声学模型的输入是按固定时间长度，一般10～30毫秒，分割的原始语音帧序列，输出每一帧语音对应到声学建模单元的概率，普通话识别常用的建模单元是声韵母。声学模型通常使用深度神经网络(DNN)来实现，一个简单的声学模型结构可以如附图1。语言模型的作用是给出不同文本序列的语言得分。声学模型和语言模型一起，可以将输入的语音，转换成一系列可能的候选文本，每个文本序列给出相应的概率值。

基于端到端的语音识别模型，不单独区分声学模型和语言模型，通过一个深度神经网络来整体建模，直接接受输入的语音，输出文本序列。端到端的模型比较典型的是google提出的LAS模型和facebook提出的基于transformer的模型。

相比端到端的模型，基于混合模型的语音识别，因为容易实现流式识别(边说话边出识别结果)，容易做热词修复(新出现的词汇需要能识别出来)，所以虽然端到端的模型在识别率上有优势，但是基于混合模型的语音识别，仍然在业界被广泛使用。

无论是端到端的语音识别模型，还是混合模型，都需要通过大量的语音识别训练数据，来训练模型。模型训练好之后就可以投入实际使用，接收输入的测试数据语音，返回识别的文本序列。在实际使用语音识别中，影响语音识别率的一个重要因素是训练数据与测试数据的不匹配问题(mismatch)。这种不匹配来自两个方面，一方面来自于说话人的差异，不同的说话人说同样的内容，音色有差异。另一方面来自于信道的差异，比如同一个人，通过固定电话说话的声音，和面对面说话的声音，听起来差异很大。

为了解决这个问题，很多方法被提出来，目前被广泛使用的方法是说话人自适应(Speaker Adaptation)，在中国专利“CN105895104A说话人自适应识别方法及系统”中也使用了类似方法。说话人自适应的主要步骤是在训练声学模型网络时，给到网络的输入，除了当前时刻的语音特征外，还增加了说话人向量(speaker embedding)，如附图2所示。说话人向量是是通过说话人提取器，针对一段语音获取的一个固定维度的vector，一般200～400维，用来代表说话人。当两段声音听起来像是同一个人说的时(说的内容可以不一样)，两段语音分别提取出来的说话人向量，在向量空间里的距离会比较近，反之比较远。这样，声学模型网络，就能够学到不同说话人发相同语音时的声学特征差异。目前主流的说话人向量包含了基于联合因子分析的i-vector和基于神经网络的x-vector方案。

在执行语音识别的过程中，除了要输入当前时刻的语音特征外，还需要输入说话人向量。在流式识别，即一边说话一边出识别结果的场景中，说话人向量的提取会有一个问题。虽然说话人向量可以基于任意长度的语音来提取，但是语音的长度越长，提取的说话人向量越准确，这个问题可以简单的类比为，判断一段1分钟的语音是谁说的，要比判断一段1秒钟的语音是谁说的要容易。流式识别时，输入的每一帧语音(一般10ms一帧)，都实时的传给声学模型去解码，这种场景下，一般是基于从0时刻到当前t时刻，提取一个说话人向量。这样越到后面时刻的语音，因为从0时刻到当前时刻总长越长，所以能够提取更准确的说话人向量。

但是这种方案，对于每条语音开始的部分(前数秒内)，因为能够利用的语音长度非常有限，因此提取的说话人向量的精度不高，会对语音开始部分的识别率会有影响。

发明内容

有鉴于此，为了解决流式语音识别开始一段时间内，说话人向量计算不准确的问题，本发明的实施例提供了一种基于说话人向量复用的语音识别系统及方法。

本发明的实施例提供一种基于说话人向量复用的语音识别系统，包括：

终端设备：用于接收说话人语音；

与所述终端设备通讯连接的说话人向量提取器，所述说话人向量提取器用于在说话人语音中提取说话人向量，以生成终端说话人向量；

说话向量云缓存器：用于存储参照说话人向量，存储在说话向量云缓存器的参照说话人向量为云端说话人向量；

云端语音识别服务器：分别与说话人向量提取器和说话向量云缓存器连接，用于融合终端说话人向量和云端说话人向量形成融合向量；

与所述云端语音识别服务器通讯连接的语音识别引擎，用于对融合向量进行语音识别，并发送识别结果至所述终端设备。

进一步地，所述终端设备上设有用于与云端语音识别服务器进行语音交互的语音交互系统。

本发明的实施例还提供一种基于说话人向量复用的语音识别方法，包括以下步骤：

S1、终端设备接收说话人语音，并向云端语音识别服务器发送语音识别请求，同时将所述说话人语音传送至云端语音识别服务器；

S2、说话人向量提取器提取终端说话人向量，并向云端语音识别服务器返回终端说话人向量；

S3、云端语音识别服务器根据所述说话人语音在说话向量云缓存器查询该说话人的云端说话人向量，若在说话向量云缓存器中能查询到该说话人的云端说话人向量，则将查询到的所述云端说话人向量传送至云端语音识别服务器，并转S4；否则语音识别引擎使用终端说话人向量进行语音识别；

S4、云端语音识别服务器融合终端说话人向量和云端说话人向量，融合公式为：

其中，

为终端说话人向量，t为终端设备接收语音的累积时长，T为设定时长,

为终端说话人向量，

为云端说话人向量；

S5、语音识别引擎根据融合后的说话人向量进行语音识别，并将识别结果通过云端语音识别服务器返回至终端设备。

进一步地，步骤S1中，终端设备第一次与云端语音识别服务器进行交互时，云端语音识别服务器给终端设备分配标识符guid，且终端设备在后期与云端语音识别服务器进行交互时，都会带上所述标识符guid。

进一步地，步骤S3中，若在说话向量云缓存器中查询到标识符guid的云端说话人向量为空，则在识别完所述标识符guid的终端说话人向量后，云端语音识别服务器将终端说话人向量存储至说话向量云缓存器中，以形成所述标识符guid的云端说话人向量。

进一步地，步骤S5中，判断本次终端设备接收到的说话人语音长度是否大于T，若大于T，则将融合后的说话人向量传送至说话向量云缓存器，以替换该说话人的原有云端说话人向量；否则不更新该说话人的原有云端说话人向量。

本发明的实施例提供的技术方案带来的有益效果是：本发明的一种基于说话人向量复用的语音识别系统通过对说话人向量进行复用，即将说话人向量存储在说话向量云缓存器上，并在语音识别引擎识别前通过云端语音识别服务器对终端说话人向量和云端说话人向量进行融合，从而提高语音识别引擎识别率，解决因提取的说话人向量的精度不高导致语音开始部分的识别率不高的问题。

附图说明

图1是背景技术中一种现有的声学模型结构流程图。

图2是背景技术中一种增加了说话人向量的声学模型结构流程图。

图3本发明所提供的一种基于说话人向量复用的语音识别方法的原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图3，本发明的实施例提供了一种基于说话人向量复用的语音识别系统，包括终端设备、说话人向量提取器、说话向量云缓存器、云端语音识别服务器和语音识别引擎，终端设备、说话人向量提取器、说话向量云缓存器和语音识别引擎分别与云端语音识别服务器连接。

终端设备用于接收说话人语音，优选地，所述终端设备上设有用于与云端语音识别服务器进行语音交互的语音交互系统，本实施例中所述终端设备可以是手机，智能车载设备等。说话人向量提取器与所述终端设备通讯连接，所述说话人向量提取器用于在说话人语音中提取说话人向量，以生成终端说话人向量；说话向量云缓存器用于存储参照说话人向量，存储在说话向量云缓存器的参照说话人向量为云端说话人向量；云端语音识别服务器用于融合由所述说话人向量提取器提前的终端说话人向量和和存储在说话向量云缓存器上的云端说话人向量，以形成融合向量；语音识别引擎用于对融合向量进行语音识别，并发送识别结果至所述终端设备，具体地，所述语音识别引擎完成语音识别后，会将识别结果发送至云端语音识别服务器，再由云端语音识别服务器传递至所述终端设备，本实施例中当说话向量云缓存器为存储当前说话人的云端说话人向量时，语音识别引擎根据终端说话人向量进行语音识别，否则语音识别引擎根据融合后说话人向量进行语音识别。

本发明中说话人向量可以复用，主要是基于如下考虑：首先，说话人向量在理论上与说的内容没关系(类似于要判断一段语音是否是一个熟人说的，不管录音说的任何内容都不影响判断)，只要是同一个人说的多个句子，不管是基于哪个句子提取的说话人向量，理论上都是可以互换使用的；其次，考虑到语音搭载语音交互的设备，大部分场景都是同一个人在使用，比如搭载了语音助手的手机，搭载了语音导航的汽车，说话人发生变化的几率较低。

在说话人向量可以复用的基础上，本发明的实施例还提供一种基于说话人向量复用的语音识别方法，包括以下步骤：

S1、终端设备接收说话人语音，并向云端语音识别服务器发送语音识别请求，同时将所述说话人语音传送至云端语音识别服务器，本发明中当终端设备第一次与云端语音识别服务器进行交互时，云端语音识别服务器给终端设备分配标识符guid，且终端设备在后期与云端语音识别服务器进行交互时，都会带上所述标识符guid，本实施例中所述标识符guid类似身份证号，用来区分不同的终端设备，分配所述标识符guid的算法有很多，比如可以基于网卡地址+时间戳+随机数等，保证唯一即可。

S3、云端语音识别服务器根据所述说话人语音在说话向量云缓存器查询该说话人的云端说话人向量，若在说话向量云缓存器中能查询到该说话人的云端说话人向量，则将查询到的所述云端说话人向量传送至云端语音识别服务器，并转S4；否则语音识别引擎使用终端说话人向量进行语音识别。本发明中若在说话向量云缓存器中查询到标识符guid的云端说话人向量为空，则在识别完所述标识符guid的终端说话人向量后，云端语音识别服务器将终端说话人向量存储至说话向量云缓存器中，以形成所述标识符guid的云端说话人向量。

其中，

为终端说话人向量，

为云端说话人向量。本发明中T用以表示时长超过T的语音，提取的说话人向量就很准确，T值不能太长，因为大部分语音指令命令都很短，只有数秒，太长了大部分语音都达不到这个长度，同时T值也不能太短，太短了提取出的说话人向量不够准确，在实际效果验证中，发现当T＝4秒时，整体效果较好(当然T值也可以根据真实应用场景去调整)。

例如终端设备接收一条语音的前面部分，并累积了1秒钟(即t＝1)，此时由于语音长度太短，说话人向量提取器所提取的终端说话人向量就不是很准确,从而语音识别引擎的识别率也不会很高，因此就需要云端语音识别服务器融合终端说话人向量和云端说话人向量，以提高语音识别引擎的识别率，此时在计算融合后的说话人向量时，终端说话人向量

的权重是

云端说话人向量

的权重是

当语音长度超过4秒后，云端说话人向量的权重为0，此时完全以终端说话人向量为准。

S5、语音识别引擎根据融合后的说话人向量进行语音识别，并将识别结果通过云端语音识别服务器返回至终端设备，本实施例中当语音识别引擎语音识别完成后，云端语音识别服务器还会判断本次终端设备接收到的说话人语音长度是否大于T，若大于T，则将融合后的说话人向量传送至说话向量云缓存器，以替换该说话人的原有云端说话人向量；否则不更新该说话人的原有云端说话人向量。

在本文中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于说话人向量复用的语音识别系统，其特征在于，包括：

终端设备：用于接收说话人语音；

2.如权利要求1所述的一种基于说话人向量复用的语音识别系统，其特征在于：所述终端设备上设有用于与云端语音识别服务器进行语音交互的语音交互系统。

3.一种根据权利要求1所述的基于说话人向量复用的语音识别系统的语音识别方法，其特征在于，包括以下步骤：

其中，

为终端说话人向量，

为云端说话人向量；

4.如权利要求3所述的一种基于说话人向量复用的语音识别系统的语音识别方法，其特征在于：步骤S1中，终端设备第一次与云端语音识别服务器进行交互时，云端语音识别服务器给终端设备分配标识符guid，且终端设备在后期与云端语音识别服务器进行交互时，都会带上所述标识符guid。

5.如权利要求4所述的一种基于说话人向量复用的语音识别系统的语音识别方法，其特征在于：步骤S3中，若在说话向量云缓存器中查询到标识符guid的云端说话人向量为空，则在识别完所述标识符guid的终端说话人向量后，云端语音识别服务器将终端说话人向量存储至说话向量云缓存器中，以形成所述标识符guid的云端说话人向量。

6.如权利要求4所述的一种基于说话人向量复用的语音识别系统的语音识别方法，其特征在于：步骤S5中，判断本次终端设备接收到的说话人语音长度是否大于T，若大于T，则将融合后的说话人向量传送至说话向量云缓存器，以替换该说话人的原有云端说话人向量；否则不更新该说话人的原有云端说话人向量。