CN109801637A

CN109801637A - 基于隐藏因素的模型融合方法及系统

Info

Publication number: CN109801637A
Application number: CN201811467343.3A
Authority: CN
Inventors: 洪国强; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-05-24

Abstract

本发明公开了一种基于隐藏因素的模型融合方法及系统，其包括两个以上的神经网络模型，用于对模型变量进行预测，得到对应的两个以上的模型预测结果；其中，所述模型变量包括隐藏变量和/或显性变量；输入层，用于输入对模型效果产生影响的隐藏变量；两个以上的第一全连接层，其与所述的两个以上的神经网络模型相对应，并用于根据所述隐藏变量进行权值的学习；第一输出层，用于输出所述的两个以上的神经网络模型对应的权值；融合模块，用于根据所述权值对所述的两个以上的神经网络模型的模型预测结果进行融合，得到融合预测结果；从而能够充分考虑各模型的优缺点，使得融合后的效果更显著，极大的提高模型融合的准确率。

Description

基于隐藏因素的模型融合方法及系统

技术领域

本发明涉及计算机技术领域，特别是一种基于隐藏因素的模型融合方法及其应用该方法的系统。

背景技术

传统的模型融合，是通过综合考虑不同模型的情况，将各个模型的输出结果进行融合。例如：如图1所示，现有技术的一种模型融合方法是采用并联式融合方法，通过将模型变量输入各个模型中，分别输出各个模型的预测结果，然后将各个预测结果融合到一起。如图2所示，现有技术的另一种模型融合方法是采用串联式融合方法，通过将模型变量输入第一模型中，输出第一模型的预测结果，再根据第一模型的预测结果将模型变量输入第二模型中，输出第二模型的预测结果，以此类推得到最终预测结果。

但是，传统的模型融合并未考虑隐藏因素对各个模型的影响，从而使得融合后的效果不好，准确率较低，影响模型的适用范围。

发明内容

本发明为解决上述问题，提供了一种基于隐藏因素的模型融合方法及系统，能够提高模型融合的准确率，扩大模型的适用范围。

为实现上述目的，本发明采用的技术方案为：

本发明的目的之一在于提供一种基于隐藏因素的模型融合系统，其包括：

两个以上的神经网络模型，用于对模型变量进行预测，得到对应的两个以上的模型预测结果；其中，所述模型变量包括隐藏变量和/或显性变量；

输入层，用于输入对模型效果产生影响的隐藏变量；

两个以上的第一全连接层，其与所述的两个以上的神经网络模型相对应，并用于根据所述隐藏变量进行权值的学习；

第一输出层，用于输出所述的两个以上的神经网络模型对应的权值；

融合模块，用于根据所述权值对所述的两个以上的神经网络模型的模型预测结果进行融合，得到融合预测结果。

优选的，所述融合模块进一步包括：

模型层，用于将所述的两个以上的神经网络模型的模型预测结果分别与对应的权值进行乘法运算，得到目标变量；

第二全连接层，用于对所述目标变量进行融合预测；

第二输出层，用于输出融合预测结果。

进一步的，所述输入层、第一全连接层、第二全连接层、第一输出层采用ReLu激活函数，所述第二输出层采用softmax激活函数或sigmoid激活函数。

与所述模型融合系统相对应的，本发明的目的之二在于提供一种基于隐藏因素的模型融合方法，其包括以下步骤：

通过两个以上的神经网络模型对模型变量进行预测，得到对应的两个以上的模型预测结果；其中，所述模型变量包括隐藏变量和/或显性变量；

获取对模型效果产生影响的隐藏变量，并根据所述隐藏变量进行权值的学习，得到所述的两个以上的神经网络模型对应的权值；

根据所述权值对所述的两个以上的神经网络模型的模型预测结果进行融合，得到融合预测结果。

本发明的目的之三在于提供一种基于隐藏因素的声纹模型融合系统，其包括：

两个以上的声纹模型，用于对语音数据进行预测，得到对应的两个以上的模型预测结果；其中，所述语音数据包括隐藏数据和/或显性数据，并经量化处理和归一化处理后分别得到对应的隐藏变量和显性变量；

输入层，用于输入对模型效果产生影响的隐藏变量；

两个以上的第一全连接层，其与所述的两个以上的声纹模型相对应，并用于根据所述隐藏变量进行权值的学习；

第一输出层，用于输出所述的两个以上的声纹模型对应的权值；

融合模块，用于根据所述权值对所述的两个以上的声纹模型的模型预测结果进行融合，得到融合预测结果。

优选的，所述融合模块进一步包括：

模型层，用于将所述的两个以上的声纹模型的模型预测结果分别与对应的权值进行乘法运算，得到目标变量；

第二全连接层，用于对所述目标变量进行融合预测；

第二输出层，用于输出融合预测结果。

优选的，所述的声纹模型包括I-Vector模型，DNN-UBM模型，X-Vector模型中的任意两个以上。

优选的，所述的显性数据包括说话人的声学特征；所述的隐藏数据包括语音长度、环境嘈杂程度、语音音量、语音编解码方式、采样率中的一种以上；所述的显性数据和所述的隐藏数据是从所述语音数据中进行提取，所述的模型预测结果和所述的融合预测结果是指说话人的身份或类型的预测。

与所述声纹模型融合系统相对应的，本发明的目的之四在于提供一种基于隐藏因素的声纹模型融合方法，其包括以下步骤：

通过两个以上的声纹模型对语音数据进行预测，得到对应的两个以上的模型预测结果；其中，所述语音数据包括隐藏数据和/或显性数据，并经量化处理和归一化处理后分别得到对应的隐藏变量和显性变量；

获取对模型效果产生影响的隐藏变量，并根据所述隐藏变量进行权值的学习，得到所述的两个以上的声纹模型对应的权值；

根据所述权值对所述的两个以上的声纹模型的模型预测结果进行融合，得到融合预测结果。

本发明的有益效果是：

本发明的一种基于隐藏因素的模型融合方法及系统，其通过利用隐藏变量进行权值的学习，再根据所述权值对模型预测结果进行融合，从而得到融合预测结果，能够充分考虑各模型的优缺点，使得融合后的效果更显著，极大的提高模型融合的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为现有技术的一种模型融合方法的框架结构示意图(并联式)；

图2为现有技术的另一种模型融合方法的框架结构示意图(串联式)；

图3为本发明一种基于隐藏因素的模型融合系统的结构示意图；

图4为本发明一种基于隐藏因素的模型融合方法的流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

第一实施例(模型融合系统)

如图3所示，本实施例提供一种基于隐藏因素的模型融合系统，其包括：

输入层，用于输入对模型效果产生影响的隐藏变量；

本实施例中，所述融合模块进一步包括：

第二全连接层，用于对所述目标变量进行融合预测；

第二输出层，用于输出融合预测结果。

进一步的，所述输入层、第一全连接层、第二全连接层、第一输出层采用ReLu激活函数，或者也可以采用sigmoid、tanh等其他激活函数；所述第二输出层采用softmax激活函数或sigmoid激活函数；对于二分类问题，所述第二输出层优选采用sigmoid函数；这是因为sigmoid函数可以把实数域光滑的映射到[0,1]空间，函数值恰好可以解释为属于正类的概率(概率的取值范围是0～1)；另外，sigmoid函数单调递增，连续可导，导数形式非常简单，是一个比较合适的函数。对于多分类问题，所述第二输出层优选采用softmax函数。

所述的融合模块还可以采用其他融合算法，例如通过基于神经网络的融合模型进行融合得到融合预测结果，或者，通过融合公式的计算得到融合预测结果，等等。

需要说明的是，所述的隐藏因素指的是对模型最后打分结果的可信度产生影响的因素，并且该因素在最终结果上不可见；通过对所述隐藏因素进行数据量化处理和归一化处理得到对应的隐藏变量；所述的显性因素指的是在最终结果上可见的因素；所述第一连接层或所述第二连接层的节点数量，可根据输入的变量的数量进行调整；

本实施例的融合算法是基于神经网络算法实现的。本实施例中，所述的第一连接层包括上下两个独立的全连接层，适用于两个神经网络模型的融合，当模型数量大于两个时，可根据实际模型数量进行相应的调整；所述第一输出层的值，是根据隐藏变量生成的输出值，并作为模型层的权值；所述模型层的值，是各个模型预测结果与对应的第一输出层的权值进行乘积的结果，并作为第二全连接层的输入，最终获得第二输出层的融合预测结果。

第二实施例(模型融合方法)

如图4所示，与所述模型融合系统相对应的，本发明还提供一种基于隐藏因素的模型融合方法，其包括以下步骤：

本实施例的模型融合方法，由于其与系统实施例基本相似，所以描述的比较简单，相关之处参见第一实施例的模型融合系统的说明即可，在此不进行赘述。

第三实施例(声纹模型融合系统)

本发明还将第一实施例与声纹识别方法相结合，提供一种基于隐藏因素的声纹模型融合系统，其包括：

输入层，用于输入对模型效果产生影响的隐藏变量；

本实施例中，所述融合模块进一步包括：

第二全连接层，用于对所述目标变量进行融合预测；

第二输出层，用于输出融合预测结果。

本实施例中，所述的声纹模型包括I-Vector模型，DNN-UBM模型，X-Vector模型中的任意两个以上。其中，所述I-Vector模型中，I是身份(Identity)的意思，I-Vector相当于说话人的身份标识。I-vector方法采用的是全局差异空间，它即包含了说话者之间的差异又包含了信道间的差异。所以I-Vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。可以把I-vector看做是一种特征，也可以看做是简单的模型，通过计算测试语音I-vector和模型的I-vector之间的consine距离，就可以作为最后的得分。DNN-UBM模型与GMM-UBM模型相类似，DNN-UBM是以DNN取代GMM来实现UBM的效果的方式。X-Vector模型是采用基于tdnn神经网络的说话人识别算法。每个模型各有优缺点，本实施例优选的采用DNN-UBM模型与X-Vector模型进行融合；DNN-UBM模型对于长语音有很好的识别效果，但抗噪相对较弱；X-Vector模型短语音识别有较好的效果，抗噪能力强；因此，基于隐藏因素的DNN-UBM模型与X-Vector模型的融合方法，互补性更好，能够得到较好的模型效果。

声纹识别是用于判断两个语音的生物特征是否一致，及是否为同一说话人的技术，对其识别结果产生影响的因素有很多，现有技术通常是直接将所有的影响因素直接输入声纹模型中进行识别和预测，而没有对显性因素和隐藏因素加以区别计算。本实施例中，所述的显性数据包括说话人的声学特征；所述的隐藏数据包括语音长度、环境嘈杂程度、语音音量、语音编解码方式、采样率中的一种以上；所述的显性数据和所述的隐藏数据是从所述语音数据中进行提取，所述的模型预测结果和所述的融合预测结果是指说话人的身份或类型的预测。

本实施例的其余融合过程和融合算法与第一实施例基本相似，在此不进行赘述。

第四实施例(声纹模型融合方法)

与所述声纹模型融合系统相对应的，本发明还提供一种基于隐藏因素的声纹模型融合方法，其包括以下步骤：

本实施例的声纹模型融合方法，由于其与系统实施例基本相似，所以描述的比较简单，相关之处参见第三实施例的声纹模型融合系统的说明即可，在此不进行赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于隐藏因素的模型融合系统，其特征在于，包括：

输入层，用于输入对模型效果产生影响的隐藏变量；

2.根据权利要求1所述的基于隐藏因素的模型融合系统，其特征在于，所述融合模块进一步包括：

第二全连接层，用于对所述目标变量进行融合预测；

第二输出层，用于输出融合预测结果。

3.根据权利要求2所述的基于隐藏因素的模型融合系统，其特征在于，所述输入层、第一全连接层、第二全连接层、第一输出层采用ReLu激活函数，所述第二输出层采用softmax激活函数或sigmoid激活函数。

4.一种基于隐藏因素的模型融合方法，其特征在于，包括以下步骤：

5.一种基于隐藏因素的声纹模型融合系统，其特征在于，包括：

输入层，用于输入对模型效果产生影响的隐藏变量；

6.根据权利要求5所述的基于隐藏因素的声纹模型融合系统，其特征在于，所述融合模块进一步包括：

第二全连接层，用于对所述目标变量进行融合预测；

第二输出层，用于输出融合预测结果。

7.根据权利要求6所述的基于隐藏因素的模型融合系统，其特征在于，所述输入层、第一全连接层、第二全连接层、第一输出层采用ReLu激活函数，所述第二输出层采用softmax激活函数或sigmoid激活函数。

8.根据权利要求5至7任一项所述的基于隐藏因素的声纹模型融合系统，其特征在于，所述的声纹模型包括I-Vector模型，DNN-UBM模型，X-Vector模型中的任意两个以上。

9.根据权利要求5至7任一项所述的基于隐藏因素的声纹模型融合系统，其特征在于，所述的显性数据包括说话人的声学特征；所述的隐藏数据包括语音长度、环境嘈杂程度、语音音量、语音编解码方式、采样率中的一种以上；所述的显性数据和所述的隐藏数据是从所述语音数据中进行提取，所述的模型预测结果和所述的融合预测结果是指说话人的身份或类型的预测。

10.一种基于隐藏因素的声纹模型融合方法，其特征在于，包括以下步骤：