CN106446524A

CN106446524A - 智能硬件多模态级联建模方法及装置

Info

Publication number: CN106446524A
Application number: CN201610796171.9A
Authority: CN
Inventors: 郭瑞; 郭祥; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-22

Abstract

本发明实施例提供一种智能硬件多模态级联建模方法和装置，该方法包括：提取多模态输入信号的模态特征；基于模态特征，构造标注数据，针对每种模态分别建立用户意图分析模型；选取用户行为数据，根据用户行为数据对用户意图分析模型进行自学习校正；将经过自学习校正的用户意图分析模型进行组合，得到二级级联模型。在该多模态级联建模过程中，各个模态的建模可以单独进行而不影响全局，各个模态模型的组合方法也不需要考虑单个模态模型的内部细节，从而避免了单个模态模型改变时需要修改整个多模态级联模型的问题。

Description

智能硬件多模态级联建模方法及装置

技术领域

本发明涉及智能硬件领域，特别涉及一种智能硬件多模态级联建模方法及装置。

背景技术

智能硬件的发展方向之一就是提供多模态的人机交互，目前智能硬件的多模态建模方法都是统一建模，引入新智能硬件或更改模态配置会导致已有模型失效，需要重新训练模型。例如儿童应用领域智能硬件多种多样，每种智能硬件配置的传感器和输出元件都不同，有的带轮子，有的只能说话。在产品研发时，针对智能硬件的每一个改动都需要重新训练模型，直接影响产品研发进度。

因此，期待一种适应性强的智能硬件的多模态建模方法，缩短模型训练的时间甚至完全不需要重新进行模型训练。

发明内容

本发明的目的是提供一种智能硬件多模态级联建模方法，用以解决现有建模方法需要根据智能硬件或者模态配置的更新而重新进行模型训练的问题。

相应的，本发明实施例还提供一种智能硬件多模态级联建模装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种智能硬件多模态级联建模方法，包括：

步骤101：提取多模态输入信号的模态特征；

步骤102：基于所述模态特征，构造标注数据，针对每种模态分别建立用户意图分析模型；

步骤103：选取用户行为数据，根据所述用户行为数据对所述用户意图分析模型进行自学习校正；

步骤104：将经过自学习校正的用户意图分析模型进行组合，得到二级级联模型。

优选地，所述多模态输入信号包括文字、音频、图像、动作信号中的两个或更多个。

优选地，所述标注数据的格式为：

标注目标-模态1的模态特征|..|模态N的模态特征。

优选地，所述模态1至模态N的模态特征的至少其中之一由相关联的多个模态的模态特征依次拼接形成。

优选地，根据机器学习模型建立所述用户意图分析模型。

优选地，所述选取用户行为数据，根据所述用户行为数据对所述用户意图分析模型进行自学习校正的步骤包括：

保存用户行为数据，将所述用户行为数据构造为用户行为标注数据；

基于所述用户行为标注数据，计算所述用户意图分析模型的先验概率和特征条件概率。

优选地，将经过自学习校正的用户意图分析模型进行加权线性组合，得到所述二级级联模型。

优选地，所述智能硬件多模态级联建模方法还包括：

步骤1051：基于所述二级级联模型的输出所构造的模态特征，并基于所述多模态输入信号的模态特征的至少其中之一，循环执行所述步骤102至步骤104。

优选地，所述智能硬件多模态级联建模方法还包括：

步骤1052：基于所述二级级联模型的输出所构造的模态特征，循环执行所述步骤102至步骤104。

本发明实施例还公开一种智能硬件多模态级联建模装置，包括：

模态特征提取模块，用于提取多模态输入信号的模态特征；

用户意图分析模型建立模块，用于基于所述模态特征，构造标注数据，针对每种模态分别建立用户意图分析模型；

自学习校正模块，用于选取用户行为数据，根据所述用户行为数据对所述用户意图分析模型进行自学习校正；

二级级联模型建立模块，用于将经过自学习校正的用户意图分析模型进行组合，得到多模态级联模型。

优选地，所述标注数据的格式为：

标注目标-模态1的模态特征|..|模态N的模态特征。

优选地，所述模态1至模态N的模态特征的至少其中之一由相关联的多个模态的模态特征依次拼接形成

优选地，所述用户意图分析模型建立模块根据机器学习模型建立所述用户意图分析模型。

优选地，所述自学习校正模块包括：

标注数据构造子模块，用于保存用户行为数据，将所述用户行为数据构造为用户行为标注数据；

概率计算子模块，基于所述用户行为标注数据，计算所述用户意图分析模型的先验概率和特征条件概率。

优选地，所述二级级联模型建立模块将经过自学习校正的用户意图分析模型进行加权线性组合，得到所述二级级联模型。

优选地，所述智能硬件多模态级联建模装置还包括：

循环模块，用于基于所述二级级联模型的输出所构造的模态特征，并基于所述多模态输入信号的模态特征的至少其中之一，循环执行所述用户意图分析模型建立模块、所述自学习校正模块、所述二级级联模型建立模块的操作步骤。

优选地，所述智能硬件多模态级联建模装置还包括：

循环模块，用于基于所述二级级联模型的输出所构造的模态特征，循环执行所述用户意图分析模型建立模块、所述自学习校正模块、所述二级级联模型建立模块的操作步骤。

与现有技术相比，本发明实施例具有以下优点：

1.将单个模态建模与多模态输出决策解耦合，建立多模态级联模型。在该多模态级联建模过程中，各个模态的建模可以单独进行而不影响全局，各个模态模型的组合方法也不需要考虑单个模态模型的内部细节，从而避免了单个模态模型改变时需要修改整个多模态级联模型的问题。

2.可以在一级建模时，将相关联的模态进行组合建模。在物理信号级别，根据实际应用场景确定相关联的模态，并将相关联的模态进行组合建模，可以提高建模的准确性。

3.通过对模型进行自学习校正，使模型更加适用于应用场景。

4.多模态级联模型的级数和组合方法可以根据智能硬件的特点进行选择，例如级数可以为二级甚至更多级，组合方法可选择线性组合或非线性组合，大大提高了多模态级联模型的适应性。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。

图1示出了根据示例性实施例的智能硬件多模态级联建模方法的流程图；

图2示出了根据示例性实施例的智能硬件多模态级联建模装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

根据示例性实施例的智能硬件多模态级联建模方法分两步执行，第一步是针对每种模态分别建立独立的用户意图分析模型(也称为一级建模)，第二步是将各个独立的用户意图分析模型组合，得到二级级联模型。如果经过一次模型组合的输出结果仍不能满足实际需要，可以循环执行建模过程，直到获得满意的输出结果为止。

图1示出了根据示例性实施例的智能硬件多模态级联建模方法的流程图，其具体包括以下步骤：

步骤101：提取多模态输入信号的模态特征

多模态输入信号可包括文字、音频、图像、动作、触觉信号等，是通过智能硬件的人机交互设备(例如摄像机、麦克风、键盘)、传感器(例如触觉传感器、生物传感器)等被采集并输入的。为了便于处理器识别以及处理多模态输入信号，在本步骤中，提取多模态输入信号的模态特征，其也可以称作多模态输入信号的形式化。

对于不同模态的输入信号，其模态特征的提取方法也是不同的。主要模态输入信号的提取方法如下：

(1)文字：文字一般可以形式化为字符编码。对于一串文字，根据选定的编码规范进行编码，然后按顺序进行拼接，即可获得其所对应的字符编码。编码规范有很多，以GBK(汉字内码扩展规范)为例，每个汉字由4个字符组成，如“高兴”的GBK编码表示为“B8DFD0CB”。

(2)音频：音频可以形式化为一维数组。音频的属性可包括音调、音色、响度、音重等，每种属性可以用整数或小数表示，从而构成一维数组。例如，某个音频可表示为(12,10,5,15)，其中每个数字分别代表该音频的一种属性。

(3)图像：图像可以形式化为二维数组，数组中的值为整数，代表相应像素的灰度值。例如，可以用以下数组表示一幅图像：

255 200 160 125

190 200 200 198

还可以通过现有技术中的其他方法提取各种模态输入信号的模态特征，在应用本发明的实施例时，本领域技术人员可以根据实际需要选择适当的方法。

在步骤101之后，可以优选地执行以下步骤：

步骤1011：指定一级建模类型，所述一级建模类型包括单模态建模或多模态建模

作为优选方案，在针对所提取的多模态输入信号的模态特征进行建模之前，可以先指定一级建模的类型，这一步骤是可选的，在缺省情况下，一级建模为单模态建模，即针对每种模态分别进行建模。

在本步骤中，可以通过人工选择或者自动选择的方式，确定一级建模类型是单模态建模还是多模态建模。

第一种方式是单模态建模，即针对每种模态进行单独建模，例如分别基于文本、图像、音频、动作等输入信号的模态特征，为每种模态进行单独建模。

第二种方式是多模态建模，即根据应用需求，将几种相关联的模态合并建模，例如可以将文字模态和音频模态合并建模。

在这种方式中，可以通过多种方式判断哪几种模态是相关联的，从而将其合并建模。在优选方案中，可以提取各模态的共现信息，设置支持度、置信度、提升度的阈值来筛选哪几种模态是相关联的，需要合并建模。

其中，支持度是指各模态在所有输入信号集合中的共现概率；置信度是指在A模态出现的情况下，B模态出现的概率；提升度是指在A模态出现的情况下，B模态出现的概率/B模态不出现的概率。可以根据历史数据、实际应用场合和应用需要来设置支持度、置信度、提升度的阈值，从而确定各模态之间的关联度，根据关联度搭配模态组合，进行合并建模。

当指定多模态建模为一级建模类型时，将相关联的多个模态的模态特征依次拼接，作为关联模态的模态特征，在后续步骤中使用。

步骤102：基于模态特征，构造标注数据，针对每种模态分别建立用户意图分析模型

在本步骤中，首先基于提取的模态特征构造标注数据，所构造的标注数据的格式为：

标注目标-模态1的模态特征|..|模态N的模态特征

即标注数据的第一列为标注目标，从第二列开始为各模态的模态特征。

当在步骤1011中选择单模态建模时，模态1至模态N均为单一模态，即文字、音频、图像、动作等模态之一；当在步骤1011中选择多模态建模时，模态1至模态N中有一个或者多个模态可能是经过组合的关联模态，其模态特征是该关联模态的模态特征。例如，如果在步骤1011中选择将文本模态与音频模态进行组合作为模态1，那么对于在步骤101中所举的例子，模态1的模态特征为：

B8DF D0CB，12,10,5,15

关联模态的模态特征由相关联的多个模态的模态特征依次拼接形成。

然后，在构造标注数据后，可以基于标注数据建立用户意图分析模型。可以根据现有技术的方法来执行该建模。主要建模方法包括以下几类：基于规则的方法、基于统计的方法、规则与统计结合的方法。

(1)基于规则的方法

基于规则的方法一般使用模板和词表相结合的方法进行建模，主要工作在于离线词表的挖掘，使用词表做简单的规则匹配即得到最终结果。对于分词模型，离线收集所有的汉字词语，在线使用正向最大匹配即可完成简单分词，从而完成用户意图分析。

(2)基于统计的方法

基于统计的建模方法建立K近邻、朴素贝叶斯、决策树、深度学习等机器学习模型。这类方法的建模目标为预测条件概率p(y|x)。以朴素贝叶斯模型为例：

贝叶斯公式可表示为以下公式(1)：

p(x,y)＝p(x)*p(y|x)＝p(y)*p(x|y) (1)

其中，p(x)表示x的出现概率，p(y)表示y的出现概率，p(y|x)表示x出现的情况下y的出现概率，p(x|y)表示y出现的情况下x的出现概率，p(x,y)表示x、y同时出现的概率。

通过公式(1)可以得到以下公式(2)：

p(y|x)＝p(y)*p(x|y)/p(x) (2)

其中分母p(x)对于所有类别的y都相同，可以当作常数省略掉，所以推导得出求p(y|x)的最优值，即相当于求p(y)*p(x|y)的最优值。

(3)基于统计和规则相结合的方法

综合利用统计和规则的方法，在统计的结果上加入人工规则，或者按照人工规则处理后再做统计建模，这是实际应用较多的方法。在这类建模方法中，基于规则建模和基于统计建模的具体步骤分别与前述步骤一致。

在本发明实施例中，根据朴素贝叶斯模型建立用户意图分析模型。

步骤103：选取用户行为数据，根据用户行为数据对用户意图分析模型进行自学习校正

作为优选方案，可以通过模型自学习使得以上建立的用户意图分析模型的智能反馈更准确。每个智能硬件在不同环境中，根据多种模态的综合计算，最终更准确地分析用户意图，进而为用户提供更准确的交互反馈。

在本发明实施例中，模型自学习根据用户行为数据，调整在步骤102中建立的用户意图分析模型的输出概率。用户意图分析模型自学习具体包括以下子步骤：

子步骤1031：保存用户行为数据，将用户行为数据构造为用户行为标注数据

保存用户行为数据，并将这些用户行为数据构造为用户行为标注数据的格式：

y X1|…|Xn

其中，y为用户意图分析模型的输出值，X1-Xn为各个模态的模态特征。

例如，在听音乐场景中，保存用户每次听的音乐类别、用户动作和用户说的语句，将这些用户行为数据构造为上述格式的标注数据，其中输出值y是音乐类别，可包括儿歌、流行曲、摇滚等，模态特征xi可包括文本模态、音频模态等的模态特征，例如是用户语句的分词结果，声纹识别结果等。

子步骤1032：基于用户行为标注数据，计算用户意图分析模型的先验概率和特征条件概率

在步骤102中建立了用户意图分析模型，通过该子步骤可以调整用户意图分析模型的先验概率p(yi)和特征条件概率p(xj|yi)，从而校正用户意图分析模型的输出。

先验概率p(yi)的计算方法如下：

首先，确定用户行为标注数据中输出值的总次数，记为N；

然后，计算用户行为标注数据中输出值yi的出现次数，记为M；

最后，计算用户行为标注数据中输出值yi的先验概率：p(yi)＝M/N。

对于某种模态，模态特征条件概率p(xj|yi)的计算方法如下：

首先，统计在该模态中，输出值为yi时所有模态特征出现的总次数，记为Ni；

然后，统计在该模态中，输出值为yi时模态特征xj出现的次数，记为Mj；

最后，计算模态特征条件概率p(xj|yi)：p(xj|yi)＝Mj/Ni。

为避免自学习过度，可为每个模态计算一个随机概率，从统计上看，会大概率按用户习惯执行，但也会有随机的小概率的新行为。

步骤101至103均针对各个模态的独立模型，在本步骤中，将在步骤103中经过自学习校正的独立模型进行组合，作为本发明实施例的二级级联模型。各模型的组合方式可以选择线性组合或者非线性组合，比较常用的是加权线性组合。其中，可以根据多种方法确定各独立模型的权重，主要包括人工经验值法、参数训练法、交叉验证法等。

人工经验值：根据启发式方法，对每个模型人工设定权重，一般各个模型的权重为小数值，所有权重之和等于1。在选用这种方法时，可以根据测试集合效果手动调整各模型的权重，直到满足应用需求为止。

参数训练法：首先编写目标函数，目标函数可选择最小错误率函数等，即计算的结果与实际标注差异个数最少。然后优化程序，在标注集合上改变参数组合，保留使目标函数最优化的参数组合作为结果。这里以坐标上升法举例，即每次只改变一个参数，调整不长使目标函数达到收敛。持续迭代，直到所有整体收敛。

交叉验证法：将训练集分为两份，一份用于训练，另一份用于测试。也可将训练集分成多个子集，用不同的集合进行训练和测试，例如十折交叉验证，其中按顺序抽出一份作为测试集，其他作为子集。每次交叉验证都单独做参数训练，以十次验证的平均准确率作为参数训练的目标函数，这样做的好处是不容易过拟合，实际效果更好。

确定各个独立模型的权重之后，将各独立模型进行加权线性组合，得到二级级联模型。

步骤105：基于二级级联模型的输出所构造的模态特征，还可以基于步骤101中的至少一种模态的模态特征(换言之，基于步骤101中的多模态输入信号的模态特征的至少其中之一)，循环执行步骤102至104，可以得到三级级联模型以及更高级的级联模型。

如果二级级联模型的效果仍然不能满足应用需求，那么优选地可以继续执行本步骤105，得到三级或者更高级的级联模型。

在本步骤中，可以通过两种方式循环执行步骤102至104：

第一种方式是将二级级联模型的输出构造为一维数组，作为模态特征，基于二级级联模型的输出所构造的模态特征和步骤101中的至少一种模态(可以根据步骤1011选择关联模态)的模态特征，循环执行步骤102至104。

第二种方式是将二级级联模型的输出构造为一维数组，作为模态特征，仅仅基于二级级联模型的输出所构造的模态特征，循环执行步骤102至步骤104。

循环执行以上过程，可以得到多级级联模型。循环执行的次数，即多级级联模型的级数可根据多次实验结果来确定，取效果最优时的级数。每次循环中模态特征的组合方法也可以不同，可以根据实际情况进行选择。

以下参考一个具体实施例详细描述根据示例性实施例的智能硬件多模态级联建模方法，该实施例应用于用户听音乐场景中。

根据示例性实施例的智能硬件多模态级联建模方法具体包括：

步骤L101：输入多组文本模态和声纹模态输入信号，提取输入信号的模态特征；

步骤L1011：选用单模态建模作为一级建模类型；

步骤L102：根据多组文本和声纹模态输入信号的模态特征构造标注数据，根据朴素贝叶斯模型建立用户意图分析模型；

步骤L103：对用户意图分析模型进行自学习校正，其具体包括以下子步骤：

子步骤L1031：输入训练语料(即用户行为数据)，将训练语料构造为用户行为标注数据

在实施例中，训练语料包括文本模态和声纹模态的输入信号，具体如下：

语句：播放白龙马|声纹：儿童

语句：播放儿歌|声纹：儿童

语句：来首儿歌|声纹：儿童

语句：播放摇滚|声纹：儿童

语句：播放摇滚|声纹：成人

语句：来首摇滚|声纹：成人

语句：播放忘情水|声纹：成人

语句：播放同桌的你|声纹：成人

然后，将训练语料构造为用户行为标注数据，用户行为标注数据的格式为：

音乐类型-文字模态特征|声纹模态特征

在实施例中，所构造的用户行为标注数据如下(这里用实际输入信号代替模态特征，以便更容易理解实施例的原理)：

儿歌-播放白龙马|儿童

儿歌-播放儿歌|儿童

儿歌-来首儿歌|儿童

摇滚-播放摇滚|儿童

摇滚-播放摇滚|成人

摇滚-来首摇滚|成人

流行曲-播放忘情水|成人

流行曲-来首同桌的你|成人

子步骤L1032：基于用户行为标注数据，计算先验概率

在示例性实施例所构造的用户行为标注数据中，输出值的总次数N为8，其中输出值“儿歌”的出现次数为3次，输出值“流行曲”的出现次数为2次，输出值“摇滚”的出现次数为3次。

因此，输出值“儿歌”的先验概率p(儿歌)＝3/8＝0.375，输出值“流行曲”的先验概率p(流行曲)＝2/8＝0.25，输出值“摇滚”的先验概率p(摇滚)＝3/7＝0.375。

子步骤L1033：基于用户行为标注数据，计算特征条件概率

对于文本模态，根据训练语料中的语句，输出值为儿歌时，对应的词(播放白龙马唱一首儿歌)出现总次数为4次，输出值为流行曲时，出现词总次数为6次，计算得出特征条件概率如下：

p(播放|儿歌)＝2/3＝0.67，p(播放|流行曲)＝1/2＝0.5，p(播放|摇滚)＝2/3＝0.67

对于声纹模态，根据训练语料中的声纹：

步骤L104：将经过自学习校正的用户意图分析模型进行加权线性组合，得到二级级联模型。

在本实施例中，文本模态和声纹模态的权重均为0.5，按照该权重将对于文本模态和声纹模态的模型加权线性组合，即得到二级级联模型。

步骤L105：基于二级级联模型的输出所构造的模态特征和声纹模态的模态特征，重复执行步骤L102至L104，得到三级级联模型。

将二级级联模型的输出构造为一维数组，作为模态特征，基于二级级联模型的输出所构造的模态特征和声纹模态的模态特征，分别建立用户意图分析模型，然后进行模型的自学习校正，最后将校正后的模型进行组合，得到三级级联模型。重复执行步骤L102至L104的过程是本领域技术人员易于理解和实施的，在此不再赘述。

经过前述步骤L101至L105，完成了根据示例性实施例的智能硬件多模态级联建模，可以应用该建模方法获得的多模态级联模型与智能硬件进行多模态的人机交互。

应用实例

例如，儿童说“播放一首歌”

1.对于文字模态，根据经过自学习校正的用户意图分析模型已知：

先验概率p(儿歌)＝0.375，p(流行曲)＝0.25，p(摇滚)＝0.375，

特征条件概率p(播放|儿歌)＝0.33，p(播放|流行曲)＝0.5，p(播放|摇滚)＝0.67。

因此，文字模态独立模型的输出结果如下：

p(儿歌|播放一首歌)＝0.375*0.67＝0.25

p(流行曲|播放一首歌)＝0.25*0.5＝0.125

p(摇滚|播放一首歌)＝0.375*0.67＝0.25

2.对于声纹模态，根据经过自学习校正的用户意图分析模型已知：

先验概率p(儿歌)＝0.375，p(流行曲)＝0.25，p(摇滚)＝0.375。

因此，声纹模态独立模型的输出结果如下：

p(儿歌|声纹:儿童)＝0.375*0.5＝0.186

p(流行曲|声纹:儿童)＝0.25*0＝0

p(摇滚|声纹:儿童)＝0.375*0.33＝0.124。

3.对文字模态和声纹模态独立模型进行加权线性组合，即为二级级联模型，二级级联模型的输出结果如下：

(假设人工设定两个模态权重相同，都为0.5)

p(儿歌)＝0.5*0.25+0.5*0.186＝0.125

p(流行曲)＝0.5*0.125+0.5*0＝0.063

p(摇滚)＝0.5*0.25+0.5*0.124＝0.187

根据二级模型的输出结果，智能硬件播放的歌曲类型是：摇滚。

4.基于二级级联模型的输出所构造的模态特征和声纹模态的模态特征再次进行级联建模，这里人工设定在儿童声纹下，二级模型的权重为0.5、0.25、0.25，成人声纹下，二级模型的权重为0.2、0.4、0.4，三级级联模型的输出结果如下：

p(儿歌)＝0.5*0.125+0.2*0＝0.063

p(流行曲)＝0.25*0.063+0.4*0＝0.016

p(摇滚)＝0.25*0.187+0.4*0＝0.047

根据三级级联模型的输出结果，智能硬件播放的歌曲类型是：儿歌。

从这一应用实例可以看出，如果只根据第一级模型，智能硬件播放儿歌的概率为0.125，播放流行曲的概率为0.063，播放摇滚的概率为0.187，最后的结果会播放摇滚。而通过建立三级级联模型，输出结果指示智能硬件播放儿歌，更符合实际应用场景。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图2，示出了根据示例性实施例的智能硬件多模态级联建模装置的结构框图，具体包括以下模块：

模态特征提取模块201，用于提取多模态输入信号的模态特征；

用户意图分析模型建立模块202，用于基于模态特征，构造标注数据，针对每种模态分别建立用户意图分析模型；

自学习校正模块203，用于选取用户行为数据，根据用户行为数据对用户意图分析模型进行自学习校正；

二级级联模型建立模块204，用于将经过自学习校正的用户意图分析模型进行组合，得到二级级联模型。

在本发明的一种优选实施例中，多模态输入信号包括文字、音频、图像、动作信号中的两个或更多个。

在本发明的一种优选实施例中，标注数据的格式为：

标注目标-模态1的模态特征|..|模态N的模态特征。

在本发明的一种优选实施例中，模态1至模态N的模态特征的至少其中之一由相关联的多个模态的模态特征依次拼接形成。

在本发明的一种优选实施例中，用户意图分析模型建立模块根据机器学习模型建立所述用户意图分析模型。

在本发明的一种优选实施例中，自学习校正模块包括：

标注数据构造子模块，用于保存用户行为数据，将用户行为数据构造为用户行为标注数据；

概率计算子模块，基于用户行为标注数据，计算用户意图分析模型的先验概率和特征条件概率。

在本发明的一种优选实施例中，二级级联模型建立模块将经过自学习校正的用户意图分析模型进行加权线性组合，得到二级级联模型。

在本发明的一种优选实施例中，智能硬件多模态级联建模装置还包括：

循环模块，用于基于二级级联模型的输出所构造的模态特征，并基于多模态输入信号的模态特征的至少其中之一，循环执行用户意图分析模型建立模块、自学习校正模块、二级级联模型建立模块的操作步骤。

循环模块，用于基于二级级联模型的输出所构造的模态特征，循环执行用户意图分析模型建立模块、自学习校正模块、二级级联模型建立模块的操作步骤。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种智能硬件多模态级联建模方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能硬件多模态级联建模方法，其特征在于，包括：

步骤101：提取多模态输入信号的模态特征；

2.根据权利要求1所述的智能硬件多模态级联建模方法，其特征在于，所述多模态输入信号包括文字、音频、图像、动作信号中的两个或更多个。

3.根据权利要求1所述的智能硬件多模态级联建模方法，其特征在于，所述标注数据的格式为：

标注目标-模态1的模态特征|..|模态N的模态特征。

4.根据权利要求3所述的智能硬件多模态级联建模方法，其特征在于，所述模态1至模态N的模态特征的至少其中之一由相关联的多个模态的模态特征依次拼接形成。

5.根据权利要求1所述的智能硬件多模态级联建模方法，其特征在于，根据机器学习模型建立所述用户意图分析模型。

6.根据权利要求5所述的智能硬件多模态级联建模方法，其特征在于，所述选取用户行为数据，根据所述用户行为数据对所述用户意图分析模型进行自学习校正的步骤包括：

7.根据权利要求1所述的智能硬件多模态级联建模方法，其特征在于，将经过自学习校正的用户意图分析模型进行加权线性组合，得到所述二级级联模型。

8.根据权利要求1所述的智能硬件多模态级联建模方法，其特征在于，还包括：

9.根据权利要求1所述的智能硬件多模态级联建模方法，其特征在于，还包括：

10.一种智能硬件多模态级联建模装置，其特征在于，包括：

模态特征提取模块，用于提取多模态输入信号的模态特征；

二级级联模型建立模块，用于将经过自学习校正的用户意图分析模型进行组合，得到二级级联模型。

11.根据权利要求10所述的智能硬件多模态级联建模装置，其特征在于，所述多模态输入信号包括文字、音频、图像、动作信号中的两个或更多个。

12.根据权利要求10所述的智能硬件多模态级联建模装置，其特征在于，所述标注数据的格式为：

标注目标-模态1的模态特征|..|模态N的模态特征。

13.根据权利要求12所述的智能硬件多模态级联建模装置，其特征在于，所述模态1至模态N的模态特征的至少其中之一由相关联的多个模态的模态特征依次拼接形成。

14.根据权利要求10所述的智能硬件多模态级联建模装置，其特征在于，所述用户意图分析模型建立模块根据机器学习模型建立所述用户意图分析模型。

15.根据权利要求14所述的智能硬件多模态级联建模装置，其特征在于，所述自学习校正模块包括：

16.根据权利要求10所述的智能硬件多模态级联建模装置，其特征在于，所述二级级联模型建立模块将经过自学习校正的用户意图分析模型进行加权线性组合，得到所述二级级联模型。

17.根据权利要求10所述的智能硬件多模态级联建模装置，其特征在于，还包括：

18.根据权利要求10所述的智能硬件多模态级联建模装置，其特征在于，还包括：