CN117762372A

CN117762372A - 一种多模态人机交互系统

Info

Publication number: CN117762372A
Application number: CN202311779578.7A
Authority: CN
Inventors: 李满屯
Original assignee: Foshan Yuchen Electromechanical Technology Co ltd
Current assignee: Foshan Yuchen Electromechanical Technology Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-26

Abstract

本发明涉及人机交互技术领域，具体为一种多模态人机交互系统，包括语音识别模块、手势识别模块和决策与优化模块，其中：语音识别模块用于收集语音数据并进行特征提取，利用长短时记忆网络模型对特征提取后的语音数据进行文本结果和置信度的预测，手势识别模块用于收集用户视频数据，利用卷积神经网络对用户视频数据进行文本结果和置信度的预测，决策与优化模块对语音识别模块和手势识别模块中的文本结果进行比对，根据文本结果是否一致和置信度的高低，确定最终结果，其中，置信度相等，决策与优化模块对语音识别模块和手势识别模块中的算法模型进行优化处理，优化完成再次进行结果比对，不停迭代，直到确定最终结果。

Description

一种多模态人机交互系统

技术领域

本发明涉及人机交互技术领域，具体为一种多模态人机交互系统。

背景技术

传统的人机交互系统通常基于单一的输入方式，如语音或键盘输入，缺少多模态输入的优势。在传统系统中，语音识别或文本输入是主要的用户交互方式，通过将用户的语音转换成文本来解析用户的意图和需求，然而，这种系统存在一定的局限性和劣势。

首先，单一输入方式可能无法全面地捕捉用户的目标和意图。例如，在一些情境中，用户可能同时使用手势或肢体动作来表达自己的需求或意图，单纯依靠语音输入则无法感知到这些信息。这限制了系统对用户意图的准确理解。

其次，传统系统在处理输入的准确性和效率方面可能存在一些问题。语音识别算法可能受到背景噪声或语音口音的影响而产生错误的识别结果，从而导致系统误解用户的意图。此外，文本输入可能存在输入错误或不清楚的情况，需要用户进行更正或澄清，增加了用户和系统之间的交互成本。

另外，传统系统在结果的可靠性和准确性方面存在一定风险。由于单一输入方式的限制，系统很难确定正确的用户意图，容易导致误解和错误的反应。系统无法进行结果的多角度验证和确认，存在误差传递的风险，可能产生误导性的结果。

综上所述，传统的人机交互系统在单一输入方式、准确性和效率、结果可靠性等方面存在一定的劣势。

发明内容

本发明的目的在于提供一种多模态人机交互系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种多模态人机交互系统，其包括语音识别模块、手势识别模块和决策与优化模块，其中：

所述语音识别模块用于收集语音数据并进行特征提取，利用长短时记忆网络模型对特征提取后的语音数据进行文本结果和置信度的预测，其中长短时记忆网络模型的建立包括历史语音数据进行的收集；所述手势识别模块用于收集用户视频数据，视频数据包含用户的手势和肢体动作，利用卷积神经网络模型对用户视频数据进行文本结果和置信度的预测，其中卷积神经网络模型的建立包括历史视频数据的收集；

所述决策与优化模块对语音识别模块和手势识别模块中的文本结果进行比对，文本结果比对一致，确定文本结果为最终结果；

文本结果比对不一致时，决策与优化模块对语音识别模块中的历史语音数据和手势识别模块中的历史视频数据进行数据增强，提高模型预测的置信度，并将语音识别模块和手势识别模块中的置信度进行比对，根据置信度高低选择对应的文本结果作为最终结果，其中，置信度相等，决策与优化模块对语音识别模块中的长短时记忆网络算法进行优化，运用参数剪枝的方法减少模型的大小和计算量，决策与优化模块对手势识别模块中的卷积神经网络进行优化，运用批量归一化提高模型的训练速度和准确性，优化完成再次进行结果比对，不停迭代，直到确定最终结果。

作为本技术方案的进一步改进，所述语音识别模块包括语音采集单元和语音分析单元，所述语音采集单元利用麦克风收集语音数据，并通过模数转换器将模拟信号转化为数字信号数据发送给语音分析单元；所述语音分析单元对语音数字数据进行数据预处理、特征提取并利用长短时记忆网络模型进行文本结果和置信度的预测，将预测结果发送给决策与优化模块。

作为本技术方案的进一步改进，所述手势识别模块包括图像获取单元和图像分析单元，所述图像获取单元利用摄像头收集视频流数据，视频流数据包含用户的手势和肢体动作，并对视频流数据中的图片帧进行图像处理，将处理好的图片数据发送给图像分析单元；所述图像分析单元利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，将预测结果发送给决策与优化模块。

作为本技术方案的进一步改进，所述决策与优化模块包括决策单元和优化单元，所述决策单元接收语音分析单元和图像分析单元发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果；所述优化单元对语音分析单元和图像分析单元中的算法模型进行优化处理。

作为本技术方案的进一步改进，所述语音分析单元对语音数据进行特征提取，具体包括：

将语音信号进行时域分析，将其划分为小的时间窗口，对每个时间窗口内的语音信号进行傅里叶变换，得到语音信号在频域上的频谱分布，在频谱上应用梅尔滤波器组来模拟人耳的感知特性，将连续频率范围划分为一系列梅尔带，每个梅尔带对应一个滤波器系数，用于测量该带内频率的能量，对于每个梅尔带内的能量，采用对数变换，得到梅尔频谱系数，通过进行离散余弦变换，提取主要频率成分，得到最终的梅尔频率倒谱系数作为语音特征。

作为本技术方案的进一步改进，所述图像分析单元利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，具体包括：

使用带有手动标记的手势视频数据来训练卷积神经网络，通过对网络进行反向传播和梯度下降，网络参数逐渐调整以最大化正确分类手势的概率；

卷积神经网络的输入是经过预处理的图像帧，图像帧包括灰度图；

卷积层通过使用多个卷积核对输入图像进行卷积操作，提取图像中的局部特征，每个卷积核检测图像中的不同特征，包括边缘和纹理；

在卷积层之后，使用一个激活函数对卷积结果进行非线性映射，增强网络的非线性建模能力；

池化层用于降低特征图的维度，并提取出具有鲁棒性的特征，通过取每个池化窗口中的最大值来减少特征图的大小；

在卷积和池化层之后，通过全连接层进一步抽取和组合特征，全连接层将特征映射到特定类别的概率上；

输出层采用Softmax激活函数，将网络的输出映射为每个类别的概率分布，对于手势识别任务，每个类别代表一个特定的手势动作。

作为本技术方案的进一步改进，所述决策单元接收语音分析单元和图像分析单元发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果，具体包括：

文本结果比对一致，确定文本结果为最终结果；文本结果比对不一致，将语音分析单元和图像分析单元中的置信度进行比对，语音分析单元的置信度高于图像分析单元的置信度，决策单元选择语音分析单元的输出结果作为最终的决策；图像分析单元的置信度高于语音分析单元的置信度，决策单元选择图像分析单元的输出结果作为最终的决策。

作为本技术方案的进一步改进，所述优化单元对语音分析单元和图像分析单元中的算法模型进行优化处理，具体包括：

优化单元对语音分析单元中的长短时记忆网络算法模型进行优化处理，运用参数剪枝的方法来减少模型的大小和计算量，同时提高模型的推理速度，通过获得长短时记忆模型中的参数，设定一个阈值来评估模型中每个参数的重要性，并将重要性较低的参数剪枝掉，剪枝后的模型将拥有更少的参数，对剪枝后的模型进行重新训练，使其恢复性能，并确保其在测试数据上保持较高的准确性；

优化单元对语音分析单元运用批量归一化来提高模型的训练速度和准确性，通过在每一层的激活函数前，添加批量归一化层，并重新进行模型的训练，在训练过程中，对每个批量的输入数据进行归一化处理，将数据的均值调整为0，方差调整为1，归一化后的数据经过一个可学习的缩放因子和偏移项，以恢复数据的原始范围和偏移，在反向传播过程中，通过计算梯度并根据梯度更新缩放因子和偏移项的参数，使得模型根据数据的统计信息自适应地调整输入的规模和偏移，以进行优化处理。

作为本技术方案的进一步改进，所述决策与优化模块对语音识别模块中的历史语音数据和手势识别模块中的历史视频数据进行数据增强，提高模型预测的置信度，具体包括：

对语音数据进行增强：通过向语音数据添加不同类型和强度的噪声，适应各种嘈杂环境；通过变化语音的语速，增加或减慢语音的讲话速度，用于模拟用户不同的语速并增加语音模型的稳健性；对语音进行音调变化，模拟说话者不同的音高特点，用于提高语音识别的泛化能力；

对手势视频数据进行增强：从不同角度捕捉手势动作，包括旋转、翻转和缩放变换，用于增加模型对用户手势动作的鲁棒性，提高模型在多种视角下的准确性；在视频中添加不同类型的背景，用于模拟真实场景中的背景变化，增加模型对不同背景的适应能力。

与现有技术相比，本发明的有益效果是：

1、该一种多模态人机交互系统收集语音数据并进行特征提取，利用长短时记忆网络模型对特征提取后的语音数据进行文本结果和置信度的预测，收集用户视频数据，视频数据包含用户的手势和肢体动作，利用卷积神经网络对用户视频数据进行文本结果和置信度的预测，比对来自语音和手势识别的结果，从而提高指令的准确性，并在结果不一致的情况下，通过比对置信度来决策最终结果，保证结果的准确性，从而显著提升了系统对指令的正确响应率。

2、该多模态人机交互系统在进行文本结果和置信度结果的比对之后，若都不能确定最终结果，则对语音识别模块和手势识别模块中的算法模型进行优化，对语音识别模块中的长短时记忆网络算法运用参数剪枝的方法减少模型的大小和计算量，对手势识别模块中的卷积神经网络运用批量归一化提高模型的训练速度和准确性，优化完成再次进行结果比对，不停迭代，直到确定最终结果，这种在运行中自我修正和优化的能力，使得系统在实际使用中不断自我提升。

附图说明

图1为本发明的整体模块示意图；

图2为本发明的语音识别模块单元示意图；

图3为本发明的手势识别模块单元示意图；

图4为本发明的决策与优化模块单元示意图。

图中：100、语音识别模块；101、语音采集单元；102、语音分析单元；200、手势识别模块；201、图像获取单元；202、图像分析单元；300、决策与优化模块；301、决策单元；302、优化单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供一种技术方案：一种多模态人机交互系统，包括语音识别模块100、手势识别模块200和决策与优化模块300。

语音识别模块100中的语音采集单元101配置和连接麦克风阵列，确保每个麦克风的位置和朝向设置正确，以获取最佳的音频捕捉效果，当用户开始说话时，麦克风阵列会将声音波形转换为模拟电信号，再通过模数转换器，将音频信号被采样并转化为离散的数字数据，语音采集单元101将转换后的语音数字数据发送给语音分析单元102。

语音分析单元102接收语音采集单元101发送的语音数字数据，首先对该数据进行预处理，具体包括：

增益控制：语音信号的音量存在差异，一些语音可能过于弱或过于响亮，利用增益控制算法来调整语音信号的音量，这有助于确保系统在不同音量水平下都能正常识别和处理语音输入；

频率滤波：语音信号在不同频率上的能量分布具有差异，某些频率范围的噪声可能会对语音识别产生不利影响，利用频率滤波算法应用于语音信号，以削弱或消除特定频率范围内的噪声，提升语音信号在关键频率范围内的可识别性；

回声消除：当语音同时在会议室的扬声器和麦克风中传播时，会产生回声，回声消除算法检测和抵消该回声，进一步提高语音信号的质量。

语音分析单元102在对语音数字数据进行预处理之后，再使用梅尔频率倒谱系数方法对数据进行特征提取，具体包括：

语音分析单元102在对数据进行特征提取后，使用长短时记忆网络算法对特征数据进行文本类型的转换，具体包括：

数据准备：在训练长短时记忆网络模型之前，需要准备大量标注的语音数据，这些数据包含语音片段和对应的文本标签，用于模型的训练过程，同时，将提取的语音特征作为训练样本；

模型搭建：搭建长短时记忆网络模型，其输入是提取的语音特征，在长短时记忆网络模型中，特征序列被逐一输入到网络中，每个时间步都有一个长短时记忆网络单元进行处理，长短时记忆网络模型会学习到输入序列中的时间依赖关系，并逐步构建对应的文本结果；

模型训练：使用标注的语音数据对长短时记忆网络模型进行训练，在训练过程中，模型通过反向传播算法不断调整权重和参数，以最小化预测结果与真实标签之间的差距，训练的目标是使模型能够准确地将提取的语音特征映射到对应的文本结果；

预测结果：长短时记忆网络模型训练完成，使用该模型对新的语音输入进行预测，即语音采集单元101采集到的语音数据，并将提取的语音特征输入到训练好的长短时记忆网络模型中，模型根据学习到的映射关系，输出对应的文本结果，并将文本结果的概率分布作为输出结果的置信度。

语音分析单元102将预测的语音文本结果和语音置信度发送给决策与优化模块300中的决策单元301。

手势识别模块200中的图像获取单元201使用摄像头设备捕获用户的视频数据，视频数据包含用户的手势和肢体动作，在获取视频流数据之后，将对视频流数据中的图片帧进行图像处理，具体包括：

帧提取：从连续的视频流中提取单独的视频帧，帧提取通过设定固定的时间间隔和手势动作进行触发；

降噪：由于视频数据会受到环境噪声或采集设备的干扰，使用中值滤波减少噪声的影响，使图像更清晰；

大小调整：根据手势识别模型的要求，调整图像帧的大小，通过缩放和裁剪方法来实现；

颜色空间转换：将图像帧从原始的颜色空间转换为另一种颜色空间，转换包括灰度化操作；

图像增强：对图像进行增强操作，通过直方图均衡化和对比度增强，以提高图像的对比度和亮度。

图像获取单元201将处理好的图像数据发送给图像分析单元202，图像分析单元202将利用卷积神经网络算法对图像数据进行手势预测，具体包括：

模型训练：使用带有手动标记的手势视频数据来训练卷积神经网络，通过对网络进行反向传播和优化算法(如梯度下降)，网络参数逐渐调整以最大化正确分类手势的概率；

输入层：卷积神经网络的输入是经过预处理的图像帧，这些图像帧是灰度图；

卷积层：卷积层是卷积神经网络的核心组件之一，它通过使用多个卷积核对输入图像进行卷积操作，提取图像中的局部特征，每个卷积核检测图像中的不同特征，包括边缘和纹理；

激活函数：在卷积层之后，使用一个激活函数(如ReLU)对卷积结果进行非线性映射，增强网络的非线性建模能力；

池化层：池化层用于降低特征图的维度，并提取出更具有鲁棒性的特征，最常见的池化操作是最大池化，通过取每个池化窗口中的最大值来减少特征图的大小；

全连接层：在卷积和池化层之后，通过一系列的全连接层进一步抽取和组合特征，全连接层将特征映射到特定类别的概率上；

输出层：输出层采用Softmax激活函数，将网络的输出映射为每个类别的概率分布，对于手势识别任务，每个类别代表一个特定的手势动作。

图像分析单元202将输出的手势动作以文本形式呈现，具体包括：

预定义手势类别列表：在系统中，定义一个手势类别列表，其中包括系统所支持的各种手势动作，例如，“投影仪控制-打开”作为手势类别列表的一项；

利用预定义列表进行分类：在手势检测卷积神经网络的输出中，每个手势类别都有一个对应的概率值，根据概率值，选择概率最高的手势类别作为最终的手势识别结果，并将概率值作为该结果的置信度；

将手势类别转化为文本标签：将识别结果的手势类别与预定义的手势类别列表进行匹配，以获得相应的文本标签，例如，将手势类别“投影仪控制-打开”的类别标签提取出来。

图像分析单元202将预测的图像文本结果和图像置信度发送给决策与优化模块300中的决策单元301。

决策单元301将语音分析单元102和图像分析单元202的输出结果进行比对，具体包括：

如果语音分析单元102和图像分析单元202的输出结果一致，即两个单元都识别出相同的动作和指令，决策单元301将其作为最终的决策结果；

如果语音分析单元102和图像分析单元202的输出结果不一致，决策单元301对语音分析单元102中的历史语音数据和图像分析单元202中的历史视频数据进行数据增强，提高模型预测的置信度，具体包括：

在提高两者的置信度之后，决策单元301将根据置信度评估两个结果的可靠性，其中，如果语音分析单元102的置信度高于图像分析单元202的置信度，决策单元301选择语音分析单元102的输出结果作为最终的决策；如果图像分析单元202的置信度高于语音分析单元102的置信度，决策单元301选择图像分析单元202的输出结果作为最终的决策；

此外，如果两个方法的置信度相等，则启动优化单元302，优化单元302将对语音分析单元102和图像分析单元202中的方法进行优化处理，具体包括：

优化单元302对语音分析单元102中的长短时记忆网络算法模型进行优化处理，运用参数剪枝的方法来减少模型的大小和计算量，同时提高模型的推理速度，通过获得长短时记忆模型中的参数，设定一个阈值来评估模型中每个参数的重要性，并将重要性较低的参数剪枝掉，剪枝后的模型将拥有更少的参数，因此模型的大小和计算量会减小，对剪枝后的模型进行重新训练，以使其恢复性能，并确保其在测试数据上保持较高的准确性；

优化单元302对图像分析单元202运用批量归一化来提高模型的训练速度和准确性，通过在每一层的激活函数前，添加批量归一化层，并重新进行模型的训练，在训练过程中，对每个批量的输入数据进行归一化处理，将数据的均值调整为0，方差调整为1，计算规范化后的数据与可学习参数gamma和beta的乘积以及偏移项，以恢复模型的表达能力，在反向传播过程中，通过计算梯度并更新参数gamma和beta，使得模型根据数据的统计信息自适应地调整输入的规模和偏移，以进行优化处理。

优化单元302在对语音分析单元102和图像分析单元202中的方法进行优化处理后，系统，决策单元301将再次接受语音分析单元102和图像分析单元202的输出结果进行比对，不停迭代，直到确定最终输出结果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种多模态人机交互系统，其特征在于：包括语音识别模块(100)、手势识别模块(200)和决策与优化模块(300)，其中：

所述语音识别模块(100)用于收集语音数据并进行特征提取，利用长短时记忆网络模型对特征提取后的语音数据进行文本结果和置信度的预测，其中长短时记忆网络模型的建立包括历史语音数据进行的收集；所述手势识别模块(200)用于收集用户视频数据，视频数据包含用户的手势和肢体动作，利用卷积神经网络模型对用户视频数据进行文本结果和置信度的预测，其中卷积神经网络模型的建立包括历史视频数据的收集；

所述决策与优化模块(300)对语音识别模块(100)和手势识别模块(200)中的文本结果进行比对，文本结果比对一致，确定文本结果为最终结果；

文本结果比对不一致时，决策与优化模块(300)对语音识别模块(100)中的历史语音数据和手势识别模块(200)中的历史视频数据进行数据增强，提高模型预测的置信度，并将语音识别模块(100)和手势识别模块(200)中的置信度进行比对，根据置信度高低选择对应的文本结果作为最终结果；

其中，置信度相等，此时，决策与优化模块(300)对语音识别模块(100)中的长短时记忆网络算法进行优化，运用参数剪枝的方法减少模型的大小和计算量，决策与优化模块(300)对手势识别模块(200)中的卷积神经网络进行优化，运用批量归一化提高模型的训练速度和准确性，优化完成再次进行结果比对，不停迭代，直到确定最终结果。

2.根据权利要求1所述的多模态人机交互系统，其特征在于：所述语音识别模块(100)包括语音采集单元(101)和语音分析单元(102)，所述语音采集单元(101)利用麦克风收集语音数据，并通过模数转换器将模拟信号转化为数字信号数据发送给语音分析单元(102)；所述语音分析单元(102)对语音数字数据进行数据预处理、特征提取并利用长短时记忆网络模型进行文本结果和置信度的预测，将预测结果发送给决策与优化模块(300)。

3.根据权利要求2所述的多模态人机交互系统，其特征在于：所述手势识别模块(200)包括图像获取单元(201)和图像分析单元(202)，所述图像获取单元(201)利用摄像头收集视频流数据，视频流数据包含用户的手势和肢体动作，并对视频流数据中的图片帧进行图像处理，将处理好的图片数据发送给图像分析单元(202)；所述图像分析单元(202)利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，将预测结果发送给决策与优化模块(300)。

4.根据权利要求3所述的多模态人机交互系统，其特征在于：所述决策与优化模块(300)包括决策单元(301)和优化单元(302)，所述决策单元(301)接收语音分析单元(102)和图像分析单元(202)发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果；所述优化单元(302)对语音分析单元(102)和图像分析单元(202)中的算法模型进行优化处理。

5.根据权利要求2所述的多模态人机交互系统，其特征在于：所述语音分析单元(102)对语音数据进行特征提取，具体包括：

将语音信号进行时域分析，将其划分为小的时间窗口，对每个时间窗口内的语音信号进行傅里叶变换，得到语音信号在频域上的频谱分布；

在频谱上应用梅尔滤波器组来模拟人耳的感知特性，将连续频率范围划分为一系列梅尔带，每个梅尔带对应一个滤波器系数，用于测量该带内频率的能量；

对于每个梅尔带内的能量，采用对数变换，得到梅尔频谱系数，通过进行离散余弦变换，提取主要频率成分；

得到最终的梅尔频率倒谱系数作为语音特征。

6.根据权利要求3所述的多模态人机交互系统，其特征在于：所述图像分析单元(202)利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，具体包括：

7.根据权利要求4所述的多模态人机交互系统，其特征在于：所述决策单元(301)接收语音分析单元(102)和图像分析单元(202)发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果，具体包括：

文本结果比对一致，确定文本结果为最终结果；文本结果比对不一致，将语音分析单元(102)和图像分析单元(202)中的置信度进行比对，语音分析单元(102)的置信度高于图像分析单元(202)的置信度，决策单元(301)选择语音分析单元(102)的输出结果作为最终的决策；图像分析单元(202)的置信度高于语音分析单元(102)的置信度，决策单元(301)选择图像分析单元(202)的输出结果作为最终的决策。

8.根据权利要求4所述的多模态人机交互系统，其特征在于：所述优化单元(302)对语音分析单元(102)和图像分析单元(202)中的算法模型进行优化处理，具体包括：

优化单元(302)对语音分析单元(102)中的长短时记忆网络算法模型进行优化处理，运用参数剪枝的方法来减少模型的大小和计算量，同时提高模型的推理速度，通过获得长短时记忆模型中的参数，设定一个阈值来评估模型中每个参数的重要性，并将重要性较低的参数剪枝掉，剪枝后的模型将拥有更少的参数，对剪枝后的模型进行重新训练，使其恢复性能，并确保其在测试数据上保持较高的准确性；

优化单元(302)对语音分析单元(102)运用批量归一化来提高模型的训练速度和准确性，通过在每一层的激活函数前，添加批量归一化层，并重新进行模型的训练，在训练过程中，对每个批量的输入数据进行归一化处理，将数据的均值调整为0，方差调整为1，归一化后的数据经过一个可学习的缩放因子和偏移项，以恢复数据的原始范围和偏移，在反向传播过程中，通过计算梯度并根据梯度更新缩放因子和偏移项的参数，使得模型根据数据的统计信息自适应地调整输入的规模和偏移，以进行优化处理。

9.根据权利要求1所述的多模态人机交互系统，其特征在于：所述决策与优化模块(300)对语音识别模块(100)中的历史语音数据和手势识别模块(200)中的历史视频数据进行数据增强，提高模型预测的置信度，具体包括：