CN118014084A

CN118014084A - 一种基于大语言模型的多模态交互方法

Info

Publication number: CN118014084A
Application number: CN202410243058.2A
Authority: CN
Inventors: 陆弘远; 韦怡然
Original assignee: Individual
Current assignee: Individual
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-10

Abstract

本发明涉及一种基于大语言模型的多模态交互方法，包括：接收用户输入信息和场景图像信息；将用户输入信息和场景图像信息输入大语言模型，大语言模型根据用户输入信息和/或场景图像信息进行用户情绪感知和场景感知，获取用户情绪信息和场景感知信息，并将用户输入信息与用户情绪信息和场景感知信息进行结合，生成交互内容；大语言模型融入BPE‑MKL算法和图像差值处理模型。本发明能够对大语言模型的输出进行加速。

Description

一种基于大语言模型的多模态交互方法

技术领域

本发明涉及人工智能交互技术领域，特别是涉及一种基于大语言模型的多模态交互方法。

背景技术

大语言模型是指使用海量文本数据训练的深度学习模型，其可以针对输入文本进行相应回到，或生成自然语言文本。随着大语言模型的逐渐成熟，人机交互也不再像过去那样经常出现答非所问，无法生成让用户满意的回答。但是现有大语言模型较为庞大，当进行多轮交互后，若硬件无法满足大语言模型的需求，则会出现回答延迟情况，从而影响用户的交互体验。

发明内容

本发明所要解决的技术问题是提供一种基于大语言模型的多模态交互方法，能够对大语言模型的输出进行加速。

本发明解决其技术问题所采用的技术方案是：提供一种基于大语言模型的多模态交互方法，包括以下步骤：

接收用户输入信息和场景图像信息；

将所述用户输入信息和场景图像信息输入大语言模型，所述大语言模型根据用户输入信息和/或场景图像信息进行用户情绪感知和场景感知，获取用户情绪信息和场景感知信息，并将用户输入信息与用户情绪信息和场景感知信息进行结合，生成交互内容；

其中，所述大语言模型融入BPE-MKL算法和图像差值处理模型，所述BPE-MKL算法在训练时，将数据集中的字符进行合并为句子，将句子级别的Token编码使用字符级别的均值表示作为优化，并通过KL散度将句子级别的损失尽可能与字符级别的损失靠近；所述图像差值处理模型包括两个输入，其中，一个输入为上一帧的图片编码，另一个输入为当前帧与上一帧的差别，在进行推理时，仅计算当前帧和上一帧差别最大的像素点，其他改变不大的像素点通过蒙版进行掩盖不进行计算，图像差值处理模型的输出作为上一帧的图片编码在下一次推理时输入。

所述用户输入信息为文本数据、语音数据、或由大语言模型向用户提供的选项数据，所述场景图像信息包括用户所处环境场景和用户使用软件的相关场景。

所述用户情绪感知是指通过用户感知模型对用户输入信息进行文字情感识别和/或声波情感识别，得到用户情绪信息。

所述场景感知是指通过场景感知模型对场景图像信息进行场景描述、场景分类、目标检测和行为识别得到的场景感知信息。

所述大语言模型还融入韵律预测语音输出模型，所述韵律预测语音输出模型采用语义-韵律信息数据库预测生成的交互内容的韵律信息，并根据预测的韵律信息合成语音，通过音色转换模型对合成语音进行音色转换，得到具备情感和特定音色的情感合成语音。

所述语义-韵律信息数据库通过以下方式建立：

通过自行录制和获取开源数据的方式建立情感语音数据库；

对所述情感语音数据库进行文本转录，并对转录后的文本数据进行清洗和整理；

对转录后的文本数据与语音数据进行音素级别的强制对齐；

以转录后的文本数据中能够引发自然停顿的标点符号为断点，将所述情感语音数据库中与文本数据对应的语音数据划分成若干个分段；

在每个分段中抽取每一帧的基频和强度，并计算每个分段的平均基频和平均强度，同时计算每个分段的语速；

计算来自同一发音人所有分段的基频、强度和语速的平均值，并以此为基准对该发音人所有分段的基频、强度和语速计算差值，并将差值作为分段的韵律信息；

使用语义向量模型计算每个分段的文本数据的语义向量，并与对应的语音数据的韵律信息配对，将配对后的语义向量和韵律信息保存在语义-韵律信息数据库中。

所述韵律预测语音输出模型采用语义-韵律信息数据库预测生成的交互内容的韵律信息，并根据预测的韵律信息合成语音，具体为：

以交互内容中能够引发自然停顿的标点符号为断点，将交互内容划分为若干文本分段；

使用所述语义向量模型计算每个文本分段的语义向量，并从所述语义-韵律信息数据库中找到与计算得到的语义向量最接近的语义向量对应的韵律信息，并将找到的韵律信息作为该文本分段待合成语音的韵律信息；

将交互内容进行重组，并以文本分段为单位，根据文本分段待合成语音的韵律信息设定标签属性值，生成字符串，将字符串输入至语音合成模型，得到合成语音。

所述音色转换模型通过以下方式获得：

通过自行录制和获取开源数据的方式获取具备所期待音色的语音数据；

将所述语音数据作为训练数据，对音色转换模型进行训练，使得训练好的音色转换模型能够实现任意音色之间转换。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明在大语言模型中融入了加速解码过程的BPE-MKL算法，其能够加速大语言模型的输出，同时本发明还将图像的差别作为大语言模型的输入，如此可以使得大语言模型进行更快速更节省资源的输出。本发明还将韵律预测语音输出模型融入大语言模型，能够在进行交互时使得大语言模型的输出更为自然，更像真人。

附图说明

图1是本发明实施方式基于大语言模型的多模态交互方法的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于大语言模型的多模态交互方法，如图1所示，包括以下步骤：

步骤1，接收用户输入信息和场景图像信息。其中，用户输入信息可以为文本数据、也可以为语音数据、还可以为由大语言模型向用户提供的选项数据，场景图像信息包括用户所处环境场景和用户使用软件的相关场景。

步骤2，将所述用户输入信息和场景图像信息输入大语言模型，所述大语言模型根据用户输入信息和/或场景图像信息进行用户情绪感知和场景感知，获取用户情绪信息和场景感知信息，并将用户输入信息与用户情绪信息和场景感知信息进行结合，生成交互内容。

本实施方式中的大语言模型融入BPE-MKL算法和图像差值处理模型。

本实施方式中的BPE-MKL算法在训练时，将数据集中的字符进行合并为句子，将句子级别的Token编码使用字符级别的均值表示作为优化，并通过KL散度将句子级别的损失尽可能与字符级别的损失靠近。

传统BPE切割字符会在数据集上将频繁将字符进行分割(例如，“你好呀，很高兴认识你”来会被切割成十个字符)，本实施方式中采用的BPE-MKL算法会自动观测到本句子在训练集中有很多条，因此将其进行合并，将这句话作为一种新的Token加入解码层，这样就可以将原本十几步的解码操作合并成一步了。然而这样做的问题是加大了训练的难度，因此本实施方式把新的句子级别的Token编码使用字符级别的均值表示作为优化，再利用KL散度进行优化，将句子级别的损失尽可能与原有的字符级别的损失靠近，让它们的输出概率分布更相似。这样本实施方式的BPE-MKL算法将整体大语言模型的解码过程进行了加速，让输出更轻量。

本实施方式中的图像差值处理模型包括两个输入，其中，一个输入为上一帧的图片编码，另一个输入为当前帧与上一帧的差别，在进行推理时，仅计算当前帧和上一帧差别最大的像素点，其他改变不大的像素点通过蒙版进行掩盖不进行计算，图像差值处理模型的输出作为上一帧的图片编码在下一次推理时输入。

传统的多模态大语言模型通常使用完整的一帧进行输入，本实施方式的图像差值处理模型将当前帧和上一帧差别最大的像素点作为输入，这样做的好处是不需要完全计算每一帧的图片，在视频理解的情况下可以节省计算资源，从而确保模型的输出速率。

本实施方式的方法可以应用于情感交流领域，也可以应用于办公领域。

当应用于情感交流领域时，可以通过自动化的数据挖掘方法在论坛上挖掘游戏、视频、以及娱乐相关的热点八卦，用大语言模型生成相关话术并且在相关的软件使用场景下自动触发这些热点八卦，并且让AI自动弹出相应的图片，做到图文结合，让用户有兴趣和AI继续聊下去。还可以通过该方法感知用户的桌面、识别用户在娱乐场景内的状态，比如角色虚拟体生命值归零、玩家没有抽中自己想要的角色、玩家到了新的风景后内心有所感触、玩家与竞技游戏中的队友起了冲突和争执之后需要安慰等、或者用户在视频网站类似Bilibili以及优酷上看了视频软件之后想要和人讨论。通过大语言模型输出相应话术、结合内置记忆让用户觉得AI十分理解用户的心情、能够安慰用户给其带来情绪价值。整个过程中，场景感知还可以通过摄像头感知用户的表情，以此来更好的决定要和用户说什么话，比如在通过图像模型感知到用户不开心的时候可以及时安慰用户等。

当应用于办公领域时，可以通过自动化的数据挖掘方法在网络上搜集用户可能会感兴趣的新闻和时事热点，用大语言模型生成相关话术并且在相关的软件使用场景下自动触发这些热点八卦，并且自动弹出相应的图片，做到图文结合，让用户有兴趣和AI继续聊下去。还可以记忆用户的一些文件存储、照片存储、个人信息、并且可以帮助用户随时调用这些信息、或者是帮忙总结一些文章内容、给一些日程安排上的提示，并结合邮箱的内容以及办公软件的消息帮用户做一些日程上的会议上的安排。

本实施方式中的大语言模型还融入韵律预测语音输出模型，所述韵律预测语音输出模型采用语义-韵律信息数据库预测生成的交互内容的韵律信息，并根据预测的韵律信息合成语音，通过音色转换模型对合成语音进行音色转换，得到具备情感和特定音色的情感合成语音。

其中，语义-韵律信息数据库可以通过以下方式建立：

通过自行录制和获取开源数据的方式建立情感语音数据库。该情感语音数据库包含不同情感状态(如喜、怒、哀、乐等)下不同发音人(如男性、女性、儿童等)说出不同内容(如新闻、故事、对话等)的语音数据。

对该情感语音数据库进行文本转录，并对转录的文本数据进行清洗和整理。该步骤旨在将每个语音数据与其对应的文本内容进行匹配，并去除文本中无关或错误的部分。

使用Montreal ForcedAligner强制对齐工具对文本、语音进行音素级别的强制对齐。该步骤旨在将每个文本数据与其对应的语音数据进行时间上的精确对齐，从而为后续的分段和韵律信息提取提供基础。

以转录文本中能够引发自然停顿的标点符号(例如顿号、逗号、分号、句号、感叹号、问号、省略号等)为断点，将数据库中的所有文本和对应的语音音频划分成若干个分段(segment)，后续的数据分析和模型训练以该种分段为单位进行。该步骤旨在将文本和语音数据按照自然语言的语法和语义进行划分，从而保证每个分段内部的内容连贯和完整，同时避免过长或过短的分段。

在每个分段中，抽取每一帧(帧长25ms，帧移10ms)的基频(pitch)、强度(intensity)数值，并对其进行平均以获得该分段的平均基频和平均强度，同时计算该分段的语速(speech rate)。该步骤旨在从每个语音分段中提取其韵律特征的数值表示，从而为后续的韵律信息计算提供基础。

计算来自同一发音人所有音频分段的基频、强度和语速的平均值，并以此为基准对该发音人所有音频分段的基频、强度和语速值计算差值(例如来自发音人A的音频分段A001的基频均值比该发音人所有音频分段的基频均值高15Hz，则计算该音频分段的基频差值为+15Hz)，以这些差值作为该音频分段的韵律信息。该步骤旨在将每个语音分段的韵律特征相对于其发音人的平均水平进行标准化，从而消除不同发音人之间的差异，同时突出每个语音分段在情感表达上的差异。

将转录文本作为训练数据训练语义向量模型，使用该模型计算每个分段转录文本的语义向量，并与对应音频分段的韵律信息配对保存在语义-韵律信息数据库中。该步骤旨在将每个文本分段的内容用一个固定长度的向量来表示，从而捕捉其语义信息，并与其对应的韵律信息进行关联，从而构建一个包含文本和语音之间映射关系的数据库。

将交互内容以能够引发自然停顿的标点符号(例如顿号、逗号、分号、句号、感叹号、问号、省略号等)为断点划分成若干个分段。该步骤旨在将交互内容按照自然语言的语法和语义进行划分，从而保证每个分段内部的内容连贯和完整，同时避免过长或过短的分段。

使用前一阶段所训练的语义向量模型计算每一文本分段的语义向量，并与语义-韵律信息数据库做比对，选择其中最接近的语义向量所对应的韵律信息作为该分段待合成语音的韵律信息。该步骤旨在根据每个文本分段的语义内容预测其对应的韵律特征，从而实现对文本中不同部分韵律特征的预测能力。

将交互内容重组，以分段为单位，根据上一步所预测出的韵律信息设定！prosody.标签的属性值，生成SSML字符串，提交给Azure TTS服务获取具备分段韵律特征的合成语音。该步骤旨在根据每个文本分段的预测韵律信息生成相应的SSML标签，从而控制语音合成参数(如基频、强度、时长等)，并利用Azure TTS服务生成具备分段韵律特征的合成语音。

本实施方式中的音色转换模型通过以下方式获得：

事先通过自行录制和获取开源数据的方式获取具备所期待音色的语音数据，并以此为训练数据使用SO-VITS4.1框架训练音色转换模型。该步骤旨在根据用户的偏好和需求选择或提供具有特定音色特征的语音数据，并使用SO-VITS4.1框架训练一个能够实现任意音色之间转换的模型。

使用该模型对上一阶段所合成的具备分段韵律特征的语音进行音色转换，获得最终的具备情感和特定音色的合成语音。该步骤旨在根据用户选择或提供的目标音色，使用前一阶段训练好的音色转换模型对上一阶段生成的具备分段韵律特征的合成语音进行音色转换，从而实现对音色特征的调整和改变。

由此可见，本实施方式通过将生成内容划分为不同的分段，并根据每个分段的语义向量预测其对应的韵律信息，从而实现了对生成内容中不同部分韵律特征的预测和生成能力，提高了生成语音的情感表现力和自然度，从而在进行交互时使得大语言模型的输出更为自然，更像真人。

Claims

1.一种基于大语言模型的多模态交互方法，其特征在于，包括以下步骤：

接收用户输入信息和场景图像信息；

将所述用户输入信息和场景图像信息输入大语言模型，所述大语言模型根据用户输入信息和/或场景图像信息进行用户情绪感知和场景感知，获取用户情绪信息和场景感知信息，并将用户输入信息与用户情绪信息和场景感知信息进行结合，生成交互内容；其中，所述大语言模型融入BPE-MKL算法和图像差值处理模型，所述BPE-MKL算法在训练时，将数据集中的字符进行合并为句子，将句子级别的Token编码使用字符级别的均值表示作为优化，并通过KL散度将句子级别的损失尽可能与字符级别的损失靠近；所述图像差值处理模型包括两个输入，其中，一个输入为上一帧的图片编码，另一个输入为当前帧与上一帧的差别，在进行推理时，仅计算当前帧和上一帧差别最大的像素点，其他改变不大的像素点通过蒙版进行掩盖不进行计算，图像差值处理模型的输出作为上一帧的图片编码在下一次推理时输入。

2.根据权利要求1所述的基于大语言模型的多模态交互方法，其特征在于，所述用户输入信息为文本数据、语音数据、或由大语言模型向用户提供的选项数据，所述场景图像信息包括用户所处环境场景和用户使用软件的相关场景。

3.根据权利要求2所述的基于大语言模型的多模态交互方法，其特征在于，所述用户情绪感知是指通过用户感知模型对用户输入信息进行文字情感识别和/或声波情感识别，得到用户情绪信息。

4.根据权利要求2所述的基于大语言模型的多模态交互方法，其特征在于，所述场景感知是指通过场景感知模型对场景图像信息进行场景描述、场景分类、目标检测和行为识别得到的场景感知信息。

5.根据权利要求1所述的基于大语言模型的多模态交互方法，其特征在于，所述大语言模型还融入韵律预测语音输出模型，所述韵律预测语音输出模型采用语义-韵律信息数据库预测生成的交互内容的韵律信息，并根据预测的韵律信息合成语音，通过音色转换模型对合成语音进行音色转换，得到具备情感和特定音色的情感合成语音。

6.根据权利要求5所述的基于大语言模型的多模态交互方法，其特征在于，所述语义-韵律信息数据库通过以下方式建立：

通过自行录制和获取开源数据的方式建立情感语音数据库；

对转录后的文本数据与语音数据进行音素级别的强制对齐；

7.根据权利要求5所述的基于大语言模型的多模态交互方法，其特征在于，所述韵律预测语音输出模型采用语义-韵律信息数据库预测生成的交互内容的韵律信息，并根据预测的韵律信息合成语音，具体为：

以交互内容中能够引发自然停顿的标点符号为断点，将交互内容划分为若干文本分段；使用所述语义向量模型计算每个文本分段的语义向量，并从所述语义-韵律信息数据库中找到与计算得到的语义向量最接近的语义向量对应的韵律信息，并将找到的韵律信息作为该文本分段待合成语音的韵律信息；

8.根据权利要求5所述的基于大语言模型的多模态交互方法，其特征在于，所述音色转换模型通过以下方式获得：