CN117349675B

CN117349675B - 一种多种信息源的多模态大模型构建系统

Info

Publication number: CN117349675B
Application number: CN202311638873.0A
Authority: CN
Inventors: 张卫平; 李显阔; 张伟; 王晶; 王丹
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-01
Anticipated expiration: 2043-12-04
Also published as: CN117349675A

Abstract

本发明公开了一种多种信息源的多模态大模型构建系统，属于人工智能技术领域。所述构建系统包括收集和处理目标人物的多种模态信息，并构建具备该目标人物语言语音特征的自生成式语音大模型。构建系统包括信息采集、处理、模型构建、训练、文本生成、输出和评价模块。通过模型的训练，使模型学习目标人物的语音、语言和情感特征，并生成模拟目标人物语言风格和情感特征的文本。同时，系统中的评价模块在训练过程中评价模型生成的语音和/或语言文本与目标人物特征的差异，并将评价结果反馈到模型训练模块优化模型，并最终获得满足用户要求的多模态大模型。

Description

一种多种信息源的多模态大模型构建系统

技术领域

本发明属于人工智能技术领域，尤其涉及一种多种信息源的多模态大模型构建系统。

背景技术

模态是指一些表达或感知事物的方式，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

相较于图像、语音、文本等多媒体(Multi-media)数据划分形式，“模态”是一个更为细粒度的概念，同一媒介下可存在不同的模态。例如，可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。多模态即是从多个模态表达或感知事物，区别于以往人工智能大模型大部分采用了纯文字形式进行构建的方式，多模态机器学习则是从包括多种模态的数据中学习并且提升大模型自身的算法。这其中涉及多模态数据的表征、翻译、对齐、融合以及协同学习，目前相关领域急切需要提出更为高效以及兼容性更强的多模态大模型构建方法以及构建系统的技术方案，以进一步发展人工智能的更多应用。

根据已公开的技术方案，公告号为CN107340859B的技术方案提出一种多模态虚拟机器人的多模态交互方法，其通过识别用户输入的多模态信息并以三维的虚拟形象进行信息的反馈以形成与用户的互动；公开号为WO2023277722A1的技术方案提出一种多模态神经网络模型，通过设置有多模态神经网络设置编码器、解码器等功能单元，使得各种模态的信息可以被分别处理并进行高效融合；公开号为US20230125036A1的技术方案提出一种处理用户多模态输入的交互系统，用户可以采用多种模态作为向系统输入指令的方式，并由交互系统处理这些用户输入后对后端的应用程序进行控制以实现用户的指令。

以上技术方案均提出应用能处理多模态输入的模型的应用方式，但对于这种能处理多模态信息的大模型的构建方式以及训练方式，目前提及的技术方案不到，并且无法进行更广泛的推广应用。因此尚需要提出更为有效的构建技术方案。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

发明内容

本发明的目的在于，公开了一种多种信息源的多模态大模型构建系统，属于人工智能技术领域。所述构建系统包括收集和处理目标人物的多种模态信息，并构建具备该目标人物语言语音特征的自生成式语音大模型。构建系统包括信息采集、处理、模型构建、训练、文本生成、输出和评价模块。通过模型的训练，使模型学习目标人物的语音、语言和情感特征，并生成模拟目标人物语言风格和情感特征的文本。同时，系统中的评价模块在训练过程中评价模型生成的语音和/或语言文本与目标人物特征的差异，并将评价结果反馈到模型训练模块优化模型，并最终获得满足用户要求的多模态大模型。

本发明采用如下技术方案：

一种多种信息源的多模态大模型构建系统，所述构建系统基于一个目标人物进行多模态信息的收集和处理，并构建具备所述目标人物的语言语音特征的自生成式语音大模型；所述构建系统包括：

信息采集模块，被配置为采集目标人物的多种模态信息，所述多种模态信息包括语音信息、图像信息和文本信息；

信息处理模块，被配置为对所述多模态信息进行预处理，所述预处理包括语音识别、图像分类、文本分词、情感特征识别，并对每个特征的表现的进行数值量化，获得预处理信息；

模型构建模块，被配置为基于所述预处理信息构建初始模型；

模型训练模块，被配置为训练所述初始模型，通过训练使所述初始模型学习目标人物的语音、语言和情感特征，从而获得一个或以上的预训练模型；

文本生成模块，被配置为利用所述预训练模型生成模拟目标人物语言风格和情感特征的文本；

输出模块，被配置为使用语音合成技术，读出由所述文本生成模块所生成的文本；

其中，所述构建系统还包括：

评价模块，被配置为在模型训练过程中，评价所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异；其后，将评价结果反馈到所述模型训练模块，以减少所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异为目标，继续对所述预训练模型进行训练以优化预训练模型；

优选地，所述信息处理模块包括文本特征提取单元，所述文本特征提取单元被配置为对目标人物的语言文本进行分词，生成两两文本记录对，并提取文本特征，包括判断文本记录中的词元在配对记录中是否出现，以及词元的相似度分数等。

优选地，所述信息处理模块还包括语音特征提取单元，被配置为对目标人物的语音进行特征提取，获得语音特征；

其中，所述语音特征提取单元，包括

采用语音识别技术，获取语音的字面文本，用于分析目标人物的语音的以下一项或多项特征：音高特征、语速特征、语调特征、音色特征等语音参数；还包括

采用视频数据，使用唇形分析、口形匹配技术，提取目标人物的发音口形特征；

优选地，所述评价模块包括：

评价模型：用于评价所述预训练模型的生成内容；

模型训练单元，用于训练所述评价模型；

评分单元，用于针对目标人物语音样本，使用经训练的模型生成语音相似度分数；

优选地，所述评价模型由所述模型构建模块利用所提取的文本特征以及语音特征构建；并且，所述评价模型包括文本评价子模型和语音评价子模型；

其中，所述文本评价子模型以及所述语音评价子模型均包括采用卷积神经网络层次结构并包含跳跃连接；

优选地，所述评价模型包括将目标人物所具有的多个特征视为独立的变量，记为C₁，C₂， ...， C_i，每个变量的数值对应于特征量化后的数值；

设定目标人物第i个特征C_i的实际值为x_i，由所述评价模型计算一个预训练模型的生成内容中该特征C_i的评价值为y_i；定义一个函数L如下：

；

上式中，w_i为对应于特征C_i的权重值，在所述预训练模型的训练过程中不断优化后设定；w_{0_i}为由用户根据自身对特征C_i的关注程度进行自定义；λ₁和λ₂为正则化参数；

通过在训练所述预训练模型中找到一组权重值w₁，w₂，...，w_i，使得函数L的数值尽可能小；并且进一步通过正则化参数λ₁和λ₂的调整，使函数L具备足够泛化能力，并且使所述预训练模型具备生成的内容满足用户对其中一个或多个特征的偏好的能力；

进一步的，提出一种多种信息源的多模态大模型构建方法；所述一种多种信息源的多模态大模型构建系统；所述构建方法包括以下步骤：

S100：采集目标人物的多种模态信息，所述多种模态信息包括语音信息、图像信息和文本信息；

S200：对所述多模态信息进行预处理，所述预处理包括语音识别、图像分类、文本分词、情感特征识别，并对每个特征的表现进行数值量化，获得预处理信息；

S300：基于所述预处理信息构建初始模型；

S400：训练所述初始模型，通过训练使所述初始模型学习目标人物的语音、语言和情感特征，从而获得一个或以上的预训练模型；

S500：利用所述预训练模型生成模拟目标人物语言风格和情感特征的文本；

并且，还包括采用以下步骤用于验证和优化所述预训练模型，以获得合乎用户要求的多模态大模型；

S600：使用语音合成技术，读出由所述文本生成模块所生成的文本；

S700：在模型训练过程中，评价所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异，其后，将评价结果反馈到所述模型训练模块，以减少所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异为目标，继续对所述预训练模型进行训练以优化预训练模型。

本发明所取得的有益效果是：

本发明的构建系统能够接收并处理多种模态的信息，例如语音、图像和文本，从而使所构建的大模型能够生成丰富的、多维度的人物特征表示；这种构建方式不仅能够更全面地理解和学习目标人物的特性，也可以在各种模态之间实现互补和增强，从而提升模型的生成质量和实用性；

本发明的构建系统通过设置评价模块，可以在训练过程中自我评价和调整模型性能；这种反馈机制使模型有能力自我优化和改进，大大提升了训练效率和模型质量；此外，自我优化机制也使模型具有良好的鲁棒性和泛化能力，能够应对各种复杂和变化的应用场景；

本发明的构建系统以及构建方法可以根据目标人物的具体特性进行高度自定义的训练和生成，使生成的文本能够准确模拟目标人物的语言风格和情感特征；这种高度自定义的能力使得所构建的大模型在各种个性化和定制化的应用场景中都具有很高的价值，例如虚拟助手、语音合成、智能客服等。

本发明的本发明的管理系统中各软、硬件部分采用了模块化设计，方便今后的升级或者更换相关的软、硬件环境，降低了使用的成本。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

序号说明：10-信息采集模块；20-信息处理模块；30-模型构建模块；40-模型训练模块；50-文本生成模块；60-输出模块；70-评价模块；701-评价模型；702-模型训练单元；703-评分单元；100-服务器；102-网络；200-终端；500-计算机系统；502-总线；504-处理器；506-主存储器；508-只读存储器；510-存储设备；512-显示器；514-输入装置；516-光标控制设备；518-网络设备；

图1为本发明所述构建系统的示意图；

图2为本发明实施例中所述构建系统的应用环境的示意图；

图3为本发明实施例中应用的构建步骤的示意图；

图4为本发明实施例中所述评价模型的架构示意图；

图5为本发明实施例中所述计算机系统的示意图。

具体实施方式

为了使得本发明的目的技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统、方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内。包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位。以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一：对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释：

语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

语音情感分类：语音情感分类是利用语音信号分析人物所表达的情绪状态的技术。语音情感分类同样可以判断说话人的情感。其基本原理是，不同情绪状态下，人的声音表达方式存在区别，这些差异包含在语音的音高、音调、音色、语速等参数中。具体来说，语音情感分类可通过训练模型学习不同情绪对应的语音特征。首先，收集表达不同情绪(如快乐、悲伤、愤怒等)的语音样本，并进行参数化表示，提取语音频谱特征、基频、音调曲线等特征。然后，使用这些带标签的语音样本训练分类模型，如支持向量机、深度神经网络等。模型可学习不同情绪对应的语音特征模式。在语音情感预测阶段，对输入语音同样提取声学特征，然后输入分类模型进行情感判断。通常会持续追踪一个人的语音序列，综合判断其稳定的情感状态。与单帧图像分类不同，语音情感判断需要关注时间维度上各个语音参数的变化。

人工智能：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及人工智能的机器学习/深度学习、计算机视觉技术、自然语言处理和语音技术等技术，具体通过如下实施例进行说明。

如附图1所示，示例性地提出一种多种信息源的多模态大模型构建系统；所述构建系统基于一个目标人物进行多模态信息的收集和处理，并构建具备所述目标人物的语言语音特征的自生成式语音大模型；所述构建系统包括：

信息采集模块10，被配置为采集目标人物的多种模态信息，所述多种模态信息包括语音信息、图像信息和文本信息；

信息处理模块20，被配置为对所述多模态信息进行预处理，所述预处理包括语音识别、图像分类、文本分词、情感特征识别，并对每个特征的表现的进行数值量化，获得预处理信息；

模型构建模块30，被配置为基于所述预处理信息构建初始模型；

模型训练模块40，被配置为训练所述初始模型，通过训练使所述初始模型学习目标人物的语音、语言和情感特征，从而获得一个或以上的预训练模型；

文本生成模块50，被配置为利用所述预训练模型生成模拟目标人物语言风格和情感特征的文本；

输出模块60，被配置为使用语音合成技术，读出由所述文本生成模块所生成的文本；

其中，所述构建系统还包括：

评价模块70，被配置为在模型训练过程中，评价所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异；其后，将评价结果反馈到所述模型训练模块，以减少所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异为目标，继续对所述预训练模型进行训练以优化预训练模型；

其中，所述语音特征提取单元，包括

优选地，所述评价模块包括：

评价模型：用于评价所述预训练模型的生成内容；

模型训练单元，用于训练所述评价模型；

；

进一步的，提出一种多种信息源的多模态大模型构建方法，所述构建方法应用于所述一种多种信息源的多模态大模型构建系统；如附图3所示，所述构建方法包括以下步骤：

S300：基于所述预处理信息构建初始模型；

S700：在模型训练过程中，评价所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异，其后，将评价结果反馈到模型训练模块，并重复步骤S500，以减少所述预训练模型所生成的语音和/或语言文本与目标人物的特征的差异为目标，继续对所述预训练模型进行训练以优化预训练模型；

进一步的，如附图2所示，示例性地提供应用所述构建系统的一种应用环境的示意图，该应用环境可以至少包括服务器100和终端200；在实际应用中，服务器100和终端200可以通过有线或无线通信方式进行直接或间接地连接，以实现终端200与服务器100间的交互，本发明在此不做限制；

在一些示例性的实施例中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器；具体地，服务器可以包括实体设备，可以具体包括有网络通信单元、处理器和存储器等等，也可以包括运行于实体设备中的软体，可以具体包括有应用程序等；本申请实施例中，服务器100可以用于提供初始生成模型的预训练服务，以得到目标预训练模型；或者也可以提供目标预训练模型的文本生成训练服务，以生成目标文本生成模型；或者还可以用于基于目标文本生成模型，对输入图像和对应的输入文本进行输出文本的生成服务，输入文本和输出文本为对应的前后文，例如输入图像和图像标题的前半句，输出图像标题的后半句，或输入图像和图像描述的前段语句，输出图像描述的后段语句，或输入图像和对话上文文本，输出对话下文文本等；或者还可以接收用户提交的输入图像和对应的语音，并对其进行语音处理，得到对应的输入文本；

在一些示例性的实施例中，终端200可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能电视、智能音箱、智能可穿戴设备、车载终端设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等；本申请实施例中，终端200可以用于接收用户提交的输入图像、语音、视频或者文本，并将其发送至服务器100，以进行大模型的构建并应用构建好的大模型；

并且，服务器100与终端200可以通过网络102进行通讯连接以进行数据传输；网络102可以是有线网络或者无线网络的一种或多种；网络102可以为处于异地的服务器100与终端200提供远程连接，以使得终端200可以在不同的物理地点应用所述构建系统进行大模型的构建；

此外，需要说明的是，附图2所示的仅仅是一种示例性的应用环境，该应用环境可以包括更多或更少的节点，本申请在此不做限制；

进一步的，示例性地说明信息采集模块10的功能；所述信息采集模块10主要用于收集目标人物的多种模态信息，为后续模块的处理和模型构建提供数据支持；信息采集模块10可以采用多种方式获取目标人物的语音、图像、视频和文本数据；

优选地，语音数据可以通过录音设备采集目标人物在不同场景下的自然语音；为获取高质量语音数据，录音设备可采用向麦克风阵列以获取全向音频;也可以使用可佩戴设备采集第一视角语音；采集过程中，还需要记录语音对应的背景音频以及元信息；录制的语音数据将进行数字化编码及标注，作为模型训练的数据集；

图像信息可通过目标人物许可，在其日常生活中采集图像；此外，可以通过图像搜索引擎、社交平台等公开渠道获取目标人物图像资料，这些图像也将标注姿态、场景等信息；目标人物的视频数据亦可作为图像源，进行关键帧提取；

文本数据来源包括目标人物的日记、书信、讲话稿等语言记录，以及网络上的博客、留言等文本；这些文本将进行预处理，包括自动语音识别、文本分类、内容标注等；

所采集的多模态数据将进行关联标注，例如同一时间段的语音、图像数据将打上同一标签，关联目标人物状态；数据采集模块输出经处理的结构化多模态数据集，输入到后续的模型训练模块；

进一步的，信息处理模块20的作用是对采集到的多模态数据进行预处理，以提取有效的语音和语言特征，为后续的模型构建提供处理后的数据；

所述信息处理模块20包含语音处理单元和文本处理单元；语音处理单元会将录制的语音进行自动语音识别，获取语音的文本信息；同时，提取语音的声学特征参数，如音高、音色、音量、语速等；这可以采用语音信号处理技术，通过傅立叶变换等得到语音频谱特征；还可以使用深度学习技术，构建卷积神经网络自动学习语音特征表达式；

文本处理单元对目标人物的文字语料进行自然语言处理，包括分词、词性标注等；同时使用词向量技术获取文本的语义特征表达式；也可以应用情感分析算法判断文本所表达的情绪倾向；获得的语音和文本特征将进行关联和融合，构建描述目标人物语言风格和情感的多模态特征表示，作为后续生成模型的训练数据；

信息处理模块20输出经结构化表示的语音和文本数据，作为模型构建模块的输入；

示例性地，模型构建模块30的作用是在信息处理模块输出语音和文本特征之后，构建初始的生成模型；

模型构建模块30可以采用编码器-解码器结构建立序列到序列的生成模型；其中，编码器通过递归神经网络或卷积神经网络学习输入的多模态特征表达式，得到特征的高维隐层表示；解码器以此为条件，也使用循环神经网络生成文本或语音序列，实现语言模型的学习；

另一种方法是采用变量自动编码器架构；其含有输入层、编码层、潜在层和解码层；输入层接收处理后的数据，编码层学习数据分布并输出潜在特征；解码层则以此重构原始输入，实现端到端的非监督特征学习；模型构建模块还需要设计具体的损失函数，用于训练过程中优化模型参数；可以使用最大似然估计、策略梯度、对抗训练等算法；损失函数需同时关注语音和文本两个模态的特征匹配；此外，构建模块中还需设定模型结构，如循环网络的层数、节点数等超参数；可以使用网格搜索、随机搜索等方式调参，找到最优模型配置；

模型构建模块30输出的是初步学习到目标人物语音语言特征的初始生成模型；该模型将传入后续的训练优化模块中，得到最终可用于语音语言生成的预训练模型；

模型训练模块40的作用是利用构建好的初始生成模型，使用训练数据对其进行优化，使其能够模拟目标人物的语音和语言特征；

模型训练模块40将采用预处理后的数据，包括语音特征和文本特征，以及对应的语音、文本序列，依次输入初始模型进行训练；在训练过程中，会计算模型对真实数据的重构损失，并通过反向传播算法更新模型的参数，使损失函数最小化；

训练可以采用监督学习和无监督学习相结合的方式；对于有标注的语音和文本数据，可以进行监督训练，直接优化重构语音语言的损失；而对于无标注数据，则可以通过自监督方式预训练模型；例如使用预测自编码框架，让模型学习复原隐藏的语音文本片段；

训练过程会设置一定的迭代轮数；通常需要多轮训练才能让模型收敛，充分学习目标人物的数据分布；此外还需要调节训练超参数，如批大小、学习率等；训练模块支持使用GPU进行加速；

模块输出是经训练优化后的生成模型；该模型已经学会模仿目标人物的语言风格和情感特征；其可以输入任意文本条件，合成具备个性化风格的语音；也可以自由生成模仿目标人物语言风格的新文本；

在模型训练模块输出预训练模型后，可利用该模型进行文本生成；文本生成模块将首先随机采样一个文本序列作为生成的起始条件，然后传入预训练模型中递归生成字词，从而产生一段连续的文本；为使生成文本具有目标人物的语言风格，生成过程中将综合模型学习到的词汇、句式等语言特征；

接下来，可以通过引入控制代码的方式，对生成文本进行情感赋予；例如在文本前添加关于“HAPPY”代码，可让模型生成带欢乐情绪的正面语气文本；其他代码对应其他情感，如“SAD”表示悲伤；模型将结合训练中的语音文字情感匹配知识，使文本符合相应情感，并且根据大模型中关于情感的多维参数设定，输出情感所具有的程度；

最后，输出模块使用语音合成技术，将生成的文本转换为自然语音；其将逐字进行语音合成，并考虑文本中的标点、语气等信息调整语调、语速，最终输出模拟目标人物在不同情绪下的语音；

通过该流程，即实现了利用预训练模型自定义生成STAMP个性化文本，又进行情感控制，最后输出富有情感的个性化语音。

实施例二：本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进；

对于已生成的预训练模型的生成效果，需要进行多次优化调整以实现最终大模型的输出效果符合用户预期；因此需要使用所述评价模块70进行预训练模型的评价，并将此评价反馈到所述模型训练模块40；

评价模块70的作用是评估预训练模型生成的语音和文本内容是否能够准确模拟目标人物的语音语言特征；评价模块包含三个主要组件：

评价模型701：该模型使用模型构建模块提取的语音特征和文本特征进行构建，包含文本评价子模型和语音评价子模型；其中，文本评价子模型和语音评价子模型都采用了卷积神经网络的层次结构，并包含跳跃连接；这种CNN架构可以学习对语音和文本的判别特征；

示例性地，文本评价子模型包含一个文本分类器，用于判断生成文本与真实文本的相似度，文本分类器采用卷积神经网络结构，可以高效对文本进行特征提取，使用卷积层、池化层和全连接层层级递进，逐步抽象语义特征；跳跃连接帮助网络学习多级语言特征；文本分类器的训练需要大量真实文本和生成文本进行监督学习，以获得区分文本真伪的判别能力；

针对语音，评价模型701则以语音编码器和语音判别器组成；语音编码器抽象表示语音特征；语音判别器判断编码器输出与目标语音的差异，其包含多个全连接层，可以进行语音真伪特征判别；此外还有语音回归器预测语音参数；参数优化器协调各模块训练；判别器和回归器的误差作为反馈，调整模型参数；

文本评价子模型和语音评价子模型共同组成了评价模型701，可以对生成内容的语音和语言层面进行评判，输出内容的真实度分数或置信度，以指导模型的进一步优化；

模型训练单元702：该单元使用目标人物的真实语音和文本数据来训练评价模型701，使其学习区分目标人物数据和模型生成数据的判别功能；训练过程需要设计判别损失函数来优化模型；

评分单元703：该单元使用训练好的评价模型701，对预训练模型生成的语音进行评分；将生成语音和目标语音输入评价模型701，比较其在判别模型中的输出差异，以得到语音相似度分数；分数越高表示生成语音越接近目标语音；

评价模块70的评分结果可以反馈给预训练模型，指导其继续优化以提高生成语音/文本的真实度；该模块实现了对生成内容质量的评估和验证；

进一步的，在本发明所提出的构建系统中，用户可以根据自己的喜好来调节模型的参数；并且利用一个函数L计算这种调节的结果并帮助优化大模型的构建；

在关于L的计算式中：

；

函数的第一部分，即：

，

表示模型输出y和目标值x之间的平方误差；w_i是每一个输入特征的权重，即代表了这个特征在预测中的重要性；这部分的目标是最小化模型的预测误差；如果用户想要根据自己的喜好调节大模型中关于情感的某个参数的权重，他可以通过调节对应的w_i来达到目的；例如，如果用户认为情感特征在模型预测中的重要性被低估了，其可以增大对应的w_i；反之，如果用户认为情感特征的重要性被高估了，用户可以减小对应的w_i；在训练过程中，模型会自动调整w_i，使得损失函数L最小；

优选地，参数w_{0_i}在函数L中表示权重w_i的预设值；在实际应用或训练过程中，用户通过设定w_{0_i}可以对某些特征的权重赋予人为的数值，以使得这部分的特征变得对大模型的输出的影响发生一定的改变；

函数的第二部分和第三部分，即：

，

是正则化项；正则化项的目的是防止过拟合，即模型过于复杂，以至于在训练集上表现很好，但在测试集或者新的数据上表现不佳；其中，

，

是L1正则化项，它的目的是产生稀疏的特征权重，λ₁是L1正则化的强度参数，λ₁越大，产生的特征权重越稀疏；进一步的，这一项的目的是使得权重w_i的最终值尽可能接近于原始或预设值w_{0_i}；这样做的目的是为了引入一些先验知识或者约束，例如，如果用户知道某些特征应该比其他特征更重要，用户可以通过设定一个较高的w_{0_i}来表示这一点；

值得注意的是，λ₁是一个调节参数，用于控制正则化项的强度；如果λ₁值较大，那么模型会更强烈地倾向于让权重w_i接近于w_{0_i}；如果λ₁值较小，那么模型在训练过程中可能会更多地考虑减小预测误差，而不是让权重接近于预设值；

进一步的，对于第二部分：

，

是L2正则化项，它的目的是防止特征权重w_i过大；λ₂是L2正则化的强度参数，λ₂越大，特征权重w_i越小；

在实际应用中，用户可以根据需要调节λ₁和λ₂的值，来控制模型的复杂度和预测性能；例如，如果用户发现模型在训练集上表现很好，但在测试集上表现不佳，可能是因为过拟合，用户或者相关技术人员可以增大λ₁和λ₂的值，使得模型更加简单；反之，如果用户或者相关技术人员发现模型在训练集上表现不佳，可能是因为欠拟合，因此可以减小λ₁和λ₂的值，使得模型更加复杂。

实施例三：本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进：

示例性地，附图5描绘了其中可以实现本文描述本文所述构建系统中所述服务器或终端的一种计算机系统500的示意图；

其中，计算机系统500包括总线502或用于传送信息的其他通信机制、与总线502耦合用于处理信息的一个或多个处理器504；处理器504可以是例如一个或多个通用微处理器；

计算机系统500还包括主存储器506，例如随机存取存储器（RAM）、高速缓存和/或其他动态存储设备，其耦合到总线502用于存储要由处理器504执行的信息和指令；主存储器506还可以用于在由处理器504执行的指令的执行期间存储临时变量或其他中间信息；这些指令当存储在处理器504可访问的存储介质中时，将计算机系统500呈现为被定制为执行指令中指定操作的专用机器；

计算机系统500还可以包括耦合到总线502的只读存储器（ROM）508或其他静态存储设备，用于存储处理器504的静态信息和指令；当中例如磁盘、光盘或USB驱动器（闪存驱动器）等的存储设备510将耦合到总线502以用于存储信息和指令；

并且进一步的，耦合到总线502还可以包括用于显示各种信息、数据、媒体等的显示器512、用于允许计算机系统500的用户控制、操纵计算机系统500和/或与计算机系统500交互的输入装置514；

优选的一种与所述管理系统进行交互的方式可以是通过光标控制设备516，例如计算机鼠标或类似的控制/导航机制；

进一步的，计算机系统500还可以包括耦合到总线502的网络设备518；其中网络设备518可以包括例如有线网卡、无线网卡、交换芯片、路由器、交换机等部件；

一般而言，本文所使用的词语“引擎”、“组件”、“系统”、“数据库”等可以指硬件或固件中体现的逻辑，或者指软件指令的集合，可能具有条目以及退出点，以诸如Java、C或C++的编程语言编写；软件组件可以被编译并链接成可执行程序，安装在动态链接库中，或者可以用解释型编程语言(例如BASIC、Perl或Python)来编写；应当理解，软件组件可以从其他组件或从它们自身调用，和/或可以响应于检测到的事件或中断而被调用；

配置为在计算设备上执行的软件组件可以在计算机可读介质上提供，例如光盘、数字视频盘、闪存驱动器、磁盘或任何其他有形介质，或者作为数字下载（并且可以最初存储）采用压缩或可安装格式，需要在执行之前安装、解压缩或解密）；这样的软件代码可以部分或全部存储在执行计算设备的存储器设备上，以供计算设备执行；软件指令可以嵌入固件中，例如EPROM。还应当理解，硬件组件可以由连接的逻辑单元（例如门和触发器）组成，和/或可以由可编程单元（例如可编程门阵列或处理器）组成；

计算机系统500包括可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术，所述程序逻辑与计算机系统相结合使得计算机系统500成为专用的计算设备；

根据一个或多个实施例，本文的技术由计算机系统500响应于处理器504执行主存储器506中包含的一个或多个指令的一个或多个序列而执行；这样的指令可以从诸如存储设备510之类的另一存储介质读入主存储器506；主存储器506中包含的指令序列的执行使得处理器504执行本文描述的处理步骤；在替代实施例中，可以使用硬连线电路来代替软件指令或与软件指令组合；

如本文所使用的术语“非暂时性介质”和类似术语指的是存储使机器以特定方式操作的数据和/或指令的任何介质；这样的非暂时性介质可以包括非易失性介质和/或易失性介质；非易失性介质包括例如光盘或磁盘，例如存储设备510；易失性介质包括动态存储器，例如主存储器506；

其中，非暂时性介质的常见形式包括例如软盘、软盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、任何具有孔图案的物理介质、RAM、PROM 和 EPROM、FLASH-EPROM、NVRAM、任何其他存储芯片或盒以及其网络版本；

非瞬态介质不同于传输介质，但可以与传输介质结合使用；传输介质参与非瞬态介质之间的信息传输；例如，传输介质包括同轴电缆、铜线和光纤，包括构成总线502的电线；传输介质还可以采用声波或光波的形式，例如无线电波和红外数据通信。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种多种信息源的多模态大模型构建系统，其特征在于，所述构建系统基于一个目标人物进行多模态信息的收集和处理，并构建具备所述目标人物的语言语音特征的自生成式语音大模型；所述构建系统包括：

其中，所述构建系统还包括：

所述评价模块包括：

评价模型：用于评价所述预训练模型的生成内容；

模型训练单元，用于训练所述评价模型；

所述评价模型由所述模型构建模块利用所提取的文本特征以及语音特征构建；并且，所述评价模型包括文本评价子模型和语音评价子模型；

所述评价模型包括将目标人物所具有的多个特征视为独立的变量，记为C₁，C₂， ...，C_i，每个变量的数值对应于特征量化后的数值；

；

通过在训练所述预训练模型中找到一组权重值w₁，w₂，...，w_i，使得函数L的数值尽可能小；并且进一步通过正则化参数λ₁和λ₂的调整，使函数L具备足够泛化能力，并且使所述预训练模型具备生成的内容满足用户对其中一个或多个特征的偏好的能力。

2.如权利要求1所述构建系统，其特征在于，所述信息处理模块包括文本特征提取单元，所述文本特征提取单元被配置为对目标人物的语言文本进行分词，生成两两文本记录对，并提取文本特征，包括判断文本记录中的词元在配对记录中是否出现，以及词元的相似度分数。

3.如权利要求2所述构建系统，其特征在于，所述信息处理模块还包括语音特征提取单元，被配置为对目标人物的语音进行特征提取，获得语音特征；

其中，所述语音特征提取单元，包括采用语音识别技术，获取语音的字面文本，用于分析目标人物的语音的以下一项或多项特征：音高特征、语速特征、语调特征、音色特征；还包括采用视频数据，使用唇形分析、口形匹配技术，提取目标人物的发音口形特征。

4.一种多种信息源的多模态大模型构建方法，其特征在于，所述构建方法应用于如权利要求3所述一种多种信息源的多模态大模型构建系统；所述构建方法包括以下步骤：

S300：基于所述预处理信息构建初始模型；

5.一种计算机系统，其特征在于，所述计算机系统包括：处理器、存储器和总线；所述存储器存储有所述处理器可执行的机器可读指令，当所述计算机系统运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求4所述一种多种信息源的多模态大模型构建方法的步骤。