CN116306317A

CN116306317A - 一种基于人工智能的aigc自动建模系统

Info

Publication number: CN116306317A
Application number: CN202310530137.7A
Authority: CN
Inventors: 张卫平; 吴茜; 李显阔; 王丹; 张伟
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-06-23
Anticipated expiration: 2043-05-12
Also published as: CN116306317B

Abstract

本发明提供了一种基于人工智能的AIGC自动建模系统，AIGC自动建模系统包括服务器、数据处理模块、特征提取模块、AIGC模块，数据处理模块用于对原始需求数据进行预处理，形成文字描述数据，特征提取模块用于对文字描述数据进行特征提取，AIGC模块根据特征提取模块提取的特征生成相适配的模型，并对相适配的模型进行评估，形成评估指数，若不满足设定的评估条件，则触发对生成的模型进行调整；本发明通过AIGC模块对生成相适配的模型进行评估，并根据评估的结果调整模型，以提升生成相适配的模型的精准性和可靠性。

Description

一种基于人工智能的AIGC自动建模系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的AIGC自动建模系统。

背景技术

随着人工智能技术的不断发展，自然语言处理、图像识别和自动推荐等技术已经得到广泛应用。AIGC，全名“AIgeneratedcontent”，又称生成式AI，意为人工智能生成内容，这个技术可以自动分析和理解文本、图片和视频等多种类型的数据，并根据数据自动生成数学模型，从而实现自动化建模。

如CN111625639B现有技术公开了一种基于多轮响应生成的上下文建模方法，人机对话，是人工智能领域的一个子方向，通俗的讲就是让人可以通过人类的语言即自然语言与计算机进行交互。而多回合对话在日常生活中更为广泛，并且对上下文一致性提出了更严格的要求。在多回合方案中，响应生成不仅应依赖于最新的用户陈述(查询)，还应与历史陈述(上下文)保持一致。因此，如何对上下文进行建模并进一步有利于响应生成过程是实现一致的多回合对话的关键。

另一种典型的如CN112256857A的现有技术公开的一种基于图注意力机制的对话历史建模方法，由于对话往往是多轮对话，所以涉及到对话历史的建模问题。传统的方法将当前轮次之前的对话历史拼接为一个长句子，输入到深度模型进行建模。但是人类对话的话题是动态多样的，并不是历史对话中的所有信息都与当前轮对话相关。因此不进行选择的使用所有对话历史中的信息会引入噪音，影响对话生成模型的效果。

为了解决本领域普遍存在建模精度差、无法评估、无法自适应调整、上下文协同性差、无法过滤干扰和智能程度低等等问题，作出了本发明。

发明内容

本发明的目的在于，针对目前所存在的不足，提出了一种基于人工智能的AIGC自动建模系统。

为了克服现有技术的不足，本发明采用如下技术方案：

一种基于人工智能的AIGC自动建模系统，AIGC自动建模系统包括服务器， AIGC自动建模系统还包括数据处理模块、特征提取模块、AIGC模块，所述服务器分别与所述数据处理模块、特征提取模块、AIGC模块连接；

所述数据处理模块用于对原始需求数据进行预处理，形成文字描述数据，所述特征提取模块用于对所述文字描述数据进行特征提取，所述AIGC模块根据所述特征提取模块提取的特征生成相适配的模型，并对相适配的模型进行评估，形成评估指数，若不满足设定的评估条件，则触发对生成的模型进行调整；

所述特征提取模块包括特征分析单元以及特征提取单元，所述特征分析单元用于对所述文字描述数据进行分析，所述特征提取单元根据所述特征分析单元的分析结果，确定文字描述数据的特征；

所述AIGC模块包括模型生成单元和特征数据库，所述特征数据库中存储所述特征提取单元所确定文字描述数据的特征，所述模型生成单元根据所述特征提取单元确定文字描述数据的特征生成相适配的模型；

其中，所述模型生成单元生成相适配的模型需通过所述模型评估模块进行评估后，若满足设定的评估条件，则向用户进行展示。

可选的，所述数据处理模块包括数据处理单元和存储器，所述数据处理单元用于对用户提供的原始需求数据进行处理，以形成文字描述数据，所述处理包括分类和过滤；

所述存储器存储经过处理后的所述文字描述数据；

其中，当所述数据处理单元对所述用户提供的原始需求数据进行处理后，发出存储指令，使所述存储器响应所述存储指令，并将所述文字描述数据存储在所述存储器中。

可选的，所述AIGC模块包括还模型评估单元和模型调整单元，所述模型评估单元对所述相适配的模型进行评估，形成评估指数，若所述评估指数不满足设定的评估条件，则触发所述模型调整单元对所述相适配的模型进行调整；

其中，若所述模型评估单元的评估指数满足设定的评估条件，则将所述特征提取模块的特征生成相适配的模型向用户进行展示。

可选的，所述特征分析单元进行特征提取包括以下步骤：

STEP1：获取所述文字描述数据，并将所述文字描述数据中的每个词语取出，并建立独立的文档，多个独立的文档汇合形成一个词语表；

STEP2：将独立的所述文档中的各个词语转换为词频向量，

STEP3：将独立的文档对应的词频向量进行平均，得到该独立的文档对应的词频平均值向量Sentencevector，并将所述词频平均值向量作为特征提取结果。

可选的，所述AIGC模块包括比对操控单元和基础数据库，所述基础数据库中存储常用的数据集，其中，所述数据集包括若干个子集，所述比对操控单元根据所述特征提取结果使用交叉验证技术进行模型的选择和调优；

交叉验证时使用其中的一部分子集进行训练，另一部分子集进行测试；

所述交叉验证的过程中，通过至少两次交叉验证，并选择相适配的模型作为生成的模型。

可选的，所述AIGC模块还包括用户评价单元，所述用户评价单元用于对用户对生成的相适配的模型进行评价；

其中，所述用户评价单元包括评价输入框和评价采集器，所述评价输入框供用户对适配的模型进行评价的输入，所述评价采集器用于采集所述用户在所述评价输入框中输入的评价数据；

所述模型评估单元获取被当做训练的子集数量、以及用户对模型的评价数据，计算评估指数Evaluate：

；

式中，TP为用户对交互验证后生成的适配模型完全正向评价的数量，TN为用户对交互验证后生成的适配模型部分正向评价的数量，FP为用户对交互验证后生成的适配模型完全负面评价的数量，FN为用户对交互验证后生成的适配模型部分负面评价的数量，Weight为调整系数，满足：

；

式中，used为被使用的当做训练的子集数量，total为数据集中的子集总数量， a为阈值，取值范围为[0.3，0.65]；

若所述评估指数Evaluate高于设定的评估值Condition，则触发对生成的模型进行调整。

可选的，所述词频平均值向量根据下式进行计算：

；

式中，Sentencevector为词频平均值向量，Wordvector₁为第1个词语的词向量，Wordvector₂为第2个词语的词向量，Wordvector_n为第n个词语的词向量，n为词语的总个数。

可选的，所述模型调整单元在对所述模型进行调整时，选择未曾选用当做训练的子集进行交叉验证，以生成新的相适配模型。

本发明所取得的有益效果是：

1.通过AIGC模块对生成相适配的模型进行评估，并根据评估指数调整模型，以提升生成相适配的模型的精准性和可靠性；

2.通过数据采集模块对原始需求数据进行处理，以防止数据的干扰，提升整个系统的建模精度；

3.通过特征分析单元和特征提取单元的相互配合，使得经过处理的处理数据的上下文特征能被提取，以提升整个系统建模的效率和精度，也进一步保证整个系统具有智能程度高、协同效果好的优点；

4.通过所述模型调整单元和模型评估单元的配合，使得模型调整单元能根据所述模型评估单元的评估指数，保证生成相适配的模型能被自适应的调整，以满足用户的需要，提升整个系统的建模的精准度和可靠性。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明的整体方框示意图。

图2为本发明的特征提取单元和模型生成单元的方框示意图。

图3为本发明的用户评价单元和模型评估单元之间的流程示意图。

图4为本发明的用户与评价监控模块的方框示意图。

图5为本发明的评价分析单元和评估采集单元的流程示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一：根据图1、图2、图3、图4、图5所示，本实施例提供一种基于人工智能的AIGC自动建模系统，AIGC自动建模系统包括服务器， AIGC自动建模系统还包括数据处理模块、特征提取模块、AIGC模块，所述服务器分别与所述数据处理模块、特征提取模块、AIGC模块连接；

其中，所述评估条件为：评估指数Evaluate与设定的评估值Condition的大小关系；

所述AIGC自动建模系统还包括中央处理器，所述中央处理器分别与所述服务器、所述数据处理模块、所述特征提取模块、所述AIGC模块控制连接，并对所述数据处理模块、所述特征提取模块、所述AIGC模块进行集中控制；

其中，所述AIGC模块对生成的模型进行评估后，若满足设定的评估条件，则向用户进行展示；

所述存储器存储经过处理后的所述文字描述数据；

其中，当所述数据处理单元对所述用户提供的原始需求数据进行处理后，发出存储指令，使所述存储器响应所述存储指令，并将所述文字描述数据存储在所述存储器中；

可选的，所述AIGC模块还包括模型评估单元和模型调整单元，所述模型评估单元对所述相适配的模型进行评估，形成评估指数，若所述评估指数不满足设定的评估条件，则触发所述模型调整单元对所述相适配的模型进行调整；

其中，若所述模型评估单元的评估指数满足设定的评估条件，则将所述相适配的模型向用户进行展示；

在本实施例中，所述AIGC模块根据所述特征提取模块提取的特征生成相适配的模型后，通过模型评估单元AI（人工智能）对生成适配的模型进行评估，计算评估指数Evaluate；

若不满足设定的评估条件，则触发对生成的模型进行调整；

若满足设定的评估条件，则向用户进行展示适配的所述模型（相当于生成内容）；

另外，通过所述模型调整单元对生成的模型进行评估，并根据评估的结果调整模型，以提升模型的精准性和可靠性；

可选的，所述特征分析单元进行特征提取包括以下步骤：

其中，当用户提供的原始需求数据中存在多段对话，则将所述多段对话中的每段作为一个独立的文档；

STEP2：将独立的所述文档中的各个词语转换为词频向量，其中，通过包括词袋模型（Bag of Words）、N-Gram模型、Word2Vec模型和基于深度学习的模型等方式将独立的所述文档转换为词频向量，对于通过上述模型进行词频转换的方法是一种现有技术，是可以被本领域的技术人员所理解并熟知的技术手段，因而在本实施例中，不再一一赘述；

STEP3：将独立的文档对应的词频向量进行平均，得到该独立的文档对应的词频平均值向量Sentencevector，并将词频平均值向量Sentencevector作为特征提取结果；在步骤STEP1需要经过分词、去除停用词、词干提取等操作，这些操作可以帮助减少噪声，提取出更有意义的词汇，这是词汇提取的常规手段，也是本领域技术人员所熟知的技术手段，因而在本实施例中，不再一一赘述；

可选的，所述词频平均值向量根据下式进行计算：

；

式中，Sentencevector为词频平均值向量，Wordvector₁为第1个词语的词向量，Wordvector₂为第2个词语的词向量，Wordvector_n为第n个词语的词向量，n为词语的总个数；

对于所述词频平均值向量的求取是本实施例的一种优选做法，当然本领域技术人员可以根据实验来获取，以对本公式进行优化或者替代，这里不再赘述；

在本实施例中，通过特征分析单元和特征提取单元的相互配合，使得经过处理的处理数据的上下文特征能够被提取，以保证模型的快速生成，提升整个系统建模的效率和精度，也进一步提升整个系统具有智能程度高、协同效果好的优点；

可选的，所述AIGC模块还包括比对操控单元和基础数据库，所述基础数据库中存储常用的数据集，其中，所述数据集包括若干个子集，所述比对操控单元根据所述特征提取结果使用交叉验证技术进行模型的选择和调优；

交叉验证训练模型时，使用其中的一部分子集进行训练，另一部分子集进行测试；

所述交叉验证的过程中，通过至少两次交叉验证，并选择相适配的模型作为生成的模型；

所述比对操控单元通过交叉验证的方式进行模型的训练和测试，使得根据提结果生成相关联的模型更加的精准和可靠；

同时，所述交叉验证是一种常用的评估模型性能的方法，是本领域的技术人员所熟知的技术手段，本领域的技术人员可以查询相关的技术手册获知该技术，因而在本实施例中不再一一赘述；

其中，所述评价输入框包括若干个子输入框，各个子输入框均对应不同的评价类别或评价选项，这是本领域的技术人员所熟知的，因而不再一一赘述；

另外，子输入框包括：完全正向评价选项、部分正向评价选项、部分负面评价选项和完全负面评价选项；

举例如：模型完全符合要求、模型大部分符合要求、模型大部分不符合要求、模型完全不符合要求；

；

式中，TP为用户对交互验证后生成的适配模型完全正向评价的数量，TN为用户对交互验证后生成的适配模型部分正向评价的数量，FP为用户对交互验证后生成的适配模型完全负面评价的数量，FN为用户对生成的适配模型部分负面评价的数量，Weight为调整系数，满足：

；

式中，used为被使用的当做训练子集数量，total为数据集中的子集总数量， a为阈值，其值与所述数据集包含的子集数量有关，取值范围为[0.3，0.65]，在本实施例中，阈值a的取值满足：a=0.5；

其中，为了获得最佳的区分效果，本实施例中，所述调整系数Weight的取值范围需在落入[0，1]；

以上所述调整系数Weight的取值是本实施例的一种优选做法，当然本领域技术人员可以根据实验来获取一个具体的值，并对本公式进行优化或者替代，这里不再赘述；

若所述评估指数Evaluate高于设定的评估值Condition，则触发对生成的模型进行调整；

若所述评估指数Evaluate低于设定的评估值Condition，则说明生成的模型满足系统的要求，也获得了用户的正向评价，满足用户的预期，将生成相适配的模型向用户进行展示；

对于设定的评估值Condition由系统进行设定，这是本领域的技术人员所熟知的技术手段，本领域的技术人员可以查询相关的技术手册获知该技术，因而在本实施例中不再一一赘述；

当所述模型调整单元在不满足设定的评估条件时，则触发所述模型调整单元对所述特征提取模块的特征生成相适配的所述模型进行调整；

其中，可选的，所述模型调整单元在对所述模型进行调整时，选择未曾选用当做训练子集进行交叉验证，以生成新的相适配模型；

通过所述模型调整单元和模型评估单元的配合，使得模型调整单元能根据所述模型评估单元的评估指数，保证生成的模型能够自适应的调整，以满足用户的需要，提升整个系统的建模的精准度和可靠性。

实施例二：本实施例应当理解为包含前述任一一个实施例的全部特征，并在其基础上进一步改进，根据图1、图2、图3、图4、图5所示，还在于AIGC自动建模系统还包括所述用户评价单元还包括数据采集子单元和评价调整子单元，所述数据采集子单元采集所述用户本次提供的文字描述数据，所述评价分析子单元根据所述数据采集子单元采集得到的本次提供的用户描述数据、以及评价采集器采集得到的上一次用户评价的项目类别数量，对用户本次提供的文字描述数据进行分析，并根据分析结果向用户进行提示，以提醒用户本次提供的文字描述数据的要求，以防止用户提交不真实或重复提交相同的文字描述信息；

其中，所述数据采集子单元包括可执行程序和数据缓存器，所述可执行程序在用户端的中进行执行，并对所述用户本次输入的文字描述数据进行识别和采集，所述数据缓存器存储所述可执行程序识别和采集得到的文字描述数据；

所述评价分析子单元获取所述数据采集子单元采集得到的本次输入的文字描述，其中，所述文字描述数据包括但是不局限于以下列举的几种：用户输入的文字描述数据内容、用户输入文字描述数据的字数等，并根据所述文字描述数据和评价采集器采集得到的上一次用户评价的项目类别数量计算重复评价指数Modulation：

；

式中，SIM为本次输入的文本描述数据与第一次输入的文本描述数据的相似度，count为第二次输入的文本描述数据的字数，λ为相似度权重，η为字数调整权重，num为用户的评价的项目数，其值可以根据上一次用户评价的项目类别数量直接确定；

其中，相似度权重和字数调整权重之间的关系取决于希望在计算评价重复指数时更加重视哪一个因素，如果认为相似度更重要，那么可以将相似度权重设置得更高；如果您认为字数更重要，那么可以将字数调整权重设置得更高。

相似度权重λ和字数调整权重η之间满足：λ+η= 1；

若所述调整指数Modulation高于设定的监控阈值Monitor，则所述用户本次输入的文字描述与上一次输入的文字描述相近，需要重新调整输入的文字描述，以使得文字描述更加的详细，字数更多；

若所述调整指数Modulation低于设定的监控阈值Monitor，则表示用户提供的文字描述符合要求；

对于设定的监控阈值Monitor由系统进行设定，这是本领域的技术人员所熟知的技术手段，本领域的技术人员可以查询相关的技术手册获知该技术，因而在本实施例中不再一一赘述；

对于本次输入的文本描述数据与上一次输入的文字描述数据的相似度SIM，可根据以下步骤进行计算

STEP1、将文本描述数据的内容转换成向量表示：将文本描述数据内容转换成向量表示是计算余弦相似度的前提。

STEP2、使用词袋模型（Bag of Words Model）将文字描述数据内容转换成向量表示，其中，输入的文字描述数据被看做一个文本，文字描述数据中的每个词被视为一个维度，每个文本被表示为一个向量，向量的每个维度表示对应词在文本中出现的次数；本次输入的文字描述数据为向量A，上一次输入的文字描述数据为向量B；

STEP3、计算向量A和向量B之间的余弦相似度：将两个文本内容（本次输入的文字描述数据和上一次输入的文字描述数据）转换成向量表示后，就可以计算它们之间的余弦相似度，余弦相似度的计算公式如下：

；

式中，A和B分别表示两个文字描述数据的向量表示，||A||和||B||分别表示向量A和向量B的模，"·"表示向量的点积。

通过计算文本内容的向量表示，然后将它们代入余弦相似度公式，可以得到它们之间的相似度分值，范围在0到1之间，值越大表示相似度越高。通过所述评价采集子单元和评价调整子单元相互配合，获得所述用户更加详细的文字描述数据，以保证生成或新建立模型的精准性和可靠性；

同时，通过所述评价监控模块与所述用户评价单元相互配合，也防止用户本次提交的文字描述数据与上一次提交的文字描述数据相同，造成两次输入的文字描述数据相同，造成前后两次生成的模型并未改变，影响用户的使用体验。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素可以更新的。

Claims

1.一种基于人工智能的AIGC自动建模系统，AIGC自动建模系统包括服务器，其特征在于，AIGC自动建模系统还包括数据处理模块、特征提取模块、AIGC模块，所述服务器分别与所述数据处理模块、特征提取模块、AIGC模块连接；

其中，所述模型生成单元对生成相适配的模型进行评估后，若满足设定的评估条件，则向用户进行展示。

2.根据权利要求1所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述数据处理模块包括数据处理单元和存储器，所述数据处理单元用于对用户提供的原始需求数据进行处理，以形成文字描述数据，所述处理包括分类和过滤；

所述存储器存储经过处理后的所述文字描述数据；

3.根据权利要求2所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述AIGC模块还包括模型评估单元和模型调整单元，所述模型评估单元对所述相适配的模型进行评估，形成评估指数，若所述评估指数不满足设定的评估条件，则触发所述模型调整单元对所述相适配的所述模型进行调整；

4.根据权利要求3所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述特征分析单元进行特征提取包括以下步骤：

STEP2：将独立的所述文档中的各个词语转换为词频向量，

STEP3：将独立的文档对应的词频向量进行平均，得到该独立的文档对应的词频平均值向量Sentencevector，并将词频平均值向量Sentencevector作为特征提取结果。

5.根据权利要求4所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述AIGC模块还包括比对操控单元和基础数据库，所述基础数据库中存储常用的数据集，其中，所述数据集包括若干个子集，所述比对操控单元根据所述特征提取结果使用交叉验证技术进行模型的选择和调优；

其中，交叉验证将数据集划分为若干个子集，在训练模型时使用其中的一部分子集进行训练，另一部分子集进行测试；

6.根据权利要求5所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述AIGC模块还包括用户评价单元，所述用户评价单元用于对用户对生成的相适配的模型进行评价；

；

；

式中，used为被使用的当做训练的子集数量，total为数据集中的子集总数量a为阈值，取值范围为[0.3，0.65]；

7.根据权利要求6所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述词频平均值向量根据下式进行计算：

；

8.根据权利要求7所述的一种基于人工智能的AIGC自动建模系统，其特征在于，所述模型调整单元在对所述模型进行调整时，选择未曾选用当做的训练的子集，并进行交叉验证，以生成新的相适配模型。