CN112182225A

CN112182225A - 一种多模态场景目标基于半监督深度学习的知识管理方法

Info

Publication number: CN112182225A
Application number: CN202011099756.8A
Authority: CN
Inventors: 徐黎敏; 周晨
Original assignee: Shanghai Baodian Technology Industry Development Co ltd
Current assignee: Shanghai Baodian Technology Industry Development Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-05

Abstract

本发明属于知识管理领域，具体公开了一种多模态场景目标基于半监督深度学习的知识管理方法，包括如下步骤：数据预处理与模型表示，预处理与模型表示后得到全面样本知识数据；获取全面样本知识数据，并对全面样本知识数据进行数据处理，数据处理后获取正样本知识数据增强、负样本知识数据增强及数据噪声；基于正样本知识数据增强、负样本知识数据增强及数据噪声分别形成对应的标注数据样本；将标注数据样本分别输入多个不同的网络架构模型中进行训练；将待识别知识数据输入最终预测模型中进行异常识别。本发明具有更好的识别性能与识别精度，准确可靠，能对知识数据中不符合期望的数据、行为数据进行识别以及高效管理。

Description

一种多模态场景目标基于半监督深度学习的知识管理方法

技术领域

本发明涉及知识管理领域，具体为一种多模态场景目标基于半监督深度学习的知识管理方法。

背景技术

知识管理是知识经济时代涌现出来的一种最新管理思想与方法,它融合了现代信息技术、知识经济理论、企业管理思想和现代管理理念。知识管理是企业管理的一项重要内容，主流商业管理课程如EMBA、及MBA等均将“知识管理”作为一项管理者的必备技能要求包含在内。随着信息时代的来临，知识已经成为企业生存和发展的关键因素，只有当所有的知识被合理的管理和应用时，企业的各项工作才能顺利而高效的开展。反之，则会给企业带来负面的影响，甚至危及企业的生存，严重阻碍企业的发展。因此，如何有效管理企业已有和不断增长的知识，已经成为一个迫切需要解决的问题。

由于知识管理的普及，各个公司面对和获取的信息以前所未有的速度增长，由于知识数据中有涉及不符合期望的数据、行为数据，因此需要对其进行异常识别检测，而检测方法一般有监督的，该种监督方法需要大量的标记，导致监督的方法不理想。

发明内容

本发明的目的在于提供一种多模态场景目标基于半监督深度学习的知识管理方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种多模态场景目标基于半监督深度学习的知识管理方法，包括如下步骤：

S1：数据预处理与模型表示，对不同样本知识数据的多个不同的模态进行数据预处理与模型表示，预处理与模型表示后得到全面样本知识数据；

S2：获取全面样本知识数据，并对全面样本知识数据进行数据处理，数据处理后获取正样本知识数据增强、负样本知识数据增强及数据噪声；

S3：基于正样本知识数据增强、负样本知识数据增强及数据噪声分别形成对应的标注数据样本；

S4：将标注数据样本分别输入多个不同的网络架构模型中进行训练，形成对应的多个初始预测模型；

S5：多个初始预测模型分别输出对应的预测结果，基于预测结果确定最终的预测模型；

S6：将待识别知识数据输入最终预测模型中进行异常识别，并在识别后将识别结果与样本知识数据存储至数据库。

优选的，S1中具体包括：S11：对不同样本知识数据的多个不同的模态进行数据预处理，并在预处理后依据不同类别建立数据集；S12：构建多种不同模态的学习网络模型，并将每个模态映射到各自的表示空间，分别训练各模态表示学习网络模型；S13：通过训练后的模型分别提取对应模态的特征向量，并进行降维，得到降维特征向量；S14：将S13得到的多模态降维特征向量，进行多模态级联融合，建立全面特征样本知识数据，且全面特征样本知识数据包括标注样本知识数据及无标注样本知识数据。S13中特征向量是通过训练建立文本词向量模型，通过建立文本词向量模型对其进行处理，并利用向量空间模型将样本知识数据表示。向量空间模型(VSM)重点在于计算词频-逆文档频率(TF-IDF)。

优选的，S2中数据处理包括对全面样本知识数据进行增强及噪声处理。

优选的，S2中包括标注数据样本正样本、标注数据负样本及标注数据噪声样本。

优选的，S4中具体为：将标注数据样本正样本、标注数据负样本及标注数据噪声样本分别输入三个不同的网络架构模型中进行训练，形成对应的三个初始预测模型。

优选的，S6中异常识别还可通过对多模态降维特征进行类别估计，并得到类别估计结果，即通过构建多模态降维特征样本的深度特征构造相似矩阵，并对该相似矩阵进行类别估计，得到最终的概率矩阵，通过获取最终概率矩阵中的可信样本，并将所有的可信样本，当作新的标签数据，加入到神经网络预测模型中重新训练，得到半监督深度学习的异常识别模型，可通过该模型进行待识别知识数据的异常识别结果。

优选的，S6中还包括：S6a：利用数据库实现对样本知识数据及识别结果的存储，并依据知识数据内容进行分类。

优选的，S6中还包括：S6b：根据知识的目标浏览用户群和保密级别，设置其授权的访问范围或特定浏览用户。即当用户登录后，通过输入关键字借助搜索引擎实现对关系知识的检索，从而实现知识信息的存储、检索和访问控制，确保知识积累和安全访问。

与现有技术相比，本发明的有益效果是：

本发明具有更好的识别性能与识别精度，准确可靠，能对知识数据中不符合期望的数据、行为数据进行识别以及高效管理，通过对数据进行数据预处理与模型表示以及噪声处理等，并对数据进行预测并标注，通过标注后的数据通过预测模型进行训练，可以实现对数据的异常精准识别，不需要大量的标记数据，同时还能够提高识别的准确率。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种多模态场景目标基于半监督深度学习的知识管理方法，

在本实施例中，S1中具体包括：S11：对不同样本知识数据的多个不同的模态进行数据预处理，并在预处理后依据不同类别建立数据集；S12：构建多种不同模态的学习网络模型，并将每个模态映射到各自的表示空间，分别训练各模态表示学习网络模型；S13：通过训练后的模型分别提取对应模态的特征向量，并进行降维，得到降维特征向量；S14：将S13得到的多模态降维特征向量，进行多模态级联融合，建立全面特征样本知识数据，且全面特征样本知识数据包括标注样本知识数据及无标注样本知识数据。

在本实施例中，S13中特征向量是通过训练建立文本词向量模型，通过建立文本词向量模型对其进行处理，并利用向量空间模型将样本知识数据表示。向量空间模型(VSM)重点在于计算词频-逆文档频率(TF-IDF)。

在本实施例中，S2中数据处理包括对全面样本知识数据进行增强及噪声处理。

在本实施例中，S2中包括标注数据样本正样本、标注数据负样本及标注数据噪声样本。

在本实施例中，S4中具体为：将标注数据样本正样本、标注数据负样本及标注数据噪声样本分别输入三个不同的网络架构模型中进行训练，形成对应的三个初始预测模型。

在本实施例中，S6中异常识别还可通过对多模态降维特征进行类别估计，并得到类别估计结果，即通过构建多模态降维特征样本的深度特征构造相似矩阵，并对该相似矩阵进行类别估计，得到最终的概率矩阵，通过获取最终概率矩阵中的可信样本，并将所有的可信样本，当作新的标签数据，加入到神经网络预测模型中重新训练，得到半监督深度学习的异常识别模型，可通过该模型进行待识别知识数据的异常识别结果。

在本实施例中，S6中还包括：S6a：利用数据库实现对样本知识数据及识别结果的存储，并依据知识数据内容进行分类。

在本实施例中，S6中还包括：S6b：根据知识的目标浏览用户群和保密级别，设置其授权的访问范围或特定浏览用户。即当用户登录后，通过输入关键字借助搜索引擎实现对关系知识的检索，从而实现知识信息的存储、检索和访问控制，确保知识积累和安全访问。

在本实施例中，通过对数据进行数据预处理与模型表示以及噪声处理等，并对数据进行预测并标注，通过标注后的数据通过预测模型进行训练，可以实现对数据的异常精准识别，不需要大量的标记数据，同时还能够提高识别的准确率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，所述S1中具体包括：

S11：对不同样本知识数据的多个不同的模态进行数据预处理，并在预处理后依据不同类别建立数据集；

S12：构建多种不同模态的学习网络模型，并将每个模态映射到各自的表示空间，分别训练各模态表示学习网络模型；

S13：通过训练后的模型分别提取对应模态的特征向量，并进行降维，得到降维特征向量；

S14：将S13得到的多模态降维特征向量，进行多模态级联融合，建立全面特征样本知识数据，且全面特征样本知识数据包括标注样本知识数据及无标注样本知识数据。

3.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，所述S2中数据处理包括对全面样本知识数据进行增强及噪声处理。

4.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，所述S2中包括标注数据样本正样本、标注数据负样本及标注数据噪声样本。

5.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，所述S4中具体为：将标注数据样本正样本、标注数据负样本及标注数据噪声样本分别输入三个不同的网络架构模型中进行训练，形成对应的三个初始预测模型。

6.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，所述S6中还包括：S6a：利用数据库实现对样本知识数据及识别结果的存储，并依据知识数据内容进行分类。

7.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法，其特征在于，所述S6中还包括：S6b：根据知识的目标浏览用户群和保密级别，设置其授权的访问范围或特定浏览用户。