CN112182225A - 一种多模态场景目标基于半监督深度学习的知识管理方法 - Google Patents

一种多模态场景目标基于半监督深度学习的知识管理方法 Download PDF

Info

Publication number
CN112182225A
CN112182225A CN202011099756.8A CN202011099756A CN112182225A CN 112182225 A CN112182225 A CN 112182225A CN 202011099756 A CN202011099756 A CN 202011099756A CN 112182225 A CN112182225 A CN 112182225A
Authority
CN
China
Prior art keywords
data
knowledge
sample
knowledge data
management method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011099756.8A
Other languages
English (en)
Inventor
徐黎敏
周晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Baodian Technology Industry Development Co ltd
Original Assignee
Shanghai Baodian Technology Industry Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Baodian Technology Industry Development Co ltd filed Critical Shanghai Baodian Technology Industry Development Co ltd
Priority to CN202011099756.8A priority Critical patent/CN112182225A/zh
Publication of CN112182225A publication Critical patent/CN112182225A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于知识管理领域,具体公开了一种多模态场景目标基于半监督深度学习的知识管理方法,包括如下步骤:数据预处理与模型表示,预处理与模型表示后得到全面样本知识数据;获取全面样本知识数据,并对全面样本知识数据进行数据处理,数据处理后获取正样本知识数据增强、负样本知识数据增强及数据噪声;基于正样本知识数据增强、负样本知识数据增强及数据噪声分别形成对应的标注数据样本;将标注数据样本分别输入多个不同的网络架构模型中进行训练;将待识别知识数据输入最终预测模型中进行异常识别。本发明具有更好的识别性能与识别精度,准确可靠,能对知识数据中不符合期望的数据、行为数据进行识别以及高效管理。

Description

一种多模态场景目标基于半监督深度学习的知识管理方法
技术领域
本发明涉及知识管理领域,具体为一种多模态场景目标基于半监督深度学习的知识管理方法。
背景技术
知识管理是知识经济时代涌现出来的一种最新管理思想与方法,它融合了现代信息技术、知识经济理论、企业管理思想和现代管理理念。知识管理是企业管理的一项重要内容,主流商业管理课程如EMBA、及MBA等均将“知识管理”作为一项管理者的必备技能要求包含在内。随着信息时代的来临,知识已经成为企业生存和发展的关键因素,只有当所有的知识被合理的管理和应用时,企业的各项工作才能顺利而高效的开展。反之,则会给企业带来负面的影响,甚至危及企业的生存,严重阻碍企业的发展。因此,如何有效管理企业已有和不断增长的知识,已经成为一个迫切需要解决的问题。
由于知识管理的普及,各个公司面对和获取的信息以前所未有的速度增长,由于知识数据中有涉及不符合期望的数据、行为数据,因此需要对其进行异常识别检测,而检测方法一般有监督的,该种监督方法需要大量的标记,导致监督的方法不理想。
发明内容
本发明的目的在于提供一种多模态场景目标基于半监督深度学习的知识管理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种多模态场景目标基于半监督深度学习的知识管理方法,包括如下步骤:
S1:数据预处理与模型表示,对不同样本知识数据的多个不同的模态进行数据预处理与模型表示,预处理与模型表示后得到全面样本知识数据;
S2:获取全面样本知识数据,并对全面样本知识数据进行数据处理,数据处理后获取正样本知识数据增强、负样本知识数据增强及数据噪声;
S3:基于正样本知识数据增强、负样本知识数据增强及数据噪声分别形成对应的标注数据样本;
S4:将标注数据样本分别输入多个不同的网络架构模型中进行训练,形成对应的多个初始预测模型;
S5:多个初始预测模型分别输出对应的预测结果,基于预测结果确定最终的预测模型;
S6:将待识别知识数据输入最终预测模型中进行异常识别,并在识别后将识别结果与样本知识数据存储至数据库。
优选的,S1中具体包括:S11:对不同样本知识数据的多个不同的模态进行数据预处理,并在预处理后依据不同类别建立数据集;S12:构建多种不同模态的学习网络模型,并将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;S13:通过训练后的模型分别提取对应模态的特征向量,并进行降维,得到降维特征向量;S14:将S13得到的多模态降维特征向量,进行多模态级联融合,建立全面特征样本知识数据,且全面特征样本知识数据包括标注样本知识数据及无标注样本知识数据。S13中特征向量是通过训练建立文本词向量模型,通过建立文本词向量模型对其进行处理,并利用向量空间模型将样本知识数据表示。向量空间模型(VSM)重点在于计算词频-逆文档频率(TF-IDF)。
优选的,S2中数据处理包括对全面样本知识数据进行增强及噪声处理。
优选的,S2中包括标注数据样本正样本、标注数据负样本及标注数据噪声样本。
优选的,S4中具体为:将标注数据样本正样本、标注数据负样本及标注数据噪声样本分别输入三个不同的网络架构模型中进行训练,形成对应的三个初始预测模型。
优选的,S6中异常识别还可通过对多模态降维特征进行类别估计,并得到类别估计结果,即通过构建多模态降维特征样本的深度特征构造相似矩阵,并对该相似矩阵进行类别估计,得到最终的概率矩阵,通过获取最终概率矩阵中的可信样本,并将所有的可信样本,当作新的标签数据,加入到神经网络预测模型中重新训练,得到半监督深度学习的异常识别模型,可通过该模型进行待识别知识数据的异常识别结果。
优选的,S6中还包括:S6a:利用数据库实现对样本知识数据及识别结果的存储,并依据知识数据内容进行分类。
优选的,S6中还包括:S6b:根据知识的目标浏览用户群和保密级别,设置其授权的访问范围或特定浏览用户。即当用户登录后,通过输入关键字借助搜索引擎实现对关系知识的检索,从而实现知识信息的存储、检索和访问控制,确保知识积累和安全访问。
与现有技术相比,本发明的有益效果是:
本发明具有更好的识别性能与识别精度,准确可靠,能对知识数据中不符合期望的数据、行为数据进行识别以及高效管理,通过对数据进行数据预处理与模型表示以及噪声处理等,并对数据进行预测并标注,通过标注后的数据通过预测模型进行训练,可以实现对数据的异常精准识别,不需要大量的标记数据,同时还能够提高识别的准确率。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种多模态场景目标基于半监督深度学习的知识管理方法,
S1:数据预处理与模型表示,对不同样本知识数据的多个不同的模态进行数据预处理与模型表示,预处理与模型表示后得到全面样本知识数据;
S2:获取全面样本知识数据,并对全面样本知识数据进行数据处理,数据处理后获取正样本知识数据增强、负样本知识数据增强及数据噪声;
S3:基于正样本知识数据增强、负样本知识数据增强及数据噪声分别形成对应的标注数据样本;
S4:将标注数据样本分别输入多个不同的网络架构模型中进行训练,形成对应的多个初始预测模型;
S5:多个初始预测模型分别输出对应的预测结果,基于预测结果确定最终的预测模型;
S6:将待识别知识数据输入最终预测模型中进行异常识别,并在识别后将识别结果与样本知识数据存储至数据库。
在本实施例中,S1中具体包括:S11:对不同样本知识数据的多个不同的模态进行数据预处理,并在预处理后依据不同类别建立数据集;S12:构建多种不同模态的学习网络模型,并将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;S13:通过训练后的模型分别提取对应模态的特征向量,并进行降维,得到降维特征向量;S14:将S13得到的多模态降维特征向量,进行多模态级联融合,建立全面特征样本知识数据,且全面特征样本知识数据包括标注样本知识数据及无标注样本知识数据。
在本实施例中,S13中特征向量是通过训练建立文本词向量模型,通过建立文本词向量模型对其进行处理,并利用向量空间模型将样本知识数据表示。向量空间模型(VSM)重点在于计算词频-逆文档频率(TF-IDF)。
在本实施例中,S2中数据处理包括对全面样本知识数据进行增强及噪声处理。
在本实施例中,S2中包括标注数据样本正样本、标注数据负样本及标注数据噪声样本。
在本实施例中,S4中具体为:将标注数据样本正样本、标注数据负样本及标注数据噪声样本分别输入三个不同的网络架构模型中进行训练,形成对应的三个初始预测模型。
在本实施例中,S6中异常识别还可通过对多模态降维特征进行类别估计,并得到类别估计结果,即通过构建多模态降维特征样本的深度特征构造相似矩阵,并对该相似矩阵进行类别估计,得到最终的概率矩阵,通过获取最终概率矩阵中的可信样本,并将所有的可信样本,当作新的标签数据,加入到神经网络预测模型中重新训练,得到半监督深度学习的异常识别模型,可通过该模型进行待识别知识数据的异常识别结果。
在本实施例中,S6中还包括:S6a:利用数据库实现对样本知识数据及识别结果的存储,并依据知识数据内容进行分类。
在本实施例中,S6中还包括:S6b:根据知识的目标浏览用户群和保密级别,设置其授权的访问范围或特定浏览用户。即当用户登录后,通过输入关键字借助搜索引擎实现对关系知识的检索,从而实现知识信息的存储、检索和访问控制,确保知识积累和安全访问。
在本实施例中,通过对数据进行数据预处理与模型表示以及噪声处理等,并对数据进行预测并标注,通过标注后的数据通过预测模型进行训练,可以实现对数据的异常精准识别,不需要大量的标记数据,同时还能够提高识别的准确率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,包括如下步骤:
S1:数据预处理与模型表示,对不同样本知识数据的多个不同的模态进行数据预处理与模型表示,预处理与模型表示后得到全面样本知识数据;
S2:获取全面样本知识数据,并对全面样本知识数据进行数据处理,数据处理后获取正样本知识数据增强、负样本知识数据增强及数据噪声;
S3:基于正样本知识数据增强、负样本知识数据增强及数据噪声分别形成对应的标注数据样本;
S4:将标注数据样本分别输入多个不同的网络架构模型中进行训练,形成对应的多个初始预测模型;
S5:多个初始预测模型分别输出对应的预测结果,基于预测结果确定最终的预测模型;
S6:将待识别知识数据输入最终预测模型中进行异常识别,并在识别后将识别结果与样本知识数据存储至数据库。
2.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,所述S1中具体包括:
S11:对不同样本知识数据的多个不同的模态进行数据预处理,并在预处理后依据不同类别建立数据集;
S12:构建多种不同模态的学习网络模型,并将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;
S13:通过训练后的模型分别提取对应模态的特征向量,并进行降维,得到降维特征向量;
S14:将S13得到的多模态降维特征向量,进行多模态级联融合,建立全面特征样本知识数据,且全面特征样本知识数据包括标注样本知识数据及无标注样本知识数据。
3.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,所述S2中数据处理包括对全面样本知识数据进行增强及噪声处理。
4.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,所述S2中包括标注数据样本正样本、标注数据负样本及标注数据噪声样本。
5.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,所述S4中具体为:将标注数据样本正样本、标注数据负样本及标注数据噪声样本分别输入三个不同的网络架构模型中进行训练,形成对应的三个初始预测模型。
6.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,所述S6中还包括:S6a:利用数据库实现对样本知识数据及识别结果的存储,并依据知识数据内容进行分类。
7.根据权利要求1所述的一种多模态场景目标基于半监督深度学习的知识管理方法,其特征在于,所述S6中还包括:S6b:根据知识的目标浏览用户群和保密级别,设置其授权的访问范围或特定浏览用户。
CN202011099756.8A 2020-10-14 2020-10-14 一种多模态场景目标基于半监督深度学习的知识管理方法 Pending CN112182225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011099756.8A CN112182225A (zh) 2020-10-14 2020-10-14 一种多模态场景目标基于半监督深度学习的知识管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011099756.8A CN112182225A (zh) 2020-10-14 2020-10-14 一种多模态场景目标基于半监督深度学习的知识管理方法

Publications (1)

Publication Number Publication Date
CN112182225A true CN112182225A (zh) 2021-01-05

Family

ID=73950154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011099756.8A Pending CN112182225A (zh) 2020-10-14 2020-10-14 一种多模态场景目标基于半监督深度学习的知识管理方法

Country Status (1)

Country Link
CN (1) CN112182225A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN114610911A (zh) * 2022-03-04 2022-06-10 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015018517A1 (en) * 2013-08-05 2015-02-12 Mr. PD Dr. NIKOLAOS KOUTSOULERIS Adaptive pattern recognition for psychosis risk modelling
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
CN110363231A (zh) * 2019-06-27 2019-10-22 平安科技(深圳)有限公司 基于半监督深度学习的异常识别方法、装置及存储介质
CN111460213A (zh) * 2020-03-20 2020-07-28 河海大学 一种基于多模态学习的音乐情感分类方法
EP3719711A2 (en) * 2020-07-30 2020-10-07 Institutul Roman De Stiinta Si Tehnologie Method of detecting anomalous data, machine computing unit, computer program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015018517A1 (en) * 2013-08-05 2015-02-12 Mr. PD Dr. NIKOLAOS KOUTSOULERIS Adaptive pattern recognition for psychosis risk modelling
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
CN110363231A (zh) * 2019-06-27 2019-10-22 平安科技(深圳)有限公司 基于半监督深度学习的异常识别方法、装置及存储介质
CN111460213A (zh) * 2020-03-20 2020-07-28 河海大学 一种基于多模态学习的音乐情感分类方法
EP3719711A2 (en) * 2020-07-30 2020-10-07 Institutul Roman De Stiinta Si Tehnologie Method of detecting anomalous data, machine computing unit, computer program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
车统统: "基于深度学习的图像匹配研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, 15 August 2020 (2020-08-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN114610911A (zh) * 2022-03-04 2022-06-10 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质
CN114610911B (zh) * 2022-03-04 2023-09-19 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109582949B (zh) 事件元素抽取方法、装置、计算设备及存储介质
US20220405592A1 (en) Multi-feature log anomaly detection method and system based on log full semantics
CN112612902A (zh) 一种电网主设备的知识图谱构建方法及设备
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN111506702A (zh) 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
JP2021099765A (ja) Aiによるデータガバナンスの最適化方法
CN112488896B (zh) 应急预案生成方法、装置、计算机设备及存储介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112926327A (zh) 一种实体识别方法、装置、设备及存储介质
CN113343677B (zh) 一种意图识别方法、装置、电子设备及存储介质
CN112182225A (zh) 一种多模态场景目标基于半监督深度学习的知识管理方法
CN112966100B (zh) 一种数据分类分级模型的训练方法、装置及电子设备
CN111143838A (zh) 数据库用户异常行为检测方法
CN114676435A (zh) 一种基于知识图谱的软件漏洞可利用性预测方法
Li et al. Improving performance of log anomaly detection with semantic and time features based on bilstm-attention
CN112257425A (zh) 一种基于数据分级模型的电力数据分析方法及系统
CN112215002A (zh) 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN113657443B (zh) 一种基于soinn网络的在线物联网设备识别方法
CN113569005B (zh) 一种基于数据内容的大规模数据特征智能化提取方法
Ni et al. Predicting severity of software vulnerability based on BERT-CNN
Liang et al. Automatic security classification based on incremental learning and similarity comparison
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN117216668B (zh) 一种基于机器学习的数据分类分级处理方法和系统
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
Hui A Novel 2-Step Very Large-Scale Short Text Clustering Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105