CN110083654A - 一种面向国防科技领域的多源数据融合方法及系统 - Google Patents

一种面向国防科技领域的多源数据融合方法及系统 Download PDF

Info

Publication number
CN110083654A
CN110083654A CN201910360665.6A CN201910360665A CN110083654A CN 110083654 A CN110083654 A CN 110083654A CN 201910360665 A CN201910360665 A CN 201910360665A CN 110083654 A CN110083654 A CN 110083654A
Authority
CN
China
Prior art keywords
data file
data
text
label
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910360665.6A
Other languages
English (en)
Inventor
晏裕生
裴大茗
姚晗
孙孟阳
董文轩
江洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INTRODUCTION OF TECHNOLOGY RESEARCH & ECONOMY DEVELOPMENT INSTITUTE
Original Assignee
INTRODUCTION OF TECHNOLOGY RESEARCH & ECONOMY DEVELOPMENT INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INTRODUCTION OF TECHNOLOGY RESEARCH & ECONOMY DEVELOPMENT INSTITUTE filed Critical INTRODUCTION OF TECHNOLOGY RESEARCH & ECONOMY DEVELOPMENT INSTITUTE
Priority to CN201910360665.6A priority Critical patent/CN110083654A/zh
Publication of CN110083654A publication Critical patent/CN110083654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向国防科技领域的多源数据融合方法及系统。所述方法及系统将原本内外隔离的不同来源、不同类型的内、外部资料数据进行融合,形成统一的数据资源库为用户提供检索、查询服务,解决了国防科技科研生产内部数据资源共享利用率低、非结构化数据缺乏有效整合、不同来源数据难以统一分析处理的问题,实现了将国防科技领域的内部数据与开源数据相融合的数据组织,显著提高数据资源的利用率;此外根据本发明提取的标签进行多类型数据文件检索,可以有效提高多源多类型数据文件的查询、检索效率。

Description

一种面向国防科技领域的多源数据融合方法及系统
技术领域
本发明涉及国防科技及数据融合技术领域,特别是涉及一种面向国防科技领域的多源数据融合方法及系统。
背景技术
在国防科技领域,存在着大量的高价值密度的内部资料,出于内部资料保密需要,目前内部资料与外部资料互不流通。国防科技领域的内部资料是指日常国防科技科研生产过程中产生的报告、专报、论文、专利等,外部资料是指购买的文献资源、采集的动态资讯等。资料类型包括文字、图片、音视频等多种类型格式。目前外部资料中的文献资源已经有成熟的存储与检索平台,可以根据关键字快速查询文献资料,动态资讯部分也已开始着手采集处理,但内部资料目前还处于提交后保存,难以再次利用的状态。此外还存在对图片、音视频等多媒体类型的资料利用率较低的问题。因此,如何将多种类型的内部资料与多种类型的外部资料进行融合,形成统一的数据资源,提高数据资源利用率和资料检索效率,是本领域亟需解决的问题。
发明内容
本发明的目的是提供一种面向国防科技领域的多源数据融合方法及系统,以解决目前内部资料与外部资料互不流通,导致的数据资源利用率低的问题。
为实现上述目的,本发明提供了如下方案:
一种面向国防科技领域的多源数据融合方法,所述方法包括:
获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中,形成多源资料数据;
对所述数据库中存储的多源资料数据进行分类,形成多类型数据文件;所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件;
将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件;
提取所述文本数据文件的标签;
将所述标签与所述多类型数据文件对应存储于所述数据库中;
根据所述标签检索所述多类型数据文件。
可选的,所述将所述图片数据文件转换为文本数据文件,具体包括:
采用光学字符识别技术将所述图片数据文件识别为文本数据文件;
判断所述文本数据文件是否识别成功,获得第一判断结果;
若所述第一判断结果为所述文本数据文件识别成功,执行所述提取所述文本数据文件的标签的步骤;
若所述第一判断结果为所述文本数据文件未识别成功,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤。
可选的,所述将所述视频数据文件转换为文本数据文件,具体包括:
将所述视频数据文件切分成多帧图片;
采用峰值信噪比PSNR算法计算每一帧图片的PSNR值;
采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类,聚类得到的每一类的第一个帧作为关键帧;
将所述关键帧作为所述视频数据文件对应的图片数据文件,执行所述将所述图片数据文件转换为文本数据文件的步骤。
可选的,所述将所述音频数据文件转换为文本数据文件,具体包括:
采用语音识别方法将所述音频数据文件转换为文本数据文件。
可选的,所述提取所述文本数据文件的标签,具体包括:
将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件;
采用分词算法将所述替换后的文本数据文件分成一系列的词语;
采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值;
确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。
一种面向国防科技领域的多源数据融合系统,所述系统包括:
多源资料数据获取模块,用于获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中,形成多源资料数据;
数据分类模块,用于对所述数据库中存储的多源资料数据进行分类,形成多类型数据文件;所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件;
数据文件转换模块,用于将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件;
标签提取模块,用于提取所述文本数据文件的标签;
标签存储模块,用于将所述标签与所述多类型数据文件对应存储于所述数据库中;
数据检索模块,用于根据所述标签检索所述多类型数据文件。
可选的,所述数据文件转换模块具体包括:
图片识别单元,用于采用光学字符识别技术将所述图片数据文件识别为文本数据文件;
第一判断单元,用于判断所述文本数据文件是否识别成功,获得第一判断结果;
图片识别成功单元,用于若所述第一判断结果为所述文本数据文件识别成功,执行所述提取所述文本数据文件的标签的步骤;
图片识别失败单元,用于若所述第一判断结果为所述文本数据文件未识别成功,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤。
可选的,所述数据文件转换模块还包括:
视频切分单元,用于将所述视频数据文件切分成多帧图片;
PSNR值计算单元,用于采用峰值信噪比PSNR算法计算每一帧图片的PSNR值;
聚类单元,用于采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类,聚类得到的每一类的第一个帧作为关键帧;
关键帧转换单元,用于将所述关键帧作为所述视频数据文件对应的图片数据文件,执行所述将所述图片数据文件转换为文本数据文件的步骤。
可选的,所述数据文件转换模块还包括:
语音识别单元,用于采用语音识别方法将所述音频数据文件转换为文本数据文件。
可选的,所述标签提取模块具体包括:
敏感术语代号替换单元,用于将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件;
文本分词单元,用于采用分词算法将所述替换后的文本数据文件分成一系列的词语;
权重计算单元,用于采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值;
标签提取单元,用于确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种面向国防科技领域的多源数据融合方法及系统,所述方法及系统将原本内外隔离的不同来源、不同类型的内、外部资料数据进行融合,形成统一的数据资源库为用户提供检索、查询服务,解决了国防科技科研生产内部数据资源共享利用率低、非结构化数据缺乏有效整合、不同来源数据难以统一分析处理的问题,实现了将国防科技领域的内部数据与开源数据相融合的数据组织,显著提高数据资源的利用率;此外根据本发明提取的标签进行多类型数据文件检索,可以有效提高多源多类型数据文件的查询、检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的面向国防科技领域的多源数据融合方法的方法流程图;
图2为本发明提供的面向国防科技领域的多源数据融合方法的基本原理图;
图3为本发明提供的面向国防科技领域的多源数据融合系统的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向国防科技领域的多源数据融合方法及系统,以解决目前国防科技领域的内部资料与外部资料互不流通,导致的数据资源利用率低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的面向国防科技领域的多源数据融合方法的方法流程图。图2为本发明提供的面向国防科技领域的多源数据融合方法的基本原理图。参见图1和图2,本发明提供的面向国防科技领域的多源数据融合方法具体包括:
步骤101:获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中,形成多源资料数据。
所述步骤101具体包括:
S1.1:获取国防科技领域的内部资料数据和外部资料数据。其中内部资料数据是指日常国防科技科研生产过程中产生的报告、专报、论文、专利等数据,外部资料数据是指购买的外部文献资源、采集的动态资讯等数据。内部资料和外部资料的资料类型包括文字、图片、音视频等多种类型格式。
S1.2:建立数据库,数据库表头包括标题、作者、机构、发布时间、关键词、原文件链接。为所述数据库中的数据文件建立专用的数据文件服务器,原文件链接是指数据文件在数据文件服务器中的位置。
S1.3:将S1.1获取的内部资料数据和外部资料数据统一存储在S1.2所建立的数据库中,融合为多源资料数据供步骤102使用。
步骤102:对所述数据库中存储的多源资料数据进行分类,形成多类型数据文件。所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件。
对于步骤101建立的数据库中存储的多源资料数据,通过文件类型分类器进行分类,分类方法是基于文件名的后缀进行分类,分类形成文本数据文件、图片数据文件、音频数据文件、视频数据文件,供步骤103-步骤107使用。
步骤103:将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件。
其中,所述步骤103具体包括:
S2:将所述图片数据文件转换为文本数据文件,具体包括:
S2.1:对于图片数据文件,采用OCR(Optical Character Recognition,光学字符识别)技术进行字符识别,将所述图片数据文件识别为文本数据文件;
S2.2:判断所述文本数据文件是否识别成功,获得第一判断结果;
S2.3:若所述第一判断结果为所述文本数据文件识别成功,执行所述步骤104,采用步骤104的方法对文本数据文件进行处理,提取所述文本数据文件的标签;
S2.4:若所述第一判断结果为所述文本数据文件未识别成功,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,然后执行所述步骤105,将所述标签与所述多类型数据文件对应存储于所述数据库中。
所述步骤S2.4中,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,具体实现过程如下:
S2.4.1:首先选定一批图片作为训练集,将训练集图片随机分配给国防科技领域的不同专家进行标注操作,标注是指专家根据自身经验,将该图片的主要内容总结为5个关键词,上传给系统。同一个图片数据文件可随机交由多个专家进行标注。
S2.4.2:判断同一个图片数据文件的不同标注结果,如果有大于3个专家的标注结果相同,则将其作为该图片数据文件的最终标签;当最终标签不足3个时,将图片数据文件交给更多的专家进行标注,最终选定标注结果相同数最高的3个标签作为该图片数据文件的标签。
S2.4.3:通过受限玻尔兹曼机(RestrictedBoltzmann Machine,RBM)算法对训练集中每个图片数据文件和对应的标签进行训练,形成深度神经网络模型,通过测试集判断深度神经网络模型是否符合预期,如不符合预期,则返回S2.4.1邀请更多领域专家进行标注,根据标注结果重新训练深度神经网络模型,直到模型输出结果符合预期,得到训练好的深度神经网络模型。所述训练好的深度神经网络模型输入为图片数据文件,输出为对应的标签。
S2.4.4:对所有图片数据文件,通过S2.4.3的训练好的深度神经网络模型生成对应的标签。将标签和文件的对应关系存储在数据库中,供步骤106使用。
S3:将所述视频数据文件转换为文本数据文件,具体包括:
S3.1:对于步骤102输出的视频数据,将所述视频数据文件切分成多帧图片;
S3.2:采用PSNR(Peak Signal to Noise Ratio峰值信噪比)算法计算每一帧图片的PSNR值;
S3.3:采用EM(Expectation-maximization,期望最大化)聚类算法对视频数据的所有帧图片的PSNR值进行聚类,聚类得到的每一类的第一个帧作为关键帧;
S3.4:将所述关键帧作为所述视频数据文件对应的图片数据文件,返回执行所述步骤S2,利用所述步骤S2的方法将所述图片数据文件转换为文本数据文件,对于字符识别成功的文本数据文件,采用步骤104的方法提取文本数据文件的3个标签;对于字符识别失败的图片数据文件,采用S2.4.3生成的训练好的深度神经网络模型生成对应的3个标签。
S3.5:统计所述视频数据文件中所有关键帧的标签,将出现次数最多的3个标签作为所述视频数据文件的标签。将标签与视频数据文件的对应关系存储在数据库中,供步骤106使用。
S4:将所述音频数据文件转换为文本数据文件,具体包括:
S4.1:对于步骤102输出的音频数据,通过RNN+CTC(Recurrent Neural Network+ConnectionistTemporal classification,循环神经网络+联结时序分类)模型进行语音识别,将所述音频数据文件转换为文本数据文件。,
S4.2:采用步骤104的方法对文本数据进行处理,提取所述文本数据文件的标签。将音频数据与文本数据形成的标签的对应关系存储在数据库中,供步骤106使用。
步骤104:提取所述文本数据文件的标签。
所述步骤104具体包括:
S5.1:将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件;
对于步骤103输出的文本数据文件,使用敏感术语代号表进行敏感术语代号替换操作,敏感术语代号表是一个包含国防科技领域专业术语和其对应代号的表,该表由长期工作中积累形成,例如钢船的代号是A01,军船代号A02,小艇代号B03,散货船代号M11。将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件。
本发明根据国防科技领域的特点形成敏感术语代号表,敏感术语代号表中的国防科技领域专业术语通常为需要保密的术语和保密数据,使用敏感术语代号表进行敏感术语代号替换操作,能够满足内部资料数据的保密性要求,便于内部报告的处理。经过敏感术语代号替换后的文本数据文件已经实现了保密操作,因此可以与外部资料数据进行融合,形成统一的数据资源进行使用。
S5.2:对于替换后的文本数据文件,通过基于HMM(Hidden Markov Model,隐马尔可夫模型)的分词算法将每一个文本数据文件分成一系列的词语。
S5.3:通过TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率)算法计算每一个词语的权重值。
S5.4:将每个文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。
S5.5:将标签和所述文本数据文件以及源文件的对应关系存储在数据库中,供步骤106使用。
对于视频数据文件,统计所述视频数据文件中所有关键帧的标签,将出现次数最多的3个标签作为所述视频数据文件的标签。将标签与视频数据文件的对应关系存储在数据库中,供步骤106使用。
步骤105:将所述标签与所述多类型数据文件对应存储于所述数据库中。
汇总步骤103-步骤104的结果,形成标签与不同文件类型数据的对应关系,将标签和所述文本数据文件以及源文件的对应关系存储在数据库中,形成统一的多源数据融合后的数据资源库,对外提供数据服务。所述源文件是指标签对应的原始的多类型数据文件,例如将图片数据文件A1转换为文本数据文件A2后,从文本数据文件A2中提取的标签为A3,则将标签A3与源文件(即原始的图片数据文件A1)、以及中间文件(即文本数据文件A2)对应存储。
步骤106:根据所述标签检索所述多类型数据文件。
当需要检索、查询数据库中的多源、多类型数据文件时,只需在查询窗口输入用户检索的关键词,后台从数据库中检索与所述关键词对应的标签。如果找到与当前检索的关键词对应的标签,则将所述标签对应的源文件作为检索结果反馈给用户。进一步的,还可以将与所述标签对应的中间文件(转换后的文本数据文件)反馈给用户,从而方便用户进行复制、粘贴等操作。
如果找不到与当前检索的关键词对应的标签,则提醒用户更改搜索的关键词,还可以根据数据库中存储的标签为用户推荐相关的搜索关键词。
本发明将原本内外隔离的不同来源、不同类型的数据进行融合,形成统一的数据资源库提供服务,解决了国防科技科研生产内部数据资源共享利用率低、非结构化数据缺乏有效整合、不同来源数据难以统一分析处理的问题,实现了将国防科技领域的内部数据与开源数据相融合的数据组织,显著提高数据资源的利用率和数据资源的检索效率。
基于本发明提供的多源数据融合方法,本发明还提供一种面向国防科技领域的多源数据融合系统,如图3所示,所述系统包括:
多源资料数据获取模块301,用于获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中,形成多源资料数据;
数据分类模块302,用于对所述数据库中存储的多源资料数据进行分类,形成多类型数据文件;所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件;
数据文件转换模块303,用于将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件;
标签提取模块304,用于提取所述文本数据文件的标签;
标签存储模块305,用于将所述标签与所述多类型数据文件对应存储于所述数据库中;
数据检索模块306,用于根据所述标签检索所述多类型数据文件。
其中,所述数据文件转换模块303具体包括:
图片识别单元,用于采用光学字符识别技术将所述图片数据文件识别为文本数据文件;
第一判断单元,用于判断所述文本数据文件是否识别成功,获得第一判断结果;
图片识别成功单元,用于若所述第一判断结果为所述文本数据文件识别成功,执行所述提取所述文本数据文件的标签的步骤;
图片识别失败单元,用于若所述第一判断结果为所述文本数据文件未识别成功,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤;
视频切分单元,用于将所述视频数据文件切分成多帧图片;
PSNR值计算单元,用于采用峰值信噪比PSNR算法计算每一帧图片的PSNR值;
聚类单元,用于采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类,聚类得到的每一类的第一个帧作为关键帧;
关键帧转换单元,用于将所述关键帧作为所述视频数据文件对应的图片数据文件,执行所述将所述图片数据文件转换为文本数据文件的步骤;
语音识别单元,用于采用语音识别方法将所述音频数据文件转换为文本数据文件。
所述标签提取模块304具体包括:
敏感术语代号替换单元,用于将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件;
文本分词单元,用于采用分词算法将所述替换后的文本数据文件分成一系列的词语;
权重计算单元,用于采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值;
标签提取单元,用于确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。
本发明提供的方法及系统将多源(文献资源、开源资讯、内部报告等)、多类型(文本、图片、音视频等)资源通过标签进行融合,形成统一的数据资源提供服务,能够显著提高数据资源的利用率和数据资源的检索效率。在文本数据文件的处理过程中,根据国防科技领域的特点形成敏感术语代号表,便于内部报告的处理,满足国防科技领域的特殊保密性要求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种面向国防科技领域的多源数据融合方法,其特征在于,所述方法包括:
获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中,形成多源资料数据;
对所述数据库中存储的多源资料数据进行分类,形成多类型数据文件;所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件;
将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件;
提取所述文本数据文件的标签;
将所述标签与所述多类型数据文件对应存储于所述数据库中;
根据所述标签检索所述多类型数据文件。
2.根据权利要求1所述的多源数据融合方法,其特征在于,所述将所述图片数据文件转换为文本数据文件,具体包括:
采用光学字符识别技术将所述图片数据文件识别为文本数据文件;
判断所述文本数据文件是否识别成功,获得第一判断结果;
若所述第一判断结果为所述文本数据文件识别成功,执行所述提取所述文本数据文件的标签的步骤;
若所述第一判断结果为所述文本数据文件未识别成功,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤。
3.根据权利要求2所述的多源数据融合方法,其特征在于,所述将所述视频数据文件转换为文本数据文件,具体包括:
将所述视频数据文件切分成多帧图片;
采用峰值信噪比PSNR算法计算每一帧图片的PSNR值;
采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类,聚类得到的每一类的第一个帧作为关键帧;
将所述关键帧作为所述视频数据文件对应的图片数据文件,执行所述将所述图片数据文件转换为文本数据文件的步骤。
4.根据权利要求3所述的多源数据融合方法,其特征在于,所述将所述音频数据文件转换为文本数据文件,具体包括:
采用语音识别方法将所述音频数据文件转换为文本数据文件。
5.根据权利要求4所述的多源数据融合方法,其特征在于,所述提取所述文本数据文件的标签,具体包括:
将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件;
采用分词算法将所述替换后的文本数据文件分成一系列的词语;
采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值;
确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。
6.一种面向国防科技领域的多源数据融合系统,其特征在于,所述系统包括:
多源资料数据获取模块,用于获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中,形成多源资料数据;
数据分类模块,用于对所述数据库中存储的多源资料数据进行分类,形成多类型数据文件;所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件;
数据文件转换模块,用于将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件;
标签提取模块,用于提取所述文本数据文件的标签;
标签存储模块,用于将所述标签与所述多类型数据文件对应存储于所述数据库中;
数据检索模块,用于根据所述标签检索所述多类型数据文件。
7.根据权利要求6所述的多源数据融合系统,其特征在于,所述数据文件转换模块具体包括:
图片识别单元,用于采用光学字符识别技术将所述图片数据文件识别为文本数据文件;
第一判断单元,用于判断所述文本数据文件是否识别成功,获得第一判断结果;
图片识别成功单元,用于若所述第一判断结果为所述文本数据文件识别成功,执行所述提取所述文本数据文件的标签的步骤;
图片识别失败单元,用于若所述第一判断结果为所述文本数据文件未识别成功,采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签,执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤。
8.根据权利要求7所述的多源数据融合系统,其特征在于,所述数据文件转换模块还包括:
视频切分单元,用于将所述视频数据文件切分成多帧图片;
PSNR值计算单元,用于采用峰值信噪比PSNR算法计算每一帧图片的PSNR值;
聚类单元,用于采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类,聚类得到的每一类的第一个帧作为关键帧;
关键帧转换单元,用于将所述关键帧作为所述视频数据文件对应的图片数据文件,执行所述将所述图片数据文件转换为文本数据文件的步骤。
9.根据权利要求8所述的多源数据融合系统,其特征在于,所述数据文件转换模块还包括:
语音识别单元,用于采用语音识别方法将所述音频数据文件转换为文本数据文件。
10.根据权利要求9所述的多源数据融合系统,其特征在于,所述标签提取模块具体包括:
敏感术语代号替换单元,用于将所述文本数据文件中的敏感术语替换为对应的代号,生成替换后的文本数据文件;
文本分词单元,用于采用分词算法将所述替换后的文本数据文件分成一系列的词语;
权重计算单元,用于采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值;
标签提取单元,用于确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。
CN201910360665.6A 2019-04-30 2019-04-30 一种面向国防科技领域的多源数据融合方法及系统 Pending CN110083654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910360665.6A CN110083654A (zh) 2019-04-30 2019-04-30 一种面向国防科技领域的多源数据融合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910360665.6A CN110083654A (zh) 2019-04-30 2019-04-30 一种面向国防科技领域的多源数据融合方法及系统

Publications (1)

Publication Number Publication Date
CN110083654A true CN110083654A (zh) 2019-08-02

Family

ID=67418074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910360665.6A Pending CN110083654A (zh) 2019-04-30 2019-04-30 一种面向国防科技领域的多源数据融合方法及系统

Country Status (1)

Country Link
CN (1) CN110083654A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538871A (zh) * 2020-07-08 2020-08-14 北京东方通科技股份有限公司 一种支持不同数据类型的一体化检索方法
CN112329746A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 多模态谎言检测方法、装置、设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026753A (zh) * 2006-02-22 2007-08-29 北京金远见电脑技术有限公司 多媒体编解码器及其方法
CN102780919A (zh) * 2012-08-24 2012-11-14 乐视网信息技术(北京)股份有限公司 通过关键帧进行视频定位和播放的方法
CN102982110A (zh) * 2012-11-08 2013-03-20 中国科学院自动化研究所 在物理空间上提取网络空间热点事件信息的方法
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法
CN105045855A (zh) * 2015-07-08 2015-11-11 中国人民解放军理工大学 多源分布式多媒体汇报材料自动生成方法及系统
CN105338223A (zh) * 2015-12-03 2016-02-17 上海东方传媒技术有限公司 广播电视播出领域融合新媒体图文集中播控管理系统
CN107305555A (zh) * 2016-04-20 2017-10-31 中国移动通信集团河北有限公司 数据处理方法及装置
CN107656958A (zh) * 2017-06-09 2018-02-02 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
US20180341700A1 (en) * 2017-05-25 2018-11-29 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for determining regional information

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026753A (zh) * 2006-02-22 2007-08-29 北京金远见电脑技术有限公司 多媒体编解码器及其方法
CN102780919A (zh) * 2012-08-24 2012-11-14 乐视网信息技术(北京)股份有限公司 通过关键帧进行视频定位和播放的方法
CN102982110A (zh) * 2012-11-08 2013-03-20 中国科学院自动化研究所 在物理空间上提取网络空间热点事件信息的方法
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法
CN105045855A (zh) * 2015-07-08 2015-11-11 中国人民解放军理工大学 多源分布式多媒体汇报材料自动生成方法及系统
CN105338223A (zh) * 2015-12-03 2016-02-17 上海东方传媒技术有限公司 广播电视播出领域融合新媒体图文集中播控管理系统
CN107305555A (zh) * 2016-04-20 2017-10-31 中国移动通信集团河北有限公司 数据处理方法及装置
US20180341700A1 (en) * 2017-05-25 2018-11-29 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for determining regional information
CN107656958A (zh) * 2017-06-09 2018-02-02 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538871A (zh) * 2020-07-08 2020-08-14 北京东方通科技股份有限公司 一种支持不同数据类型的一体化检索方法
CN112329746A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 多模态谎言检测方法、装置、设备
CN112329746B (zh) * 2021-01-04 2021-04-16 中国科学院自动化研究所 多模态谎言检测方法、装置、设备

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
US9589208B2 (en) Retrieval of similar images to a query image
US10565233B2 (en) Suffix tree similarity measure for document clustering
US10055479B2 (en) Joint approach to feature and document labeling
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
US8788503B1 (en) Content identification
CN113177124A (zh) 一种垂直领域知识图谱构建方法及系统
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN113961685A (zh) 信息抽取方法及装置
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及系统
CN110083654A (zh) 一种面向国防科技领域的多源数据融合方法及系统
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Lei et al. Automatically classify chinese judgment documents utilizing machine learning algorithms
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
Fuxman et al. Improving classification accuracy using automatically extracted training data
CN114490951B (zh) 一种多标签文本分类方法及模型
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN113177478B (zh) 一种基于迁移学习的短视频语义标注方法
Uskenbayeva et al. Creation of Data Classification System for Local Administration
CN109299256A (zh) 一种在线观点挖掘方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190802