CN110083654A

CN110083654A - 一种面向国防科技领域的多源数据融合方法及系统

Info

Publication number: CN110083654A
Application number: CN201910360665.6A
Authority: CN
Inventors: 晏裕生; 裴大茗; 姚晗; 孙孟阳; 董文轩; 江洋
Original assignee: INTRODUCTION OF TECHNOLOGY RESEARCH & ECONOMY DEVELOPMENT INSTITUTE
Current assignee: INTRODUCTION OF TECHNOLOGY RESEARCH & ECONOMY DEVELOPMENT INSTITUTE
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-02

Abstract

本发明公开了一种面向国防科技领域的多源数据融合方法及系统。所述方法及系统将原本内外隔离的不同来源、不同类型的内、外部资料数据进行融合，形成统一的数据资源库为用户提供检索、查询服务，解决了国防科技科研生产内部数据资源共享利用率低、非结构化数据缺乏有效整合、不同来源数据难以统一分析处理的问题，实现了将国防科技领域的内部数据与开源数据相融合的数据组织，显著提高数据资源的利用率；此外根据本发明提取的标签进行多类型数据文件检索，可以有效提高多源多类型数据文件的查询、检索效率。

Description

一种面向国防科技领域的多源数据融合方法及系统

技术领域

本发明涉及国防科技及数据融合技术领域，特别是涉及一种面向国防科技领域的多源数据融合方法及系统。

背景技术

在国防科技领域，存在着大量的高价值密度的内部资料，出于内部资料保密需要，目前内部资料与外部资料互不流通。国防科技领域的内部资料是指日常国防科技科研生产过程中产生的报告、专报、论文、专利等，外部资料是指购买的文献资源、采集的动态资讯等。资料类型包括文字、图片、音视频等多种类型格式。目前外部资料中的文献资源已经有成熟的存储与检索平台，可以根据关键字快速查询文献资料，动态资讯部分也已开始着手采集处理，但内部资料目前还处于提交后保存，难以再次利用的状态。此外还存在对图片、音视频等多媒体类型的资料利用率较低的问题。因此，如何将多种类型的内部资料与多种类型的外部资料进行融合，形成统一的数据资源，提高数据资源利用率和资料检索效率，是本领域亟需解决的问题。

发明内容

本发明的目的是提供一种面向国防科技领域的多源数据融合方法及系统，以解决目前内部资料与外部资料互不流通，导致的数据资源利用率低的问题。

为实现上述目的，本发明提供了如下方案：

一种面向国防科技领域的多源数据融合方法，所述方法包括：

获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中，形成多源资料数据；

对所述数据库中存储的多源资料数据进行分类，形成多类型数据文件；所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件；

将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件；

提取所述文本数据文件的标签；

将所述标签与所述多类型数据文件对应存储于所述数据库中；

根据所述标签检索所述多类型数据文件。

可选的，所述将所述图片数据文件转换为文本数据文件，具体包括：

采用光学字符识别技术将所述图片数据文件识别为文本数据文件；

判断所述文本数据文件是否识别成功，获得第一判断结果；

若所述第一判断结果为所述文本数据文件识别成功，执行所述提取所述文本数据文件的标签的步骤；

若所述第一判断结果为所述文本数据文件未识别成功，采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签，执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤。

可选的，所述将所述视频数据文件转换为文本数据文件，具体包括：

将所述视频数据文件切分成多帧图片；

采用峰值信噪比PSNR算法计算每一帧图片的PSNR值；

采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类，聚类得到的每一类的第一个帧作为关键帧；

将所述关键帧作为所述视频数据文件对应的图片数据文件，执行所述将所述图片数据文件转换为文本数据文件的步骤。

可选的，所述将所述音频数据文件转换为文本数据文件，具体包括：

采用语音识别方法将所述音频数据文件转换为文本数据文件。

可选的，所述提取所述文本数据文件的标签，具体包括：

将所述文本数据文件中的敏感术语替换为对应的代号，生成替换后的文本数据文件；

采用分词算法将所述替换后的文本数据文件分成一系列的词语；

采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值；

确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。

一种面向国防科技领域的多源数据融合系统，所述系统包括：

多源资料数据获取模块，用于获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中，形成多源资料数据；

数据分类模块，用于对所述数据库中存储的多源资料数据进行分类，形成多类型数据文件；所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件；

数据文件转换模块，用于将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件；

标签提取模块，用于提取所述文本数据文件的标签；

标签存储模块，用于将所述标签与所述多类型数据文件对应存储于所述数据库中；

数据检索模块，用于根据所述标签检索所述多类型数据文件。

可选的，所述数据文件转换模块具体包括：

图片识别单元，用于采用光学字符识别技术将所述图片数据文件识别为文本数据文件；

第一判断单元，用于判断所述文本数据文件是否识别成功，获得第一判断结果；

图片识别成功单元，用于若所述第一判断结果为所述文本数据文件识别成功，执行所述提取所述文本数据文件的标签的步骤；

图片识别失败单元，用于若所述第一判断结果为所述文本数据文件未识别成功，采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签，执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤。

可选的，所述数据文件转换模块还包括：

视频切分单元，用于将所述视频数据文件切分成多帧图片；

PSNR值计算单元，用于采用峰值信噪比PSNR算法计算每一帧图片的PSNR值；

聚类单元，用于采用期望最大化聚类算法对所有帧图片的PSNR值进行聚类，聚类得到的每一类的第一个帧作为关键帧；

关键帧转换单元，用于将所述关键帧作为所述视频数据文件对应的图片数据文件，执行所述将所述图片数据文件转换为文本数据文件的步骤。

可选的，所述数据文件转换模块还包括：

语音识别单元，用于采用语音识别方法将所述音频数据文件转换为文本数据文件。

可选的，所述标签提取模块具体包括：

敏感术语代号替换单元，用于将所述文本数据文件中的敏感术语替换为对应的代号，生成替换后的文本数据文件；

文本分词单元，用于采用分词算法将所述替换后的文本数据文件分成一系列的词语；

权重计算单元，用于采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值；

标签提取单元，用于确定所述文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种面向国防科技领域的多源数据融合方法及系统，所述方法及系统将原本内外隔离的不同来源、不同类型的内、外部资料数据进行融合，形成统一的数据资源库为用户提供检索、查询服务，解决了国防科技科研生产内部数据资源共享利用率低、非结构化数据缺乏有效整合、不同来源数据难以统一分析处理的问题，实现了将国防科技领域的内部数据与开源数据相融合的数据组织，显著提高数据资源的利用率；此外根据本发明提取的标签进行多类型数据文件检索，可以有效提高多源多类型数据文件的查询、检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的面向国防科技领域的多源数据融合方法的方法流程图；

图2为本发明提供的面向国防科技领域的多源数据融合方法的基本原理图；

图3为本发明提供的面向国防科技领域的多源数据融合系统的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种面向国防科技领域的多源数据融合方法及系统，以解决目前国防科技领域的内部资料与外部资料互不流通，导致的数据资源利用率低的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的面向国防科技领域的多源数据融合方法的方法流程图。图2为本发明提供的面向国防科技领域的多源数据融合方法的基本原理图。参见图1和图2，本发明提供的面向国防科技领域的多源数据融合方法具体包括：

步骤101：获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中，形成多源资料数据。

所述步骤101具体包括：

S1.1：获取国防科技领域的内部资料数据和外部资料数据。其中内部资料数据是指日常国防科技科研生产过程中产生的报告、专报、论文、专利等数据，外部资料数据是指购买的外部文献资源、采集的动态资讯等数据。内部资料和外部资料的资料类型包括文字、图片、音视频等多种类型格式。

S1.2：建立数据库，数据库表头包括标题、作者、机构、发布时间、关键词、原文件链接。为所述数据库中的数据文件建立专用的数据文件服务器，原文件链接是指数据文件在数据文件服务器中的位置。

S1.3：将S1.1获取的内部资料数据和外部资料数据统一存储在S1.2所建立的数据库中，融合为多源资料数据供步骤102使用。

步骤102：对所述数据库中存储的多源资料数据进行分类，形成多类型数据文件。所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件。

对于步骤101建立的数据库中存储的多源资料数据，通过文件类型分类器进行分类，分类方法是基于文件名的后缀进行分类，分类形成文本数据文件、图片数据文件、音频数据文件、视频数据文件，供步骤103-步骤107使用。

步骤103：将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件。

其中，所述步骤103具体包括：

S2：将所述图片数据文件转换为文本数据文件，具体包括：

S2.1:对于图片数据文件，采用OCR(Optical Character Recognition，光学字符识别)技术进行字符识别，将所述图片数据文件识别为文本数据文件；

S2.2:判断所述文本数据文件是否识别成功，获得第一判断结果；

S2.3:若所述第一判断结果为所述文本数据文件识别成功，执行所述步骤104，采用步骤104的方法对文本数据文件进行处理，提取所述文本数据文件的标签；

S2.4:若所述第一判断结果为所述文本数据文件未识别成功，采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签，然后执行所述步骤105，将所述标签与所述多类型数据文件对应存储于所述数据库中。

所述步骤S2.4中，采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签，具体实现过程如下：

S2.4.1:首先选定一批图片作为训练集，将训练集图片随机分配给国防科技领域的不同专家进行标注操作，标注是指专家根据自身经验，将该图片的主要内容总结为5个关键词，上传给系统。同一个图片数据文件可随机交由多个专家进行标注。

S2.4.2:判断同一个图片数据文件的不同标注结果，如果有大于3个专家的标注结果相同，则将其作为该图片数据文件的最终标签；当最终标签不足3个时，将图片数据文件交给更多的专家进行标注，最终选定标注结果相同数最高的3个标签作为该图片数据文件的标签。

S2.4.3:通过受限玻尔兹曼机(RestrictedBoltzmann Machine，RBM)算法对训练集中每个图片数据文件和对应的标签进行训练，形成深度神经网络模型，通过测试集判断深度神经网络模型是否符合预期，如不符合预期，则返回S2.4.1邀请更多领域专家进行标注，根据标注结果重新训练深度神经网络模型，直到模型输出结果符合预期，得到训练好的深度神经网络模型。所述训练好的深度神经网络模型输入为图片数据文件，输出为对应的标签。

S2.4.4：对所有图片数据文件，通过S2.4.3的训练好的深度神经网络模型生成对应的标签。将标签和文件的对应关系存储在数据库中，供步骤106使用。

S3：将所述视频数据文件转换为文本数据文件，具体包括：

S3.1:对于步骤102输出的视频数据，将所述视频数据文件切分成多帧图片；

S3.2:采用PSNR(Peak Signal to Noise Ratio峰值信噪比)算法计算每一帧图片的PSNR值；

S3.3:采用EM(Expectation-maximization，期望最大化)聚类算法对视频数据的所有帧图片的PSNR值进行聚类，聚类得到的每一类的第一个帧作为关键帧；

S3.4:将所述关键帧作为所述视频数据文件对应的图片数据文件，返回执行所述步骤S2，利用所述步骤S2的方法将所述图片数据文件转换为文本数据文件，对于字符识别成功的文本数据文件，采用步骤104的方法提取文本数据文件的3个标签；对于字符识别失败的图片数据文件，采用S2.4.3生成的训练好的深度神经网络模型生成对应的3个标签。

S3.5:统计所述视频数据文件中所有关键帧的标签，将出现次数最多的3个标签作为所述视频数据文件的标签。将标签与视频数据文件的对应关系存储在数据库中，供步骤106使用。

S4：将所述音频数据文件转换为文本数据文件，具体包括：

S4.1:对于步骤102输出的音频数据，通过RNN+CTC(Recurrent Neural Network+ConnectionistTemporal classification，循环神经网络+联结时序分类)模型进行语音识别，将所述音频数据文件转换为文本数据文件。,

S4.2:采用步骤104的方法对文本数据进行处理，提取所述文本数据文件的标签。将音频数据与文本数据形成的标签的对应关系存储在数据库中，供步骤106使用。

步骤104：提取所述文本数据文件的标签。

所述步骤104具体包括：

S5.1：将所述文本数据文件中的敏感术语替换为对应的代号，生成替换后的文本数据文件；

对于步骤103输出的文本数据文件，使用敏感术语代号表进行敏感术语代号替换操作，敏感术语代号表是一个包含国防科技领域专业术语和其对应代号的表，该表由长期工作中积累形成，例如钢船的代号是A01，军船代号A02，小艇代号B03，散货船代号M11。将所述文本数据文件中的敏感术语替换为对应的代号，生成替换后的文本数据文件。

本发明根据国防科技领域的特点形成敏感术语代号表，敏感术语代号表中的国防科技领域专业术语通常为需要保密的术语和保密数据，使用敏感术语代号表进行敏感术语代号替换操作，能够满足内部资料数据的保密性要求，便于内部报告的处理。经过敏感术语代号替换后的文本数据文件已经实现了保密操作，因此可以与外部资料数据进行融合，形成统一的数据资源进行使用。

S5.2：对于替换后的文本数据文件，通过基于HMM(Hidden Markov Model,隐马尔可夫模型)的分词算法将每一个文本数据文件分成一系列的词语。

S5.3：通过TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文本频率)算法计算每一个词语的权重值。

S5.4：将每个文本数据文件中权重值最高的3个词语作为所述文本数据文件的标签。

S5.5：将标签和所述文本数据文件以及源文件的对应关系存储在数据库中，供步骤106使用。

对于视频数据文件，统计所述视频数据文件中所有关键帧的标签，将出现次数最多的3个标签作为所述视频数据文件的标签。将标签与视频数据文件的对应关系存储在数据库中，供步骤106使用。

步骤105：将所述标签与所述多类型数据文件对应存储于所述数据库中。

汇总步骤103-步骤104的结果，形成标签与不同文件类型数据的对应关系，将标签和所述文本数据文件以及源文件的对应关系存储在数据库中，形成统一的多源数据融合后的数据资源库，对外提供数据服务。所述源文件是指标签对应的原始的多类型数据文件，例如将图片数据文件A1转换为文本数据文件A2后，从文本数据文件A2中提取的标签为A3，则将标签A3与源文件(即原始的图片数据文件A1)、以及中间文件(即文本数据文件A2)对应存储。

步骤106：根据所述标签检索所述多类型数据文件。

当需要检索、查询数据库中的多源、多类型数据文件时，只需在查询窗口输入用户检索的关键词，后台从数据库中检索与所述关键词对应的标签。如果找到与当前检索的关键词对应的标签，则将所述标签对应的源文件作为检索结果反馈给用户。进一步的，还可以将与所述标签对应的中间文件(转换后的文本数据文件)反馈给用户，从而方便用户进行复制、粘贴等操作。

如果找不到与当前检索的关键词对应的标签，则提醒用户更改搜索的关键词，还可以根据数据库中存储的标签为用户推荐相关的搜索关键词。

本发明将原本内外隔离的不同来源、不同类型的数据进行融合，形成统一的数据资源库提供服务，解决了国防科技科研生产内部数据资源共享利用率低、非结构化数据缺乏有效整合、不同来源数据难以统一分析处理的问题，实现了将国防科技领域的内部数据与开源数据相融合的数据组织，显著提高数据资源的利用率和数据资源的检索效率。

基于本发明提供的多源数据融合方法，本发明还提供一种面向国防科技领域的多源数据融合系统，如图3所示，所述系统包括：

多源资料数据获取模块301，用于获取国防科技领域的内部资料数据和外部资料数据并统一存储于数据库中，形成多源资料数据；

数据分类模块302，用于对所述数据库中存储的多源资料数据进行分类，形成多类型数据文件；所述多类型数据文件包括文本数据文件、图片数据文件、音频数据文件和视频数据文件；

数据文件转换模块303，用于将所述图片数据文件、所述音频数据文件和所述视频数据文件分别转换为文本数据文件；

标签提取模块304，用于提取所述文本数据文件的标签；

标签存储模块305，用于将所述标签与所述多类型数据文件对应存储于所述数据库中；

数据检索模块306，用于根据所述标签检索所述多类型数据文件。

其中，所述数据文件转换模块303具体包括：

图片识别失败单元，用于若所述第一判断结果为所述文本数据文件未识别成功，采用基于深度学习的图像自动标注技术生成每个所述图片数据文件对应的标签，执行所述将所述标签与所述多类型数据文件对应存储于所述数据库中的步骤；

视频切分单元，用于将所述视频数据文件切分成多帧图片；

关键帧转换单元，用于将所述关键帧作为所述视频数据文件对应的图片数据文件，执行所述将所述图片数据文件转换为文本数据文件的步骤；

所述标签提取模块304具体包括：

本发明提供的方法及系统将多源(文献资源、开源资讯、内部报告等)、多类型(文本、图片、音视频等)资源通过标签进行融合，形成统一的数据资源提供服务，能够显著提高数据资源的利用率和数据资源的检索效率。在文本数据文件的处理过程中，根据国防科技领域的特点形成敏感术语代号表，便于内部报告的处理，满足国防科技领域的特殊保密性要求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向国防科技领域的多源数据融合方法，其特征在于，所述方法包括：

提取所述文本数据文件的标签；

根据所述标签检索所述多类型数据文件。

2.根据权利要求1所述的多源数据融合方法，其特征在于，所述将所述图片数据文件转换为文本数据文件，具体包括：

判断所述文本数据文件是否识别成功，获得第一判断结果；

3.根据权利要求2所述的多源数据融合方法，其特征在于，所述将所述视频数据文件转换为文本数据文件，具体包括：

将所述视频数据文件切分成多帧图片；

采用峰值信噪比PSNR算法计算每一帧图片的PSNR值；

4.根据权利要求3所述的多源数据融合方法，其特征在于，所述将所述音频数据文件转换为文本数据文件，具体包括：

5.根据权利要求4所述的多源数据融合方法，其特征在于，所述提取所述文本数据文件的标签，具体包括：

采用词频-逆文本频率TF-IDF算法计算每一个词语的权重值；

6.一种面向国防科技领域的多源数据融合系统，其特征在于，所述系统包括：

标签提取模块，用于提取所述文本数据文件的标签；

7.根据权利要求6所述的多源数据融合系统，其特征在于，所述数据文件转换模块具体包括：

8.根据权利要求7所述的多源数据融合系统，其特征在于，所述数据文件转换模块还包括：

视频切分单元，用于将所述视频数据文件切分成多帧图片；

9.根据权利要求8所述的多源数据融合系统，其特征在于，所述数据文件转换模块还包括：

10.根据权利要求9所述的多源数据融合系统，其特征在于，所述标签提取模块具体包括：