CN113313170B - 基于人工智能的全时全域训练大数据平台 - Google Patents

基于人工智能的全时全域训练大数据平台 Download PDF

Info

Publication number
CN113313170B
CN113313170B CN202110594573.1A CN202110594573A CN113313170B CN 113313170 B CN113313170 B CN 113313170B CN 202110594573 A CN202110594573 A CN 202110594573A CN 113313170 B CN113313170 B CN 113313170B
Authority
CN
China
Prior art keywords
training
data
processing
image
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110594573.1A
Other languages
English (en)
Other versions
CN113313170A (zh
Inventor
徐庆尧
杨超
耿艳栋
侯翔
陈大春
张睿
费凯
封双连
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN202110594573.1A priority Critical patent/CN113313170B/zh
Publication of CN113313170A publication Critical patent/CN113313170A/zh
Application granted granted Critical
Publication of CN113313170B publication Critical patent/CN113313170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及基于人工智能的全时全域训练大数据平台,包括:标准化训练素材采集系统,用于通过身份制和界面化的方式利用泛在物联网进行训练数据的标准化采集;素材智能化识别系统,用于对训练数据进行图像特征智能化识别;基于OCR的训练素材处理系统,用于对训练数据进行文本素材识别与提取处理;微服务架构系统,用于基于训练数据提供平台微服务处理;微服务处理包括动态负载均衡处理、分布式消息传输与数据交互处理和信息安全处理;综合可视化系统,用于根据训练数据和微服务处理结果进行训练数据可视化展示。在训练实践应用中,借助前述平台实现了训练全过程的跟踪优化,显著提升了训练应用效率。

Description

基于人工智能的全时全域训练大数据平台
技术领域
本申请涉及大数据处理与应用技术领域,特别是涉及一种基于人工智能的全时全域训练大数据平台。
背景技术
随着军队信息化建设向纵深推进和以云计算、大数据、人工智能为代表的新技术的飞速发展,军事训练领域迎来了思想观念上的变革和方法手段上的革新。数字化、网络化程度不断提升,军事训练活动中产生数据的种类日益增多且数量成倍增长,用大数据理念指导军事训练实践,已经成为各级对训练规律认识、训练效果评估、训练效益评价和训练质量监察必不可少的基础支撑。
深入发掘训练数据的潜在价值,分析大数据技术在军事训练中的应用,积极探索推进军事训练大数据建设的对策措施,对于提高军事训练效益,推进军事训练创新发展具有十分重要的意义。然而,在实现本发明过程中,发明人发现在军事训练大数据应用建设中,存在着训练应用效率不高的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种训练应用效率较高的基于人工智能的全时全域训练大数据平台。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种基于人工智能的全时全域训练大数据平台,包括:
标准化训练素材采集系统,用于通过身份制和界面化的方式利用泛在物联网进行训练数据的标准化采集;
素材智能化识别系统,用于对训练数据进行图像特征智能化识别;
基于OCR的训练素材处理系统,用于对训练数据进行文本素材识别与提取处理;
微服务架构系统,用于基于训练数据提供平台微服务处理;微服务处理包括动态负载均衡处理、分布式消息传输与数据交互处理和信息安全处理;
综合可视化系统,用于根据训练数据和微服务处理结果进行训练数据可视化展示。
上述技术方案具有如下优点和有益效果:
上述基于人工智能的全时全域训练大数据平台,通过构建由标准化训练素材采集系统、素材智能化识别系统、基于OCR的训练素材处理系统、微服务架构系统和综合可视化系统等五个方面内容系统架构,实现从训练数据的标准化采集、素材智能化识别、素材文本识别、微服务至可视化的数据管控服务,达到训练大数据体系可“训练信息感知、全系统协同考核评估、全过程在线决策、全时域优化平衡”的目标,以基础构建支撑应用,可用于直接构建全时全域的智能化训练考核与评估系统、训练图像质量管理体系智能化预警系统和涵盖教学、评价、设备管理的训练管理控制体系。从而,在训练实践应用中,借助前述平台实现训练全过程的跟踪优化,显著提升了训练应用效率。
附图说明
图1为一个实施例中基于人工智能的全时全域训练大数据平台的架构示意图;
图2为一个实施例中训练大数据采集模式示意图;
图3为一个实施例中监督式生成对抗网络结构的示意图;
图4为一个实施例多尺度特征融合深度卷积结构设计示意图;
图5为一个实施例中自编码器的原理示意图;
图6为一个实施例中可视化架构设计的示意图;
图7为一个实施例中基于人工智能的全时全域训练大数据架构示意图;
图8为一个实施例中多源异构数据融合架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
大数据技术对于推动军事训练创新发展具有积极的价值和意义,军事训练大数据建设是推进部队信息化建设的重要组成部分,是提升部队训练效益和战斗力的重要手段。因此,要全力推进大数据建设与应用,充分利用训练数据资源,不断挖掘数据潜在价值,打造精准、高效的军事训练大数据资源体系和素质过硬的人才队伍,切实将数据转化为军事训练发展的加速器。
基于人工智能的全时全域训练大数据平台以“互联网+训练”为基础,借助人工智能、大数据分析、云计算和高效微架构等新兴技术,以规范化训练、提升训练考核水平、提高训练评估效率、降低基层单位投入成本为目的,探索智能化全时全域训练考核评估及管控体系的建设而建立的军事训练大数据平台,涵盖军事训练过程中各部门、各环节等的服务节点,全时全域训练大数据平台主要包括训练数据管理体系及其操作规范化与支撑基于人工智能的全时全域训练大数据考核及评估等功能。
请参阅图1,在一个实施例中,本发明提供一种基于人工智能的全时全域训练大数据平台100,包括标准化训练素材采集系统12、素材智能化识别系统14、基于OCR的训练素材处理系统16、微服务架构系统18和综合可视化系统20。标准化训练素材采集系统12用于通过身份制和界面化的方式利用泛在物联网进行训练数据的标准化采集。素材智能化识别系统14用于对训练数据进行图像特征智能化识别。基于OCR的训练素材处理系统16用于对训练数据进行文本素材识别与提取处理。微服务架构系统18用于基于训练数据提供平台微服务处理;微服务处理包括动态负载均衡处理、分布式消息传输与数据交互处理和信息安全处理。综合可视化系统20用于根据训练数据和微服务处理结果进行训练数据可视化展示。
可以理解,标准化训练素材采集系统12实现标准化的训练素材采集及规范,具体的,实现智能化训练素材的采集、上报、智能考核、评估等体系规范的管控流程和标准;实现支撑深度学习的典型数据标注规范;实现训练管控系预警机制。
大数据模式是基于海量数据采集与分析得以实现的,因此在开展训练时,采集数据是构建智能化模型的必备环节。根据受训人员的训练情况,数据采集可以选择两大技术环节,即身份制与界面化。大数据采集流程具体如图2所示。
如今,泛在物联网的发展为大数据采集提供方便。军事训练大数据的采集可借助于传感器、穿戴设备和智能设备等信息采集工具,多种途径对受训者的训练进行数据实时收集。部分项目也可以采用问卷调查法收集相关数据。
制定全时全域训练数据管控体系规范化要求,建立标准化的训练数据获取机制以便于人工智能学习和体系考核评估,规范基本动作的图像和数量;规范战术动作位置图片的要求;规范上传素材的要求及数量等。对非规范训练动作图片进行文字备注的规范要求。
规范训练数据素材的上报、智能考核、评估等体系规范的协调考核评估流程和标准。训练数据素材上传时,将依据预先设置的相应规则进行评判,有疑问时将图片上传至已构建的智能辅助考核评估系统进行评测,评测指标将反馈给训练督查人员复核。智能辅考核评估机制有力地提升体系的人才培养水平。
设定典型非规范动作图像的标签数据规范操作,以方便人工智能深度学习模型初期的样本学习和后期典型错误动作的自学习。
训练数据(图像、视频、文本)识别具备与AI结合的广阔应用前景,因此针对训练数据采集部位多、尺度不一、质量参差不齐的情况,为配合训练数据控制管理采集规范体系和图像的采集质量,建立了基于深度学习的素材智能化识别系统14进行处理实现。
针对扫描或拍照的电子图像数据,则采用基于OCR的训练素材处理系统16,基于OCR非结构化信息提取实现此类图像数据的文本识别处理。基于OCR的训练素材处理系统16实现的处理包括:1)图像处理:对图像进行处理,如去污、去噪、倾斜纠正、提高对比度等提高图像质量的操作;2)内容分类:将训练资料根据其内容按照预先设定的资料目录如首页、记录、考核报告、评估报告等进行分类。3)质控:对前述各流程环节的结果进行检查、核对,如发现问题及时纠正。4)归档:将图像上传及存档。
微服务架构系统18采用的是分布式微服务架构,具有持续交付、业务敏捷、高可用、高性能的特点,可以满足全时全域智能化训练数据控制体系全业务感知、全系统协同控制、全过程在线决策、全时空优化平衡及高效率、安全性和低成本的要求。平台包含了优化的负载均衡算法、分布式处理和信息安全对策三方面。负载均衡是保证微服务高可用性、承接高并发的关键;分布式事务处理也是提升微服务架构效率的一个关键技术;全时全域的训练数据管控体系中采用基于多源异构数据的存储与访问策略。
综合可视化系统20通过组件化、插件化的方式做条件样式、联动、自定义的方式支持可视化展示,实现常见的维度切换、自由排版、区域分组联动,最终使整个数据可视化呈现形成一个灵活的页面。更为关键的是,融合军事训练分析的思路,以实现通过可视化平台把相关的数据思维与业务相结合,以考核与评估专家的分析思路和视角用一种平台化的方式进行科学展示。
上述基于人工智能的全时全域训练大数据平台100,通过构建由标准化训练素材采集系统、素材智能化识别系统、基于OCR的训练素材处理系统、微服务架构系统和综合可视化系统等五个方面内容系统架构,实现从训练数据的标准化采集、素材智能化识别、素材文本识别、微服务至可视化的数据管控服务,达到训练大数据体系可“训练信息感知、全系统协同考核评估、全过程在线决策、全时域优化平衡”的目标,以基础构建支撑应用,可用于直接构建全时全域的智能化训练考核与评估系统、训练图像质量管理体系智能化预警系统和涵盖教学、评价、设备管理的训练管理控制体系。从而,在训练实践应用中,借助前述平台实现训练全过程的跟踪优化,显著提升了训练应用效率。
在一个实施例中,素材智能化识别系统包括数据标准化模块、小尺度识别模块、对抗识别模块和大尺度识别模块。其中:
数据标准化模块用于获取不同型号和分辨率的训练采集图像,对各训练采集图像进行标准化处理得到尺寸统一的各训练图像。
可以理解,获取不同型号和分辨率的训练采集图像的方式例如但不限于:可以通过人工收集并输入而获得,或者可以直接从采集并存储这些训练采集图像的数据库服务器上请求获得。此模块中,首先进行数据预处理,将不同型号和分辨率的训练采集图像进行标准化处理,统一尺寸,消除图像量纲影响,提高模型精度和收敛速度。标准化处理的过程中所采用的统一尺寸,可以是本领域中各类标准尺寸,只要能够满足实际处理的需要即可。
小尺度识别模块用于采用小尺度判别模型进行各训练图像的归属部位及质量判别,得到小尺度判别结果;小尺度判别模型为基于深度卷积神经网络搭建的训练数据质量及部位的小尺度判别模型,小尺度判别结果包括图像质量的达标情况以及图像所属的部位。
可以理解,针对训练数据采集部位多、尺度不一、质量参差不齐的情况,为配合训练数据控制管理采集规范体系和图像的采集质量,可以设计并训练一个基于深度学习的训练数据质量及部位的小尺度判别模型,用以识别图像属于哪个部位,是否满足设定的质量要求,为下一步识非规范动作图像的识别检测奠定数据基础,为训练数据质量控制体系的可操作性提供工具支撑。图像质量可以预先给定,例如但不限于像素值标准、清晰度标准和对比度标准等。
用于训练得到小尺度判别模型的深度卷积神经网络包括VGGNet、GoogleNet、ResNet和SENet。前述各深度卷积神经网络均为本领域已有并广泛应用的神经网络。在技术路线上,基于深度学习的训练数据质量及部位的多尺度判别模型属于图像分类的问题,采用典型的VGGNet、GoogleNet、ResNet和SENet分别进行训练数据场景实验并结合实际应用加以改进,训练得到所需的小尺度判别模型,以提高训练图像考核与评估过程中判别训练图像归属部位及相关质量的能力。小尺度判别模型采用典型深度卷积神经网络进行训练改进的方式,可以参照本领域中深度卷积神经网络的训练方式同理理解,结合本申请的训练采集数据进行场景实验并加以调整,直至达到所需的识别检测效果即可。
对抗识别模块用于采用基于监督式生成对抗网络的图像显著性检测模型,对判别的非显性训练图像进行非显著性信息识别检测,输出精确的显著图像;非显性训练图像为小尺度判别结果中识别到疑似非规范动作的训练图像。
可以理解,非规范动作是指军事训练中参训人员实施的未符合标准动作的训练动作。在完成小尺度训练数据质量及部位判别模型基础上,采用基于监督式生成对抗网络的图像显著性区域检测方法,模仿人眼的视觉注意机制,自动预测、定位和挖掘训练图像数据中的非显性信息。其中,卷积神经网络的布局接近于实际的生物神经网络,其稀疏交互、权值参数共享等特性在图像分析处理方面有着特定的优势,适用于训练数据多显著性特征区域的检测。传统的卷积神经网络一般在完整的图像数据上进行训练后提取图像的多尺度对比度显著特征,并通过网络训练学习获取高质量的图像显著性模型,如U-Net、Mask RCNN、DeepLab、Deep Extreme Cut、Two Stream Fusion和SegFast等传统卷积神经网络。前述各传统模型普遍存在复杂场景检测效果不好,显著对象边界不清晰等问题。
因此,针对疑似非规范动作的训练图像,研究基于监督式生成对抗网络的训练图像显著性区域检测方法,利用显著性识别模仿人眼的视觉注意机制,自动预测、定位和挖掘训练图像中的非显性信息,利用卷积神经网络稀疏交互、权值参数共享等特性在图像分析方面的优势,选用特定网络结构构建监督式生成对抗网络,经生成器网络与鉴别器网络间交替训练、相互对抗来提高各自的性能,同时采用改进的损失函数计算方法,使用鉴别器的误差来计算梯度,通过研究显著性区域检测的方法来增强训练图像的智能化识别能力。
大尺度识别模块,用于采用大尺度判别模型对显著图像进行特征识别,得到代表显著图像对应的训练图像的最优特征图;大尺度判别模型为基于多尺度特征融合的训练图像质量及部位的大尺度判别模型。
可以理解,针对特定区域的图像,传统卷积神经网络的低层次特征缺乏代表性,而高层次的特征则对小尺度目标的监测能力弱,结合训练图像中分形、纹理、边缘等低层次特征,引入多个不同层次的卷积层进行特征提取,设计并训练一个多尺度特征融合的深度学习训练图像质量及部位的大尺度判别模型,例如可以通过在传统卷积神经网络的基础上,引出多个不同层次的卷积层并增加BN层(Batch Normalization layer,批量规范化层)来实现所需模型的构建与训练,以将高层次的深度学习特征和低层次的图像特征融合,获得训练数据图像著性区域原始图像数据的最优特征表示,使得诊断信息更加完整,以提高分类识别精度。
图3所示,在一个实施例中,基于监督式生成对抗网络的图像显著性检测模型包括生成器网络和鉴别器网络,生成器网络为U-Net网络结构。
对抗识别模块用于对判别的非显性训练图像进行非显著性信息识别检测,输出精确的显著图像的过程中,包括用于:
将非显性训练图像经过生成器网络和鉴别器网络进行交替训练,提取图像高级显著特征并将编码器输出直连至同层级的解码器;
通过鉴别器采用监督式学习调整优化网络参数且生成器持续更新参数输出更逼真图,进行对抗训练;
采用混合损失函数进行预测图像处理,输出精确的显著图像;混合损失函数包括基础损失函数和改进损失函数,改进损失函数为:
其中,x表示输入像素,表示真值图像的代取期望,/>表示图像元素的代取期望,D(x,y)表示采样数据,y表示真值图像数据,G(x)表示生成器输出值。
具体的,采用基于监督式生成对抗网络的图像显著性检测方法,利用深度卷积神经网络构建监督式生成对抗网络,经生成器网络与鉴别器网络两个子网络间交替训练,相互对抗以提高各自的性能,使网络准确学习到图像显著区域的特征,进而使生成器输出精确的显著对象分布图。模型总体结构如图3所示,其中,GS表示生成器,DJ表示鉴别器。
生成器通过一系列卷积、激活和池化等操作逐步提取图像高级显著特征,网络同时将编码器输出直接连接到同层级的解码器上,避免信息被过度压缩而导致生成图像质量下降。鉴别器采用监督式学习来调整优化网络参数,生成器也不断更新参数输出更逼真图。其中,卷积层有多个卷积核,可提取多个特征:
其中,x表示待处理数据矩阵,f表示激活函数,Mj表示选用的输入图像集合,k表示卷积核矩阵,b表示偏置矩阵,i表示输入图像通道,j表示输出图像通道,l表示卷积层层数。激活函数为ReLU函数。池化层将原图像中的各像素块(N×N)压缩为一个像素来减小参数数量,同时能缓解过拟合。
最大池化为:
其中,x表示输入像素,x′表示输出像素,m表示像素行值,n表示像素列值。卷积层加池化层对图像进行尺寸压缩,同时深度增加。相比传统网络的输入为随机噪声,对抗网络输入为原始图像起到了有条件监督,能使预测图像尽量逼近真值图。传统的损失函数采用预测图像与真值图像素之间的绝对距离(L1误差)来计算的方式,会导致预测图像模糊。
传统的损失函数为:
其中,y表示真值图像数据,G(x)表示生成器输出值。前述基础损失函数也即已有的前述传统的损失函数。本申请中,引入改进的损失函数LG(G,D),然后与传统的损失函数结合,获得最终的损失函数,也即前述混合损失函数:
其中,Loss(G,D)表示混合损失函数,表示权重,其值可以通过实验设置,如可以结合两个损失函数进行实验,根据实验效果最佳或应用所需实际效果来设置合适的权重值。
新的损失函数计算方法,使用鉴别器的误差来计算梯度,当鉴别器的性能越来越好时,对抗生成网络将会自动训练生成器去对抗鉴别器;反过来,生成器也能通过误差函数梯度下降法来学习到更好的映射函数,从而产生更佳的输出显著图像。
在一个实施例中,大尺度判别模型通过在经典卷积神经网络的基础上,引出conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11_2卷积层并在不同方向的特征图前增加BN层训练得到。
可以理解,在技术路线上看,大尺度判别模型的设计框架,可以在经典卷积神经网络(也即传统CNN网络)的基础上,引出conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11_2等多个不同层次的卷积层进行特征提取,框架如图4所示。其中,conv4_3提取到更加细微的信息,conv11_2充分获取全局信息。为避免低层特征图与高层特征图中信息分布不同,直接融合造成特征图之间信息差异较大的情况,在不同方向的特征图前增加BN层,以加快模型收敛速度,同时缓解深层网络的梯度弥散,使得网络的训练更加容易和稳定。
具体的,大尺度识别模块具体用于获取大尺度判别模型进行特征识别输出的融合后的特征图;采用3×3卷积核进行卷积处理,得到保留多尺度特征的特定训练数据区域特征图;对特定训练数据区域特征图进行聚合后利用非极大抑制处理,得到最优特征图。将融合后的特征图采用3×3卷积核进行卷积处理操作,减小特征图融合后的混叠效应。最后获得保留多尺度特征的特定训练数据区域特征图;对预测框进行聚合,最后利用非极大抑制(NMS)实现最终的检测效果。
在一个实施例中,基于OCR的训练素材处理系统16包括:
图像处理模块,用于对扫描或拍照获得的训练数据进行图像预处理;图像预处理包括二值化处理、去噪处理、抗倾斜处理以及字符的分割校正处理;
内容分类模块,用于对预处理后的训练数据进行文本识别处理,根据识别的文本内容按照预先设定的资料目录进行数据分类;
归档处理模块,用于将处理后的训练数据上传至分布式存储系统并存档。
在一个实施例中,内容分类模块用于对预处理后的训练数据进行文本识别处理的过程中,采用多层稀疏自编码+SVM的方式进行文本定位。
具体的,基于OCR的训练素材处理系统16其核心技术包括:
图像预处理:主要进行文字识别之前的准备工作,包括二值化处理、去噪处理以及字符的分割校正等操作。首先将图像进行灰度化处理,将图像设置为只有黑色和白色的二值化图,其中一个颜色表示图像背景,一个颜色表示要识别的文字。完成了二值化,就可以对图像进行去噪处理了。图像去噪处理是数字图像处理中的重要环节和步骤,去噪算法的好坏直接关系到后续图像分割和边缘检测处理的效果。在预处理阶段同时要完成文字的校正工作和文本分割,如对因拍照或扫描产生的文档图片倾斜而进行的校正,同时将文档中的所有文字块分检出来,区分文本段落及排版顺序,以及图像和表格的区域,确定各文字块的区域,用于识别。
抗倾斜处理:通常扫描或拍摄的角度不一,容易出现图片倾斜摆放的情况。若页面过于倾斜,则行分割质量会显著降低,严重影响OCR识别的质量。为了解决这个问题,可以适当旋转页面图像,保证文本行是水平的。此时通过抗倾斜对训练采集图像进行倾斜矫正,将会使后续OCR识别准确率更高。目前实现文档图像倾斜角度探测方法包括以下5类:基于投影的方法、基于Hough变化的方法、基于交叉相关性的方法、基于Fourier变化的方法和最邻近法。以训练素材中图表较多的为例,通常采用Hough变换提取水平线,估算其倾斜角并进行倾斜。
大津法二值化处理:二值化无论在视觉检测领域,还是在智能识别领域都是非常关键的一步。常用的二值化算法有固定阈值二值化、双阈值二值化、大津法、递归阈值法及直方图阈值法等。由于训练文本素材在扫描过程中经常存在图像亮度分布不均匀、有阴影的情况,对这类图片使用全局阈值法,将会导致图像出现大量黑色区域。自适应阈值法对图像进行处理时,容易出现文字大量断裂的情况。经过大量测试,发现大津法对图像尤其是手机拍摄的图像预处理效果最理想。
大津法是根据图像的灰度直方图将图像分为文本类、背景类两部分,使两部分之间的方差最大,但是每个部分内部的方差最小。设灰度图像文本类和背景类的区分阈值为T,目标像素点所占图像总像素点的比例为ω0,灰度均值为μ0,背景占图像比例为ω2,灰度均值为μ2,则整幅图像的平均灰度为:
μ=ω0μ02μ2
通过遍历灰度图像的每一个灰度值t=0,1,2,…N-1,其中N为图像灰度级,使得目标和背景两部分之间的内方差达到最大,此时的t即为阈值T。
g=ω00-μ)211-μ)2
T=arg max(g)(0≤t≤N-1)
其中,ω1表示文本占图像比例,μ1表示文本类灰度均值。
多层稀疏自编码+SVM的文本定位:自编码器对图像进行文本定位,采用学习分类的方法,判断像素点位置属于何种类型区域,该算法能有效分离图中的文字区域、贴图区域及背景。自编码器是一个典型的神经网络结构,可以用于压缩输入信息,提取有用的输入特征。其结构如图5所示:
设训练层的样本集为x={x1,x2,…xn},隐含层为h={h1,h2,…hm},输出层为从训练层到隐含层的权值为w1,偏置为b1。则输入到中间层的计算为:
h(x)=f(w1 Tx+b1)
中间层到输出层权值为w2,偏置为b2,计算公式为:
激活函数使用Sigmod函数,用均方误差来定义损失函数:
最后利用梯度下降方法求得权值阈值参数w1,w2,b1,b2
自编码器是一直无监督的学习,其输出的结果是其自身,即对输入数据完成一次重构的过程。因此不需要对数据打标签,通过输出与输入之间的误差进行参数调整即可完成网络训练。整个过程可以是对输入进行编码,而编码的结果又可以解码为输入数据,因此编码结果的中间层是输入数据的另一种表现形式。而且由于中间层神经元的个数比输入层少,因此可以看作中间层是对输入的特征提取。该算法的效果类似主成分分析,利用这个特征对数据进行降维。
SVM是一种基于样本线性可分的分离器。对给出的样本点,SVM分类器目标,就是在样本空间找到一个超平面,该平面能将样本点分成两类,并且每个样本点到该平面的距离最远。
SVM线性分类器训练原理为:设有样本点{(x1,y1),(x2,y2),…(xn,yn)},x∈Re d,标签y∈{-1,1}为样本点的类别,多维空间中线性判别函数的一般形式为f(x)=wx+b,分类面方程为:
wx+b=0
要使f(x1)<-1或f(x1)>1,并且分类间隔最大,即最大,等价于要满足以下条件:
满足上述公式的超平面即为最优分类面,以上情况是对数据进行线性分类,即在样本空间的维度上能找到一个平面能将数据样本分类。然而现实中还存在线性不可分的情况,则需要引入核函数。核函数能够将样本映射到另一个更高维度的空间,使得样本在新维度空间线性可分,从而解决数据线性不可分的问题。
由于训练管理涉及图片或PDF多样,版面内容丰富还可能伴随着一些注外围的干扰。常规的连通域算法不能满足文本提取的需求。本申请利用多层稀疏自编码器对像素点所在区域进行特征学习,提取该像素点所在位置的高层特征,利用SVM对特征进行训练,判断该点是否位于文本区域。
在一个实施例中,微服务架构系统包括负载均衡模块、分布式处理模块和信息安全模块。负载均衡模块用于采用基于处理能力的动态权重调度算法,对全时全域训练大数据平台的各服务节点进行负载均衡处理。分布式处理模块用于采用基于消息中间件的非阻塞两段提交协议,对全时全域训练大数据平台进行分布式消息传输与数据交互处理。信息安全模块用于采用分层结构存储和代理重加密的方式,对全时全域训练大数据平台的数据进行数据存储及信息加密处理。
上述微服务架构系统18,通过各模块的协作,在全时全域智能化训练数据控制体系的基础下,通过采用基于处理能力的动态权重调度算法实现对全时全域训练大数据平台的动态负载均衡,相比于传统的静态负载算法无法实时对服务器节点(服务节点)的信息进行获取,本申请采用前述动态负载均衡算法可自动适配系统参数变化以及未知的负载特性,优化全时全域训练数据体系微服务架构平台的应用环境。在分布式处理机制上,传统的两阶段提交协议可靠性差、易阻塞的缺点和三阶段提交协议额外通信开销大事务处理时间长的缺点,采用改进的基于消息中间件的非阻塞两段提交协议进行分布式消息传输与数据交互处理,可有效提高局部不可靠的网络环境下通信的稳定性和事务的成功率。对于训练数据信息安全部署,采用分层结构存储和代理重加密的方式,可对数据进行敏感度分级以及标签分类,满足用户在不需要进行复杂操作的前提下将数据安全存储的需求。如此,通过上述微服务处理,可满足全时全域智能化训练数据控制体系全业务感知、全系统协同控制、全过程在线决策、全时空优化平衡及高效率、安全性和低成本的要求,达到了数据支持效率较高的目的。
在一个实施例中,负载均衡模块包括节点参数子模块和均衡处理子模块。节点参数子模块用于定期向全时全域训练大数据平台的服务节点采集对象参数;对象参数包括服务节点的利用率及空闲率。均衡处理子模块,用于根据引入的边界阈值以及对象参数进行负载情况监控与均衡处理。
可以理解,节点参数子模块定期采集对象参数的具体时间间隔,可以根据应用场景中实际需要的负载情况的反应速度、实时性以及均衡控制效率等进行灵活设定,只要能够满足设计所需的参数采集效果即可。每一服务节点均可以包括处理器和内存等主要部件,本领域技术人员还可以理解,服务节点还可以包括其他本说明书未提及的已有组成部件,例如但不限于通信接口、电源等部件。
传统的静态负载算法无法实时对服务器节点的信息进行获取,微服务架构系统18采用动态负载均衡算法(也即上述基于处理能力的动态权重调度算法),自动适配系统参数变化以及未知的负载特性,可优化及扩展全时全域训练数据体系微架构平台的应用环境。
具体的,微服务架构系统18采用了基于处理能力的动态权重调度算法提高负载均衡能力,利用处理器利用率和内存空闲率对象参数,均衡节点通过定期向服务节点采集参数作为负载情况的反应,同时引入边界阈值避免均衡节点频繁的写入带来的负面影响。
在一个实施例中,前述利用率为:
其中,Ci表示服务节点Ni的处理器的利用率,T1表示处理器在空闲态的运行时间,T2表示处理器在用户态的运行时间,T3表示处理器在内核态的运行时间;
前述空闲率为:
其中,Mi表示服务节点Ni的内存的空闲率,Mf表示服务节点Ni的空闲内存大小,Mb表示服务节点Ni的缓冲区大小,Mc表示服务节点Ni的缓存区大小,MT表示服务节点Ni的总内存大小;
前述边界阈值为P,满足如下关系:
其中,wi表示服务节点Ni的权重,Fi表示权值表达函数。
可以理解,服务节点Ni的处理器的利用率为Ci,内存的空闲率为Mi,则服务节点Ni的权重为:
wi=λ1(1-Ci)+λ2Mi
其中,系数关系有:λ12=1。因此,采用上述优化的负载均衡算法,可实时对服务器节点的信息进行获取,负载均衡能力较强且不会给均衡节点带来负面影响,可使微服务架构系统18的微服务高可用性、承接高并发得以可靠实现。
在一个实施例中,分布式处理模块在进行分布式消息传输与数据交互处理的过程中,用于采用主从协调者、异步消息中间件与观察节点的组合模式进行分布式消息传输与数据交互处理;其中,协调者采用主从方式部署,观察节点维持与自身连接的组件之间的感知状态,异步消息中间件作为协调者和参与者的信息传输通道。
可以理解,本发明在分布式处理机制上,改进传统的两阶段提交协议可靠性差、易阻塞的缺点和三阶段提交协议额外通信开销大事务处理时间长的缺点,引进主从协调者、异步消息中间件和观察节点的组合模式,采取一个基于消息中间件的非阻塞两段提交协议,以提高局部不可靠的网络环境下通信的稳定性和事务的成功率。
具体的,分布式事务处理采用主从协调者、异步消息中间件和观察节点的组合模式,其中,协调者以主从方式进行部署,观察者(也即观察节点)维持与其自身连接的平台组件之间的感知状态,消息中间件作为协调者和平台上其他参与者的信息传输通道,确保了分布式环境下可靠的消息传输和数据交换。
在一个实施例中,信息安全模块具体可以包括第一加密存储处理子模块,用于调用分布式文件系统的接口对数据量大的训练文件进行加密数据存储;其中,训练文件对应的加密数据为采用双向性的代理重加密方式进行重加密处理得到。
在一个实施例中,信息安全模块具体可以包括第二加密存储处理子模块,用于将数据量小的训练考核评估结果及各类训练报告数据,直接存储至全时全域训练大数据平台的元数据区块;其中,训练考核评估结果及各类训练报告数据采用基于哈希算法的代理重加密智能合约方式进行重加密处理。
可以理解,分布式文件系统也即基于Hadoop分布式系统为基础的全时全域训练大数据平台中所采用HDFS分布式存储系统,其内部集成有:JDBC组件(即Java数据库连接,Java Database Connectivity,简称JDBC,是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法)、ODBC组件(OpenDatabase Connectivity,即开放数据库连接,是为解决异构数据库间的数据共享而产生的,为异构数据库访问提供统一接口,允许应用程序以SQL为数据存取标准,存取不同DBMS(数据库管理系统)管理的数据)、Kafka组件(是一个开源流处理平台、一种高吞吐量的分布式发布订阅消息系统,可通过Hadoop的并行加载机制来统一线上和离线的消息处理,也可通过集群来提供实时的消息)以及Sqoop组件(是一款开源的工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中)等组件。
对于军事训练数据的信息安全部署,本实施例中结合智能合约设计相应的用户合约,为用户建立身份信息并配套唯一的虚拟身份地址,采用数据代理重加密存储技术,对数据进行敏感度分级以及标签分类,满足用户在不需要进行复杂操作的前提下将数据安全存储的需求。可以理解,数据量大小是相对而言的,可以不做严格的数值划分,可以根据不同的实际应用场景中训练文件、训练考核评估结果及各类训练报告数据之间的相对数据量进行指定与归类。
具体的,全时全域训练大数据平台中设计了以受训人员为中心的数据存储模型,因此,在上述实施例中,通过采用分层结构存储和代理重加密技术,实现数据内容的不被篡改和快速存在性证明等功能。对于数据量小的考核评估结果、各类报告数据等数据,直接存储在元数据区块中,数据量大的训练文件则调用分布式文件系统的接口存储加密数据。
其中,代理重加密机制(方式)实现对数据的访问控制和解密权限的共享。具体的,上述实施例中提供了两种代理重加密方案:第一种是基于哈希算法的代理重加密智能合约方案,由用户发起代理重加密请求,智能合约担任代理的角色实现重加密;第二种则是针对智能合约不善于处理大量计算的特点,采用双向性的代理重加密方式,设定联盟中其它任何节点均可以充当代理完成重加密操作,此方式适于处理加密耗时的数据应用场景。前述采用的两种加密方案均具有非交互性、密钥最优、非传递性、单向性和代理不可见的特点,实现了训练数据的防篡改和安全分享的效果,可帮助解决实际建设中,训练数据存储集中、安全共享难、数据可信度过渡依赖等问题,实现去中心化、安全、不可篡改的训练数据分享。
在一个实施例中,综合可视化系统包括数据展示模块、数据分析模块和数据查询模块。数据展示模块用于将训练数据通过图形样式进行可视化展示。数据分析模块用于对训练数据进行数据的文本分析、进行数据表格下载及进行数据选择化展示。数据查询模块用于在显示页面上对训练数据进行数据表格选择、分页显示、数据检索与排序处理。
具体的,通过组件化、插件化的方式做条件样式、联动、自定义的方式支持可视化展示,做到市面上常见的维度切换、自由排版和区域分组联动等功能,最终使整个数据可视化呈现形成一个活的页面。实现可视化,分析引擎的集成是关注的重点。面对多维分析、大宽表的处理、高维数据的降维可视化,尤其是异构数据源的介入,平台不单只做简单的驱动接入或者连接的配置,选择定制、接入内部数据库的分析引擎,达到基于Hadoop生态场景类型的数据支撑能力。其架构设计如图6所示。
统计分析功能:对数据库内用到的数据进行图表化展示,通过不同的对比显示方法,促进训练管理人员对下辖受训人员基本属性进行较为全面的了解,有助于开展针对性的施训准备和各类预防措施制定。
这一部分的设计主要是将各个数据表格通过可视化的形式展示出来,其中用到的可视化形式有饼图、柱状图、折线图、散点图、直方图和/或环形图等多种图形样式。根据不同数据的数据特点选择用不同的可视化形式,同时还将选择不同的颜色代表不同的训练数据类型。折线图着重用来处理训练数据的变化趋势,是从整体来把握数据的变化。而直方图则是用来显示多种类型的数据的变化趋势,用来对比显示不同类型的数据的变化形式。散点图则是注重训练数据的分布情况,便于后期考核评估人员在做数据的分析研究时,可以对数据进行分类或聚类等形式的处理。
另一部分是数据分析功能,主要包含有三个功能:1)数据的文本分析。做数据分析时,提供选择按钮进行表格的选择,方便训练管控人员根据需求选择所需表格,选择完成后会在页面的右侧显示出相应表格的数据分析情况,主要是针对数据表的文本内容所进行的分析,主要展示了数据表格的每一列,使得训练管控人员能更加细致的了解每一张表格中每一列数据的统计信息。2)提供数据表格的下载功能,具有相应权限的用户可以将该表格从数据库中下载出来。3)提供选择展示功能。针对涉及到的庞大数据量,数据表格所包含的数据信息很多,当前所提供的展示页面无法完全显示出全部的数据,所以就在此设计了一个选择展示功能,便于选择合适的数据量进行分析查看。
还有一部分是数据查询功能,主要为训练管控人员提供训练数据的查询和选择性展示,其具体功能包括:1)在显示页面的上方提供数据表格的选择,提供表格的列的选择;操作时,可以根据具体需要,先对所要查询的表格进行选择,再进行列的选择,选择完成后,页面上就会显示出相应的数据信息。2)由于每一张表格含有很多条数据,所以显示是分页展示的,每页所显示的数据条数,可选择。3)提供查询功能,可以在搜索输入框中输入想要查询的内容(例如受训人员的姓名,编号等),就可以搜索到相关内容,大大的减少了手动翻页查找信息的时间。4)显示数据的列名称,带排序功能,如数字列就可以按照从大到小的顺序排列数据,或者是从小到大的顺序排列数据。
第四部分是手动可调控的可视化形式展示功能。这一部分是为了给训练管控提供一个可以灵活的对数据进行可视化的功能,主要针对的是数据表中每一列的具体数据的详细分析。首先,在页面的上方提供下拉选择框,通过下拉框可以对数据表格进行选择;其次在页面的左侧边栏,提供了数据量的选择和每一张表格中列名的选择,最后在右边呈现可视化图形。这里的数据量的选择是通过滑块来实现灵活的控制。滑块输入可用于选择单个值或选择连续的值范围,甚至可以在一个范围内进行动画。平台用滑动按钮来灵活的选取数据量的范围大小,系统会预设一个初始值用来显示,然后管控人员在使用时可以进行调整设置。而列的选择是一个下拉列表的形式来呈现的,当管控人员在选择不同的数据表格式,这个下拉列表会自动读取每一张表格的全部列名来生成这个下拉列表。数据的选择完成后,最终生成一个可视化图形,这里的图形显示可以由管控人员自己选择。
关于可视化设计中的算法分析模块:其算法分析模块包含两个部分:
第一部分是分类算法分析。提供两个功能:第一个功能是文件上传功能,管控人员可以通过点击按钮上传所要进行分类分析的数据文档,上传完成后会出现提示,并且展示出上传的文件。第二个功能是提供算法选择工具栏,平台主要提供了4种算法选择,分别是决策树算法、支持向量机算法、K近邻算法和随机森林算法,管控人员可根据需要选择合适的算法进行分类分析,点击想要选择的算法,显示区域会自动分析出结果并展示出来。
第二部分是相似度算法分析。这一部分同分类算法分析一样也提供两个功能:第一个功能是文件上传功能,管控人员可以通过点击按钮上传所要进行相似度分析的数据文档,上传完成后界面会出现提示,并且展示出上传的文件。第二个功能是提供算法选择工具栏,平台主要提供了4种算法选择,分别是K-Means算法、PAM算法、DBSCAN算法和基于T-SNE降维的DBSCAN算法,管控人员可根据需要选择合适的相似度分析算法进行分析,点击想要选择的算法,显示区域会自动分析出结果并展示出来。
传统的可视化系统多注重于可视化方法的设计选择,而本平台则将机器学习方法融入到可视化平台中,使得该平台不仅具有传统平台所具有的可视化方法的选择,也具有机器学习方法的操作选择,从而方便管控人员对训练数据进行分类、聚类分析,使得非计算机专业的管控人员也可以通过使用该平台完成对机器学习方法的分析使用。
在军事训练创新应用中,对于训练大数据平台的总体设计方案包括平台设计目标、平台总体架构以及关键支撑与创新等方面的内容。其中,平台设计目标包括打造多源异构数据融合贯通、打造军事理论课程训练与考核高效平台、建构合理训练与考核评估体系、实现训练进度智能化模型、构建一体化训练监控指标数据库、数据分析与发展趋势可视化以及提高反馈信息利用率等。
如图7所示,对于上述基于人工智能的全时全域训练大数据平台100的关键支撑与创新,主要包括多源异构数据融合、基于深度学习的素材智能化识别系统14以及微服务架构系统18。
如图8所示,平台多源异构数据融合贯通的技术支撑架构,包括基于Hadoop分布式系统以及HDFS分布式存储系统构建的异构数据汇聚层、数据交换整合层、大数据存储层、数据共享层和数据服务层。异构数据汇聚层用于分别连接各个异构数据源,分别接入各异构数据源的军事训练数据;军事训练数据包括消息流式数据、结构化的报表数据、属性类数据、非结构化的文本图片数据以及视频语音流式数据。数据交换整合层用于对各军事训练数据进行预处理;预处理包括收集、清洗、去重、去噪、交换、关联和数据对比。大数据存储层用于利用元数据映射方式,将预处理后的各军事训练数据映射到规范的逻辑空间并存储。数据共享层用于分别以设定的数据共享方式输出各数据共享请求对应请求共享的各军事训练数据。数据服务层用于提供对各军事训练数据的数据开发服务;数据开发服务包括检索查询服务、上传服务、同步服务、下载服务、分析服务与模板服务。
具体的,本发明从数据的交换、存储、共享、服务和安全等方面着手,搭建训练大数据平台。平台是基于Hadoop分布式系统为基础的大数据平台,采用HDFS分布式存储系统,内部集成JDBC组件(即Java数据库连接,Java Database Connectivity,简称JDBC,是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法)、ODBC组件(Open Database Connectivity,即开放数据库连接,是为解决异构数据库间的数据共享而产生的,为异构数据库访问提供统一接口,允许应用程序以SQL为数据存取标准,存取不同DBMS(数据库管理系统)管理的数据)、Kafka组件(是一个开源流处理平台、一种高吞吐量的分布式发布订阅消息系统,可通过Hadoop的并行加载机制来统一线上和离线的消息处理,也可通过集群来提供实时的消息)以及Sqoop组件(是一款开源的工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中)等组件。
此外,将Apache Hbase数据库实时在线数据处理和Hive数据仓库工具作为计算执行引擎。其中,Apache Hbase数据库是一个分布式的、面向列的开源数据库。Hive数据仓库工具可用来进行数据提取、转化和加载等操作,其提供可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL(结构化查询语言)查询功能,能将SQL语句转变成MapReduce(一种编程模型)任务来执行。
可以理解,平台中应用的上述各已有组件及工具,均可以根据其提供的协议进行适配组合,只要能够实现各组件及工具的协同工作,搭建成能够实现所需的多源异构数据融合与共享服务的上述平台即可,本说明书中对于具体采用的接口协议类型等不作唯一限定。上述标准化大数据汇聚共享平台可以由一个或者多个计算机系统搭载,具体可以根据军事训练场景的应用需要确定。
在一个实施例中,平台多源异构数据融合贯通采用的多源异构训练数据融合方法,包括如下步骤S12至S18:
S12,采用搭建的标准化大数据汇聚共享平台分别连接各个异构数据源,分别接入各异构数据源的军事训练数据;标准化大数据汇聚共享平台为基于Hadoop分布式系统和HDFS分布式存储系统构建的大数据平台,军事训练数据包括消息流式数据、结构化的报表数据、属性类数据、非结构化的文本图片数据以及视频语音流式数据。
可以理解,关于本实施例中标准化大数据汇聚共享平台的解释说明,可以参照上述关于标准化大数据汇聚共享平台的实施例同理理解。在军事训练场景中,可以根据源数据类型,通过不同的数据交换协议汇聚不同数据来源的信息,因此,标准化大数据汇聚共享平台可以通过JDBC、ODBC、Kafka、Sqoop、FTP(File Transfer Protocol,文件传输协议)、ETL(Extract-Transform-Load,数据仓库技术)、XML(可扩展标记语言)和JSON(JavaScriptObject Notation,JS对象简谱)等协议方式,分别连接各个异构数据源,以接入各异构数据源的各军事训练数据,将各异构的军事训练数据汇聚至平台。
S14,通过标准化大数据汇聚共享平台对各军事训练数据进行清洗、去重与去噪的预处理。
S16,利用元数据映射方式,将预处理后的各军事训练数据映射到HDFS分布式存储系统的规范的逻辑空间并存储。
可以理解,数据汇聚平台后,对接入的各军事训练数据进行清洗、去重和去噪等预处理后,利用元数据映射机制,将多类型异构系统数据资源映射到规范的逻辑空间,以构建数据共享服务体系。在不改变原始数据的前提下,实现结构化及文本图片类数据与业务应用的耦合。关于前述步骤中预处理的详细实现过程,可以参照平台中集成的上述各组件及引擎所提供的数据处理功能同理理解。
S18,通过标准化大数据汇聚共享平台,根据需共享数据的部门、应用和业务的数据共享请求以及相应共享权限,分别以设定的数据共享方式传输各数据共享请求对应请求共享的各军事训练数据。
可以理解,面对不同部门、不同应用和不同业务之间的数据共享需求,平台可根据数据类型(离线/流式)、数据单位(KB/MB/GB/TB)、数据实时性要求(每周/每月/实时)、数据安全等级要求、数据是否要求加密等数据需求,开通不同用户/节点权限,以保证资源的统一调配和权限的管控,如可以包括对数据的查询、上传、同步、下载、分析和模版等管理权限。设定的数据共享方式为平台根据不同的数据特性和业务场景,所采用数据传输服务的适配服务方式,可以采用本领域中已有多种数据传输服务协议或者接口。
具体的,针对需要请求共享数据的不同部门、不同应用和不同业务的数据共享需求,其可以向平台提供数据共享请求,平台即可以根据收到的各数据共享请求及这些请求所对应的共享权限,分别以设定的数据共享方式将请求的军事训练数据传输至发出请求的部门、应用和业务。
通过采用基于Hadoop分布式系统并HDFS分布式存储系统搭建的标准化大数据汇聚共享平台,分别连接各个异构数据源并接入各异构的军事训练数据,数据汇聚至平台后,进行清洗、去重和去噪等预处理,然后利用元数据映射方式(机制)将多类型的异构数据映射到HDFS分布式存储系统的规范的逻辑空间进行存储,以构建数据融合共享服务体系,如此,在不改变原始数据的前提下,实现结构化及文本图片类数据与业务应用的耦合。最后,对于不同部门、不同应用和不同业务之间的数据共享需求,平台可以根据数据需求开通不同权限以保证数据资源的统一调配和权限的管控,因此,通过平台根据相应共享请求及其共享权限,分别以设定的数据共享方法传输各共享请求对应请求共享的军事训练数据,达到实现军事训练中多源异构数据的大数据汇聚、存储和共享的目的,且于实际的军事训练大数据应用建设中数据融合共享效率较高,数据融合共享服务具备较高的稳定性和可靠性。
在一个实施例中,接入以及存储各类消息流式数据的过程,具体可以包括如下处理步骤:
采用分布式消息队列的方式每隔设定时间间隔,从标准化大数据汇聚共享平台的Kafka组件收集各类消息流式数据;设定时间间隔为50ms至500ms之间的任一数值;
采用Stream+Holodesk流式大数据处理框架将收到的各类消息流式数据映射成二维关系表并转成内存列式存储至Holodesk(SSD)组件。
具体的,对于实时性要求高的各类消息流式数据,可通过分布式消息队列进行收集,采用Stream(流)+Holodesk(分布式列式存储组件)的流式大数据处理框架对实时数据进行交互式处理和分析。平台每隔50ms~500ms从Kafka组件接收一批时序数据(包括各类消息流式数据),将收到的各类消息流式数据映射成二维关系表,以进行变换并转成内存列式存储。变换后的数据实时写入Holodesk(SSD)以将数据持久化到SSD上,从而可通过数据检索服务对SSD上的列式数据进行分析。通过上述处理方式,可以更高效地实现各类消息流式数据的汇聚融合处理。
在一个实施例中,接入以及存储视频语音流式数据的过程,具体可以包括如下处理步骤:
利用标准化大数据汇聚共享平台通过前端汇聚设备或直连摄像机接入实时的视频语音流式数据;
通过标准化大数据汇聚共享平台对视频语音流式数据进行流媒体转发、视频分析与视频结构化处理后,将各视频语音流式数据存储至HDFS分布式存储系统。
具体的,对于视频类数据,平台可以通过NVR(Network Video Recorder,即网络视频录像机)、DVR(Digital Video Recorder,硬盘录像机)等前端汇聚设备接入实时视频流,或者直连军事训练场景中的数据采集摄像机接入实时视频流,对于各训练类视频通过隔离转换设备(如网关和交换机等)接入平台。接入的视频流经过流媒体转发、视频分析、视频结构化等服务,将数据存储在分布式文件系统中,同时可通过相关标准协议进行视频应用共享。通过上述处理方式,可以更高效地实现各类视频语音流式数据的汇聚融合处理。
在一个实施例中,HDFS分布式存储系统之上,还设置有分布式NoSQL实时数据库Hyperbase;实时数据库Hyperbase用于提供训练数据共享时的检索服务。
可以理解,平台的数据存储底层采用Hadoop分布式文件存储系统HDFS进行数据存储,HDFS采用三份副本策略保证数据的安全性以及可靠性。在HDFS之上提供分布式NoSQL(非关系型的数据库)实时数据库Hyperbase,为高并发检索分析和事务支持提供平台支撑。Hyperbase可通过多种索引支持海量数据多维度的毫秒级全局索引、全文索引和组合索引等检索查询。平台存储层支持各类结构化、半结构化、非结构化海量数据的低成本存储,为海量历史数据存储和使用提供基础支撑。通过Hyperbase提供高并发、低延时的检索能力,对外提供高性能数据访问服务。
在一个实施例中,设定的数据共享方式包括FTP方式、据库直连方式、分布式消息系统Kaflca方式、WebServices数据交换方式、拷贝方式、邮件传输方式和网络抓取方式。
具体的,面对不同部门、不同应用和不同业务之间的共享需求、数据特性和业务场景,平台可采用不同的数据服务方式。例如,对于数据量大、实时性要求不高而业务逻辑简单的数据共享请求,可采用FTP方式进行数据共享;对于内部系统不同数据库的数据共享,可以采用数据库直连的方式进行数据共享;对于实时、动态类的流式数据共享,可采用分布式消息系统Kaflca实现不同应用、服务器之间的数据共享;对于跨编程语言和跨操作系统平台的远程调用,则可采用Web Services技术相互交换数据进行共享;对于网络不通或有安全性等要求的共享场景,则可以采用拷贝、邮件或网络抓取等方式进行数据共享。
通过采用上述数据共享方式,可以高效且可靠地支持不同的数据共享。
此外,基于上述的识别系统,支撑智能化训练图像质量预警体系关键技术,通过深度分析已有不规范训练数据,挖掘这种关联,建立预警体系的基础。首先是预警知识库的构建,针对各种不规范动作的复杂因素、个体差异、训练项目差异、考核评估差异等信息多样化的情况,先根据体系的要求将信息归拢分类,分别采用基于粗糙集的挖掘方法得到共性的诊断信息,数据约简后使用默认规则的方法对数据库进行分析产生默认规则和特例,融合后生成支撑智能化训练图像质量控制体系多维度多尺度的预警知识库。然后结合训练图像质量管理体系预警标准的构建,研究智能化训练图像质量控制体系预警技术,从体系内已有的训练数据进行分析和研究并构建模型,将基于数据的规则和基于体系标准的规则合二为一,采用随机森林多分类器组合预警的模式,把多个经过训练得到的单分类器集成到一起,每个分类器针对体系一个类型的预警知识库,综合多个决策树提升随机森林的精度,同时,在模型中引入样本选取和因子特征选取的随机性,避免模型的过拟合,以使其能够处理高维度的数据集,提高模型的泛化能力。
通过基于人工智能全时全域训练图像质量控制体系关键技术研究,达到体系“训练信息感知、全系统协同考核评估、全过程在线决策、全时域优化平衡”的目标,以基础构建支撑应用,构建全时全域的智能化训练考核与评估系统、训练图像质量管理体系智能化预警系统和涵盖教学、评价、设备管理的训练管理控制体系。
本领域普通技术人员可以理解实现上述实施例中的涉及的全部或部分处理流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于人工智能的全时全域训练大数据平台,其特征在于,包括:
标准化训练素材采集系统,用于通过身份制和界面化的方式利用泛在物联网进行训练数据的标准化采集;
素材智能化识别系统,用于对所述训练数据进行图像特征智能化识别;
基于OCR的训练素材处理系统,用于对所述训练数据进行文本素材识别与提取处理;
微服务架构系统,用于基于所述训练数据提供平台微服务处理;所述微服务处理包括动态负载均衡处理、分布式消息传输与数据交互处理和信息安全处理;
综合可视化系统,用于根据所述训练数据和微服务处理结果进行训练数据可视化展示;其中,所述素材智能化识别系统包括:
数据标准化模块,用于获取不同型号和分辨率的训练采集图像,对各所述训练采集图像进行标准化处理得到尺寸统一的各训练图像;
小尺度识别模块,用于采用小尺度判别模型进行各所述训练图像的归属部位及质量判别,得到小尺度判别结果;所述小尺度判别模型为基于深度卷积神经网络搭建的训练数据质量及部位的小尺度判别模型,所述小尺度判别结果包括图像质量的达标情况以及图像所属的部位;
对抗识别模块,用于采用基于监督式生成对抗网络的图像显著性检测模型,对判别的非显性训练图像进行非显著性信息识别检测,输出精确的显著图像;所述非显性训练图像为所述小尺度判别结果中识别到疑似非规范动作的所述训练图像;
大尺度识别模块,用于采用大尺度判别模型对所述显著图像进行特征识别,得到代表所述显著图像对应的所述训练图像的最优特征图;所述大尺度判别模型为基于多尺度特征融合的训练图像质量及部位的大尺度判别模型。
2.根据权利要求1所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述基于监督式生成对抗网络的图像显著性检测模型包括生成器网络和鉴别器网络,所述生成器网络为U-Net网络结构;
对抗识别模块用于对判别的非显性训练图像进行非显著性信息识别检测,输出精确的显著图像的过程中,包括用于:
将所述非显性训练图像经过所述生成器网络和鉴别器网络进行交替训练,提取图像高级显著特征并将编码器输出直连至同层级的解码器;
通过所述鉴别器采用监督式学习调整优化网络参数且所述生成器持续更新参数输出更逼真图,进行对抗训练;
采用混合损失函数进行预测图像处理,输出精确的所述显著图像;所述混合损失函数包括基础损失函数和改进损失函数,所述改进损失函数为:
其中,x表示输入像素,表示真值图像的代取期望,/>表示图像元素的代取期望,D(x,y)表示采样数据,y表示真值图像数据,G(x)表示生成器输出值。
3.根据权利要求1所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述大尺度判别模型通过在经典卷积神经网络的基础上,引出conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11_2卷积层并在不同方向的特征图前增加BN层训练得到。
4.根据权利要求1所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述微服务架构系统包括:
负载均衡模块,用于采用基于处理能力的动态权重调度算法,对全时全域训练大数据平台的各服务节点进行负载均衡处理;
分布式处理模块,用于采用基于消息中间件的非阻塞两段提交协议,对所述全时全域训练大数据平台进行分布式消息传输与数据交互处理;
信息安全模块,用于采用分层结构存储和代理重加密的方式,对所述全时全域训练大数据平台的数据进行数据存储及信息加密处理。
5.根据权利要求4所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述负载均衡模块包括:
节点参数子模块,用于定期向所述全时全域训练大数据平台的服务节点采集对象参数;所述对象参数包括所述服务节点的利用率及空闲率;
均衡处理子模块,用于根据引入的边界阈值以及所述对象参数进行负载情况监控与均衡处理。
6.根据权利要求5所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述利用率为:
其中,Ci表示服务节点Ni的处理器的利用率,T1表示所述处理器在空闲态的运行时间,T2表示所述处理器在用户态的运行时间,T3表示所述处理器在内核态的运行时间;
所述空闲率为:
其中,Mi表示服务节点Ni的内存的空闲率,Mf表示服务节点Ni的空闲内存大小,Mb表示服务节点Ni的缓冲区大小,Mc表示服务节点Ni的缓存区大小,MT表示服务节点Ni的总内存大小;
所述边界阈值为P,满足如下关系:
其中,wi表示服务节点Ni的权重,Fi表示权值表达函数。
7.根据权利要求1所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述基于OCR的训练素材处理系统包括:
图像处理模块,用于对扫描或拍照获得的所述训练数据进行图像预处理;所述图像预处理包括二值化处理、去噪处理、抗倾斜处理以及字符的分割校正处理;
内容分类模块,用于对预处理后的所述训练数据进行文本识别处理,根据识别的文本内容按照预先设定的资料目录进行数据分类;
归档处理模块,用于将处理后的所述训练数据上传至分布式存储系统并存档。
8.根据权利要求7所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述内容分类模块用于对预处理后的所述训练数据进行文本识别处理的过程中,采用多层稀疏自编码+SVM的方式进行文本定位。
9.根据权利要求1所述的基于人工智能的全时全域训练大数据平台,其特征在于,所述综合可视化系统包括:
数据展示模块,用于将所述训练数据通过图形样式进行可视化展示;
数据分析模块,用于对所述训练数据进行数据的文本分析、进行数据表格下载及进行数据选择化展示;
数据查询模块,用于在显示页面上对所述训练数据进行数据表格选择、分页显示、数据检索与排序处理。
CN202110594573.1A 2021-05-28 2021-05-28 基于人工智能的全时全域训练大数据平台 Active CN113313170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110594573.1A CN113313170B (zh) 2021-05-28 2021-05-28 基于人工智能的全时全域训练大数据平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110594573.1A CN113313170B (zh) 2021-05-28 2021-05-28 基于人工智能的全时全域训练大数据平台

Publications (2)

Publication Number Publication Date
CN113313170A CN113313170A (zh) 2021-08-27
CN113313170B true CN113313170B (zh) 2024-02-27

Family

ID=77376174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110594573.1A Active CN113313170B (zh) 2021-05-28 2021-05-28 基于人工智能的全时全域训练大数据平台

Country Status (1)

Country Link
CN (1) CN113313170B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837085A (zh) * 2021-09-24 2021-12-24 西南大学 基于领域自适应卷积神经网络的电子鼻漂移补偿方法
CN113963337B (zh) * 2021-12-22 2022-04-08 中国科学院自动化研究所 物体图像轮廓基元提取方法和装置
CN114630207B (zh) * 2022-03-15 2023-04-07 浙江大学 基于降噪自编码器的多传感节点感知数据收集方法
CN116071373A (zh) * 2023-03-01 2023-05-05 南通大学 一种基于融合PCA的U-net模型舌体自动分割方法
CN117874315B (zh) * 2024-03-13 2024-05-14 普益智慧云科技(成都)有限公司 用户需求分析展示方法、系统、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN110378463A (zh) * 2019-07-15 2019-10-25 北京智能工场科技有限公司 一种人工智能模型标准化训练平台及自动化系统
CN111582219A (zh) * 2020-05-18 2020-08-25 湖南纳九物联科技有限公司 一种智能化宠物管理系统
CN112364500A (zh) * 2020-11-09 2021-02-12 中国科学院自动化研究所 面向强化学习训练与评估的多并发实时对抗系统
CN112507973A (zh) * 2020-12-29 2021-03-16 中国电子科技集团公司第二十八研究所 一种基于ocr技术的文本和图片识别系统
CN112508201A (zh) * 2020-12-30 2021-03-16 南京束水智能科技有限公司 一种基于Acitivti 7.0的人工智能通用训练方法及系统
CN112817711A (zh) * 2021-01-22 2021-05-18 海南大学 基于微服务的数据融合系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003863B2 (en) * 2019-03-22 2021-05-11 Microsoft Technology Licensing, Llc Interactive dialog training and communication system using artificial intelligence

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN110378463A (zh) * 2019-07-15 2019-10-25 北京智能工场科技有限公司 一种人工智能模型标准化训练平台及自动化系统
CN111582219A (zh) * 2020-05-18 2020-08-25 湖南纳九物联科技有限公司 一种智能化宠物管理系统
CN112364500A (zh) * 2020-11-09 2021-02-12 中国科学院自动化研究所 面向强化学习训练与评估的多并发实时对抗系统
CN112507973A (zh) * 2020-12-29 2021-03-16 中国电子科技集团公司第二十八研究所 一种基于ocr技术的文本和图片识别系统
CN112508201A (zh) * 2020-12-30 2021-03-16 南京束水智能科技有限公司 一种基于Acitivti 7.0的人工智能通用训练方法及系统
CN112817711A (zh) * 2021-01-22 2021-05-18 海南大学 基于微服务的数据融合系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
人工智能计算与数据服务平台的研究与应用;王彦棡 等;《数据与计算发展前沿》;第1卷(第06期);86-97 *
关于军事职业教育平台建设的若干思考;唐爽 等;《现代职业教育》(第42期);70-71 *

Also Published As

Publication number Publication date
CN113313170A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113313170B (zh) 基于人工智能的全时全域训练大数据平台
Alam et al. Processing social media images by combining human and machine computing during crises
Manogaran et al. A survey of big data architectures and machine learning algorithms in healthcare
Wang et al. Bidirectional LSTM Malicious webpages detection algorithm based on convolutional neural network and independent recurrent neural network
AU2014341919A1 (en) Systems and methods for facial representation
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
KR20210055055A (ko) 분류된 이미지들의 증강된 정규화에 기초한 컴퓨팅 이벤트들의 분석을 가능하게 하기 위한 기술들
Sharmila et al. Introduction to multimedia big data computing for IoT
CN110929806A (zh) 基于人工智能的图片处理方法、装置及电子设备
Budgaga et al. A framework for scalable real‐time anomaly detection over voluminous, geospatial data streams
Tu et al. Toward efficient and intelligent video analytics with visual privacy protection for large-scale surveillance
Hiriyannaiah et al. Deep learning for multimedia data in IoT
Liu et al. IoT device identification using directional packet length sequences and 1D-CNN
Bhuyan et al. Crime predictive model using big data analytics
Zhang Distributed SVM face recognition based on Hadoop
CN104090885A (zh) 一种基于局部拷贝检测的多视角视频对象检索系统及方法
Silva et al. Using micro-services and artificial intelligence to analyze images in criminal evidences
Dinakar et al. A study on storage mechanism for heterogeneous sensor data on big data paradigm
Valliyammai et al. Distributed and scalable Sybil identification based on nearest neighbour approximation using big data analysis techniques
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
Guo et al. PicPick: a generic data selection framework for mobile crowd photography
Feng et al. Eureka: Edge-based discovery of training data for machine learning
US20210166331A1 (en) Method and system for risk determination
Noor et al. Sherlock in OSS: A Novel Approach of Content-Based Searching in Object Storage System
Wu et al. Design and Implementation of Cloud Service System Based on Face Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant