CN116226761A - 一种基于深度神经网络的演训数据分类编目方法及系统 - Google Patents
一种基于深度神经网络的演训数据分类编目方法及系统 Download PDFInfo
- Publication number
- CN116226761A CN116226761A CN202211714794.9A CN202211714794A CN116226761A CN 116226761 A CN116226761 A CN 116226761A CN 202211714794 A CN202211714794 A CN 202211714794A CN 116226761 A CN116226761 A CN 116226761A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- training
- dnn
- cataloging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 34
- 238000013145 classification model Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 13
- 238000013500 data storage Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 11
- 238000010276 construction Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000009960 carding Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于深度神经网络的演训数据分类编目方法及系统,该基于深度神经网络的演训数据分类编目方法通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
Description
技术领域
本说明书一个或多个实施例涉及软件技术领域,尤其涉及一种基于深度神经网络的演训数据分类编目方法及系统。
背景技术
在部队演训的远程投送、指挥推演、实兵演练等过程中,数据种类繁杂,数据标准各异,数据格式多样,数据存放混乱,数据总量庞大。数据种类包含了训练基础类、训练活动类、训练分析类等,数据标准包含了演习任务数据标准、测控资源数据标准、战场环境数据标准、评估模型数据标准等专业元数据标准,数据格式包含了图片、音频视频、文档,数据存放位置包含了私有云盘、磁盘阵列、个人电脑、光盘等,每次演训任务数据总量都有上百TB的零散数据需要整理分类。
通过人为打标签、创建文件夹进行手动分类、维护关键词或者通过元数据进行分类的方法和技术手段已经无法支持大规模离线数据和实时在线数据的分类编目,无法支撑上层应用的建设,无法满足数据动态应用的使用场景,给部队信息化建设,相关部门的工作带来了巨大的困扰。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提一种基于深度神经网络的演训数据分类编目方法及系统,用以改善对数据分类处理的效果。
第一方面,提供了一种基于深度神经网络的演训数据分类编目方法,该基于深度神经网络的演训数据分类编目方法包括以下步骤:
获取不同类型的数据;
通过数据处理方法提取不同类型的数据的数据特征;
将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型;
通过DNN多分类模型以接口的方式对外提供服务;当数据特征输入DNN多分类模型后,通过DNN多分类模型计算返回该数据的分类结果。
本申请提供的方法术通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
在一个具体的可实施方案中,所述通过数据处理方法提取不同类型的数据的数据特征;具体为:
对于文本类型数据通过IKAnalyzer中文分词工具包提取数据特征;
对于图片类型数据通过BP算法提取数据特征。
在一个具体的可实施方案中,所述通过数据处理方法提取不同类型的数据的数据特征;还包括:
对于语音类型数据,先将所述语音类型数据转换成文本内容,再通过IKAnalyzer中文分词工具包提取数据特征;
对于视频类数据,通过IKAnalyzer中文分词工具包对所述视频类数据的属性文本数据提取数据特征。
在一个具体的可实施方案中,所述获取的不同类型的数据包括实时数据和离线数据。
在一个具体的可实施方案中,所述将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型,具体为:
根据公式y=wx+b+e,确定数据特征与分类类型的线性对应关系;
其中,w权重系数矩阵,b为偏倚向量,x为输入数据,y为输出数据。
在一个具体的可实施方案中,所述根据公式y=wx+b+e,确定数据特征与分类类型的线性对应关系;具体包括:
经过多次接待,将拥有n对x和y以及n个误差e,把n个误差e都加起来表示一个误差总量,为防止e值的正负抵消,取e值的平方值,从而获得一个损失函数:
将损失函数Loss展开:
其中,损失值就是误差;
根据梯度下降算法计算权重系数矩阵w和偏倚向量b,总式子为:
带入loss函数:
利用复合函数:
最终可以获得:
从而获得一个线性关系:
利用这种链式传播,就完成了DNN多分类模型。
在一个具体的可实施方案中,所述梯度下降算法公式为:
第二方面,提供了一种基于深度神经网络的演训数据分类编目系统,该系统包括:
数据采集模块:用于获取不同类型的数据;
数据处理模块:用于通过数据处理方法提取不同类型的数据的数据特征;将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型;通过DNN多分类模型以接口的方式对外提供服务;当数据特征输入DNN多分类模型后,通过DNN多分类模型计算返回该数据的分类结果。
本申请提供的方法术通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
在一个具体的可实施方案中,所述数据处理模块还用于对于文本类型数据通过IKAnalyzer中文分词工具包提取数据特征;对于图片类型数据通过BP算法提取数据特征。
在一个具体的可实施方案中,所述数据处理模块还用于根据公式y=wx+b+e,确定数据特征与分类类型的线性对应关系;其中,w权重系数矩阵,b为偏倚向量,x为输入数据,y为输出数据。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的标签构造的结构框图;
图2为本申请实施例提供的DNN多分类模型的结构框图;
图3为本申请实施例提供的标签验证的流程图;
图4为本申请实施例提供的数据特征可达性分析的流程图;
图5为本申请实施例提供的基于深度神经网络的演训数据分类编目发方法流程图;
图6为本申请实施例提供的电子设备的结构框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指现该词前面的元件或者物件涵盖现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本发明设计一种基于深度神经网络的演训数据分类编目方法,属于机器学习技术领域,该方法、技术通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
在数据分类编目技术中,数据标签系统应用最为广泛,数据标签系统一般维护有标签库,在数据进入系统后,通过标签库内的标签对数据进行自动规则置标,或者人工手动置标,在数据来源、类型、格式等因素相对单一的环境下十分适用,例如:图书管理系统、货品电子标签管理系统等。
如图1所示,数据标签系统一般由标签构造、标签效验和标签控制三部分组成。标签构造的主要目的是将数据进行收集、清洗,并转化为用户标签存入数据库,以供外部系统调用。由于标签构造功能围绕数据标签进行展开,因此首先需进行数据标签的设计。
标签业务梳理以业务为导向,将标签根据业务的不同,划分标签的一级目录,在按业务梳理完以后,接着以标签属性进行分类,梳理标签分类时,尽可能按照MECE原则,相互独立,完全穷尽。每一个子集的组合都能覆盖到父集所有数据,划分层级不限,以业务需求为引导,尽可能细致。
对于演训数据来说,数据种类繁杂,数据标准各异,数据格式多样,数据存放混乱,数据总量庞大,导致标签业务梳理困难,标签分类无法穷举,标签处理工作量大等问题,完整的数据标签构造可以说基本无法实现,对于常年举行的演训递增数据来说这无疑是一个技术和方法上的不足。本发明采用深度神经网络(Deep Neural Networks,DNN)也叫作多层感知机(Multi-Layerperceptron,MLP),它由神经网络演变而来,也可以理解为具有很多隐藏层的神经网络,DNN多分类模型是基于特征进行的分类预测,所以不需要穷举业务标签。通过特征提取来代替数据标签梳理,把数据特征标识代入DNN反向传播算法(DNN反向传播算法就是对进行迭代优化求极小值的过程)将数据分类预测结果和数据实际分类结果损失函数用梯度下降法使用损失函数用梯度下降法不断迭代,形成一个尽可能精确的模型,利用数据特征之间的线性关系形成DNN多分类模型,实现对数据的分类编目。
以上基于深度神经网络的演训数据分类编目方法,通过建立DNN多分类模型可解决标签构造过程中的各种问题。
如图2所示,本申请实施例搭建的DNN多分类模型由输入层、隐藏层、输出层三层组成,中间的所有层均为隐藏层,隐藏层负责迭代优化误差函数求极小值,输入层作为训练数据和预测数据的输入,输出层作为预测数据分类结果的输出。每层的特殊数量可由特征提取的实际结果动态调整。
数据标签系统的标签校验主要是对数据库内标签数据的正确性进行校验,保证已有数据标签与新业务数据标签的一致性,主要保证新业务数据的标签类型(数据类型统一)和内容(数据内容不为空,数据格式是否一致)的合规性。标签验证分为收集阶段、计算阶段和存储阶段,如下图所示。
标签验证的收集阶段需要将新业务数据与数据库已有业务标签的抽样集进行汇总,在标签校验中,由于在计算阶段新业务数据需要与数据库内原有的数据业务标签进行比对,因此需要完整收集数据库中所有的已有业务标签数据抽样集(抽样集按照不同的业务划分,每个业务随机抽取任意标签数据)。
标签校验的计算阶段,会将新业务数据进行格式与类型转换,保证跟数据库中当前业务数据的数据类型和数据格式一致,并与现有业务数据抽样标签集比对,标签校验的计算使用的“对比”算法,负责比对相同业务下两条标签的所有属性数据类型和数据格式,并输出是否一致的判断形成错误记录,若结果不一致,则需进行标签修复操作,但并不影响新业务数据标签存储入库,错误的标签属性内容会被替换成NULL,标签修复工作通过人工查看错误记录进行事后替换修复,方式包含格式修改、类型转换和内容替换。标签检验的存储阶段,主要负责新业务数据标签的存储和新业务数据便签错误属性的替换。
对于演训数据来说,多类型、多武器、多课题、多战法的融合数据,导致在对比阶段,比对条件无法统一、比对策略无法拟定、比对场景无法分解,让标签效验后续的计算和存储阶段无法进行。而本发明通过深度神经网络对演训数据进行语义分析、数据孪生分析、关联聚类等操作,从数据本身去理解数据,不需人为分析业务场景,制定指标分类,避免了业务分析的主观错误,指标初始化的工作量大等现状,解决了指标体系不完善,指标错误导致的分类编目不正确等问题。
数据标签系统的标签控制,对整个标签系统进行集中管理,用于标签的新增、修改和删除,用于维护系统标签库。标签库的维护,一方面方便了数据置标标签的复用,一方面也产生了冗余标签,例如某些标签已经没有关联的数据,而标签库还会一直在维护这些标签。本发明采用可达性分析算法(可达性分析算法也可以称为根搜索算法、追踪性垃圾收集,作为JVM虚拟机的垃圾回收算法,可达性分析算法是以根对象集合(GCRoots)为起始点,按照从上至下的方式搜索被根对象集合所连接的目标对象是否可达。在此处我们主要采用其思想,构建数据和数据特征之间的可达性关系),解决数据的冗余问题,当某种数据特征不再被关联引用时,将自动将其删除,如图4所示。
如图4所示,当数据特征D不再被引用时,通过可达性分析后,发现其不可达,将自动删除特征D;当新的数据特征D产生时,通过可达性分析可自动关联并及时入库。
本发明设计一种基于深度神经网络的演训数据分类编目方法,属于机器学习技术领域,该方法、技术通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
基于深度神经网络的演训数据分类编目方法主要分为数据处理、DNN多分类模型训练与数据分类编目应用三个实现步骤,如图5所示。
本申请实施例提供的基于深度神经网络的演训数据分类编目方法包括以下步骤:
步骤001:获取不同类型的数据;
具体的,获取的不同类型的数据包括实时数据和离线数据。
步骤002:通过数据处理方法提取不同类型的数据的数据特征;
具体的,对于文本类型数据通过IKAnalyzer中文分词工具包提取数据特征;对于图片类型数据通过BP算法提取数据特征;对于语音类型数据,先将所述语音类型数据转换成文本内容,再通过IKAnalyzer中文分词工具包提取数据特征;对于视频类数据,通过IKAnalyzer中文分词工具包对所述视频类数据的属性文本数据提取数据特征。
步骤003:将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型;
步骤004:通过DNN多分类模型以接口的方式对外提供服务;当数据特征输入DNN多分类模型后,通过DNN多分类模型计算返回该数据的分类结果。
本申请提供的方法术通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
下面详细说明本申请上述方法涉及到的步骤:
1)数据处理
数据处理对应不同的数据类型使用不同的处理方式,文本类数据通过IKAnalyzer中文分词工具包(IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。)进行文本解析,然后通过倒排索引技术可以得到每个文本的TOP10特征,并用0-9正整数作为每个特征的标识。
图片数据使用BP算法(Local Binary Patterns,局部二值模式)进行特征提取,BP算子是一种用来描述图像局部纹理特征的算子,具有灰度不变性。其主要思想是在目标像素周围定义一个3x3的窗口,以目标像素为阈值,将相邻的8个像素的灰度值与目标像素进行对比,如果大于目标像素,则标记为1,如果小于等于则标记为0。这样,对每一个窗口都可以产生一个8位的二进制数。这样就得到了目标像素的LBP值。
其基本步骤为:
a、首先将检测图像划分为16×16的小区域(cell)人,表1所示。
表1
b、对于每个cell中的一个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值;
c、然后计算每个cell的直方图,即每个数字(假定是十进制数LBP值)出现的频率。然后对该直方图进行归一化处理。
d、最后将得到的每个cell的统计直方图进行连接成为一个特征向量,也就是整幅图的LBP纹理特征向量。然后便可利用DNN反向传播算法算法进行分类了。
语音数据通过调用第三方接口(科大讯飞)实现,第三方工具接口将把语音转换为文本内容,而后通过文本类数据处理方法进行特征提取。
视频数据则只对其属性文本数据进行处理,跟文本类数据特征提取方法实现一致。
最终融合处理将各类型数据特征整理为文本类内容,作为DNN多分类模型的训练集。
3)DNN多分类模型训练
DNN多分类模型训练的目的是希望神经网络的预测数据分类输出和实际数据分类的输出"一样",但是在"一样"之前,模型输出的分类编目结果和真实数据分类都是存在一定的差异,把这个"差异"用参数e表示,那么模型输出加上误差之后就等于真实结果了,作:y=wx+b+e(权重系数矩阵w,偏倚向量b,输入数据x,输出数据y)。经过多次接待后,将拥有n对x和y以及n个误差e,把n个误差e都加起来表示一个误差总量,为了防止e值的正负抵消,取其平方值。这样我们就可以获得一个损失函数。如下:
将损失函数(Loss)展开:
损失值就是误差,接下来做的就是取得的新w值与b值使损失函数取得的值越小越好。
数学公式如下:
利用此公式延申到计算w,b(权重系数矩阵w,偏倚向量b)上,总式子为:
带入loss函数:
利用复合函数:
最终可以获得:
这样就可以获得一个线性关系:
利用这种链式传播,就完成了DNN多分类模型。
4)数据分类编目应用
一种基于深度神经网络的演训数据分类编目方法适用于复杂场景下,数据格式、类型、标准等繁杂或未知的情况下对数据进行分类编目。
以上方法需要使用代码实现,首先需要对接数据源,演训数据源一般分为远程投送过程数据源、指挥推演过程数据源、实兵演练过程数据源和其它数据源四大类,在这四类数据源中,数据分为实时数据和离线数据,数据存储方式有磁盘目录、数据库,数据类型分为文本数据、图片数据、语音数据和音像数据。实时数据通过消息队列kafka进行传输,而后使用代码程序读取。
在各阶段演训数据读取完成后,进行数据处理,数据处理参照1)数据处理章节,数据处理完成后,各类型数据特征提取完成,进入DNN多分类模型训练,完成训练后生成DNN多分类模型,模型以接口的方式对外提供服务,当数据特征输入模型后,通过模型计算返回该数据的分类结果。DNN多分类模型可用于后续演训实时数据和离线数据的分类编目。
DNN多分类模型训练核心代码如下:
以上为本方明的主要技术流程实现步骤和核心代码块,采用本方明将不再被演训业务复杂的场景、庞大的数据量和多样化的数据格式所困扰,本方明亮点就在于通过深度神经网络去训练数据之间的关系,实现演训数据的自动分类编目,形成数据分类目录树,可为后续数据的应用提供支撑,避免了人为数据分类的工作量大、效率低和主观错误等问题。
本申请实施例还提供了一种基于深度神经网络的演训数据分类编目系统,该系统包括:
数据采集模块:用于获取不同类型的数据;
数据处理模块:用于通过数据处理方法提取不同类型的数据的数据特征;将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型;通过DNN多分类模型以接口的方式对外提供服务;当数据特征输入DNN多分类模型后,通过DNN多分类模型计算返回该数据的分类结果。
上述具体的数据采集模块以及数据处理模块可参考方法中的描述,在此不再赘述。本申请提供的方法术通过对部队演训的远程投送、指挥推演、实兵演练等过程中数据种类、数据标准、数据格式、数据存放等数据因素进行深度学习,生成用于多分类的DNN框架,可支持大量离线演训数据的智能分类编目与实时在线演训数据的实时分类编目,有效解决现有方法、技术中演训数据分类编目的错误率高、准确性低和人工成本高等问题存在技术难点,大幅提升演训数据分类编目效率。
在一个具体的可实施方案中,所述数据处理模块还用于对于文本类型数据通过IKAnalyzer中文分词工具包提取数据特征;对于图片类型数据通过BP算法提取数据特征。
在一个具体的可实施方案中,所述数据处理模块还用于根据公式y=wx+b+e,确定数据特征与分类类型的线性对应关系;其中,w权重系数矩阵,b为偏倚向量,x为输入数据,y为输出数据。
本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现执行上述任意一种安全系统的使用方法。
本申请实施例还提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行上述任意一种安全系统的使用方法。
本申请实施例还还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行本申请上述任意一种安全系统的使用方法。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输接口1030用于连接输入/输模块,以实现信息输入及输。输入输/模块可以作为组件配置在设备中(图中未示),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通讯模块(图中未示),以实现本设备与其他设备的通信交互。其中通讯模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示了处理器1010、存储器1020、输入/输接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示或可以不示与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于深度神经网络的演训数据分类编目方法,其特征在于,包括以下步骤:
获取不同类型的数据;
通过数据处理方法提取不同类型的数据的数据特征;
将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型;
通过DNN多分类模型以接口的方式对外提供服务;当数据特征输入DNN多分类模型后,通过DNN多分类模型计算返回该数据的分类结果。
2.根据权利要求1所述的基于深度神经网络的演训数据分类编目方法,其特征在于,所述通过数据处理方法提取不同类型的数据的数据特征;具体为:
对于文本类型数据通过IKAnalyzer中文分词工具包提取数据特征;
对于图片类型数据通过BP算法提取数据特征。
3.根据权利要求2所述的基于深度神经网络的演训数据分类编目方法,其特征在于,所述通过数据处理方法提取不同类型的数据的数据特征;还包括:
对于语音类型数据,先将所述语音类型数据转换成文本内容,再通过IKAnalyzer中文分词工具包提取数据特征;
对于视频类数据,通过IKAnalyzer中文分词工具包对所述视频类数据的属性文本数据提取数据特征。
4.根据权利要求2所述的基于深度神经网络的演训数据分类编目方法,其特征在于,所述获取的不同类型的数据包括实时数据和离线数据。
5.根据权利要求1~4任一项所述的基于深度神经网络的演训数据分类编目方法,其特征在于,所述将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型,具体为:
根据公式y=wx+b+e,确定数据特征与分类类型的线性对应关系;
其中,w权重系数矩阵,b为偏倚向量,x为输入数据,y为输出数据。
8.根据权利要求7所述的基于深度神经网络的演训数据分类编目系统,其特征在于,包括:
数据采集模块:用于获取不同类型的数据;
数据处理模块:用于通过数据处理方法提取不同类型的数据的数据特征;将获取的数据特征进入DNN多分类模型训练,完成训练后生成DNN多分类模型;通过DNN多分类模型以接口的方式对外提供服务;当数据特征输入DNN多分类模型后,通过DNN多分类模型计算返回该数据的分类结果。
9.根据权利要求8所述的基于深度神经网络的演训数据分类编目学系统,其特征在于,所述数据处理模块还用于对于文本类型数据通过IKAnalyzer中文分词工具包提取数据特征;对于图片类型数据通过BP算法提取数据特征。
10.根据权利要求6所述的基于深度神经网络的演训数据分类编目方法,其特征在于,所述数据处理模块还用于根据公式y=wx+b+e,确定数据特征与分类类型的线性对应关系;其中,w权重系数矩阵,b为偏倚向量,x为输入数据,y为输出数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211714794.9A CN116226761A (zh) | 2022-12-27 | 2022-12-27 | 一种基于深度神经网络的演训数据分类编目方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211714794.9A CN116226761A (zh) | 2022-12-27 | 2022-12-27 | 一种基于深度神经网络的演训数据分类编目方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116226761A true CN116226761A (zh) | 2023-06-06 |
Family
ID=86585053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211714794.9A Pending CN116226761A (zh) | 2022-12-27 | 2022-12-27 | 一种基于深度神经网络的演训数据分类编目方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226761A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881685A (zh) * | 2015-05-27 | 2015-09-02 | 清华大学 | 基于捷径深度神经网络的视频分类方法 |
CN106650933A (zh) * | 2017-01-12 | 2017-05-10 | 西安电子科技大学 | 基于协同进化和反向传播的深度神经网络优化方法 |
CN106844714A (zh) * | 2017-02-08 | 2017-06-13 | 河海大学常州校区 | 一种知识库管理系统 |
US20170300811A1 (en) * | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Dynamic loss function based on statistics in loss layer of deep convolutional neural network |
CN107844553A (zh) * | 2017-10-31 | 2018-03-27 | 山东浪潮通软信息科技有限公司 | 一种文本分类方法及装置 |
CN109345262A (zh) * | 2017-08-01 | 2019-02-15 | 兰州大学 | 一种智能投诉分类与处理系统 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
KR20190118387A (ko) * | 2018-04-10 | 2019-10-18 | 배재대학교 산학협력단 | 합성곱 신경망 기반 이미지 처리 시스템 및 방법 |
CN111247532A (zh) * | 2017-11-21 | 2020-06-05 | 国际商业机器公司 | 利用多任务学习进行特征提取 |
CN114049502A (zh) * | 2021-12-22 | 2022-02-15 | 贝壳找房网(北京)信息技术有限公司 | 神经网络的训练、特征提取、数据处理方法和设备 |
US20220351036A1 (en) * | 2021-03-19 | 2022-11-03 | Imagination Technologies Limited | Methods and systems for generating the gradients of a loss function with respect to the weights of a convolution layer |
-
2022
- 2022-12-27 CN CN202211714794.9A patent/CN116226761A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881685A (zh) * | 2015-05-27 | 2015-09-02 | 清华大学 | 基于捷径深度神经网络的视频分类方法 |
US20170300811A1 (en) * | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Dynamic loss function based on statistics in loss layer of deep convolutional neural network |
CN106650933A (zh) * | 2017-01-12 | 2017-05-10 | 西安电子科技大学 | 基于协同进化和反向传播的深度神经网络优化方法 |
CN106844714A (zh) * | 2017-02-08 | 2017-06-13 | 河海大学常州校区 | 一种知识库管理系统 |
CN109345262A (zh) * | 2017-08-01 | 2019-02-15 | 兰州大学 | 一种智能投诉分类与处理系统 |
CN107844553A (zh) * | 2017-10-31 | 2018-03-27 | 山东浪潮通软信息科技有限公司 | 一种文本分类方法及装置 |
CN111247532A (zh) * | 2017-11-21 | 2020-06-05 | 国际商业机器公司 | 利用多任务学习进行特征提取 |
KR20190118387A (ko) * | 2018-04-10 | 2019-10-18 | 배재대학교 산학협력단 | 합성곱 신경망 기반 이미지 처리 시스템 및 방법 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
US20220351036A1 (en) * | 2021-03-19 | 2022-11-03 | Imagination Technologies Limited | Methods and systems for generating the gradients of a loss function with respect to the weights of a convolution layer |
CN114049502A (zh) * | 2021-12-22 | 2022-02-15 | 贝壳找房网(北京)信息技术有限公司 | 神经网络的训练、特征提取、数据处理方法和设备 |
Non-Patent Citations (3)
Title |
---|
杜伟等: "陆军演训数据分析系统建设", 《兵工自动化》, vol. 39, no. 5, pages 15 - 18 * |
桐镜不是铜镜: "DNN(全连接神经网络)", pages 1 - 3, Retrieved from the Internet <URL:《https://blog.csdn.net/m0_63167598/article/details/123535339》> * |
郑书奎等: "基于深度学习的兵棋演习数据特征提取方法研究", 《指挥与控制学报》, vol. 2, no. 3, pages 194 - 201 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
CN110363449B (zh) | 一种风险识别方法、装置及系统 | |
Kalmegh | Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news | |
US9946924B2 (en) | System and method for automating information abstraction process for documents | |
JP6894534B2 (ja) | 情報処理方法及び端末、コンピュータ記憶媒体 | |
EP3685243A1 (en) | Content pattern based automatic document classification | |
CN110765301B (zh) | 图片处理方法、装置、设备及存储介质 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
CN105824855B (zh) | 一种对数据对象筛选分类的方法、装置以及电子设备 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
CN117150138B (zh) | 一种基于高维空间映射的科技资源组织方法及系统 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117592450A (zh) | 基于员工信息整合的全景档案生成方法及系统 | |
CN111259975A (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN110879821A (zh) | 评分卡模型衍生标签生成方法、装置、设备及存储介质 | |
CN116340781A (zh) | 相似度确定方法、相似度预测模型训练方法及装置 | |
CN110399431A (zh) | 一种关联关系构建方法、装置及设备 | |
CN116226761A (zh) | 一种基于深度神经网络的演训数据分类编目方法及系统 | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 | |
CN113536788A (zh) | 信息处理方法、装置、存储介质及设备 | |
JPWO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
CN114547231A (zh) | 一种数据溯源的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230606 |
|
WD01 | Invention patent application deemed withdrawn after publication |