CN103268406B - 一种基于煤矿安全培训游戏的数据挖掘系统及方法 - Google Patents

一种基于煤矿安全培训游戏的数据挖掘系统及方法 Download PDF

Info

Publication number
CN103268406B
CN103268406B CN201310167938.8A CN201310167938A CN103268406B CN 103268406 B CN103268406 B CN 103268406B CN 201310167938 A CN201310167938 A CN 201310167938A CN 103268406 B CN103268406 B CN 103268406B
Authority
CN
China
Prior art keywords
data
user
game
coal mine
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310167938.8A
Other languages
English (en)
Other versions
CN103268406A (zh
Inventor
滕召胜
王永
孔富根
唐求
朱辰湘
陈溢
黄慧君
喻励志
李明
肖莉姣
梁国安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhengxiang Science & Technology Development Co Ltd
Hunan University
Original Assignee
Hunan Zhengxiang Science & Technology Development Co Ltd
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhengxiang Science & Technology Development Co Ltd, Hunan University filed Critical Hunan Zhengxiang Science & Technology Development Co Ltd
Priority to CN201310167938.8A priority Critical patent/CN103268406B/zh
Publication of CN103268406A publication Critical patent/CN103268406A/zh
Application granted granted Critical
Publication of CN103268406B publication Critical patent/CN103268406B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于煤矿安全培训游戏的数据挖掘系统及方法,本发明之数据挖掘系统,包括带有用户信息数据库的数据库服务器,数据库服务器,信息处理工作站与至少一个煤矿安全培训游戏终端计算机,煤矿安全培训游戏终端计算机内装有煤矿安全培训游戏软件,通过交换机与数据库服务器和信息处理工作站连接,采用C/S架构,组成以太网;信息处理工作站上安装有数据挖掘软件系统,数据挖掘软件系统包括数据采集器,煤矿安全领域知识库和数据挖掘器;本发明还包括数据挖掘方法;本发明能发现煤矿安全培训游戏中用户的行为特征;能对用户的培训效果进行评估;能对煤矿安全培训游戏的整体培训效果进行分析;系统布局合理,能与煤矿安全培训游戏紧密结合。

Description

一种基于煤矿安全培训游戏的数据挖掘系统及方法
技术领域
本发明属于数据挖掘技术领域, 涉及一种基于煤矿安全培训游戏的数据挖掘系统及方法。
背景技术
随着信息化进程的不断推进,各种信息的数据量急剧增长,如何从越来越多的海量数据中提取有用的数据成为当务之急,数据挖掘技术就是为顺应这种需要应运而生并快速发展起来的数据处理技术。
数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道但又是潜在有用的数据的过程。
煤矿行业的发展也进入了信息化的进程中,其中包括煤矿安全培训在内的各项煤矿工作、管理和培训信息也不断增加,利用数据挖掘技术从中提取有用的知识并为煤矿各项工作、管理和决策提供相应的决策支持,能有效提高煤矿行业的安全生产水平。
现有煤矿安全培训信息化程度较低,仅仅对安全培训的成绩进行统计分析,缺乏对具体受训人员有针对性的信息采集和行为分析,并缺少对受训人员进行总体分析和评估。在数据挖掘技术方面,现有的关联规则分析算法主要有Apriori算法及其改进方法和基于遗传算法的关联规则分析方法两类;但Apriori类方法需要对数据库进行重复扫描,关联分析效率较低;遗传算法类的关联分析方法因受遗传算法自身特点影响,寻优速度慢且易陷入局部最优,从而无法找到最优解。
发明内容
本发明所要解决的技术问题是,克服现有技术存在的上述缺陷,提供一种能为煤矿安全培训提供用户详细的行为分析和评估分析,效率高,寻优速度快的基于煤矿安全培训游戏的数据挖掘系统及方法。
本发明解决其技术问题所采用的技术方案是,
本发明之基于煤矿安全培训游戏的数据挖掘系统,包括一个数据库服务器,一个信息处理工作站与至少一个煤矿安全培训游戏终端计算机,所述数据库服务器、信息处理工作站和煤矿安全培训游戏终端计算机,采用C/S架构;所述煤矿安全培训游戏终端计算机内装有煤矿安全培训游戏软件,通过交换机与数据库服务器和信息处理工作站连接,组成以太网;所述信息处理工作站上安装有数据挖掘软件系统,所述数据挖掘软件系统包括煤矿安全培训游戏数据采集器,煤矿安全领域知识库和煤矿安全培训游戏数据挖掘器。
进一步,所述数据库服务器使用ODBC接口。
进一步,所述煤矿安全培训游戏终端计算机使用COM组件技术进行数据采集。
进一步,所述煤矿安全培训游戏数据挖掘器包含数据源提取模块、数据组合模块和数据挖掘模块;
数据源提取模块:用于从数据采集器采集到的各种数据中提取信息,并创建一组概率断言;
数据组合模块:用于从数据提取模块产生的概率断言中组合一个或多个针对不同目标的组合概率断言;
数据挖掘模块:用于从数据组合模块产生的一个或多个组合概率断言中挖掘导出培训用户的培训状态。
进一步,所述数据库服务器内存储有培训用户的基本信息数据、培训信息数据、培训状态数据。
本发明之基于煤矿安全培训游戏的数据挖掘方法,包括以下步骤:
(1)建立数据库:建立用户信息数据库和游戏信息数据库;
用户信息数据库:根据用户在注册煤矿安全培训信息化系统时登记的信息和用户在使用系统进行培训过程中数据库服务器记录的信息建立包含用户的基本信息(用户编号、用户的姓名、身份证号码、年龄、性别、籍贯、学历、专业、工作情况、从事的工种)和培训信息(培训编号、培训起止时间、培训项目、培训成绩)、能反映用户的个人情况和培训状况的数据库;
游戏信息数据库:根据用户使用培训游戏终端计算机培训上的煤矿安全培训游戏软件进行游戏过程中的各种操作(工具选择操作、作业规范选择操作、安全知识问答选择、操作流程信息)和行为信息,以及游戏的状态信息,建立包含作为用户行为信息和游戏状态信息的数据库,用户行为信息作为关联分析的信息源,游戏状态信息作为用户分类和聚类分析的信息源;
(2)采集游戏数据:根据分析条件,通过信息处理工作站上的数据挖掘采集器,按照指定特征(用户编号、年龄段、学历、专业、工种)从步骤(1)建立的用户信息数据库和游戏信息数据库中分别提取出指定用户或指定游戏的相关用户信息及游戏信息,数据挖掘器上的数据提取模块采用关键词搜索的技术进行提取;将提取到的数据经组合模块进行重组,同时根据数据挖掘操作的条件建立煤矿安全培训游戏的数据模型,并生成便于数据挖掘操作处理的数据单元;
所述煤矿安全培训游戏的数据模型为一个结构化的用户游戏行为事件模型,定义为一个六元组,即:GT=<Mid,Uid,Ti,Os,Rs,Mn>,
其中:GT为结构化用户游戏行为事件,
Mid为游戏行为事件ID,
Uid为进行培训游戏的用户ID,
Ti为游戏事件发生的时间,
Os为游戏中用户进行的操作行为,采用归一化的数据表示,
Rs为游戏中用户操作行为之后产生的响应,
Mn为该用户当前游戏事件序列中的下一个行为事件ID;
通过记录结构化用户游戏事件,将用户的游戏过程以结构化序列的方式记录保存;
(3)预处理数据:将步骤(2)采集到游戏数据进行数据清理,然后根据数据挖掘需要进行数据集成,再进行数据规范化和数据规约,最后将数据存储于数据仓库中,成为实际数据挖掘的数据源;
(4)数据挖掘操作:将步骤(3)预处理好的数据源经数据挖掘器上的数据挖掘模块分别进行煤矿安全培训游戏行为关联分析、煤矿安全培训用户分类、煤矿安全培训用户聚类;
煤矿安全培训游戏中的各用户操作节点的不同操作选项产生不同的操作结果,游戏能够将用户的操作事件以及产生的操作结果信息以结构化数据的形式发布。
步骤(3)中,所述数据清理包括重复项删除、空缺项的清理、噪声去除;
重复项是通过数据表扫描的形式获得,并直接删除;
空缺项清理是根据具体空缺条目进行分类处理,包含补齐、删除、标记三种操作;
噪声去除是采用回归分析法对可能的干扰数据进行清理。
所述数据集成是根据数据挖掘的目标,对分别独立的用户信息数据和游戏信息数据进行合成,形成便于后续操作的数据源;
所述数据规范化是根据实际采集的数据值进行按比例缩放,调整数据到合理的范围,便于后续数据处理,
所述数据规约是根据实际采集的数据进行降维、压缩、简化,以减少数据处理复杂度。
步骤(4)中,所述煤矿安全培训游戏行为关联分析为对用户进行的煤矿安全培训游戏的游戏操作进行记录,形成煤矿安全培训游戏用户事件集合,然后通过使用基于模糊遗传算法的关联规则挖掘方法;
所述基于模糊遗传算法的关联规则挖掘方法,首先通过对用户事件集合进行染色体编码,随机生成初始种群;初始化后,对种群中的个体进行模糊处理,以避免影响遗传操作的选择算子,降低不存在行为规则的选择概率;然后,对已模糊化处理的种群个体进行选择、交叉、变异遗传操作,从而得出下一代个体;采用模糊隶属函数对行为数据与事件数据比较以及通过对支持度和置信度进行比较,评估个体的适应度,完成算法的一次迭代;在每次迭代之后,对生成的新一代个体进行统计,找出种群中的适应度值最高的个体,并与进化记录中的最优个体进行比较,如果新个体适应度值优于进化记录中的个体,则更新进化记录中的个体并将比较次数值清零,否则,只需要将比较次数值加1;在比较次数值达到灾变阈值后,对种群进行一次灾变操作,即进行一次重新初始化操作;在达到迭代次数条件阈值或者关联规则的置信度条件之后,输出最优解。
所述煤矿安全培训用户分类分析是通过使用模糊决策树分类法对用户进行分类,用于对用户进行评估分类分析。
所述模糊决策树分类法:首先通过对从煤矿安全领域知识库选取具有已知分类结果的、能修正参数,确定模型中具体参数的训练数据集进行训练,建立决策模型;然后,通过将检验分类结果的测试数据集引入决策模型进行决策树修剪,建立煤矿安全培训用户分类决策树;然后,进行模糊化处理,转化为较为简单的用户分类数据源,将其导入煤矿安全培训用户分类决策树进行用户分类,得出用户分类结果。
所述煤矿安全培训用户聚类是使用基于遗传算法的k均值聚类分析法,对数据集中各数据之间的相似度或相异度进行计算,并形成具有分布特点的数据簇,用于从整体上对培训效果进行分析,发现用户在培训过程中出现的问题。
所述基于遗传算法的k均值聚类分析法,首先,从数据库中提取煤矿安全培训用户信息数据;然后,根据数据的实际情况进行编码,建立初始化种群,然后对种群中的个体进行适应度计算,计算出的适应度值为进化评估的主要依据;然后,进行选择、交叉和变异的遗传操作,得出下一代种群;然后,对新一代个体进行适应度评估,以确定每个个体的适应度值;当算法迭代次数没有达到或者适应度值未达到设定标准时,进入下一次进化过程,反之,通过遗传算法输出包含若干聚类中心的最优解,输出的最优解通过以该聚类中心为初始聚类中心点,进行k均值算法计算聚类中心,并输出聚类分析结果。
所述适应度计算采用基于距离的方法进行,使用数据维度的欧几里得距离来表示聚类适应度。
本发明之基于煤矿安全培训游戏的数据挖掘系统,结构简单,布局合理,能与煤矿安全培训游戏紧密结合;使用本发明,能将多媒体技术和虚拟现实技术结合,构建的煤矿安全培训游戏,能够更加生动形象的提供安全培训,并获得更好的培训效果;通过对用户在游戏过程中的操作记录,并利用数据挖掘方法进行用户行为关联分析、分类和聚类,能够更有效的对煤矿安全培训中用户的操作习惯、惯常行为、危险操作等进行分析,并为用户培训结果的评估提供更精确和可靠的依据;基于模糊遗传算法的关联规则挖掘方法在比较次数值达到灾变阈值后,对种群进行一次灾变操作,即进行一次重新初始化操作,能改变算法的进化过程,使得算法能够及时跳出局部最优陷阱。
附图说明
图1为本发明系统实施例的结构框图;
图2是本发明系统实施例的信息处理示意图;
图3为本发明方法实施例的结构框图;
图4是本发明方法实施例的游戏数据采集示意图;
图5是本发明方法的实施例的数据预处理流程示意图;
图6是本发明方法实施例①游戏行为关联分析的流程示意图;
图7是本发明方法实施例②用户分类的流程示意图;
图8是本发明方法实施例③用户聚类的流程示意图。
具体实施方式
以下结合附图及具体实施方式对本发明做进一步说明:
参照附图1,图2,本发明基于煤矿安全培训游戏的数据挖掘系统实施例,包括一个带用户信息数据库8的数据库服务器3,一个信息处理工作站4与3个煤矿安全培训游戏终端计算机,所述一个数据库服务器3,一个信息处理工作站4与3个煤矿安全培训游戏终端计算机采用C/S结构;所述煤矿安全培训游戏终端计算机1内装有煤矿安全培训游戏软件9,通过交换机2与数据库服务器3和信息处理工作站4连接,组成以太网;所述信息处理工作站4上安装有数据挖掘软件系统,所述数据挖掘软件系统包括用于对煤矿安全培训游戏产生的各种数据进行采集的煤矿安全培训游戏数据采集器10,用于挖掘数据源的煤矿安全领域专用标准知识库的煤矿安全领域知识库6和用于使用煤矿安全领域知识库对数据采集器10采集到的数据进行数据提取和分析的煤矿安全培训游戏数据挖掘器。
所述数据库服务器3使用ODBC接口。
所述煤矿安全培训游戏终端计算机1使用COM组件技术进行数据采集。
所述煤矿安全培训游戏数据挖掘器包含数据源提取模块4-1、数据组合模块4-2和数据挖掘模块4-3;
数据源提取模块4-1:用于从数据采集器采集到的各种数据中提取信息,并创建一组概率断言;
数据组合模块4-2:用于从数据提取模块产生的概率断言中组合两个针对不同目标的组合概率断言;
数据挖掘模块4-3:用于从数据组合模块产生的两个组合概率断言中挖掘导出培训用户的培训状态。
所述数据库服务器3内存储有培训用户的基本信息数据、培训信息数据、培训状态数据。
煤矿安全领域知识库6包括煤矿安全技术领域专业知识、煤矿安全技术规程、采煤法技术特点。
煤矿安全技术领域专业知识包括各工种在煤矿工作时的基本知识、所用到的基本工具以及基本的采煤步骤和术语。
煤矿安全技术规程由国家安全监督总局制定的《煤矿安全技术规程》进行规范。
采煤法技术特点对于相应的采煤操作流程及工艺有特定的要求。
方法实施例①
参照图3,图4,图5,本实施例包括以下步骤:
(1)建立数据库:包括建立用户信息数据库和游戏信息数据库;
用户信息数据库:根据用户在注册煤矿安全培训信息化系统时登记的信息和用户在使用系统进行培训过程中数据库服务器3记录的信息建立包含用户的基本信息(用户编号、用户的姓名、身份证号码、年龄、性别、籍贯、学历、专业、工作情况、从事的工种)和培训信息(培训编号、培训起止时间、培训项目、培训成绩)、能反映用户的个人情况和培训状况的数据库;
游戏信息数据库:根据用户使用培训游戏终端计算机1培训上的煤矿安全培训游戏软件9进行游戏过程中的各种操作(工具选择操作、作业规范选择操作、安全知识问答选择、操作流程信息)和行为信息,以及游戏的状态信息,建立包含作为用户行为信息和游戏状态信息的数据库,用户行为信息作为关联分析的信息源,游戏状态信息作为用户分类和聚类分析的信息源;
(2)采集游戏数据:根据分析条件,通过信息处理工作站4上的数据挖掘采集器10,按照指定特征(用户编号、年龄段、学历、专业、工种)从步骤(1)建立的用户信息数据库和游戏信息数据库中分别提取出指定用户或指定游戏的相关用户信息及游戏信息,数据挖掘器上数据提取模块4-1采用关键词搜索的技术进行提取;将提取到的数据经组合模块4-2进行重组,同时根据数据挖掘操作的条件建立煤矿安全培训游戏的数据模型,并生成便于数据挖掘操作处理的数据单元;
所述煤矿安全培训游戏的数据建模为一个结构化的用户游戏行为事件模型,可以定义为一个六元组,即:GT=<Mid,Uid,Ti,Os,Rs,Mn>,
其中:GT为结构化用户游戏行为事件,
Mid为游戏行为事件ID,
Uid为进行培训游戏的用户ID,
Ti为游戏事件发生的时间,
Os为游戏中用户进行的操作行为,采用归一化的数据表示,
Rs为游戏中用户操作行为之后产生的响应,
Mn为该用户当前游戏事件序列中的下一个行为事件ID。
通过记录结构化用户游戏事件,将用户的游戏过程以结构化序列的方式记录保存。
(2)预处理数据:将步骤(2)采集到游戏数据进行数据清理,然后根据数据挖掘需要进行数据集成,再进行数据规范化和数据规约,最后将数据存储于数据仓库中,成为实际数据挖掘的数据源;
(3)数据挖掘操作:将步骤(3)预处理好的数据源经数据挖掘模块4-3进行煤矿安全培训游戏行为关联分析;
步骤(3)中,所述数据清理主要包括重复项删除、空缺项的清理、噪声去除;
重复项是通过数据表扫描的形式获得,并直接删除;
空缺项清理是根据具体空缺条目进行分类处理,包含补齐、删除、标记三种操作;
噪声去除是采用回归分析法对可能的干扰数据进行清理。
所述数据集成是根据数据挖掘的目标,对分别独立的用户信息数据和游戏
信息数据进行合成,形成便于后续操作的数据源;
所述数据规范化是根据实际采集的数据值进行按比例缩放,调整数据到合理的范围,便于后续数据处理,
所述数据规约是根据实际采集的数据进行降维、压缩、简化等操作,减少数据处理复杂度。
所述煤矿安全培训游戏行为关联分析是使用基于模糊遗传算法的煤矿安全培训游戏关联分析算法进行用户行为关联分析,关联规则分析是数据挖掘中最活跃的研究方法之一。
首先通过对用户进行的煤矿安全培训游戏的游戏操作进行记录,形成煤矿安全培训游戏用户事件集合,然后通过使用基于模糊遗传算法的关联规则挖掘方法,发现用户在进行模拟真实井下环境的情况下出现的不安全操作问题的特征以及引发问题的一般规律,从而为更好的指导煤矿安全培训提供帮助。
煤矿安全培训游戏行为关联分析中,关联规则挖掘描述如下:用户行为集合为煤矿安全培训游戏中所有可能的行为集合,事件数据集是由一系列具有唯一标识Mid的事件组成,每个事件都对应用户行为集合I上的一个子集。用户行为集合在事件数据集D上的支持度包含I1的事件在D中的百分比,即:
定义在用户行为集合I和事件集合D上的关联规则通过满足置信度来给出,即包含I1和I2的事件与包含I1的事件数之比;
满足最小支持度和最小置信度的关联规则为强关联规则,本发明通过挖掘强关联规则来进行用户游戏行为关联分析。
参照图6,基于模糊遗传算法的煤矿安全培训游戏关联分析法:首先通过对用户行为集合进行染色体编码,随机生成初始种群,初始化后,对种群中的个体进行模糊处理,以避免影响遗传操作的选择算子,从而降低不存在行为规则的选择概率;然后对已模糊化处理的种群个体进行选择、交叉、变异遗传操作,从而得出下一代个体;采用模糊隶属函数对行为数据与事件数据比较以及通过对支持度和置信度进行比较,评估个体的适应度,完成算法的一次迭代,在每次迭代之后,对生成的新一代个体进行统计,找出种群中的适应度值最高的个体,并与进化记录中的最优个体进行比较,如果新个体适应度值优于进化记录中的个体,则更新进化记录中的个体并将比较次数值清零,否则不需要更新进化记录中的个体,只需要将比较次数值加1;在比较次数值达到灾变阈值后,对种群进行一次灾变操作,即进行一次重新初始化操作;在达到迭代次数条件阈值或者关联规则的置信度条件之后,输出最优解,即游戏用户行为的强关联规则。
方法实施例②
本实施例与方法实施例①的区别在于,步骤(4)数据挖掘操作:将步骤(3)预处理好的数据源分别进行煤矿安全培训用户分类;其余与实施例1 基本相同;
所述煤矿安全培训用户分类分析使用模糊决策树分类法对用户进行分类。用户分类分析用于对用户进行评估分类,从而更好的为用户制定相应的培训方案。
煤矿安全培训用户分类通过采用模糊决策树分类法对用户培训数据集和分类建立一个映射,每个用户ui被分配到一个类Cj中。
参照图7,模糊决策树分类法:首先通过对从煤矿安全领域知识库选取具有已知分类结果的、能修正参数,确定模型中具体参数的训练数据集进行训练,建立决策模型;然后,通过将检验分类结果的测试数据集引入决策模型进行决策树修剪,建立煤矿安全培训用户分类决策树;然后,进行模糊化处理,转化为较为简单的用户分类数据源,将其导入煤矿安全培训用户分类决策树进行用户分类,得出用户分类结果。
方法实施例③
本实施例与实施例①的区别在于,步骤(4)数据挖掘操作:将步骤(3)预处理好的数据源分别进行煤矿安全培训用户聚类;其余与实施例1 基本相同;
所述煤矿安全培训用户聚类分析使用基于遗传算法的k均值聚类分析法对用户进行聚类,用户聚类分析用于从宏观上对培训效果进行分析,分析目前都存在一些什么样的受训者,每类受训者都有相应的哪些特点,全局的角度分析数据,发现在培训过程中出现的某学历和某年龄段的受训者在培训中对某一类操作经常出现错误。
聚类分析对数据集中各数据之间的相似度或相异度进行计算,并形成具有一定分布特点的数据簇。本发明使用基于遗传算法的k均值聚类分析算法,k均值聚类分析算法是通过采用遗传算法对数据源进行初步处理,并找到近似的聚类中心,为k均值聚类提供优良的数据源,从而提高聚类的效率和效果。
参照图8,基于遗传算法的k均值聚类分析法:首先从数据仓库中提取煤矿安全培训用户信息数据,然后根据数据的实际情况进行编码,建立初始化种群,然后对种群中的个体进行适应度计算,计算出的适应度值为进化评估的主要依据,然后进行选择、交叉和变异的遗传操作,得出下一代种群,然后对新一代个体进行适应度评估,以确定每个个体的适应度值,当算法迭代次数没有达到设定标准时,进入下一次进化过程,反之,通过遗传算法最终输出包含若干聚类中心的最优解,输出的最优解通过以该聚类中心为初始聚类中心点,进行k均值算法计算聚类中心,并输出聚类分析结果。
所述适应度计算采用基于距离的方法进行,使用经过预处理之后的聚类数据维度的欧几里得距离来表示聚类适应度。

Claims (5)

1.一种基于煤矿安全培训游戏的数据挖掘系统进行数据挖掘的方法,其特征在于,包括以下步骤:
(1)建立数据库:建立用户信息数据库和游戏信息数据库;
用户信息数据库:根据用户在注册煤矿安全培训信息化系统时登记的信息和用户在使用系统进行培训过程中数据库服务器记录的信息,建立包含用户的基本信息和培训信息及能反映用户的个人情况和培训状况的数据库;
游戏信息数据库:根据用户使用培训游戏终端计算机上的煤矿安全培训游戏软件进行游戏过程中的操作和行为信息,以及游戏的状态信息,建立包含作为用户行为信息和游戏状态信息的数据库,用户行为信息作为关联分析的信息源,游戏状态信息作为用户分类和聚类分析的信息源;
(2)采集游戏数据:根据分析条件,通过信息处理工作站上的数据挖掘采集器,从步骤(1)建立的用户信息数据库和游戏信息数据库中分别提取出指定用户或指定游戏的相关用户信息及游戏信息,数据挖掘器上的数据提取模块采用关键词搜索的技术进行提取;将提取到的数据经组合模块进行重组,同时根据数据挖掘操作的条件建立煤矿安全培训游戏的数据模型,并生成便于数据挖掘操作处理的数据单元;
所述煤矿安全培训游戏的数据模型为一个结构化的用户游戏行为事件模型,定义为一个六元组,即:GT=<Mtd,Utd,Tt,Os,Rs,Mn>,
其中:GT为结构化用户游戏行为事件,
Mtd为游戏行为事件ID,
Utd为进行培训游戏的用户ID,
Tt为游戏事件发生的时间,
Os为游戏中用户进行的操作行为,采用归一化的数据表示,
Rs为游戏中用户操作行为之后产生的响应,
Mn为该用户当前游戏事件序列中的下一个行为事件ID;
通过记录结构化用户游戏事件,将用户的游戏过程以结构化序列的方式记录保存;
(3)预处理数据:将步骤(2)采集到游戏数据进行数据清理,然后根据数据挖掘需要进行数据集成,再进行数据规范化和数据规约,最后将数据存储于数据仓库中,成为实际数据挖掘的数据源;
(4)数据挖掘操作:将步骤(3)预处理好的数据源经数据挖掘模块分别进行煤矿安全培训游戏行为关联分析、煤矿安全培训用户分类、煤矿安全培训用户聚类。
2.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,所述数据清理包括重复项删除、空缺项的清理、噪声去除;
重复项是通过数据表扫描的形式获得,并直接删除;
空缺项清理是根据具体空缺条目进行分类处理,包含补齐、删除、标记三种操作;
噪声去除是采用回归分析法对可能的干扰数据进行清理;
所述数据集成是根据数据挖掘的目标,对分别独立的用户信息数据和游戏信息数据进行合成,形成便于后续操作的数据源;
所述数据规范化是根据实际采集的数据值进行按比例缩放,调整数据到合理的范围,便于后续数据处理;
所述数据规约是根据实际采集的数据进行降维、压缩、简化,以减少数据处理复杂度。
3.根据权利要求1所述的方法,其特征在于,所述步骤(4)中,所述煤矿安全培训游戏行为关联分析为对用户进行的煤矿安全培训游戏的游戏操作进行记录,形成煤矿安全培训游戏用户事件集合,然后通过使用基于模糊遗传算法的关联规则挖掘方法;
所述基于模糊遗传算法的关联规则挖掘方法,首先通过对用户事件集合进行染色体编码,随机生成初始种群;初始化后,对种群中的个体进行模糊处理,以避免影响遗传操作的选择算子,降低不存在行为规则的选择概率;然后,对已模糊化处理的种群个体进行选择、交叉、变异遗传操作,从而得出下一代个体;采用模糊隶属函数对行为数据与事件数据比较以及通过对支持度和置信度进行比较,评估个体的适应度,完成算法的一次迭代;在每次迭代之后,对生成的新一代个体进行统计,找出种群中的适应度值最高的个体,并与进化记录中的最优个体进行比较,如果新个体适应度值优于进化记录中的个体,则更新进化记录中的个体并将比较次数值清零,否则,只需要将比较次数值加1;在比较次数值达到灾变阈值后,对种群进行一次灾变操作,即进行一次重新初始化操作;在达到迭代次数条件阈值或者关联规则的置信度条件之后,输出最优解。
4.根据权利要求1所述的方法,其特征在于,所述煤矿安全培训用户分类分析是通过使用模糊决策树分类法对用户进行分类,用于对用户进行评估分类分析;
所述模糊决策树分类法:首先通过对从煤矿安全领域知识库选取具有已知分类结果的、修正参数,确定模型中具体参数的训练数据集进行训练,建立决策模型;然后,通过将检验分类结果的测试数据集引入决策模型进行决策树修剪,建立煤矿安全培训用户分类决策树;然后,进行模糊化处理,转化为较为简单的用户分类数据源,将其导入煤矿安全培训用户分类决策树进行用户分类,得出用户分类结果。
5.根据权利要求1所述的方法,其特征在于,所述煤矿安全培训用户聚类是使用基于遗传算法的k均值聚类分析法,对数据集中各数据之间的相似度或相异度进行计算,并形成具有分布特点的数据簇;
所述基于遗传算法的k均值聚类分析法,首先,从数据库中提取煤矿安全培训用户信息数据;然后,根据数据的实际情况进行编码,建立初始化种群,然后对种群中的个体进行适应度计算,计算出的适应度值为进化评估的主要依据;然后,进行选择、交叉和变异的遗传操作,得出下一代种群;然后,对新一代个体进行适应度评估,以确定每个个体的适应度值;当算法迭代次数没有达到或者适应度值未达到设定标准时,进入下一次进化过程,反之,通过遗传算法输出包含若干聚类中心的最优解,输出的最优解通过以该聚类中心为初始聚类中心点,进行k均值算法计算聚类中心,并输出聚类分析结果;
所述适应度计算采用基于距离的方法进行,使用经过预处理之后的聚类数据维度的欧几里得距离来表示聚类适应度。
CN201310167938.8A 2013-05-09 2013-05-09 一种基于煤矿安全培训游戏的数据挖掘系统及方法 Expired - Fee Related CN103268406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310167938.8A CN103268406B (zh) 2013-05-09 2013-05-09 一种基于煤矿安全培训游戏的数据挖掘系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310167938.8A CN103268406B (zh) 2013-05-09 2013-05-09 一种基于煤矿安全培训游戏的数据挖掘系统及方法

Publications (2)

Publication Number Publication Date
CN103268406A CN103268406A (zh) 2013-08-28
CN103268406B true CN103268406B (zh) 2018-02-09

Family

ID=49012034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310167938.8A Expired - Fee Related CN103268406B (zh) 2013-05-09 2013-05-09 一种基于煤矿安全培训游戏的数据挖掘系统及方法

Country Status (1)

Country Link
CN (1) CN103268406B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637371B (zh) * 2015-03-06 2017-06-30 中国农业大学 一种将知识本体嵌入到游戏模型中的方法
CN104881711B (zh) * 2015-05-18 2018-08-07 中国矿业大学 基于矿工行为分析的井下预警机制方法
CN107463620A (zh) * 2017-07-05 2017-12-12 洛川闰土农牧科技有限责任公司 一种基于数据挖掘的电梯事故预警预报系统
CN110580490A (zh) * 2018-06-11 2019-12-17 杭州海康威视数字技术股份有限公司 一种确定人员行为概率的方法、装置及设备
CN109409759B (zh) * 2018-11-06 2022-02-08 河南理工大学 一种基于煤矿安全培训游戏的数据挖掘系统及方法
CN110163511A (zh) * 2019-05-24 2019-08-23 重庆大学 一种基于关联规则挖掘和模糊决策的制造质量控制方法
CN110147406A (zh) * 2019-05-29 2019-08-20 深圳市城市屋超科技有限公司 一种面向云计算的可视化数据挖掘系统及其架构方法
CN113253976B (zh) * 2021-06-16 2021-12-03 武汉卧友网络科技有限公司 一种基于游戏记录分析的研发模块构建方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202433904U (zh) * 2011-12-02 2012-09-12 北京市电力公司 远程培训信息的处理系统
CN103106340A (zh) * 2013-01-21 2013-05-15 天津大学 基于数据挖掘和数据融合的游戏关卡自动生成系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296656A (ja) * 2002-04-03 2003-10-17 Toshiba Corp インターネットWebサーバを用いたデータマイニング支援システム、そのサーバシステム、及び支援方法
CN102096754A (zh) * 2009-12-14 2011-06-15 西软软件股份有限公司 一种煤矿从业人员安全培训监察系统
CN103035148A (zh) * 2012-12-13 2013-04-10 肥城矿业集团梁宝寺能源有限责任公司 煤矿体验式综合教育培训系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202433904U (zh) * 2011-12-02 2012-09-12 北京市电力公司 远程培训信息的处理系统
CN103106340A (zh) * 2013-01-21 2013-05-15 天津大学 基于数据挖掘和数据融合的游戏关卡自动生成系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
煤矿安全培训过程的计算机仿真研究;李隆等;《中国煤炭地质》;20110720;第23卷(第7期);第36页左栏第1行-第39页右栏第6节第7行及图1-8 *

Also Published As

Publication number Publication date
CN103268406A (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
CN103268406B (zh) 一种基于煤矿安全培训游戏的数据挖掘系统及方法
CN104063472B (zh) 一种优化训练样本集的knn文本分类方法
CN103530540B (zh) 基于人机交互行为特征的用户身份属性检测方法
CN105306475B (zh) 一种基于关联规则分类的网络入侵检测方法
CN107158707A (zh) 一种针对MMORPGs游戏的异常检测方法及装置
CN107992746A (zh) 恶意行为挖掘方法及装置
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN103778262B (zh) 基于叙词表的信息检索方法及装置
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及系统
CN109409647A (zh) 一种基于随机森林算法的薪资水平影响因素的分析方法
CN105262715B (zh) 一种基于模糊时序关联模式的异常用户检测方法
CN104281525B (zh) 一种缺陷数据分析方法及利用其缩减软件测试项目的方法
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN113505826B (zh) 基于联合特征选择的网络流量异常检测方法
CN110110663A (zh) 一种基于人脸属性的年龄识别方法及系统
CN104809393A (zh) 一种基于流行度分类特征的托攻击检测算法
CN103136540A (zh) 一种基于隐结构推理的行为识别方法
CN107465691A (zh) 基于路由器日志分析的网络攻击检测系统及检测方法
CN112148997A (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
Lambert et al. Impact of model choice in predicting urban forest storm damage when data is uncertain
CA2889913A1 (en) System, method and computer program product for multivariate statistical validation of well treatment and stimulation data
CN104318306B (zh) 基于非负矩阵分解和进化算法优化参数的自适应交叠社区检测方法
CN110069773A (zh) 一种安全隐患智能识别方法、装置以及存储介质
CN111612531B (zh) 一种点击欺诈的检测方法及系统
Bogucki et al. Early warning system for seismic events in coal mines using machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180209

Termination date: 20180509