CN111613331A

CN111613331A - 一种基于随机森林和word2vec的矿工营养代谢评估方法及系统

Info

Publication number: CN111613331A
Application number: CN202010437480.3A
Authority: CN
Inventors: 周孟然; 马祖长; 胡锋; 陈炎炎; 卞凯; 闫鹏程
Original assignee: Hefei Broshare Electronic Technology Co ltd; Anhui University of Science and Technology
Current assignee: Hefei Broshare Electronic Technology Co ltd; Anhui University of Science and Technology
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01
Also published as: ZA202004488B

Abstract

本发明公开了一种基于随机森林和word2vec的矿工营养代谢评估方法及系统，涉及营养代谢评估技术领域，在分析矿工营养代谢的时候综合考虑了矿工个体差异，同时利用word2vec准备提取词向量，在借助RF回归分析方法提升矿工代谢评估的准确性和可靠性，准确可靠的评估代谢情况有助于准确、及时地掌握矿工的身体健康状态。针对矿工这一特殊群体进行营养代谢检测的评估，实现矿工身体健康状态的准确、实时测量分析，完成部分职业病的前期预警及保障矿工的生命健康。

Description

一种基于随机森林和word2vec的矿工营养代谢评估方法及系统

技术领域

本发明涉及营养代谢评估技术领域，特别涉及一种基于随机森林和word2vec的矿工营养代谢评估方法及系统。

背景技术

随着煤矿开采深度的不断增加，井下的作业环境条件亦在逐步恶化。作业场所粉尘污染严重、环境恶劣，矿工患职业病危的可能性大幅提升，为了实现对矿工身体状态的检测评估，以实现职业病的早期判断，提高职业病的早期发现率，加深人们对健康的认识程度，减少职业病及经济上给矿工带来的严重负担。

三大营养物质是指糖类、脂肪、蛋白质这三种人和动物体必须的营养物质。这三类物质都可以在食物中获取，它们在生命中的基础作用是维持正常生命功能的保证，同时三大营养物质的代谢情况直接关系到人体的健康状态。因此，定期检测矿工的营养代谢情况，可以有效掌握其身体健康状态，当出现职业病的前期征兆时也能通过检测代谢来实现职业病早期预警。

现阶段人体营养代谢的检测大多是根据间接测热法原理来研制的，但是针对矿工的营养代谢检测，尚无专业、针对性强且高效、准确的检测装置及其评估方法。因此，本申请提供了一种基于随机森林和word2vec的矿工营养代谢评估方法及系统，针对矿工这一特殊群体进行营养代谢检测的评估，实现矿工身体健康状态的准确、实时测量分析，完成部分职业病的前期预警及保障矿工的生命健康。

发明内容

本发明的目的在于提供一种基于随机森林和word2vec的矿工营养代谢评估方法及系统，针对矿工这一特殊群体进行营养代谢检测的评估，实现矿工身体健康状态的准确、实时测量分析，完成部分职业病的前期预警及保障矿工的生命健康。

本发明提供了一种基于随机森林和word2vec的矿工营养代谢评估方法，包括以下步骤：

S1：搭建矿工营养代谢分析系统；

S2：采集矿工代谢数据：利用矿工营养代谢分析系统采集若干个矿工的吸入气体数据A、呼出气体数据B、个人信息数据C以及代谢的量化表示Output；

S3：矿工个人信息的数字化：采用word2vec算法对个人信息数据C进行词向量转化处理，将原始个人文本信息转化为词向量D；

S4：特征融合：将矿工的吸入气体数据A、呼出气体数据B以及每个矿工个体个人信息的词向量表达D组合，形成矿工代谢数据Input；

S5：样本集划分：将特征融合后的矿工代谢数据样本按一定的比例随机划分成训练集和预测集；

S6：建立矿工营养代谢的评估模型：将训练集的数据输入到随机森林模型中进行训练，将预测集用于矿工营养代谢预测效果的验证，实现矿工营养代谢的评估。

较佳地，所述步骤S1中，矿工营养代谢分析系统包括矿工吸入气体采集模块、矿工呼出气体检测模块、矿工个人信息输入模块以及上位机。

较佳地，所述步骤S2中，所述吸入气体数据A包括氧气含量A₁、二氧化碳含量A₂以及吸入气体质量A₃；所述呼出气体数据B包括氧气含量B₁、二氧化碳含量B₂以及呼出气体质量B₃；所述个人信息数据C包括姓名、性别、年龄、工作地点以及既往病史，所述代谢的量化表示Output为0-100内的数值。

较佳地，所述步骤S3中转化步骤如下：

S31：定义Skip-gram模型在已知给定词w_t的前提下预测该词的上下文w_ct，则上下文w_ct可以表示为：

w_ct＝w_t-c,…,w_t-1,w_t+1,…,w_t+c (1)

其中，c是给定词w_t的前后词语数目；

S32：定义Skip-gram模型的优化目标函数为公式(2)的对数似然函数：

其中C表示的是包含所有词语的语料库，k表示的是当前词w_t的窗口大小，即当前词的前后各取k个词语；

S33：结合Hierachical Softmax算法和负采样对式中条件概率p(w_t+c|w_t)进行优化，得到：

其中，v_w和v′_w分别表示的是词w的输入输出词向量，W表示的是词典大小。

较佳地，所述步骤S4中，将所述矿工的吸入气体数据A中的氧气含量A₁、二氧化碳含量A₂以及重量A₃和所述呼出气体数据B中的氧气含量B₁、二氧化碳含量B₂以及重量B₃以及每个矿工个体个人信息的词向量表达D依次连接，形成矿工代谢数据Input。

较佳地，所述步骤S5中，按照4：1的比例将特征融合后的N个矿工代谢数据随机划分成训练集和预测集。

较佳地，所述的步骤S6中，将训练集的数据输入到RF模型中进行训练，将预测集用于矿工营养代谢预测效果的检验，其具体步骤如下：

S61：应用bootstrap从N个原始样本中有放回地抽取；

S62：在每棵树的每个节点处，从所有的p个解释变量中随机抽取k个分割变量(k<p)，在其中根据分枝优度准则选取最优分枝；

S63：每棵回归树开始自顶向下的递归分枝，直到满足分割终止条件；

S64：通过上述步骤得到随机森林回归模型的核心参数，实现了RF的训练过程，根据预测集的预测结果实现对矿工的营养代谢进行评估。

较佳地，一种基于随机森林和word2vec的矿工营养代谢评估方法的评估系统，其特征在于，包括：

矿工吸入气体采集模块：用于采集矿工的吸入气体数据A；

矿工呼出气体检测模块：用于采集矿工的呼出气体数据B；

矿工个人信息输入模块：用于输入矿工的个人信息数据C；

上位机：将特征融合后的矿工代谢数据样本按一定的比例随机划分成训练集和预测集；将训练集的数据输入到随机森林模型中进行训练，将预测集用于矿工营养代谢预测效果的验证。

与现有技术相比，本发明具有如下显著优点：

本申请提供了一种基于随机森林和word2vec的矿工营养代谢评估方法及系统，在分析矿工营养代谢的时候综合考虑了矿工个体差异，同时利用word2vec准备提取词向量，在借助RF回归分析方法提升矿工代谢评估的准确性和可靠性，准确可靠的评估代谢情况有助于准确、及时地掌握矿工的身体健康状态。针对矿工这一特殊群体进行营养代谢检测的评估，实现矿工身体健康状态的准确、实时测量分析，完成部分职业病的前期预警及保障矿工的生命健康。

附图说明

图1为本发明提供的营养代谢评估方法的流程图；

图2为本发明提供的用于矿工个人信息词向量化的流程图；

图3为本发明提供的用于RF模型训练的流程图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

为了便于理解和说明，如附图1-3所示，本发明提供了一种基于随机森林和word2vec的矿工营养代谢评估方法，包括以下步骤：

S1：搭建矿工营养代谢分析系统；

本发明研发了一种基于随机森林和word2vec的矿工营养代谢评估方法及系统，将word2vec算法与RF算法相结合用于矿工营养代谢数据的处理与预测评估；采用word2vec将矿工个人信息进行向量化，利用按比例随机划分的训练集建立RF代谢评估预测模型，预测集检验评估效果，最后实现对矿工营养代谢的评估。

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method"以建造决策树的集合。

根据下列算法而建造每棵树：

1、用N来表示训练用例(样本)的个数，M表示特征数目。

2、输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。

3、从N个训练用例(样本)中以有放回抽样的方式，取样N次，形成一个训练集(即bootstrap取样)，并用未抽到的用例(样本)作预测，评估其误差。

4、对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的分裂方式。

5、每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用)。

随机森林的优点有：

1)对于很多种资料，它可以产生高准确度的分类器；

2)它可以处理大量的输入变数；

3)它可以在决定类别时，评估变数的重要性；

4)在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计；

5)它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度；

6)它提供一个实验方法，可以去侦测variable interactions；

7)对于不平衡的分类资料集来说，它可以平衡误差；

8)它计算各例中的亲近度，对于数据挖掘、侦测离群点(outlier)和将资料视觉化非常有用；

9)使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料；

10)学习过程是很快速的。

Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

随着计算机应用领域的不断扩大，自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言，首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型。有许多统计语言建模技术，包括n－gram、神经网络以及log_linear模型等。在对自然语言进行建模的过程中，会出现维数灾难、词语相似性、模型泛化能力以及模型性能等问题。寻找上述问题的解决方案是推动统计语言模型不断发展的内在动力。在对统计语言模型进行研究的背景下，Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库，通过优化后的训练模型快速有效地将一个词语表达成向量形式，为自然语言处理领域的应用研究提供了新的工具。Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word。

Skip-Gram模型的基础形式非常简单，为了更清楚地解释模型，我们先从最一般的基础模型来看Word2Vec(下文中所有的Word2Vec都是指Skip-Gram模型)。

Word2Vec模型实际上分为了两个部分，第一部分为建立模型，第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器(auto-encoder)的思想很相似，即先基于训练数据构建一个神经网络，当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。基于训练数据建模的过程，我们给它一个名字叫“Fake Task”，意味着建模并不是我们最终的目的。

实施例1

所述步骤S1中，矿工营养代谢分析系统包括矿工吸入气体采集模块、矿工呼出气体检测模块、矿工个人信息输入模块以及上位机，将所述矿工吸入气体采集模块、矿工呼出气体检测模块、矿工个人信息输入模块获取到的信息输入所述上位机中进行代谢分析的处理。

实施例2

所述步骤S2中，所述吸入气体数据A包括氧气含量A₁、二氧化碳含量A₂以及吸入气体质量A₃；所述呼出气体数据B包括氧气含量B₁、二氧化碳含量B₂以及呼出气体质量B₃；所述个人信息数据C包括姓名、性别、年龄、工作地点以及既往病史，所述代谢的量化表示Output为0-100内的数值。

实施例3

所述步骤S3中转化步骤如下：

w_ct＝w_t-c,…,w_t-1,w_t+1,…,w_t+c (1)

其中，c是给定词w_t的前后词语数目；

实施例4

所述步骤S4中，将所述矿工的吸入气体数据A中的氧气含量A₁、二氧化碳含量A₂以及重量A₃和所述呼出气体数据B中的氧气含量B₁、二氧化碳含量B₂以及重量B₃以及每个矿工个体个人信息的词向量表达D依次连接，形成矿工代谢数据Input。

实施例5

所述步骤S5中，按照4：1的比例将特征融合后的N个矿工代谢数据随机划分成训练集和预测集。

实施例6

所述的步骤S6中，将训练集的数据输入到随机森林(Random Forest，RF)模型中进行训练，将预测集用于矿工营养代谢预测效果的检验，其具体步骤如下：

S61：应用bootstrap从N个原始样本中有放回地抽取；

实施例7

一种基于随机森林和word2vec的矿工营养代谢评估方法的评估系统，其特征在于，包括：

矿工吸入气体采集模块：用于采集矿工的吸入气体数据A；

矿工呼出气体检测模块：用于采集矿工的呼出气体数据B；

矿工个人信息输入模块：用于输入矿工的个人信息数据C；

Claims

1.一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，包括以下步骤：

S1：搭建矿工营养代谢分析系统；

2.如权利要求1所述的一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，所述步骤S1中，矿工营养代谢分析系统包括矿工吸入气体采集模块、矿工呼出气体检测模块、矿工个人信息输入模块以及上位机。

3.如权利要求1所述的一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，所述步骤S2中，所述吸入气体数据A包括氧气含量A₁、二氧化碳含量A₂以及吸入气体质量A₃；所述呼出气体数据B包括氧气含量B₁、二氧化碳含量B₂以及呼出气体质量B₃；所述个人信息数据C包括姓名、性别、年龄、工作地点以及既往病史，所述代谢的量化表示Output为0-100内的数值。

4.如权利要求1所述的一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，所述步骤S3中转化步骤如下：

w_ct＝w_t-c,…,w_t-1,w_t+1,…,w_t+c (1)

其中，c是给定词w_t的前后词语数目；

5.如权利要求1或3所述的一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，所述步骤S4中，将所述矿工的吸入气体数据A中的氧气含量A₁、二氧化碳含量A₂以及重量A₃和所述呼出气体数据B中的氧气含量B₁、二氧化碳含量B₂以及重量B₃以及每个矿工个体个人信息的词向量表达D依次连接，形成矿工代谢数据Input。

6.如权利要求1所述的一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，所述步骤S5中，按照4：1的比例将特征融合后的N个矿工代谢数据随机划分成训练集和预测集。

7.如权利要求1所述的一种基于随机森林和word2vec的矿工营养代谢评估方法，其特征在于，所述的步骤S6中，将训练集的数据输入到RF模型中进行训练，将预测集用于矿工营养代谢预测效果的检验，其具体步骤如下：

S61：应用bootstrap从N个原始样本中有放回地抽取；

8.应用权利要求1所述的一种基于随机森林和word2vec的矿工营养代谢评估方法的评估系统，其特征在于，包括：

矿工吸入气体采集模块：用于采集矿工的吸入气体数据A；

矿工呼出气体检测模块：用于采集矿工的呼出气体数据B；

矿工个人信息输入模块：用于输入矿工的个人信息数据C；