CN111783428A

CN111783428A - 基于深度学习的应急管理类客观题自动生成系统

Info

Publication number: CN111783428A
Application number: CN202010643357.7A
Authority: CN
Inventors: 朱安安; 邱彦林; 陈尚武
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-16
Anticipated expiration: 2040-07-07
Also published as: CN111783428B

Abstract

本发明涉及计算机领域，尤其涉及基于深度学习的应急管理类客观题自动生成系统，包括得到待分析原始数据的应急管理类文章采集模块；针对待分析原始数据中文章标题进行标题类型的二分类与标题所述灾害类型分类的文章标题分类模块；根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块；针对文章标题分类模块中二分类为非科普类的文章，建立基于BERT预训练语言模型的序列标注模型的正确候选答案生成模块；将正确候选答案生成模块中的题目取出的错误候选答案生成模块。本发明基于应急管理类文章采集模块、文章标题分类模块、文本内容重要度排序模块、正确候选答案生成模块、错误候选答案生成模块自动生成应急考核客观题。

Description

基于深度学习的应急管理类客观题自动生成系统

技术领域

本发明涉及计算机领域，尤其涉及一种基于深度学习的应急管理类客观题自动生成系统。

背景技术

在应急安全领域中，各类突发事件的定义、处置方式以及各个行业人员如何在工作中巧妙的避免一些灾害事故的发生都格外重要。而对于从业人员特别是初入行业的相关人员来说，通过考核相关应急科普知识的方式来检测自己所掌握的知识和技能变成为了一种方便且直观的提升方法，这往往离不开考题。而通过人工来产生考题会导致在考题生成的过程中需要大量的时间梳理考题素材，并整理成题，造成了大量了人力物力的成本。

另外，随着计算机技术与人工智能的蓬勃发展，自然语言处理领域中问答系统也得到了较大的发展，现有的问答任务往往是指根据一段给定的文本，一个与文本相关的答案，两者结合来生成相关问题。但问答系统研究中仍然存在两个问题：

1.鲜有自动生成客观题的自动问答系统；

2.在自动生成客观题过程中国，如何产生与正确候选答案相关联的错误候选答案，错误候选答案与正确答案的关联性直接影响到了题目的可靠性。

发明内容

为解决上述问题，本发明提出一种基于深度学习的应急管理类客观题自动生成系统，从而提高题目的有效性。

基于深度学习的应急管理类客观题自动生成系统，包括：

基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据的应急管理类文章采集模块；

针对待分析原始数据中文章标题进行标题类型的二分类与标题所述灾害类型分类的文章标题分类模块；

根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块；

针对文章标题分类模块中二分类为非科普类的文章，建立基于BERT预训练语言模型的序列标注模型的正确候选答案生成模块；

将所有待分析原始数据集通过正确候选答案生成模块处理后，得到包含分类信息、实体类型的客观题与其所对应的答案，依次将正确候选答案生成模块中的题目取出的错误候选答案生成模块。

优选的，所述针对待分析原始数据中文章标题进行标题类型的二分类与标题所述灾害类型分类包括：

对数据库中已有的全部文本、应急类以及事故灾害相关新闻进行人工标注分类类别；

采用BERT预训练语言模型，结合两个Softmax分类模型进行fine-tuning处理。

优选的，所述采用BERT预训练语言模型，结合两个Softmax分类模型进行 fine-tuning处理包括：

将标题文本序列传入BERT预训练语言模型；

编码好的向量序列再分别接入两个Softmax分类模型分别进行标题类型二分类和灾害类型多分类；

采用交叉熵作为损失函数，两个分类损失相加作为模型最终的代价loss，以代价loss最小为目标训练模型，以得到fine-tuning处理后的BERT预训练语言模型和两个Softmax分类模型。

优选的，所述根据文章标题分类模块所得到的分类结果对文本进行处理包括：

将输入的文本的内容分割成句子T＝[S₁,S₂,...,S_n]，构建图G＝(V,E)，其中V为句子集，对句子进行分词，去掉停用词，得到S_i＝[t_i,1,t_i,2,...,t_i,n]，其中，t_i,j∈S_j，是保留的候选关键词；

构建图G中的边集E，基于句子间的内容覆盖率，给定两个句子S_i,S_j计算相似度

根据迭代传播权重计算各个句子的得分，将句子得分进行倒序排列，抽取重要度最高的T个句子作为候选摘要句子。

优选的，所述给定两个句子S_i,S_j计算相似度包括：

优选的，若文章标题分类模块的二分类结果为科普类的文章，按照段落提取关键句，则每个段落提取时T值取1；对文章标题分类模块的二分类结果为非科普类的文章，则用整篇文章进行分析，T值取5。

优选的，所述针对文章标题分类模块中二分类为非科普类的文章，建立基于 BERT预训练语言模型的序列标注模型的正确候选答案包括：

将每一句话按字进行拆分，按照策略给予每个字一个标签，将训练集的字序列与对应的标签作为BERT模型的输入，通过BERT模型编码后再传入 Bi_LSTM-CRF模型进行训练。

优选的，在预测阶段，将文本内容重要度排序模块中生成的关键句依次输入训练好的序列标注模型进行序列标注处理，当句子中标注出实体时，则将该句作为一个单项选择题，掩盖该实体作为题目的正确候选答案，当句子中出现n(n>1) 个实体时，可将该句话重复n遍，生成n个不同的单选题，每个单选题对应一个实体作为正确候选答案。将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。

优选的，基于文章标题分类模块中二分类为科普类的文章，文章标题即作为不定项选择题的题目，每次设置一个范围在[1,4]的整型随机数r，提取排名前r 的关键句作为该题的正确候选答案，将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。

优选的，所述将所有待分析原始数据集通过正确候选答案生成模块处理后，得到包含分类信息、实体类型的客观题与其所对应的答案，依次将正确候选答案生成模块中的题目取出包括：

若该题目为不定项选择，在不定项选择题库的答案集中取出与该题目正确候选答案灾难类别一致且实体类型重合数最高的答案列表，与正确答案进行文本相似度匹配，选择相似度排名前4-r个候选答案作为错误候选答案；若答案集中无灾难类别一致的候选答案，但存在实体类型一致的答案，则在同样实体类型的实体中随机选取实体替换原正确候选答案中的实体，生成错误候选答案；若答案集中无灾难类别一致且正确答案中无实体，则将答案集中的答案与正确候选答案做文本相似度对比，选取文本相似度最高的4-r个答案作为错误候选答案；

若正确候选答案生成模块中取出的为单项选择题，则根据该题目的灾难类型与正确候选答案的实体类型，在相同灾难类型与实体类型的答案集中随机选择字符长度与原正确候选答案最为接近的3个答案成为该题目的错误候选答案，若答案集中符合要求的错误候选答案数量不足，则采用NLTK生成该答案的反义词作为错误候选答案的补充。

本发明具备以下有益效果：

1.基于应急管理类文章采集模块、文章标题分类模块、文本内容重要度排序模块、正确候选答案生成模块、错误候选答案生成模块自动生成应急考核客观题；

2.在自动生成客观题题目与正确候选答案的同时，生成与题目相关联的候选错误答案，从而提高题目的有效性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明一实施例基于深度学习的应急管理类客观题自动生成系统的结构示意图；

图2是本发明一实施例基于深度学习的应急管理类客观题自动生成系统流程示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1所示为本发明实施例一种基于深度学习的应急管理类客观题自动生成系统的结构示意图。为了使本发明所要解决的技术问题及效果更加清晰，结合实施例和附图，对本发明进行进一步详细说明。需注意，此处所描述的实施例仅用以解释本发明，但不用于限定本发明。

如图1所示，本发明实施例一种基于深度学习的应急管理类客观题自动生成系统，包括基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据的应急管理类文章采集模块；针对待分析原始数据中文章标题进行标题类型的二分类与标题所述灾害类型分类的文章标题分类模块；根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块；针对文章标题分类模块中二分类为非科普类的文章，建立基于BERT 预训练语言模型的序列标注模型的正确候选答案生成模块；将所有待分析原始数据集通过正确候选答案生成模块处理后，得到包含分类信息、实体类型的客观题与其所对应的答案，依次将正确候选答案生成模块中的题目取出的错误候选答案生成模块。

应急管理类文章采集模块，基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据。待分析原始数据包括但不限于各类突发事件的相关预案、各类事故、自然灾害的科普类文章、法律法规、政策标准、处置方法等，获取的文献入库待下一步处理。

文章标题分类模块，针对文章标题进行标题类型的二分类与标题所述灾害类型分类。标题类型分类指文章标题是否为科普类、解释类等在客观题中往往以多项或不定项选择题出现的文章，如：“交通事故救援处理方法”、“洪水来了该准备什么”等文章标题，该类文章后续可作为生成不定项或多项选择题的候选文本；所述灾害类型分类指根据“中华人民共和国应急管理部”应急指南的子分类所制定的分类类别，类别包括：“家庭安全”、“社区安全”、“公共场所安全”、“自救互救常识”、“气象灾害”、“海洋灾害”、“洪涝灾害”、“地质灾害”、“地震灾害”、“森林灾害”、“矿山灾难”、“危险品灾难”、“交通事故”、“建筑施工事故”、“火灾”、“其他”等共十六个分类。文本标题分类采用两个分类结合训练的方法，包括以下步骤：

步骤1，对数据库中已有的全部文本、应急类以及事故灾害相关新闻进行人工标注分类类别；

步骤2：采用BERT预训练语言模型，结合两个Softmax分类模型进行fine- tuning处理。

步骤2的具体过程是：将标题文本序列传入BERT语言模型，编码好的向量序列再分别接入两个Softmax分类模型分别进行标题类型二分类和灾害类型多分类，采用交叉熵作为损失函数，两个分类损失相加作为模型最终的代价(loss)，以 loss最小为目标训练模型，以得到fine-tuning处理后的BERT分类模型和两个文本分类器。

其中，BERT语言为谷歌的一种预训练的深度双向Transformer语言模型。本发明在文本分类训练阶段分别尝试采用BERT模型Transformer最后一层[CLS] 位置向量、最后一层平均向量以及倒数第二层平均向量作为输入的句向量输入S oftmax分类，最终测试结果表明，采用最后一层平均向量作为句向量的分类效果表现最佳。

Softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。Softmax函数定义如公式(2-1)所示：

其中，V_i是分类器类别的输出，i表示类别索引，总的类别个数为C；S_i表示当前元素的指数与所有元素指数和的比值，Softmax将多分类的输出数值转化为相对概率，在实际应用中，选择概率值最高的类别即为分类的结果。

在分类中，本发明采用交叉熵作为损失函数，每个分类损失函数公式如公式 (2-2)所示。将两个分类的损失函数相加即为整个模型的损失。

其中，t_i表示真实值，y_i表示求出的Softmax值。当预测第i个时，可以认为t_i＝1。

文本内容重要度排序模块(3)：根据科普类文章标题分类模块(2)所得到的分类结果对文本进行处理。对于二分类结果为科普类即可以生成不定项选择题的文章，对文章的文本内容，采用TextRank提取摘要的方式提取每个段落的一个关键句，将关键句按照段落的顺序排列，组成新的文本内容，为下一步产生正确候选答案生成做准备。对二分类结果为非科普类的文章，采用TextRank对整片文章提取摘要的方式，选取排名前top5作为文章关键句，从这些句子中依次生成考题。

TextRank是在PageRank的基础上，为图中的边引入权重的概念，通过选取文本中重要度较高的句子形成文摘，TextRank一般模型可以表示为一个有向有权图G＝(V,E)，由点集合V和边集合E组成，E是V*V的子集。点V_i的得分定义如下：

其中，d为阻尼系数，即按照链接进行跳转的概率，一般取经验值为0.85；ω_ji表示两个节点之间的边连接具有不同的重要程度。

文本内容重要度排序模块的主要步骤如下：

预处理：将输入的文本的内容分割成句子T＝[S₁,S₂,...,S_n]，构建图G＝(V,E)，其中V为句子集，对句子进行分词，去掉停用词，得到S_i＝[t_i,1,t_i,2,...,t_i,n]，其中，t_i,j∈S_j，是保留的候选关键词。

句子相似度计算：构建图G中的边集E，基于句子间的内容覆盖率，给定两个句子S_i,S_j，采用公式(3-2)进行计算：

若两个句子之间的相似度大于给定阈值，就认为这两个句子语义相关并将它们连接起来，相似度即为边的权值；

句子权重计算与摘要抽取：根据公式(3-1)迭代传播权重计算各个句子的得分，将句子得分进行倒序排列，抽取重要度最高的T个句子作为候选摘要句子 (T为自己定义)。

本发明中针对文章标题分类模块中二分类结果为科普类的文章，按照段落提取关键句，则每个段落提取时T＝1；对二分类结果为非科普类的文章，则用整篇文章进行分析，T值取5。

正确候选答案生成模块，针对文章标题分类模块中二分类为非科普类的文章，建立基于BERT预训练语言模型的序列标注模型。在训练阶段，对每句话进行实体识别，需进行识别的实体主要包含以下类型：数量名词(M)、时间(T)、人名(PER)、地名(LOC)、组织机构名(ORG)、其他专有名词(PN)等6类实体。具体的训练方法如下：将每一句话按字进行拆分，按照BIO的策略给予每个字一个标签，将训练集的字序列与对应的标签作为BERT的输入，通过BERT编码后再传入 Bi_LSTM-CRF模型进行训练。所述BIO策略即对于非实体则全部标注为“O”，实体则按照具体的实体类型，将该实体的开头标注为B__实体名称,实体的其他字标注为I__实体名称。如关键句：“受到洪水威胁，如果时间充裕，应按照预定路线，有组织地向山坡、高地等处转移”,将该句话按字拆分(包括所有标点符号等字符)，经过标注后每个字所对应的序列标签为：

“O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B_LOC,I_LOC,O,B_LOC,I_LOC,O,O,O,O”。在预测阶段，将文本内容重要度排序模块中生成的关键句依次输入训练好的序列标注模型进行序列标注处理，当句子中标注出实体时，则将该句作为一个单项选择题，掩盖该实体作为题目的正确候选答案。当句子中出现n(n>1)个实体时，可将该句话重复n遍，生成n个不同的单选题，每个单选题对应一个实体作为正确候选答案。将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。

针对文章标题分类模块中二分类为科普类的文章，文章标题即作为不定项选择题的题目。对文本内容重要度排序模块中提取出的关键句序列再进行一轮关键句提取，可得到根据公式(3-1)可得到每个句子的重要度得分，再将每个句子输入序列标注模型，得到实体序列标注结果，包含实体越多的句子给予越高的重要度权重倾斜，实体权重得分和句子重要度得分之和即作为每个句子最终的重要度分数。每次设置一个范围在[1,4]的整型随机数r，提取排名前r的关键句作为该题的正确候选答案(即在TextRank模型中，T＝r)，将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。

错误候选答案生成模块：将所有数据集做正确候选答案生成模块处理后，可得到包含分类信息、实体类型的客观题与其所对应的答案。依次将正确候选答案生成模块中的题目取出。

若该题目为不定项选择，在不定项选择题库的答案集中取出与该题目正确候选答案灾难类别一致且实体类型重合数最高的答案列表，与正确答案进行文本相似度匹配，选择相似度排名前4-r个候选答案作为错误候选答案；若答案集中无灾难类别一致的候选答案，但存在实体类型一致的答案，则在同样实体类型的实体中随机选取实体替换原正确候选答案中的实体，生成错误候选答案；若答案集中无灾难类别一致且正确答案中无实体，则将答案集中的答案与正确候选答案做文本相似度对比，选取文本相似度最高的4-r个答案作为错误候选答案。

图2为本发明实施例一种基于深度学习的应急管理类客观题自动生成系统的流程图。如图2所示，首先获取应急管理类文章，并进行灾害类型分类，判断是否为科普类文章分类，若是，则依次进行知识库新闻类问题进行语义相似度匹配，对文本每个段落均提取一句关键句并按照段落顺序排序，对处理后的文本再进行句子重要度排序，随机取排名前r(r＜5)的句子作为多选题的正确候选答案，该文本的文本标题作为不定项选择题题目，将每一个正确候选答案进行实体识别，最后根据灾害类型和实体类型在所对应的答案数据集中随机选择正确答案意外相似度较高的答案作为错误候选答案，错误候选答案与正确候选答案之后应为4；若不是科普类文章分类，则依次进行综合管廊专业领域问题，提取整篇文章局排名top5的句子，对句子依次进行实体识别，识别出包含实体则该句话可以作为一个客观题，实体作为正确候选答案，最后最后根据灾害类型和实体类型在所对应的答案数据集中随机选择正确答案意外相似度较高的答案作为错误候选答案，错误候选答案与正确候选答案之后应为4。

本发明提供了一种针对应急管理行业自动生成考核客观题的方法，根据应急管理的相关学习资料、文档、科普信息等文本资料，通过一系列的文本分析，如文本分类、摘要提取、实体识别等，将文本中较为重要的信息生成为考核的客观题目，并自动产生相关联的错误候选答案，解决了应急管理行业自动生成客观考核题空白，以及自动问答中错误候选答案与题目关联性较弱的问题。便于应急管理行业从业人员对学习培训效果进行量化，从而提高业务水平。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于深度学习的应急管理类客观题自动生成系统，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，所述针对待分析原始数据中文章标题进行标题类型的二分类与标题所述灾害类型分类包括：

3.根据权利要求2所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，所述采用BERT预训练语言模型，结合两个Softmax分类模型进行fine-tuning处理包括：

将标题文本序列传入BERT预训练语言模型；

4.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，所述根据文章标题分类模块所得到的分类结果对文本进行处理包括：

5.根据权利要求4所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，所述给定两个句子S_i,S_j计算相似度包括：

6.根据权利要求4所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，若文章标题分类模块的二分类结果为科普类的文章，按照段落提取关键句，则每个段落提取时T值取1；对文章标题分类模块的二分类结果为非科普类的文章，则用整篇文章进行分析，T值取5。

7.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，所述针对文章标题分类模块中二分类为非科普类的文章，建立基于BERT预训练语言模型的序列标注模型的正确候选答案包括：

将每一句话按字进行拆分，按照策略给予每个字一个标签，将训练集的字序列与对应的标签作为BERT模型的输入，通过BERT模型编码后再传入Bi_LSTM-CRF模型进行训练。

8.根据权利要求7所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，在预测阶段，将文本内容重要度排序模块中生成的关键句依次输入训练好的序列标注模型进行序列标注处理，当句子中标注出实体时，则将该句作为一个单项选择题，掩盖该实体作为题目的正确候选答案，当句子中出现n(n>1)个实体时，可将该句话重复n遍，生成n个不同的单选题，每个单选题对应一个实体作为正确候选答案。将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。

9.根据权利要求7所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，基于文章标题分类模块中二分类为科普类的文章，文章标题即作为不定项选择题的题目，每次设置一个范围在[1,4]的整型随机数r，提取排名前r的关键句作为该题的正确候选答案，将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。

10.根据权利要求7所述的基于深度学习的应急管理类客观题自动生成系统，其特征在于，所述将所有待分析原始数据集通过正确候选答案生成模块处理后，得到包含分类信息、实体类型的客观题与其所对应的答案，依次将正确候选答案生成模块中的题目取出包括：