CN111783428B - 基于深度学习的应急管理类客观题自动生成系统 - Google Patents
基于深度学习的应急管理类客观题自动生成系统 Download PDFInfo
- Publication number
- CN111783428B CN111783428B CN202010643357.7A CN202010643357A CN111783428B CN 111783428 B CN111783428 B CN 111783428B CN 202010643357 A CN202010643357 A CN 202010643357A CN 111783428 B CN111783428 B CN 111783428B
- Authority
- CN
- China
- Prior art keywords
- answer
- module
- emergency management
- article
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000002372 labelling Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机领域,尤其涉及基于深度学习的应急管理类客观题自动生成系统,包括得到待分析原始数据的应急管理类文章采集模块;针对待分析原始数据中文章标题进行标题类型的二分类与标题所属灾害类型分类的文章标题分类模块;根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块;针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型的正确候选答案生成模块;将正确候选答案生成模块中的题目取出的错误候选答案生成模块。本发明基于应急管理类文章采集模块、文章标题分类模块、文本内容重要度排序模块、正确候选答案生成模块、错误候选答案生成模块自动生成应急考核客观题。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于深度学习的应急管理类客观题自动生成系统。
背景技术
在应急安全领域中,各类突发事件的定义、处置方式以及各个行业人员如何在工作中巧妙的避免一些灾害事故的发生都格外重要。而对于从业人员特别是初入行业的相关人员来说,通过考核相关应急科普知识的方式来检测自己所掌握的知识和技能变成为了一种方便且直观的提升方法,这往往离不开考题。而通过人工来产生考题会导致在考题生成的过程中需要大量的时间梳理考题素材,并整理成题,造成了大量了人力物力的成本。
另外,随着计算机技术与人工智能的蓬勃发展,自然语言处理领域中问答系统也得到了较大的发展,现有的问答任务往往是指根据一段给定的文本,一个与文本相关的答案,两者结合来生成相关问题。但问答系统研究中仍然存在两个问题:
1.鲜有自动生成客观题的自动问答系统;
2.在自动生成客观题过程中,如何产生与正确候选答案相关联的错误候选答案,错误候选答案与正确答案的关联性直接影响到了题目的可靠性。
发明内容
为解决上述问题,本发明提出一种基于深度学习的应急管理类客观题自动生成系统,从而提高题目的有效性。
基于深度学习的应急管理类客观题自动生成系统,包括:
基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据的应急管理类文章采集模块;
针对待分析原始数据中文章标题进行标题类型的二分类与标题所属灾害类型分类的文章标题分类模块;
根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块;
针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型的正确候选答案生成模块;
将所有待分析原始数据集通过正确候选答案生成模块处理后,得到包含分类信息、实体类型的客观题与其所对应的答案,依次将正确候选答案生成模块中的题目取出的错误候选答案生成模块。
优选的,所述针对待分析原始数据中文章标题进行标题类型的二分类与标题所属灾害类型分类包括:
对数据库中已有的全部文本、应急类以及事故灾害相关新闻进行人工标注分类类别;
采用BERT预训练语言模型,结合两个Softmax分类模型进行fine-tuning处理。
优选的,所述采用BERT预训练语言模型,结合两个Softmax分类模型进行fine-tuning处理包括:
将标题文本序列传入BERT预训练语言模型;
编码好的向量序列再分别接入两个Softmax分类模型分别进行标题类型二分类和灾害类型多分类;
采用交叉熵作为损失函数,两个分类损失相加作为模型最终的代价loss,以代价loss最小为目标训练模型,以得到fine-tuning处理后的BERT预训练语言模型和两个Softmax分类模型。
优选的,所述根据文章标题分类模块所得到的分类结果对文本进行处理包括:
将输入的文本的内容分割成句子T=[S1,S2,...,Sn],构建图G=(V,E),其中V为句子集,对句子进行分词,去掉停用词,得到Si=[ti,1,ti,2,...,ti,n],其中,ti,j∈Sj,是保留的候选关键词;
构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子Si,Sj计算相似度
根据迭代传播权重计算各个句子的得分,将句子得分进行倒序排列,抽取重要度最高的T个句子作为候选摘要句子。
优选的,所述给定两个句子Si,Sj计算相似度包括:
优选的,若文章标题分类模块的二分类结果为科普类的文章,按照段落提取关键句,则每个段落提取时T值取1;对文章标题分类模块的二分类结果为非科普类的文章,则用整篇文章进行分析,T值取5。
优选的,所述针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型的正确候选答案包括:
将每一句话按字进行拆分,按照策略给予每个字一个标签,将训练集的字序列与对应的标签作为BERT模型的输入,通过BERT模型编码后再传入Bi_LSTM-CRF模型进行训练。
优选的,在预测阶段,将文本内容重要度排序模块中生成的关键句依次输入训练好的序列标注模型进行序列标注处理,当句子中标注出实体时,则将该句作为一个单项选择题,掩盖该实体作为题目的正确候选答案,当句子中出现n(n>1)个实体时,可将该句话重复n遍,生成n个不同的单选题,每个单选题对应一个实体作为正确候选答案。将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。
优选的,基于文章标题分类模块中二分类为科普类的文章,文章标题即作为不定项选择题的题目,每次设置一个范围在[1,4]的整型随机数r,提取排名前r的关键句作为该题的正确候选答案,将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。
优选的,所述将所有待分析原始数据集通过正确候选答案生成模块处理后,得到包含分类信息、实体类型的客观题与其所对应的答案,依次将正确候选答案生成模块中的题目取出包括:
若该题目为不定项选择,在不定项选择题库的答案集中取出与该题目正确候选答案灾难类别一致且实体类型重合数最高的答案列表,与正确答案进行文本相似度匹配,选择相似度排名前4-r个候选答案作为错误候选答案;若答案集中无灾难类别一致的候选答案,但存在实体类型一致的答案,则在同样实体类型的实体中随机选取实体替换原正确候选答案中的实体,生成错误候选答案;若答案集中无灾难类别一致且正确答案中无实体,则将答案集中的答案与正确候选答案做文本相似度对比,选取文本相似度最高的4-r个答案作为错误候选答案;
若正确候选答案生成模块中取出的为单项选择题,则根据该题目的灾难类型与正确候选答案的实体类型,在相同灾难类型与实体类型的答案集中随机选择字符长度与原正确候选答案最为接近的3个答案成为该题目的错误候选答案,若答案集中符合要求的错误候选答案数量不足,则采用NLTK生成该答案的反义词作为错误候选答案的补充。
本发明具备以下有益效果:
1.基于应急管理类文章采集模块、文章标题分类模块、文本内容重要度排序模块、正确候选答案生成模块、错误候选答案生成模块自动生成应急考核客观题;
2.在自动生成客观题题目与正确候选答案的同时,生成与题目相关联的候选错误答案,从而提高题目的有效性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明一实施例基于深度学习的应急管理类客观题自动生成系统的流程示意图;
图2是本发明一实施例基于深度学习的应急管理类客观题自动生成系统中步骤S3的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
如图1所示为本发明实施例一种基于深度学习的应急管理类客观题自动生成系统的结构示意图。为了使本发明所要解决的技术问题及效果更加清晰,结合实施例和附图,对本发明进行进一步详细说明。需注意,此处所描述的实施例仅用以解释本发明,但不用于限定本发明。
如图1所示,本发明实施例一种基于深度学习的应急管理类客观题自动生成系统,包括基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据的应急管理类文章采集模块;针对待分析原始数据中文章标题进行标题类型的二分类与标题所属灾害类型分类的文章标题分类模块;根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块;针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型的正确候选答案生成模块;将所有待分析原始数据集通过正确候选答案生成模块处理后,得到包含分类信息、实体类型的客观题与其所对应的答案,依次将正确候选答案生成模块中的题目取出的错误候选答案生成模块。
应急管理类文章采集模块,基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据。待分析原始数据包括但不限于各类突发事件的相关预案、各类事故、自然灾害的科普类文章、法律法规、政策标准、处置方法等,获取的文献入库待下一步处理。
文章标题分类模块,针对文章标题进行标题类型的二分类与标题所属灾害类型分类。标题类型分类指文章标题是否为科普类、解释类等在客观题中往往以多项或不定项选择题出现的文章,如:“交通事故救援处理方法”、“洪水来了该准备什么”等文章标题,该类文章后续可作为生成不定项或多项选择题的候选文本;所述灾害类型分类指根据“中华人民共和国应急管理部”应急指南的子分类所制定的分类类别,类别包括:“家庭安全”、“社区安全”、“公共场所安全”、“自救互救常识”、“气象灾害”、“海洋灾害”、“洪涝灾害”、“地质灾害”、“地震灾害”、“森林灾害”、“矿山灾难”、“危险品灾难”、“交通事故”、“建筑施工事故”、“火灾”、“其他”等共十六个分类。文本标题分类采用两个分类结合训练的方法,包括以下步骤:
步骤1,对数据库中已有的全部文本、应急类以及事故灾害相关新闻进行人工标注分类类别;
步骤2:采用BERT预训练语言模型,结合两个Softmax分类模型进行fine-tuning处理。
步骤2的具体过程是:将标题文本序列传入BERT语言模型,编码好的向量序列再分别接入两个Softmax分类模型分别进行标题类型二分类和灾害类型多分类,采用交叉熵作为损失函数,两个分类损失相加作为模型最终的代价(loss),以loss最小为目标训练模型,以得到fine-tuning处理后的BERT分类模型和两个文本分类器。
其中,BERT语言为谷歌的一种预训练的深度双向Transformer语言模型。本发明在文本分类训练阶段分别尝试采用BERT模型Transformer最后一层[CLS]位置向量、最后一层平均向量以及倒数第二层平均向量作为输入的句向量输入S oftmax分类,最终测试结果表明,采用最后一层平均向量作为句向量的分类效果表现最佳。
Softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。Softmax函数定义如公式(2-1)所示:
其中,Vi是分类器类别的输出,i表示类别索引,总的类别个数为C;Si表示当前元素的指数与所有元素指数和的比值,Softmax将多分类的输出数值转化为相对概率,在实际应用中,选择概率值最高的类别即为分类的结果。
在分类中,本发明采用交叉熵作为损失函数,每个分类损失函数公式如公式(2-2)所示。将两个分类的损失函数相加即为整个模型的损失。
其中,ti表示真实值,yi表示求出的Softmax值。当预测第i个时,可以认为ti=1。
文本内容重要度排序模块(3):根据科普类文章标题分类模块(2)所得到的分类结果对文本进行处理。对于二分类结果为科普类即可以生成不定项选择题的文章,对文章的文本内容,采用TextRank提取摘要的方式提取每个段落的一个关键句,将关键句按照段落的顺序排列,组成新的文本内容,为下一步产生正确候选答案生成做准备。对二分类结果为非科普类的文章,采用TextRank对整片文章提取摘要的方式,选取排名前top5作为文章关键句,从这些句子中依次生成考题。
TextRank是在PageRank的基础上,为图中的边引入权重的概念,通过选取文本中重要度较高的句子形成文摘,TextRank一般模型可以表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V*V的子集。点Vi的得分定义如下:
其中,d为阻尼系数,即按照链接进行跳转的概率,一般取经验值为0.85;ωji表示两个节点之间的边连接具有不同的重要程度。
文本内容重要度排序模块的主要步骤如下:
预处理:将输入的文本的内容分割成句子T=[S1,S2,...,Sn],构建图G=(V,E),其中V为句子集,对句子进行分词,去掉停用词,得到Si=[ti,1,ti,2,...,ti,n],其中,ti,j∈Sj,是保留的候选关键词。
句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子Si,Sj,采用公式(3-2)进行计算:
若两个句子之间的相似度大于给定阈值,就认为这两个句子语义相关并将它们连接起来,相似度即为边的权值;
句子权重计算与摘要抽取:根据公式(3-1)迭代传播权重计算各个句子的得分,将句子得分进行倒序排列,抽取重要度最高的T个句子作为候选摘要句子(T为自己定义)。
本发明中针对文章标题分类模块中二分类结果为科普类的文章,按照段落提取关键句,则每个段落提取时T=1;对二分类结果为非科普类的文章,则用整篇文章进行分析,T值取5。
正确候选答案生成模块,针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型。在训练阶段,对每句话进行实体识别,需进行识别的实体主要包含以下类型:数量名词(M)、时间(T)、人名(PER)、地名(LOC)、组织机构名(ORG)、其他专有名词(PN)等6类实体。具体的训练方法如下:将每一句话按字进行拆分,按照BIO的策略给予每个字一个标签,将训练集的字序列与对应的标签作为BERT的输入,通过BERT编码后再传入Bi_LSTM-CRF模型进行训练。所述BIO策略即对于非实体则全部标注为“O”,实体则按照具体的实体类型,将该实体的开头标注为B_实体名称,实体的其他字标注为I_实体名称。如关键句:“受到洪水威胁,如果时间充裕,应按照预定路线,有组织地向山坡、高地等处转移”,将该句话按字拆分(包括所有标点符号等字符),经过标注后每个字所对应的序列标签为:
“O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B_LOC,I_LOC,O,B_LOC,I_LOC,O,O,O,O”。在预测阶段,将文本内容重要度排序模块中生成的关键句依次输入训练好的序列标注模型进行序列标注处理,当句子中标注出实体时,则将该句作为一个单项选择题,掩盖该实体作为题目的正确候选答案。当句子中出现n(n>1)个实体时,可将该句话重复n遍,生成n个不同的单选题,每个单选题对应一个实体作为正确候选答案。将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。
针对文章标题分类模块中二分类为科普类的文章,文章标题即作为不定项选择题的题目。对文本内容重要度排序模块中提取出的关键句序列再进行一轮关键句提取,可得到根据公式(3-1)可得到每个句子的重要度得分,再将每个句子输入序列标注模型,得到实体序列标注结果,包含实体越多的句子给予越高的重要度权重倾斜,实体权重得分和句子重要度得分之和即作为每个句子最终的重要度分数。每次设置一个范围在[1,4]的整型随机数r,提取排名前r的关键句作为该题的正确候选答案(即在TextRank模型中,T=r),将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。
错误候选答案生成模块:将所有数据集做正确候选答案生成模块处理后,可得到包含分类信息、实体类型的客观题与其所对应的答案。依次将正确候选答案生成模块中的题目取出。
若该题目为不定项选择,在不定项选择题库的答案集中取出与该题目正确候选答案灾难类别一致且实体类型重合数最高的答案列表,与正确答案进行文本相似度匹配,选择相似度排名前4-r个候选答案作为错误候选答案;若答案集中无灾难类别一致的候选答案,但存在实体类型一致的答案,则在同样实体类型的实体中随机选取实体替换原正确候选答案中的实体,生成错误候选答案;若答案集中无灾难类别一致且正确答案中无实体,则将答案集中的答案与正确候选答案做文本相似度对比,选取文本相似度最高的4-r个答案作为错误候选答案。
若正确候选答案生成模块中取出的为单项选择题,则根据该题目的灾难类型与正确候选答案的实体类型,在相同灾难类型与实体类型的答案集中随机选择字符长度与原正确候选答案最为接近的3个答案成为该题目的错误候选答案,若答案集中符合要求的错误候选答案数量不足,则采用NLTK生成该答案的反义词作为错误候选答案的补充。
图2为本发明实施例一种基于深度学习的应急管理类客观题自动生成系统的流程图。如图2所示,首先获取应急管理类文章,并进行灾害类型分类,判断是否为科普类文章分类,若是,则依次进行知识库新闻类问题进行语义相似度匹配,对文本每个段落均提取一句关键句并按照段落顺序排序,对处理后的文本再进行句子重要度排序,随机取排名前r(r<5)的句子作为多选题的正确候选答案,该文本的文本标题作为不定项选择题题目,将每一个正确候选答案进行实体识别,最后根据灾害类型和实体类型在所对应的答案数据集中随机选择正确答案意外相似度较高的答案作为错误候选答案,错误候选答案与正确候选答案之后应为4;若不是科普类文章分类,则依次进行综合管廊专业领域问题,提取整篇文章局排名top5的句子,对句子依次进行实体识别,识别出包含实体则该句话可以作为一个客观题,实体作为正确候选答案,最后最后根据灾害类型和实体类型在所对应的答案数据集中随机选择正确答案意外相似度较高的答案作为错误候选答案,错误候选答案与正确候选答案之后应为4。
本发明提供了一种针对应急管理行业自动生成考核客观题的方法,根据应急管理的相关学习资料、文档、科普信息等文本资料,通过一系列的文本分析,如文本分类、摘要提取、实体识别等,将文本中较为重要的信息生成为考核的客观题目,并自动产生相关联的错误候选答案,解决了应急管理行业自动生成客观考核题空白,以及自动问答中错误候选答案与题目关联性较弱的问题。便于应急管理行业从业人员对学习培训效果进行量化,从而提高业务水平。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.基于深度学习的应急管理类客观题自动生成系统,其特征在于,包括:
基于已有的应急管理相关文献以及通过爬虫爬取的互联网上应急管理相关文献得到待分析原始数据的应急管理类文章采集模块;
针对待分析原始数据中文章标题进行标题类型的二分类与标题所属灾害类型分类的文章标题分类模块;
根据文章标题分类模块所得到的分类结果对文本进行处理的文本内容重要度排序模块;
针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型的正确候选答案生成模块;
将所有待分析原始数据集通过正确候选答案生成模块处理后,得到包含分类信息、实体类型的客观题与其所对应的答案,依次将正确候选答案生成模块中的题目取出的错误候选答案生成模块;
所述将所有待分析原始数据集通过正确候选答案生成模块处理后,得到包含分类信息、实体类型的客观题与其所对应的答案,依次将正确候选答案生成模块中的题目取出包括:
若该题目为不定项选择,在不定项选择题库的答案集中取出与该题目正确候选答案灾难类别一致且实体类型重合数最高的答案列表,与正确答案进行文本相似度匹配,选择相似度排名前4-r个候选答案作为错误候选答案;若答案集中无灾难类别一致的候选答案,但存在实体类型一致的答案,则在同样实体类型的实体中随机选取实体替换原正确候选答案中的实体,生成错误候选答案;若答案集中无灾难类别一致且正确答案中无实体,则将答案集中的答案与正确候选答案做文本相似度对比,选取文本相似度最高的4-r个答案作为错误候选答案;r表示设置一个范围在[1,4]的整型随机数;
若正确候选答案生成模块中取出的为单项选择题,则根据该题目的灾难类型与正确候选答案的实体类型,在相同灾难类型与实体类型的答案集中随机选择字符长度与原正确候选答案最为接近的3个答案成为该题目的错误候选答案,若答案集中符合要求的错误候选答案数量不足,则采用NLTK生成该答案的反义词作为错误候选答案的补充。
2.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,所述针对待分析原始数据中文章标题进行标题类型的二分类与标题所属灾害类型分类包括:
对数据库中已有的全部文本、应急类以及事故灾害相关新闻进行人工标注分类类别;
采用BERT预训练语言模型,结合两个Softmax分类模型进行fine-tuning处理。
3.根据权利要求2所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,所述采用BERT预训练语言模型,结合两个Softmax分类模型进行fine-tuning处理包括:
将标题文本序列传入BERT预训练语言模型;
编码好的向量序列再分别接入两个Softmax分类模型分别进行标题类型二分类和灾害类型多分类;
采用交叉熵作为损失函数,两个分类损失相加作为模型最终的代价loss,以代价loss最小为目标训练模型,以得到fine-tuning处理后的BERT预训练语言模型和两个Softmax分类模型。
4.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,所述根据文章标题分类模块所得到的分类结果对文本进行处理包括:
将输入的文本的内容分割成句子T=[S1,S2,...,Sn],构建图G=(V,E),其中V为句子集,对句子进行分词,去掉停用词,得到Si=[ti,1,ti,2,...,ti,n],其中,ti,j∈Sj,是保留的候选关键词;
构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子Si,Sj计算相似度;
根据迭代传播权重计算各个句子的得分,将句子得分进行倒序排列,抽取重要度最高的T个句子作为候选摘要句子。
5.根据权利要求4所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,所述给定两个句子Si,Sj计算相似度包括:
Si表示第i个句子;Sj表示第j个句子。
6.根据权利要求4所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,若文章标题分类模块的二分类结果为科普类的文章,按照段落提取关键句,则每个段落提取时T值取1;对文章标题分类模块的二分类结果为非科普类的文章,则用整篇文章进行分析,T值取5。
7.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,所述针对文章标题分类模块中二分类为非科普类的文章,建立基于BERT预训练语言模型的序列标注模型的正确候选答案包括:
将每一句话按字进行拆分,按照策略给予每个字一个标签,将训练集的字序列与对应的标签作为BERT模型的输入,通过BERT模型编码后再传入Bi_LSTM-CRF模型进行训练。
8.根据权利要求7所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,在预测阶段,将文本内容重要度排序模块中生成的关键句依次输入训练好的序列标注模型进行序列标注处理,当句子中标注出实体时,则将该句作为一个单项选择题,掩盖该实体作为题目的正确候选答案,当句子中出现n,n>1个实体时,可将该句话重复n遍,生成n个不同的单选题,每个单选题对应一个实体作为正确候选答案,将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。
9.根据权利要求7所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,基于文章标题分类模块中二分类为科普类的文章,文章标题即作为不定项选择题的题目,每次设置一个范围在[1,4]的整型随机数r,提取排名前r的关键句作为该题的正确候选答案,将正确候选答案按照实体类型以及应急管理类文章采集模块所产生的灾害类型分类存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010643357.7A CN111783428B (zh) | 2020-07-07 | 2020-07-07 | 基于深度学习的应急管理类客观题自动生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010643357.7A CN111783428B (zh) | 2020-07-07 | 2020-07-07 | 基于深度学习的应急管理类客观题自动生成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783428A CN111783428A (zh) | 2020-10-16 |
CN111783428B true CN111783428B (zh) | 2024-01-23 |
Family
ID=72758830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010643357.7A Active CN111783428B (zh) | 2020-07-07 | 2020-07-07 | 基于深度学习的应急管理类客观题自动生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783428B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487139B (zh) * | 2020-11-27 | 2023-07-14 | 平安科技(深圳)有限公司 | 基于文本的自动出题方法、装置及计算机设备 |
CN112560443B (zh) * | 2020-12-29 | 2022-11-29 | 平安银行股份有限公司 | 选择题生成模型训练方法、选择题生成方法、设备及介质 |
CN113010655B (zh) * | 2021-03-18 | 2022-12-16 | 华南理工大学 | 一种机器阅读理解的回答与干扰项生成方法、装置 |
CN113688231A (zh) * | 2021-08-02 | 2021-11-23 | 北京小米移动软件有限公司 | 一种答案文本的摘要提取方法及装置、电子设备及介质 |
CN114372458B (zh) * | 2022-01-20 | 2023-04-07 | 北京零点远景网络科技有限公司 | 一种基于政务工单的突发事件检测方法 |
CN115083569A (zh) * | 2022-06-29 | 2022-09-20 | 广州市润心教育咨询有限公司 | 一种诊疗一体的心理咨询系统 |
CN117422209B (zh) * | 2023-12-18 | 2024-03-26 | 贵州省公路工程集团有限公司 | 一种道路施工森林防火监测方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120082619A (ko) * | 2011-01-14 | 2012-07-24 | 차재권 | 음성 인식 기반의 단답형 학습 방법 및 시스템 |
JP2012234106A (ja) * | 2011-05-09 | 2012-11-29 | Manabing Kk | 問題自動作成装置および作成方法 |
KR20190059084A (ko) * | 2017-11-22 | 2019-05-30 | 한국전자통신연구원 | 자연어 질의응답 시스템 및 그 학습 방법 |
CN109961091A (zh) * | 2019-03-01 | 2019-07-02 | 杭州叙简科技股份有限公司 | 一种自学习的事故文字标签与摘要生成系统及其方法 |
CN110110063A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种基于哈希学习的问答系统构建方法 |
CN110232180A (zh) * | 2019-06-06 | 2019-09-13 | 北京师范大学 | 一种面向古诗词测评的自动命题方法和系统 |
CN110362671A (zh) * | 2019-07-16 | 2019-10-22 | 安徽知学科技有限公司 | 题目推荐方法、设备和存储介质 |
WO2019211817A1 (en) * | 2018-05-03 | 2019-11-07 | Thomson Reuters Global Resources Unlimited Company | Systems and methods for generating a contextually and conversationally correct response to a query |
CN110516059A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN111046155A (zh) * | 2019-11-27 | 2020-04-21 | 中博信息技术研究院有限公司 | 一种基于fsm多轮问答的语义相似度计算方法 |
CN111125335A (zh) * | 2019-12-27 | 2020-05-08 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598445B (zh) * | 2013-11-01 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
US10282462B2 (en) * | 2016-10-31 | 2019-05-07 | Walmart Apollo, Llc | Systems, method, and non-transitory computer-readable storage media for multi-modal product classification |
US20180341871A1 (en) * | 2017-05-25 | 2018-11-29 | Accenture Global Solutions Limited | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains |
US10580137B2 (en) * | 2018-01-30 | 2020-03-03 | International Business Machines Corporation | Systems and methods for detecting an indication of malignancy in a sequence of anatomical images |
-
2020
- 2020-07-07 CN CN202010643357.7A patent/CN111783428B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120082619A (ko) * | 2011-01-14 | 2012-07-24 | 차재권 | 음성 인식 기반의 단답형 학습 방법 및 시스템 |
JP2012234106A (ja) * | 2011-05-09 | 2012-11-29 | Manabing Kk | 問題自動作成装置および作成方法 |
KR20190059084A (ko) * | 2017-11-22 | 2019-05-30 | 한국전자통신연구원 | 자연어 질의응답 시스템 및 그 학습 방법 |
WO2019211817A1 (en) * | 2018-05-03 | 2019-11-07 | Thomson Reuters Global Resources Unlimited Company | Systems and methods for generating a contextually and conversationally correct response to a query |
CN109961091A (zh) * | 2019-03-01 | 2019-07-02 | 杭州叙简科技股份有限公司 | 一种自学习的事故文字标签与摘要生成系统及其方法 |
CN110110063A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种基于哈希学习的问答系统构建方法 |
CN110232180A (zh) * | 2019-06-06 | 2019-09-13 | 北京师范大学 | 一种面向古诗词测评的自动命题方法和系统 |
CN110362671A (zh) * | 2019-07-16 | 2019-10-22 | 安徽知学科技有限公司 | 题目推荐方法、设备和存储介质 |
CN110516059A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN111046155A (zh) * | 2019-11-27 | 2020-04-21 | 中博信息技术研究院有限公司 | 一种基于fsm多轮问答的语义相似度计算方法 |
CN111125335A (zh) * | 2019-12-27 | 2020-05-08 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的自动问答;金丽娇;傅云斌;董启文;;华东师范大学学报(自然科学版)(第05期);75-88 * |
基于标签增强的机器阅读理解模型;苏立新;郭嘉丰;范意兴;兰艳艳;程学旗;;模式识别与人工智能(第02期);15-21 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783428A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783428B (zh) | 基于深度学习的应急管理类客观题自动生成系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN108875051B (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN111950285B (zh) | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN111159407B (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111046941A (zh) | 一种目标评论检测方法、装置、电子设备和存储介质 | |
CN115269857A (zh) | 一种基于文档关系抽取的知识图谱构建方法和装置 | |
CN111858896B (zh) | 一种基于深度学习的知识库问答方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN113836269B (zh) | 一种基于问答式系统的篇章级核心事件抽取方法 | |
CN111324692B (zh) | 基于人工智能的主观题自动评分方法和装置 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111274494B (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |