CN116401373A - 一种试题知识点的标注方法、存储介质及设备 - Google Patents
一种试题知识点的标注方法、存储介质及设备 Download PDFInfo
- Publication number
- CN116401373A CN116401373A CN202310233658.6A CN202310233658A CN116401373A CN 116401373 A CN116401373 A CN 116401373A CN 202310233658 A CN202310233658 A CN 202310233658A CN 116401373 A CN116401373 A CN 116401373A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- knowledge points
- test
- question
- test question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 155
- 238000002372 labelling Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种试题知识点的标注方法、存储介质及设备;包括S1:确定试题与知识点间关系,构建试题‑知识点关系模型;S2:搜集各类学科试题并进行人工知识点标注,然后构建出知识点题库;S3:对知识点题库中内容进行预处理;S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过预处理后的试题文本进行特征提取,以实现对试题相关知识点进行标注的训练;S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。上述方案明确了试题、学科与知识点间的关系,以能够同时识别多门学科、多类别的知识点,无需再为各个学科单独构建模型,并对冷门知识点的预测也能保持较高准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种试题知识点的标注方法、存储介质及设备。
背景技术
互联网时代下的知识共享提供了丰富的学习资源,为了辅助学习,需要将试题与知识点关联起来,对知识点进行标注。一道试题可能涉及很多个知识点,如果能对这些知识点进行标注,就能帮助理解试题所想考察的知识。然而人工标注的成本很高,难度很大,因此试题知识点的标注是一项具有很大挑战性的任务。
对知识点进行标注,仅依靠人工标注是非常困难的:1)难以制定统一的标注标准,会带有标注人很强的主观性;2)标注者需要是相关领域的教师和专家,人力成本大;3)试题和知识点的数目是不断在增长的,依赖人工标注的时间和精力耗费巨大,是不可持续的方式。因此,有方法尝试探索如何自动提取试题中的知识点,如基于知识点与试题文本间的相似度、试题关键词等对试题涉及的知识点进行标注。但是仅仅依靠试题中出现的关键词预测知识点容易出现偏差,还需要在整体语义上的把握。近年来,人工智能技术的发展带动了教育的改革创新,将长短时记忆网络(long short term memory network,LSTM)、卷积神经网络(convolutional neural network,CNN)等结构应用于试题知识点的自动标注任务中,标注效果有了很大提升,但是这些方法仍然存在着特征弱化、样本分布失衡等问题。同时试题知识点的自动标注还面临很多的挑战:1)试题文本长短不一,长试题能达到几百甚至上千字;2)试题文本中可能出现符号或数字等复杂信息;3)每个试题关联的知识点往往不只一个;4)大型试题会涉及大量知识点和多个学科领域。
现有的知识点识别方法有关注知识点与相似题组、隐形话题等之间的关系,如中国发明专利CN110377802A和CN105023214B。在这些场景中,仅依靠相似题组、隐形话题等容易出现偏差,导致知识点标注的效果较差;同时在其他更多的场景中,可能没有相似题组,可能隐形话题间的关系不是那么的明显,这些都会给知识点标注带来更大的挑战。这就需要更多地从整体语义上进行把握,获取更多的上下文信息,提高知识点标注的准确性。
发明内容
本发明针对现有技术中的不足,提供一种试题知识点的标注方法、存储介质及设备;以针对现有技术中知识点识别对题目要求高、速度慢以及准确率低的问题,使得本申请能够提取更全面的语义特征,能够同时提取多门学科、多个类别的知识点,帮助学习和教学。
为实现上述目的,本发明采用以下技术方案:
一种试题知识点的标注方法,包括以下步骤:
S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;
S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;
S3:对知识点题库中的内容进行预处理;
S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;
S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1的具体内容为:
所述试题与知识点之间的关系为一道试题至少对应着一个知识点,而知识点之间又存在层级关系,包括父子关系,即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系,即某多个知识点之间所包含的知识范围是并列关系、依赖关系,即多个知识点之间互相依赖,某个或都多个知识点是作为另外某个或某多个知识点的预备知识,通过知识点之间存在的层级关系,自顶向下构建知识点之间的树状结构;
基于上述试题与知识点之间的关系构建试题-知识点的关系模型。
进一步地,步骤S2的具体内容为:
S2.1:搜集各类学科的试题,筛选出清楚完整的试题;
S2.2:由于试题由题目、相对应的答案、解析构成,通过对这三者进行标注,使得每个试题都有对应的一个或多个知识点;
S2.3:通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理,构成得到知识点题库。
进一步地,在步骤S2.3中,对成的知识点题库进行预处理:
S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;
S3.2:对试题中的文本进行分词,其中对于中文文本,把每个字和标点符号都作为一个“词”进行分割;对于英文文本,先划分出每个单词和标点,然后识别单词中的子词,并进行子词分割,将每个子词和标点都作为一个“词”;
S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;
S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];
S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;
S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示。
进一步地,步骤S4的具体内容为:
S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;
S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H),其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;
S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用K Max Pooling提炼特征;
S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;
S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练。
进一步地,在步骤S4.2中,CNN神经网络中使用的六类卷积核中,每类卷积核的数量为50个。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如上述的试题知识点标注方法。
一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如如上述的试题知识点标注方法。
本发明的有益效果是:
1、识别速度快:BERT嵌入层通过线性变换将离散向量转换为低维空间的连续向量,减少了存储和计算资源的消耗,提高了识别速度。
2、识别准确率高:多距离上下文融合模块提取不同上下文距离的特征,这样提取的语义特征也更全面,能够提高知识点识别的准确率。
3、识别鲁棒性高:多距离上下文融合模块在提高准确率的同时,对新出现的知识点、冷门的知识点也有着很好的表现,适用性更好,鲁棒性更高。
4、识别效率高:尽管试题可能属于多个学科,知识点间可能存在层级关系、依赖关系,但是通过构建知识点标注模型可以同时考虑多门学科、多种类别的知识点,而无需再为各个学科单独构建模型,无需关注知识点的内部关系,从而可以大大简化知识点标注的流程,提高知识点标注的效率。
附图说明
图1是本发明试题知识点标注模型结构示意图。
具体实施方式
下面结合附图详细说明本发明。
参考图1,本申请整体技术方案如下:
一种试题知识点的标注方法,包括以下步骤:
S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;
S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;
S3:对知识点题库中的内容进行预处理;
S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;
S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1的具体内容为:
一道试题属于一个学科,该试题相应的知识点也属于这个学科;所述试题与知识点之间的关系为一道试题至少对应着一个知识点,而知识点之间又存在层级关系,包括父子关系,即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系,即某多个知识点之间所包含的知识范围是并列关系、依赖关系,即多个知识点之间互相依赖,某个或都多个知识点是作为另外某个或某多个知识点的预备知识,通过知识点之间存在的层级关系,自顶向下构建知识点之间的树状结构;
基于上述试题与知识点之间的关系构建试题-知识点的关系模型。
进一步地,步骤S2的具体内容为:
S2.1:搜集各类学科的试题,筛选出清楚完整的试题;
S2.2:由于试题由题目、相对应的答案、解析构成,通过对这三者进行标注,使得每个试题都有对应的一个或多个知识点;
S2.3:通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理,构成得到知识点题库。
进一步地,在步骤S2.3中,由于试题文本的原始数据长短不一,且可能存在OOV问题,因此对成的知识点题库进行预处理:
S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;
S3.2:对试题中的文本进行分词,对于中文文本,把每个字或者标点符号都作为一个“词”(token)进行分割;对于英文文本,先划分每个单词和标点,然后对单词进行子词分割,如“playing”会被进一步分割为“play”和“ing”,这样有利于压缩词汇表,子词表达的意思也更加清晰明确;
S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;
S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];
S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;
S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示。
进一步地,试题文本的长短各异,长试题可以到达几百甚至上千字,如果不能从整体语义上对试题进行把握,容易导致预测出现偏差,本发明中提出特征提取方法,利用BERT编码器提取文本的全局语义特征,融合卷积神经网络补充不同局部视野的语义信息,使模型在长短试题文本上都能全面地提取特征。因此步骤S4的具体内容为:
S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;
S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H),其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;
S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用K Max Pooling提炼特征;
S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;
S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练。
进一步地,在步骤S4.2中,CNN神经网络中使用的六类卷积核中,每类卷积核的数量为50个。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如上述的试题知识点标注方法。
一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如如上述的试题知识点标注方法。
本发明提出的方法基于BERT编码器,提出了新的多距离上下文融合模块,在提取文本的全局语义特征的基础上,融合卷积神经网络从细节补充不同局部视野的语义信息,提高了知识点识别的准确率,同时使模型在长短试题文本上都能全面地提取特征,增强了模型的适用性。设计的试题知识点标注模型能够更全面地提取特征,可以同时对多门学科、多种类别的知识点进行识别,速度更快,精度更高,鲁棒性更强,效率更高。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (8)
1.一种试题知识点的标注方法,其特征在于,包括以下步骤:
S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;
S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;
S3:对知识点题库中的内容进行预处理;
S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;
S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
2.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,步骤S1的具体内容为:
所述试题与知识点之间的关系为一道试题至少对应着一个知识点,而知识点之间又存在层级关系,包括父子关系,即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系,即某多个知识点之间所包含的知识范围是并列关系、依赖关系,即多个知识点之间互相依赖,某个或都多个知识点是作为另外某个或某多个知识点的预备知识,通过知识点之间存在的层级关系,自顶向下构建知识点之间的树状结构;
基于上述试题与知识点之间的关系构建试题-知识点的关系模型。
3.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,步骤S2的具体内容为:
S2.1:搜集各类学科的试题,筛选出清楚完整的试题;
S2.2:由于试题由题目、相对应的答案、解析构成,通过对这三者进行标注,使得每个试题都有对应的一个或多个知识点;
S2.3:通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理,构成得到知识点题库。
4.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,在步骤S2.3中,对成的知识点题库进行预处理:
S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;
S3.2:对试题中的文本进行分词,其中对于中文文本,把每个字和标点符号都作为一个“词”进行分割;对于英文文本,先划分出每个单词和标点,然后识别单词中的子词,并进行子词分割,将每个子词和标点都作为一个“词”;
S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;
S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];
S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;
S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示。
5.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,步骤S4的具体内容为:
S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;
S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H),其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;
S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用KMaxPooling提炼特征;
S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;
S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练。
6.根据权利要求5所述的一种试题知识点的标注方法,其特征在于,在步骤S4.2中,CNN神经网络中使用的六类卷积核中,每类卷积核的数量为50个。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-6任一项所述的试题知识点标注方法。
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-6任一项所述的所述的试题知识点标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310233658.6A CN116401373A (zh) | 2023-03-13 | 2023-03-13 | 一种试题知识点的标注方法、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310233658.6A CN116401373A (zh) | 2023-03-13 | 2023-03-13 | 一种试题知识点的标注方法、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116401373A true CN116401373A (zh) | 2023-07-07 |
Family
ID=87018840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310233658.6A Pending CN116401373A (zh) | 2023-03-13 | 2023-03-13 | 一种试题知识点的标注方法、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116401373A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474014A (zh) * | 2023-12-27 | 2024-01-30 | 广东信聚丰科技股份有限公司 | 基于大数据分析的知识点拆解方法及系统 |
-
2023
- 2023-03-13 CN CN202310233658.6A patent/CN116401373A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474014A (zh) * | 2023-12-27 | 2024-01-30 | 广东信聚丰科技股份有限公司 | 基于大数据分析的知识点拆解方法及系统 |
CN117474014B (zh) * | 2023-12-27 | 2024-03-08 | 广东信聚丰科技股份有限公司 | 基于大数据分析的知识点拆解方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114548099A (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN116401373A (zh) | 一种试题知识点的标注方法、存储介质及设备 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN114492460A (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN112966518B (zh) | 一种面向大规模在线学习平台的优质答案识别方法 | |
CN114398480A (zh) | 基于关键信息抽取的金融舆情细分方面检测方法和设备 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN114461779A (zh) | 一种案件笔录要素抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |