CN116401373A - 一种试题知识点的标注方法、存储介质及设备 - Google Patents

一种试题知识点的标注方法、存储介质及设备 Download PDF

Info

Publication number
CN116401373A
CN116401373A CN202310233658.6A CN202310233658A CN116401373A CN 116401373 A CN116401373 A CN 116401373A CN 202310233658 A CN202310233658 A CN 202310233658A CN 116401373 A CN116401373 A CN 116401373A
Authority
CN
China
Prior art keywords
knowledge
knowledge points
test
question
test question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310233658.6A
Other languages
English (en)
Inventor
张育博
张立波
武延军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Nanjing Software Technology Research Institute
Institute of Software of CAS
Original Assignee
Zhongke Nanjing Software Technology Research Institute
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Nanjing Software Technology Research Institute, Institute of Software of CAS filed Critical Zhongke Nanjing Software Technology Research Institute
Priority to CN202310233658.6A priority Critical patent/CN116401373A/zh
Publication of CN116401373A publication Critical patent/CN116401373A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种试题知识点的标注方法、存储介质及设备;包括S1:确定试题与知识点间关系,构建试题‑知识点关系模型;S2:搜集各类学科试题并进行人工知识点标注,然后构建出知识点题库;S3:对知识点题库中内容进行预处理;S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过预处理后的试题文本进行特征提取,以实现对试题相关知识点进行标注的训练;S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。上述方案明确了试题、学科与知识点间的关系,以能够同时识别多门学科、多类别的知识点,无需再为各个学科单独构建模型,并对冷门知识点的预测也能保持较高准确率。

Description

一种试题知识点的标注方法、存储介质及设备
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种试题知识点的标注方法、存储介质及设备。
背景技术
互联网时代下的知识共享提供了丰富的学习资源,为了辅助学习,需要将试题与知识点关联起来,对知识点进行标注。一道试题可能涉及很多个知识点,如果能对这些知识点进行标注,就能帮助理解试题所想考察的知识。然而人工标注的成本很高,难度很大,因此试题知识点的标注是一项具有很大挑战性的任务。
对知识点进行标注,仅依靠人工标注是非常困难的:1)难以制定统一的标注标准,会带有标注人很强的主观性;2)标注者需要是相关领域的教师和专家,人力成本大;3)试题和知识点的数目是不断在增长的,依赖人工标注的时间和精力耗费巨大,是不可持续的方式。因此,有方法尝试探索如何自动提取试题中的知识点,如基于知识点与试题文本间的相似度、试题关键词等对试题涉及的知识点进行标注。但是仅仅依靠试题中出现的关键词预测知识点容易出现偏差,还需要在整体语义上的把握。近年来,人工智能技术的发展带动了教育的改革创新,将长短时记忆网络(long short term memory network,LSTM)、卷积神经网络(convolutional neural network,CNN)等结构应用于试题知识点的自动标注任务中,标注效果有了很大提升,但是这些方法仍然存在着特征弱化、样本分布失衡等问题。同时试题知识点的自动标注还面临很多的挑战:1)试题文本长短不一,长试题能达到几百甚至上千字;2)试题文本中可能出现符号或数字等复杂信息;3)每个试题关联的知识点往往不只一个;4)大型试题会涉及大量知识点和多个学科领域。
现有的知识点识别方法有关注知识点与相似题组、隐形话题等之间的关系,如中国发明专利CN110377802A和CN105023214B。在这些场景中,仅依靠相似题组、隐形话题等容易出现偏差,导致知识点标注的效果较差;同时在其他更多的场景中,可能没有相似题组,可能隐形话题间的关系不是那么的明显,这些都会给知识点标注带来更大的挑战。这就需要更多地从整体语义上进行把握,获取更多的上下文信息,提高知识点标注的准确性。
发明内容
本发明针对现有技术中的不足,提供一种试题知识点的标注方法、存储介质及设备;以针对现有技术中知识点识别对题目要求高、速度慢以及准确率低的问题,使得本申请能够提取更全面的语义特征,能够同时提取多门学科、多个类别的知识点,帮助学习和教学。
为实现上述目的,本发明采用以下技术方案:
一种试题知识点的标注方法,包括以下步骤:
S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;
S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;
S3:对知识点题库中的内容进行预处理;
S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;
S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1的具体内容为:
所述试题与知识点之间的关系为一道试题至少对应着一个知识点,而知识点之间又存在层级关系,包括父子关系,即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系,即某多个知识点之间所包含的知识范围是并列关系、依赖关系,即多个知识点之间互相依赖,某个或都多个知识点是作为另外某个或某多个知识点的预备知识,通过知识点之间存在的层级关系,自顶向下构建知识点之间的树状结构;
基于上述试题与知识点之间的关系构建试题-知识点的关系模型。
进一步地,步骤S2的具体内容为:
S2.1:搜集各类学科的试题,筛选出清楚完整的试题;
S2.2:由于试题由题目、相对应的答案、解析构成,通过对这三者进行标注,使得每个试题都有对应的一个或多个知识点;
S2.3:通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理,构成得到知识点题库。
进一步地,在步骤S2.3中,对成的知识点题库进行预处理:
S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;
S3.2:对试题中的文本进行分词,其中对于中文文本,把每个字和标点符号都作为一个“词”进行分割;对于英文文本,先划分出每个单词和标点,然后识别单词中的子词,并进行子词分割,将每个子词和标点都作为一个“词”;
S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;
S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];
S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;
S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示。
进一步地,步骤S4的具体内容为:
S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;
S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H),其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;
S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用K Max Pooling提炼特征;
S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;
S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练。
进一步地,在步骤S4.2中,CNN神经网络中使用的六类卷积核中,每类卷积核的数量为50个。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如上述的试题知识点标注方法。
一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如如上述的试题知识点标注方法。
本发明的有益效果是:
1、识别速度快:BERT嵌入层通过线性变换将离散向量转换为低维空间的连续向量,减少了存储和计算资源的消耗,提高了识别速度。
2、识别准确率高:多距离上下文融合模块提取不同上下文距离的特征,这样提取的语义特征也更全面,能够提高知识点识别的准确率。
3、识别鲁棒性高:多距离上下文融合模块在提高准确率的同时,对新出现的知识点、冷门的知识点也有着很好的表现,适用性更好,鲁棒性更高。
4、识别效率高:尽管试题可能属于多个学科,知识点间可能存在层级关系、依赖关系,但是通过构建知识点标注模型可以同时考虑多门学科、多种类别的知识点,而无需再为各个学科单独构建模型,无需关注知识点的内部关系,从而可以大大简化知识点标注的流程,提高知识点标注的效率。
附图说明
图1是本发明试题知识点标注模型结构示意图。
具体实施方式
下面结合附图详细说明本发明。
参考图1,本申请整体技术方案如下:
一种试题知识点的标注方法,包括以下步骤:
S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;
S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;
S3:对知识点题库中的内容进行预处理;
S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;
S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1的具体内容为:
一道试题属于一个学科,该试题相应的知识点也属于这个学科;所述试题与知识点之间的关系为一道试题至少对应着一个知识点,而知识点之间又存在层级关系,包括父子关系,即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系,即某多个知识点之间所包含的知识范围是并列关系、依赖关系,即多个知识点之间互相依赖,某个或都多个知识点是作为另外某个或某多个知识点的预备知识,通过知识点之间存在的层级关系,自顶向下构建知识点之间的树状结构;
基于上述试题与知识点之间的关系构建试题-知识点的关系模型。
进一步地,步骤S2的具体内容为:
S2.1:搜集各类学科的试题,筛选出清楚完整的试题;
S2.2:由于试题由题目、相对应的答案、解析构成,通过对这三者进行标注,使得每个试题都有对应的一个或多个知识点;
S2.3:通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理,构成得到知识点题库。
进一步地,在步骤S2.3中,由于试题文本的原始数据长短不一,且可能存在OOV问题,因此对成的知识点题库进行预处理:
S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;
S3.2:对试题中的文本进行分词,对于中文文本,把每个字或者标点符号都作为一个“词”(token)进行分割;对于英文文本,先划分每个单词和标点,然后对单词进行子词分割,如“playing”会被进一步分割为“play”和“ing”,这样有利于压缩词汇表,子词表达的意思也更加清晰明确;
S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;
S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];
S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;
S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示。
进一步地,试题文本的长短各异,长试题可以到达几百甚至上千字,如果不能从整体语义上对试题进行把握,容易导致预测出现偏差,本发明中提出特征提取方法,利用BERT编码器提取文本的全局语义特征,融合卷积神经网络补充不同局部视野的语义信息,使模型在长短试题文本上都能全面地提取特征。因此步骤S4的具体内容为:
S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;
S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H),其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;
S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用K Max Pooling提炼特征;
S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;
S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练。
进一步地,在步骤S4.2中,CNN神经网络中使用的六类卷积核中,每类卷积核的数量为50个。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如上述的试题知识点标注方法。
一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如如上述的试题知识点标注方法。
本发明提出的方法基于BERT编码器,提出了新的多距离上下文融合模块,在提取文本的全局语义特征的基础上,融合卷积神经网络从细节补充不同局部视野的语义信息,提高了知识点识别的准确率,同时使模型在长短试题文本上都能全面地提取特征,增强了模型的适用性。设计的试题知识点标注模型能够更全面地提取特征,可以同时对多门学科、多种类别的知识点进行识别,速度更快,精度更高,鲁棒性更强,效率更高。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种试题知识点的标注方法,其特征在于,包括以下步骤:
S1:确定试题与知识点之间的关系,构建试题-知识点的关系模型;
S2:搜集各类学科试题并进行人工知识点的标注,然后基于步骤S1所构建的关系模型构建出知识点题库;
S3:对知识点题库中的内容进行预处理;
S4:结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型,通过对步骤S3预处理后的试题文本进行特征提取,从而实现对试题相关知识点进行标注的训练;
S5:将训练完成后的试题知识点标注模型进行测试,然后应用到试题中知识点的识别标注。
2.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,步骤S1的具体内容为:
所述试题与知识点之间的关系为一道试题至少对应着一个知识点,而知识点之间又存在层级关系,包括父子关系,即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系,即某多个知识点之间所包含的知识范围是并列关系、依赖关系,即多个知识点之间互相依赖,某个或都多个知识点是作为另外某个或某多个知识点的预备知识,通过知识点之间存在的层级关系,自顶向下构建知识点之间的树状结构;
基于上述试题与知识点之间的关系构建试题-知识点的关系模型。
3.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,步骤S2的具体内容为:
S2.1:搜集各类学科的试题,筛选出清楚完整的试题;
S2.2:由于试题由题目、相对应的答案、解析构成,通过对这三者进行标注,使得每个试题都有对应的一个或多个知识点;
S2.3:通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理,构成得到知识点题库。
4.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,在步骤S2.3中,对成的知识点题库进行预处理:
S3.1:对试题中的文本进行清洗,去掉无用符号、停用词;
S3.2:对试题中的文本进行分词,其中对于中文文本,把每个字和标点符号都作为一个“词”进行分割;对于英文文本,先划分出每个单词和标点,然后识别单词中的子词,并进行子词分割,将每个子词和标点都作为一个“词”;
S3.3:标记试题中的文本边界,即在句子的头部加上[CLS]分类标记,句子的尾部加上[SEP]分隔标记;
S3.4:生成固定长度的文本序列,即设定试题文本长度的最大长度值,记为max_len,对长度超过max_len的试题进行截断,长度不足的则进行填充,填充标记使用[PAD];
S3.5:生成序列编码,即通过查找词汇表将每个“词”映射为对应的整数编码;
S3.6:对试题中的文本进行词嵌入,通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量,然后对试题中的文本进行段嵌入和位置嵌入;其中段嵌入表示词所属句子的信息,对于试题的知识点标注任务,词的来源即当前试题的文本,不涉及第二个文本序列,所以对于每个词段向量的每个位置均为0;位置嵌入表示每个词在句子中的位置信息,位置编号从1开始,遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入;最后将词嵌入、段嵌入、位置嵌入进行信息整合,这里采用对应位置元素相加的方式,得到预处理后的试题文本表示。
5.根据权利要求1所述的一种试题知识点的标注方法,其特征在于,步骤S4的具体内容为:
S4.1:基于BERT编码器融合词左右两个方向的语义信息,得到试题中文本上下文双向嵌入表达T=[TCLS,T1,T2,...,Tn,TSEP],其中TCLS是分类标记[CLS]所对应位置的上下文双向嵌入表达,TSEP是分类标记[SEP]所对应位置的上下文双向嵌入表达,Ti,i=1,2...,n是各对应位置编码处的上下文双向嵌入表达;
S4.2:由多距离上下文融合模块进一步融合上下文信息,利用CNN关注局部细节对特征进行提取,其中CNN神经网络使用了六类卷积核,大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H),其中卷积核的第一维表示卷积窗口覆盖的上下文距离,即词的个数;第二维表示在整个词向量上进行卷积,H表示词向量的长度;
S4.3:对不同卷积核输出的数据,使用LeakyReLU激活函数提取更丰富的非线性特征,然后使用KMaxPooling提炼特征;
S4.4:最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平,得到整个试题中文本的特征;
S4.5:将步骤S4.4提取到的整个试题中文本特征映射到标签空间,通过sigmoid激活层得到试题包含各个知识点的概率,然后选择交叉熵损失函数作为试题知识点标注模型的优化目标,实现对试题知识点标注模型的训练。
6.根据权利要求5所述的一种试题知识点的标注方法,其特征在于,在步骤S4.2中,CNN神经网络中使用的六类卷积核中,每类卷积核的数量为50个。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-6任一项所述的试题知识点标注方法。
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-6任一项所述的所述的试题知识点标注方法。
CN202310233658.6A 2023-03-13 2023-03-13 一种试题知识点的标注方法、存储介质及设备 Pending CN116401373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310233658.6A CN116401373A (zh) 2023-03-13 2023-03-13 一种试题知识点的标注方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310233658.6A CN116401373A (zh) 2023-03-13 2023-03-13 一种试题知识点的标注方法、存储介质及设备

Publications (1)

Publication Number Publication Date
CN116401373A true CN116401373A (zh) 2023-07-07

Family

ID=87018840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310233658.6A Pending CN116401373A (zh) 2023-03-13 2023-03-13 一种试题知识点的标注方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN116401373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474014A (zh) * 2023-12-27 2024-01-30 广东信聚丰科技股份有限公司 基于大数据分析的知识点拆解方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474014A (zh) * 2023-12-27 2024-01-30 广东信聚丰科技股份有限公司 基于大数据分析的知识点拆解方法及系统
CN117474014B (zh) * 2023-12-27 2024-03-08 广东信聚丰科技股份有限公司 基于大数据分析的知识点拆解方法及系统

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN110968708A (zh) 一种教育信息资源属性标注方法及系统
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN111858896A (zh) 一种基于深度学习的知识库问答方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114548099A (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN116401373A (zh) 一种试题知识点的标注方法、存储介质及设备
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN114398480A (zh) 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN114461779A (zh) 一种案件笔录要素抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination