CN112182237A - 题目知识点关联方法、题目知识点关联系统和存储介质 - Google Patents
题目知识点关联方法、题目知识点关联系统和存储介质 Download PDFInfo
- Publication number
- CN112182237A CN112182237A CN202010994409.5A CN202010994409A CN112182237A CN 112182237 A CN112182237 A CN 112182237A CN 202010994409 A CN202010994409 A CN 202010994409A CN 112182237 A CN112182237 A CN 112182237A
- Authority
- CN
- China
- Prior art keywords
- topic
- knowledge point
- information
- knowledge
- characteristic parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000010801 machine learning Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 85
- 238000004590 computer program Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 description 23
- 230000004069 differentiation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Educational Technology (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施例提出了一种题目知识点关联方法、题目知识点关联系统和存储介质。题目知识点关联方法包括:获取题目样本群和题目样本群对应的知识点样本群;利用题目特征参数、知识点特征参数和被样本标注的知识点样本群进行机器学习模型的训练,以得到知识点关联模型;将任一待处理的题目信息的题目特征参数和与题目信息对应的知识点信息的知识点特征参数输入知识点关联模型,以输出与题目关联的知识点数据。通过将题目特征参数与知识点特征参数组合后确定与题目关联的知识点数据,不仅考虑了题目信息的特征参数,还考虑了题目特征参数和知识点特征参数之间的关系,能够提高题目知识点的关联精度。
Description
技术领域
本发明涉及教育技术领域,具体而言,涉及一种题目知识点关联方法、一种题目知识点关联系统和一种计算机可读存储介质。
背景技术
在教育学习系统中,为了给学生提供优质的学习服务,一个基础性的前提是练习题目所考察的知识点的关联,即给出一道题目,预测这个题目所考察的知识点。
相关技术中,通常采用人工专家标注以实现知识点的关联。然而,采用人工专家标注关联知识点时,人工专家仅对题目文本进行标注。但是,题目文本大部分是比较短的,可利用的上下文信息很有限,导致关联的知识点精度低。此外,采用人工标注,还存在成本高、耗时长,且由于不同标注者的理解程度不同,导致标注结果无法统一的技术问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的实施例的第一个方面在于提供了一种题目知识点关联方法。
本发明的实施例的第二个方面在于提供了一种题目知识点关联系统。
本发明的实施例的第三个方面在于提供了一种计算机可读存储介质。
有鉴于此,根据本发明的实施例的第一个方面,提出了一种题目知识点关联方法,包括:获取题目样本群和题目样本群对应的知识点样本群;提取题目样本群的题目特征参数;获取知识点样本群的知识点特征参数;根据题目特征参数和知识点特征参数对知识点样本群进行样本标注;利用题目特征参数、知识点特征参数和被样本标注的知识点样本群进行机器学习模型的训练,以得到知识点关联模型;将任一待处理的题目信息的题目特征参数和与题目信息对应的知识点信息的知识点特征参数输入知识点关联模型,以输出与题目关联的知识点数据。
本发明的实施例提供的题目知识点关联方法,通过对题目样本群和知识点样本群进行机器学习模型的训练,得到能够准确关联题目中包含的知识点的知识点关联模型。具体地,在获得与题目关联的知识点数据时,一方面,从题目信息中提取题目特征参数,另一方面,还从知识点信息中提取知识点特征参数。通过将题目特征参数与知识点特征参数组合后确定与题目关联的知识点数据,不仅考虑了题目信息的特征参数,还考虑了题目特征参数和知识点特征参数之间的关系,能够提高题目知识点的关联精度。进一步地,还避免了题目信息过少时,可利用的上下文信息过少,导致无法从题目信息中获取足量的特征参数用于确定知识点数据,降低知识点的关联精度。此外,本申请的题目知识点关联方法在确定与题目关联的知识点时,无需人工对题目信息进行特征标注,降低了人工成本,提高了确定关联知识点的效率,还避免了由于不同人之间的理解差异,而导致的题目标注内容不同的技术问题。此外,通过将题目特征参数与知识点特征参数组合以确定与题目关联的知识点,能够同时输出与题目关联的多个知识点,进而避免了人工标注时由于疏忽而遗漏知识点标注的问题。
可以理解的是,在该技术方案中,在确定与题目关联的知识点数据时,其中,题目信息是根据对应科目的课程大纲信息获取的,知识点信息课程大纲信息包括的全部知识点信息。
进一步地,在该技术方案中,机器学习模型可以是Transformer模型和自注意力机制(self-attention)。考虑到不同的attention对序列信息有不同的偏好,机器学习模型使用了multi-head机制综合全面地对每道题目的特征参数建模。通过使用自注意力机制(self-attention)进行训练,可以代替关键词的提取,进而代替根据人工相似度阈值判断每道题目的考察核心知识点。进而实现了降低人工成本,提高题目知识点关联的效率。此外,还可以避免使用人工标注知识点时,由于不同人之间的理解差异导致的差异化问题。
在该技术方案中,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细粒度的机制。注意力机制可以快速提取稀疏数据的重要特征,被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制(self-attention)是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
另外,根据本发明提供的上述技术方案中的题目知识点关联方法,还可以具有如下附加技术特征:
在上述技术方案中,题目特征参数,包括:题目信息的文本特征向量和题目信息的题型特征向量。
在该技术方案中,通过题目信息的文本特征向量和题目信息的题型特征向量确定为题目特征参数,以便在题目信息的文本内容过少时,能够结合题目信息的题型特征向量确定关联知识点,通过增加题目特征参数的范围,提高题目知识点关联的准确性。
在上述技术方案中,根据题目信息,题目信息的文本特征向量的提取步骤,具体包括:对题目信息进行分词,以生成文本词组信息;根据文本词组信息,生成与文本词组信息对应的词向量信息;根据词向量信息,确定题目信息的文本特征向量信息。
在该技术方案中,通过对题目信息分词并提取词向量信息,进而根据词向量信息确定题目信息的文本特征向量信息。一方面,在题目信息中的文本数据较少时,能够获取足量的文本特征向量信息,进而保证能够为题目准确关联知识点数据,避免题目文本过短时,无法从题目文本中提取足量的关键词用于关联知识点数据,降低关联知识点的准确性。另一方面,减少了人工标注题目文本中关键词的步骤,降低了人工成本,提高了关联知识点信息的效率,还避免了人工标注关键词存在的差异化问题。
进一步地,在该技术方案中,采用Bert训练模型,提取文本词组中词向量。通过使用Bert训练模型提取词向量,能够联系题目信息的上下文语境,使得获取的词向量更准确,进而提高题目知识点的关联精度。
进一步地,在该技术方案中,采用TextCNN模型,提取词向量中的文本特征向量。通过使用TextCNN模型提取文本特征向量,能够快速、高效地提取到词向量中的文本特征向量,并且在提取文本特征向量时,能够将不同词向量的语义关联后再进行提取特征向量,进而提高文本特征向量提取的准确性。
在上述任一技术方案中,在执行对题目信息进行分词的步骤之前,题目知识点关联方法还包括:去除题目信息中与知识点信息无关的信息数据。
在该技术方案中,通过对题目信息的文本数据进行数据清洗,去除题目信息的文本数据中与知识点信息无关的文本数据,比如标点符号、的、地等等与知识点信息无关的文本数据,进而提高词向量与知识点之间的相关性。进一步的,在根据词向量提取题目信息的文本特征向量时,能够提高确定文本特征向量的准确性和效率,还可以提高确定关联的知识点信息的效率和准确性。
在上述任一技术方案中,题型特征向量,包括:题目的类型信息、题目的难易程度信息和题目涉及的公式定理信息中的一种或多种。
在该技术方案中,通过将题目的类型信息、题目的难易程度信息和题目涉及的公式定理信息中的一种或多种用于确定与题目关联的知识点数据,一方面,可以提高增加题目信息的特征,进而提高关联知识点的准确率。另一方面题型特征向量与知识点特征参数中的知识点结构特征向量相对应,进而提高知识点关联知识点的效率和准确率。此外,在题目信息的文本数据过少以致于题目的文本特征向量较少时,通过结合题目信息的题型特征向量确定关联知识点,能够保证题目知识点关联的准确性。
在上述任一技术方案中,知识点特征参数包括知识点结构特征向量,知识点结构特征向量包括:知识点在课程大纲中的位置信息、知识点的难易程度信息、知识点涉及的公式定理信息、知识点的知识图谱信息中一种或多种。
在该技术方案中,通过将知识点的知识图谱信息和课程大纲中的全部知识点的结构特征,用于确定与题目相关的知识点信息,能够提高确定题目关联知识点信息的准确性。此外,即使题目信息中的文本数据较少,通过引入知识点的知识图谱信息和课程大纲中的全部知识点的结构特征进行补足题目信息中局部特征不足的缺陷,使得对题目信息的表征更加丰富,进而能够保证确定题目关联知识点信息的准确性。
在上述任一技术方案中,利用题目特征参数、知识点特征参数和被样本标注的知识点样本群进行机器学习模型的训练,以得到知识点关联模型的步骤,具体包括:将题目特征参数和知识点特征参数作为输入量输入机器学习模型;将被样本标注的知识点样本群输入作为输出量输入机器学习模型;获取机器学习模型的关联准确率;根据关联准确率和预设阈值的关系,确定结束机器学习模型的训练,生成知识点关联模型。
在该技术方案中,通过将题目特征参数和知识点特征参数作为输入量输入机器学习模型,将被样本标注的知识点样本群输入作为输出量输入机器学习模型,进行机器学习模型训练,进而得到知识点关联模型。通过将题目特征参数与知识点特征参数同时作为输入量输入机器学习模型,不仅考虑了题目信息的特征参数,还考虑了题目特征参数和知识点特征参数之间的关系,进而使得得到的知识点关联模型在进行知识点关联时,能够提高题目知识点的关联精度。
此外,通过获取机器学习模型的关联准确率,用于确定结束机器学习模型的训练的时机,进而保证得到的知识点关联模型能够准确关联题目中包含的知识点数据。具体地,在关联准确率不小于预设阈值时,结束机器学习模型的训练。在关联准确率小于预设阈值时,继续对机器学习模型进行训练,直到关联准确率不小于预设阈值。
进一步地,在该技术方案中,关联准确率为机器学习模型输出的与题目关联的知识点数据的数量和该题目实际关联的知识点数据的数量之间的比值。具体地,机器学习模型输出的与题目关联的知识点数据的数量仅包括关联正确的知识点数据的数量。
进一步地,在该技术方案中,关联准确率的获取方法包括:获取第二题目样本群和与第二题目样本群对应的第二知识点样本群;提取第二题目样本群的题目特征参数;获取第二知识点样本群的知识点特征参数;根据第二题目特征参数和第二知识点特征参数对第二知识点样本群进行样本标注;将第二题目特征参数和第二知识点特征参数输入机器学习模型。通过将机器学习模型输出的与第二题目样本群中每个题目关联的知识点数据,与被进行样本标注的第二知识点样本群比对,以确定机器学习模型针对每个题目关联正确的知识点数据的数量和每个题目实际包含的知识点数据的数量,进而确定关联准确率。
在上述任一技术方案中,题目知识点关联方法,还包括:设置关联准确率阈值;确定题目特征参数和知识点特征参数为输入信息,并确定与题目关联的知识点数据为输出信息;将输入信息和输出信息输入知识点关联模型,对知识点关联模型进行优化训练,以获得关联准确率不小于关联准确率阈值的知识点关联模型。
在该技术方案中,当需要调整知识点关联模型的关联准确率时,可以通过设置输入信息和输出信息,对知识点关联模型进行优化训练,进而获得关联准确率满足要求的知识点关联模型。
进一步地,在该技术方案中,可以通过将输入信息和输出信息同时输入Transformer模型和自注意力机制(self-attention),对Transformer模型和自注意力机制(self-attention)进行端到端训练。通过对Transformer模型和自注意力机制(self-attention)进行端到端训练,可以不断提高Transformer模型和自注意力机制(self-attention)关联知识点的速度和精度,进而获得更加优化的Transformer模型和自注意力机制(self-attention)。
进一步地,在该技术方案中,在对知识点关联模型进行优化训练时,可以通过调整知识点关联模型的参数,以提高知识点关联模型的惯量准确率。具体地,将输入信息和输出信息输入知识点关联模型后,设置知识点关联模型的学习率参数为预设值,进而根据交叉验证规则,确定与学习率参数对应的知识点关联模型。以此获得的知识点关联模型为对应学习率参数下的最佳模型。具体地,学习率参数eta选取0.05~0.3之间的任一数值。进一步地,在该技术方案中,学习率参数eta为0.1。在学习率参数eta为0.1时,获得的知识点关联模型的关联准确率最高。
进一步地,在技术方案中,知识点关联模型中,除学习率参数之外的其他相关参数设置为预设值。具体地,该预设值可以由研究人员根据经验确定。
根据本发明的实施例的第二个方面,提出了一种题目知识点关联系统,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序以实现上述任一项技术方案中的题目知识点关联方法的步骤。
本发明的实施例的提出的题目知识点关联系统,能够实现上述任一项技术方案中的题目知识点关联方法的步骤,因此,其具有上述任一技术方案中的题目知识点关联方法所具有的全部技术效果,在此不再赘述。
根据本发明的实施例的第三个方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项技术方案中的题目知识点关联方法的步骤。
本发明的实施例提供的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项技术方案中的题目知识点关联方法的步骤,因此,其具有上述任一技术方案中的题目知识点关联方法所具有的全部技术效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的题目知识点关联方法的流程图;
图2示出了本发明的又一个实施例的题目知识点关联方法的流程图;
图3示出了本发明的又一个实施例的题目知识点关联方法的流程图;
图4示出了本发明的又一个实施例的题目知识点关联方法的流程图;
图5示出了本发明的又一个实施例的题目知识点关联方法的流程图;
图6示出了本发明的一个实施例的题目知识点关联系统的结构示意图;
图7示出了本发明的一个实施例的Transformer模型和自注意力机制(self-attention)的框架图;
图8示出了本发明的一个实施例的TextCNN模型的框架图。
其中,附图标记与部件名称之间的对应关系为:
600题目知识点关联系统,602存储器,604处理器。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图8描述根据本发明的一些实施例提供的题目知识点关联方法、题目知识点关联系统和计算机可读存储介质。
实施例一
如图1所示,实施例一提出了一种题目知识点关联方法,包括:
步骤102,获取题目样本群和题目样本群对应的知识点样本群;
步骤104,提取题目样本群的题目特征参数;
步骤106,获取知识点样本群的知识点特征参数;
步骤108,根据题目特征参数和知识点特征参数对知识点样本群进行样本标注;
步骤110,利用题目特征参数、知识点特征参数和被样本标注的知识点样本群进行机器学习模型的训练,以得到知识点关联模型;
步骤112,将任一待处理的题目信息的题目特征参数和与题目信息对应的知识点信息的知识点特征参数输入知识点关联模型,以输出与题目关联的知识点数据。
本发明的实施例提供的题目知识点关联方法,通过对题目样本群和知识点样本群进行机器学习模型的训练,得到能够准确关联题目中包含的知识点的知识点关联模型。具体地,在获得与题目关联的知识点数据时,一方面,从题目信息中提取题目特征参数,另一方面,还从知识点信息中提取知识点特征参数。通过将题目特征参数与知识点特征参数组合后确定与题目关联的知识点数据,不仅考虑了题目信息的特征参数,还考虑了题目特征参数和知识点特征参数之间的关系,能够提高题目知识点的关联精度。进一步地,还避免了题目信息过少时,可利用的上下文信息过少,导致无法从题目信息中获取足量的特征参数用于确定知识点数据,降低知识点的关联精度。此外,本申请的题目知识点关联方法在确定与题目关联的知识点时,无需人工对题目信息进行特征标注,降低了人工成本,提高了确定关联知识点的效率,还避免了由于不同人之间的理解差异,而导致的题目标注内容不同的技术问题。此外,通过将题目特征参数与知识点特征参数组合以确定与题目关联的知识点,能够同时输出与题目关联的多个知识点,进而避免了人工标注时由于疏忽而遗漏知识点标注的问题。
可以理解的是,在该技术方案中,在确定与题目关联的知识点数据时,其中,题目信息是根据对应科目的课程大纲信息获取的,知识点信息课程大纲信息包括的全部知识点信息。
进一步地,如图7所示,在该技术方案中,机器学习模型可以是Transformer模型和自注意力机制(self-attention)。考虑到不同的attention对序列信息有不同的偏好,机器学习模型使用了multi-head机制综合全面地对每道题目的特征参数建模。通过使用自注意力机制(self-attention)进行训练,可以代替关键词的提取,进而代替根据人工相似度阈值判断每道题目的考察核心知识点。进而实现了降低人工成本,提高题目知识点关联的效率。此外,还可以避免使用人工标注知识点时,由于不同人之间的理解差异导致的差异化问题。
在该技术方案中,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细粒度的机制。注意力机制可以快速提取稀疏数据的重要特征,被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制(self-attention)是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
实施例二
在上述实施例中,题目特征参数,包括:题目信息的文本特征向量和题目信息的题型特征向量。
在该实施例中,通过题目信息的文本特征向量和题目信息的题型特征向量确定为题目特征参数,以便在题目信息的文本内容过少时,能够结合题目信息的题型特征向量确定关联知识点,通过增加题目特征参数的范围,提高题目知识点关联的准确性。
进一步地,在上述任一实施例中,根据题目信息,题目信息的文本特征向量的提取步骤,具体包括:对题目信息进行分词,以生成文本词组信息;根据文本词组信息,生成与文本词组信息对应的词向量信息;根据词向量信息,确定题目信息的文本特征向量信息。
在一个具体地实施例中,如图2所示,题目知识点关联方法,包括:
步骤202,对题目信息进行分词,以生成文本词组信息;
步骤204,根据文本词组信息,生成与文本词组信息对应的词向量信息;
步骤206,根据词向量信息,确定题目信息的文本特征向量信息。
在该实施例中,通过对题目信息分词并提取词向量信息,进而根据词向量信息确定题目信息的文本特征向量信息。一方面,在题目信息中的文本数据较少时,能够获取足量的文本特征向量信息,进而保证能够为题目准确关联知识点数据,避免题目文本过短时,无法从题目文本中提取足量的关键词用于关联知识点数据,降低关联知识点的准确性。另一方面,减少了人工标注题目文本中关键词的步骤,降低了人工成本,提高了关联知识点信息的效率,还避免了人工标注关键词存在的差异化问题。
进一步地,在该实施例中,采用Bert训练模型,提取文本词组中词向量。通过使用Bert训练模型提取词向量,能够联系题目信息的上下文语境,使得获取的词向量更准确,进而提高题目知识点的关联精度。
进一步地,如图8所示,在该实施例中,采用TextCNN模型,提取词向量中的文本特征向量。通过使用TextCNN模型提取文本特征向量,能够快速、高效地提取到词向量中的文本特征向量,并且在提取文本特征向量时,能够将不同词向量的语义关联后再进行提取特征向量,进而提高文本特征向量提取的准确性。
进一步地,在上述任一实施例中,在执行对题目信息进行分词的步骤之前,题目知识点关联方法还包括:去除题目信息中与知识点信息无关的信息数据。
在一个具体地实施例中,如图3所示,题目知识点关联方法,包括:
步骤302,去除题目信息中与知识点信息无关的信息数据;
步骤304,对题目信息进行分词,以生成文本词组信息;
步骤306,根据文本词组信息,生成与文本词组信息对应的词向量信息;
步骤308,根据词向量信息,确定题目信息的文本特征向量信息。
在该实施例中,通过对题目信息的文本数据进行数据清洗,去除题目信息的文本数据中与知识点信息无关的文本数据,比如标点符号、的、地等等与知识点信息无关的文本数据,进而提高词向量与知识点之间的相关性。进一步的,在根据词向量提取题目信息的文本特征向量时,能够提高确定文本特征向量的准确性和效率,还可以提高确定关联的知识点信息的效率和准确性。
进一步地,在上述任一实施例中,题型特征向量,包括:题目的类型信息、题目的难易程度信息和题目涉及的公式定理信息中的一种或多种。
在该实施例中,通过将题目的类型信息、题目的难易程度信息和题目涉及的公式定理信息中的一种或多种用于确定与题目关联的知识点数据,一方面,可以提高增加题目信息的特征,进而提高关联知识点的准确率。另一方面题型特征向量与知识点特征参数中的知识点结构特征向量相对应,进而提高知识点关联知识点的效率和准确率。此外,在题目信息的文本数据过少以致于题目的文本特征向量较少时,通过结合题目信息的题型特征向量确定关联知识点,能够保证题目知识点关联的准确性。
进一步地,在上述任一实施例中,知识点特征参数包括知识点结构特征向量,知识点结构特征向量包括:知识点在课程大纲中的位置信息、知识点的难易程度信息、知识点涉及的公式定理信息和知识点的知识图谱信息中一种或多种。
在该实施例中,通过将知识点的知识图谱信息和课程大纲中的全部知识点的结构特征,用于确定与题目相关的知识点信息,能够提高确定题目关联知识点信息的准确性。此外,即使题目信息中的文本数据较少,通过引入知识点的知识图谱信息和课程大纲中的全部知识点的结构特征进行补足题目信息中局部特征不足的缺陷,使得对题目信息的表征更加丰富,进而能够保证确定题目关联知识点信息的准确性。
实施例三
在上述任一实施例中,利用题目特征参数、知识点特征参数和被样本标注的知识点样本群进行机器学习模型的训练,以得到知识点关联模型的步骤,具体包括:将题目特征参数和知识点特征参数作为输入量输入机器学习模型;将被样本标注的知识点样本群输入作为输出量输入机器学习模型;获取机器学习模型的关联准确率;根据关联准确率和预设阈值的关系,确定结束机器学习模型的训练,生成知识点关联模型。
在一个具体地实施例中,如图4所示,题目知识点关联方法,包括:
步骤402,将题目特征参数和知识点特征参数作为输入量输入机器学习模型;
步骤404,将被样本标注的知识点样本群输入作为输出量输入机器学习模型;
步骤406,获取机器学习模型的关联准确率;
步骤408,判断关联准确率是否不小于预设阈值,在判断结果为是时,执行步骤410,在判断结果为否时,执行步骤406;
步骤410,结束机器学习模型的训练,生成知识点关联模型。
在该实施例中,通过将题目特征参数和知识点特征参数作为输入量输入机器学习模型,将被样本标注的知识点样本群输入作为输出量输入机器学习模型,进行机器学习模型训练,进而得到知识点关联模型。通过将题目特征参数与知识点特征参数同时作为输入量输入机器学习模型,不仅考虑了题目信息的特征参数,还考虑了题目特征参数和知识点特征参数之间的关系,进而使得得到的知识点关联模型在进行知识点关联时,能够提高题目知识点的关联精度。
此外,通过获取机器学习模型的关联准确率,用于确定结束机器学习模型的训练的时机,进而保证得到的知识点关联模型能够准确关联题目中包含的知识点数据。具体地,在关联准确率不小于预设阈值时,结束机器学习模型的训练。在关联准确率小于预设阈值时,继续对机器学习模型进行训练,直到关联准确率不小于预设阈值。
进一步地,在该实施例中,关联准确率为机器学习模型输出的与题目关联的知识点数据的数量和该题目实际关联的知识点数据之间的比值。具体地,机器学习模型输出的与题目关联的知识点数据的数量仅包括关联正确的知识点数据的数量。
进一步地,在该实施例中,关联准确率的获取方法包括:获取第二题目样本群和与第二题目样本群对应的第二知识点样本群;提取第二题目样本群的题目特征参数;获取第二知识点样本群的知识点特征参数;根据第二题目特征参数和第二知识点特征参数对第二知识点样本群进行样本标注;将第二题目特征参数和第二知识点特征参数输入机器学习模型。通过将机器学习模型输出的与第二题目样本群中每个题目关联的知识点数据,与被进行样本标注的第二知识点样本群比对,以确定机器学习模型针对每个题目关联正确的知识点数据的数量和每个题目实际包含的知识点数据的数量,进而确定关联准确率。
进一步地,在上述任一实施例中,题目知识点关联方法,还包括:设置关联准确率阈值;确定题目特征参数和知识点特征参数为输入信息,并确定与题目关联的知识点数据为输出信息;将输入信息和输出信息输入知识点关联模型,对知识点关联模型进行优化训练,以获得关联准确率不小于关联准确率阈值的知识点关联模型。
在一个具体地实施例中,如图5所示,题目知识点关联方法,包括:
步骤502,获取题目样本群和题目样本群对应的知识点样本群;
步骤504,提取题目样本群的题目特征参数;
步骤506,获取知识点样本群的知识点特征参数;
步骤508,根据题目特征参数和知识点特征参数对知识点样本群进行样本标注;
步骤510,利用题目特征参数、知识点特征参数和被样本标注的知识点样本群进行机器学习模型的训练,以得到知识点关联模型;
步骤512,将任一待处理的题目信息的题目特征参数和与题目信息对应的知识点信息的知识点特征参数输入知识点关联模型,以输出与题目关联的知识点数据;
步骤514,设置关联准确率阈值;
步骤516,确定题目特征参数和知识点特征参数为输入信息,并确定与题目关联的知识点数据为输出信息;
步骤518,将输入信息和输出信息输入知识点关联模型,对知识点关联模型进行优化训练,以获得关联准确率不小于关联准确率阈值的知识点关联模型。
在该实施例中,当需要调整知识点关联模型的关联准确率时,可以通过设置输入信息和输出信息,对知识点关联模型进行优化训练,进而获得关联准确率满足要求的知识点关联模型。
进一步地,在该实施例中,可以通过将输入信息和输出信息同时输入Transformer模型和自注意力机制(self-attention),对Transformer模型和自注意力机制(self-attention)进行端到端训练。通过对Transformer模型和自注意力机制(self-attention)进行端到端训练,可以不断提高Transformer模型和自注意力机制(self-attention)关联知识点的速度和精度,进而获得更加优化的Transformer模型和自注意力机制(self-attention)。
进一步地,在该实施例中,在对知识点关联模型进行优化训练时,可以通过调整知识点关联模型的参数,以提高知识点关联模型的惯量准确率。具体地,将输入信息和输出信息输入知识点关联模型后,设置知识点关联模型的学习率参数为预设值,进而根据交叉验证规则,确定与学习率参数对应的知识点关联模型。以此获得的知识点关联模型为对应学习率参数下的最佳模型。具体地,学习率参数eta选取0.05~0.3之间的任一数值。进一步地,在该技术方案中,学习率参数eta为0.1。在学习率参数eta为0.1时,获得的知识点关联模型的关联准确率最高。
进一步地,在该实施例中,知识点关联模型中,除学习率参数之外的其他相关参数设置为预设值。具体地,该预设值可以由研究人员根据经验确定。
实施例四
如图6所示,实施例四提出了一种题目知识点关联系统600,包括:存储器602,用于存储计算机程序;处理器604,用于执行计算机程序以实现上述任一项技术方案中的题目知识点关联方法的步骤。
本发明的实施例的提出的题目知识点关联系统,能够实现上述任一项技术方案中的题目知识点关联方法的步骤,因此,其具有上述任一技术方案中的题目知识点关联方法所具有的全部技术效果,在此不再赘述。
实施例五
实施例五提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项技术方案中的题目知识点关联方法的步骤。
本发明的实施例提供的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项技术方案中的题目知识点关联方法的步骤,因此,其具有上述任一技术方案中的题目知识点关联方法所具有的全部技术效果,在此不再赘述。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种题目知识点关联方法,其特征在于,包括:
获取题目样本群和所述题目样本群对应的知识点样本群;
提取所述题目样本群的题目特征参数;
获取所述知识点样本群的知识点特征参数;
根据所述题目特征参数和所述知识点特征参数对所述知识点样本群进行样本标注;
利用所述题目特征参数、所述知识点特征参数和所述被样本标注的所述知识点样本群进行机器学习模型的训练,以得到知识点关联模型;
将任一待处理的题目信息的题目特征参数和与所述题目信息对应的知识点信息的知识点特征参数输入所述知识点关联模型,以输出与题目关联的知识点数据。
2.根据权利要求1所述的题目知识点关联方法,其特征在于,所述题目特征参数,包括:
所述题目信息的文本特征向量和所述题目信息的题型特征向量。
3.根据权利要求2所述的题目知识点关联方法,其特征在于,所述题目信息的文本特征向量的提取步骤,具体包括:
对所述题目信息进行分词,以生成文本词组信息;
根据所述文本词组信息,生成与所述文本词组信息对应的词向量信息;
根据所述词向量信息,确定所述题目信息的文本特征向量信息。
4.根据权利要求3所述的题目知识点关联方法,其特征在于,在执行对所述题目信息进行分词的步骤之前,所述题目知识点关联方法还包括:
去除所述题目信息中与知识点信息无关的信息数据。
5.根据权利要求2所述的题目知识点关联方法,其特征在于,所述题型特征向量,包括:
所述题目的类型信息、所述题目的难易程度信息和所述题目涉及的公式定理信息中的一种或多种。
6.根据权利要求1所述的题目知识点关联方法,其特征在于,所述知识点特征参数包括知识点结构特征向量,所述知识点结构特征向量包括:
所述知识点在课程大纲中的位置信息、所述知识点的难易程度信息、所述知识点涉及的公式定理信息、所述知识点的知识图谱信息中一种或多种。
7.根据权利要求1所述的题目知识点关联方法,其特征在于,利用所述题目特征参数、所述知识点特征参数和所述被样本标注的所述知识点样本群进行机器学习模型的训练,以得到知识点关联模型的步骤,具体包括:
将所述题目特征参数和所述知识点特征参数作为输入量输入所述机器学习模型;
将所述被样本标注的所述知识点样本群输入作为输出量输入所述机器学习模型;
获取所述机器学习模型的关联准确率;
根据所述关联准确率和预设阈值的关系,确定结束所述机器学习模型的训练,生成所述知识点关联模型。
8.根据权利要求7所述的题目知识点关联方法,其特征在于,所述题目知识点关联方法,还包括:
设置关联准确率阈值;
确定所述题目特征参数和所述知识点特征参数为输入信息,并确定与所述题目关联的所述知识点数据为输出信息;
将所述输入信息和所述输出信息输入所述知识点关联模型,对所述知识点关联模型进行优化训练,以获得所述关联准确率不小于所述关联准确率阈值的知识点关联模型。
9.一种题目知识点关联系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至8中任一项所述的题目知识点关联方法的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的题目知识点关联方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010994409.5A CN112182237A (zh) | 2020-09-21 | 2020-09-21 | 题目知识点关联方法、题目知识点关联系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010994409.5A CN112182237A (zh) | 2020-09-21 | 2020-09-21 | 题目知识点关联方法、题目知识点关联系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182237A true CN112182237A (zh) | 2021-01-05 |
Family
ID=73956666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010994409.5A Pending CN112182237A (zh) | 2020-09-21 | 2020-09-21 | 题目知识点关联方法、题目知识点关联系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182237A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010830A (zh) * | 2021-04-01 | 2021-06-22 | 深圳市东方迈卓科技有限公司 | 互联网教育的错题记录方法及系统 |
CN113836377A (zh) * | 2021-08-24 | 2021-12-24 | 北京百度网讯科技有限公司 | 信息关联方法、装置、电子设备及存储介质 |
CN115186780A (zh) * | 2022-09-14 | 2022-10-14 | 江西风向标智能科技有限公司 | 学科知识点分类模型训练方法、系统、存储介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930319A (zh) * | 2016-05-09 | 2016-09-07 | 北京新唐思创教育科技有限公司 | 建立获取题目知识点模型、获取题目知识点的方法和装置 |
US20170103074A1 (en) * | 2015-10-09 | 2017-04-13 | Fujitsu Limited | Generating descriptive topic labels |
CN107590127A (zh) * | 2017-09-21 | 2018-01-16 | 北京师范大学 | 一种题库知识点自动标注方法及系统 |
CN109918514A (zh) * | 2019-03-21 | 2019-06-21 | 江西风向标教育科技有限公司 | 一种数学题目知识点和解题方法的自动提取方法、装置、平台 |
CN110362671A (zh) * | 2019-07-16 | 2019-10-22 | 安徽知学科技有限公司 | 题目推荐方法、设备和存储介质 |
CN111460101A (zh) * | 2020-03-30 | 2020-07-28 | 广州视源电子科技股份有限公司 | 知识点类型的识别方法、装置及处理器 |
CN111582694A (zh) * | 2020-04-29 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种学习评估方法及装置 |
-
2020
- 2020-09-21 CN CN202010994409.5A patent/CN112182237A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170103074A1 (en) * | 2015-10-09 | 2017-04-13 | Fujitsu Limited | Generating descriptive topic labels |
CN105930319A (zh) * | 2016-05-09 | 2016-09-07 | 北京新唐思创教育科技有限公司 | 建立获取题目知识点模型、获取题目知识点的方法和装置 |
CN107590127A (zh) * | 2017-09-21 | 2018-01-16 | 北京师范大学 | 一种题库知识点自动标注方法及系统 |
CN109918514A (zh) * | 2019-03-21 | 2019-06-21 | 江西风向标教育科技有限公司 | 一种数学题目知识点和解题方法的自动提取方法、装置、平台 |
CN110362671A (zh) * | 2019-07-16 | 2019-10-22 | 安徽知学科技有限公司 | 题目推荐方法、设备和存储介质 |
CN111460101A (zh) * | 2020-03-30 | 2020-07-28 | 广州视源电子科技股份有限公司 | 知识点类型的识别方法、装置及处理器 |
CN111582694A (zh) * | 2020-04-29 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种学习评估方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010830A (zh) * | 2021-04-01 | 2021-06-22 | 深圳市东方迈卓科技有限公司 | 互联网教育的错题记录方法及系统 |
CN113836377A (zh) * | 2021-08-24 | 2021-12-24 | 北京百度网讯科技有限公司 | 信息关联方法、装置、电子设备及存储介质 |
CN115186780A (zh) * | 2022-09-14 | 2022-10-14 | 江西风向标智能科技有限公司 | 学科知识点分类模型训练方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11508251B2 (en) | Method and system for intelligent identification and correction of questions | |
CN109271401B (zh) | 一种题目搜索、批改方法、装置、电子设备和存储介质 | |
CN112182237A (zh) | 题目知识点关联方法、题目知识点关联系统和存储介质 | |
CN110362671B (zh) | 题目推荐方法、设备和存储介质 | |
CN111597908A (zh) | 试卷批改方法和试卷批改装置 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
JP2020047234A (ja) | データ評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN114218379B (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN114067233B (zh) | 一种跨模态匹配方法及系统 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112528011B (zh) | 多数据源驱动的开放式数学作业批改方法、系统及设备 | |
CN107992482B (zh) | 数学主观题解答步骤的规约方法及系统 | |
CN113435213B (zh) | 针对用户问题和知识库返回答案的方法和装置 | |
CN112732908B (zh) | 试题新颖度评估方法、装置、电子设备和存储介质 | |
CN112860983B (zh) | 一种学习内容推送的方法、系统、设备及可读存储介质 | |
CN113837167A (zh) | 一种文本图像识别方法、装置、设备及存储介质 | |
CN113569112A (zh) | 基于题目的辅导策略提供方法、系统、装置及介质 | |
CN111881694A (zh) | 篇章要点检测方法、装置、设备及存储介质 | |
CN117435746B (zh) | 基于自然语言处理的知识点标注方法及系统 | |
CN110096257B (zh) | 一种基于智能识别的设计图形自动化评判系统及方法 | |
CN117975477A (zh) | 试题录入方法及装置、电子设备、存储介质 | |
CN115618053A (zh) | 一种教学视频单题切分方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |