CN114610892A - 知识点标注方法、装置、电子设备和计算机存储介质 - Google Patents
知识点标注方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN114610892A CN114610892A CN202011428558.1A CN202011428558A CN114610892A CN 114610892 A CN114610892 A CN 114610892A CN 202011428558 A CN202011428558 A CN 202011428558A CN 114610892 A CN114610892 A CN 114610892A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- test question
- knowledge point
- question text
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 124
- 238000002372 labelling Methods 0.000 claims abstract description 72
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 32
- 239000013598 vector Substances 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000001746 injection moulding Methods 0.000 description 2
- 239000004816 latex Substances 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种知识点标注方法、装置、计算机设备和存储介质。该方法包括:获取待标注的试题文本,对试题文本进行分词处理,生成词汇集;将词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集;该知识图谱由两个以上的知识点构成;将试题文本输入到知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集;通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配,提取相似度大于预设相似度阈值的知识点标签,生成知识点标注结果。上述知识点标注方法,整个知识点标注过程中,自动完成知识点标注,无需人工参与,有利于提高知识点标注过程的工作效率,降低成本。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种知识点标注方法、装置、电子设备和计算机存储介质。
背景技术
近年来,互联网的快速发展催生了一大批在线教育平台。通过在线教育平台,学生可以在线进行学习、互动、作业、考试等等。在线教育平台缓解了传统教育资源不均衡问题,使得各个地区的学生都可以享受到优质的网络课程。但也出现了一些问题,如大量的试题内容使得学生无法对自己不熟悉的知识点进行专项有效的训练。因此构建一个以知识体系为导向的试题库,并根据每一个学生掌握知识的情况进行个性化推荐服务,是目前在线教育平台的研究重点。而构建试题库知识体系,首先要对每个试题进行知识点的标注。
传统的针对试题中的知识点进行标注时,采用人工标注的方式进行。这种人工标注知识点的方式,由标注人员阅读每道试题,再根据自己的经验标注试题的知识点。因此,传统的知识点标注方法,费时费力,具有工作效率低的缺点。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高工作效率的知识点标注方法、装置、电子设备和计算机存储介质。
本申请第一方面,提供了一种知识点标注方法,包括:
获取待标注的试题文本,对所述试题文本进行分词处理,生成词汇集;
将所述词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集;所述知识图谱由两个以上的知识点构成;
将所述试题文本输入知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集;
通过文本相似度技术对所述第一标注标签集和所述第二标注标签集进行相似度匹配,提取相似度大于预设阈值的知识点标签,生成知识点标注结果。
在一个实施例中,文本相似度技术为余弦相似度技术。
在一个实施例中,所述获取待标注的试题文本,对所述试题文本进行分词处理,生成词汇集之前,还包括:
对所述试题文挡进行预处理,生成试题文本。
在一个实施例中,所述对所述试题文挡进行预处理,生成试题文本,包括:
判断所述试题文挡的文档类型,并根据所述文档类型对所述试题文档进行格式转换,生成转换文档;
判断所述转换文档中各信息点对应的元素类型,并根据所述元素类型,按照对应的算法对所述各信息点进行解析,得到解析结果;
存储所述解析结果,生成试题文本。
在一个实施例中,所述将所述词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集之前,还包括:
根据学科培养大纲和教学课本,构建对应学科的知识图谱。
在一个实施例中,所述根据学科培养大纲和教学课本,构建对应学科的知识图谱,包括:
根据学科培养大纲和教学课本的标题或目录,提取知识点;
根据所述学科培养大纲和所述教学课本的内容,构建所述知识点之间的关联;
根据所述知识点和所述知识点之间的关联,并结合专家领域知识,生成对应学科的知识图谱。
在一个实施例中,所述根据学科培养大纲和教学课本,构建对应学科的知识图谱之后,所述将所述试题文本输入预设的知识点标注模型,并对所述试题文本进行向量化处理,再基于预设算法生成第二标注标签集之前,还包括:
根据所述知识图谱,以题为单位标注所述试题文本,生成数据集,并根据所述数据集训练知识点标注模型。
本申请第二方面,提供了一种知识点标注装置,包括:
分词模块,用于获取待标注的试题文本,对所述试题文本进行分词处理,生成词汇集;
第一标注标签集生成模块,用于将所述词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集;
第二标注标签集生成模块,用于将所述试题文本输入知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集;所述知识图谱由两个以上的知识点构成;
知识点标注结果确定模块,用于通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配,提取相似度大于预设阈值的知识点标签,生成知识点标注结果。
在一个实施例中,该装置还包括预处理模块,用于:对试题文挡进行预处理,生成试题文本。
在一个实施例中,预处理模块包括文档转换单元、解析单元和试题文本生成单元。其中,文档转换单元,用于判断试题文档的文档类型,并根据文档类型对试题文档进行格式转换,生成转换文档;解析单元,用于判断转换文档中各信息点对应的元素类型,并根据元素类型,按照对应的算法对各信息点进行解析,得到解析结果;试题文本生成单元,用于存储解析结果,生成试题文本。
在一个实施例中,该装置还包括知识图谱构建模块,用于:根据学科培养大纲和教学课本,构建对应学科的知识图谱。
在一个实施例中,知识图谱构建模块包括知识点构建单元、关联单元和知识图谱构建单元。其中,知识点构建单元,用于根据学科培养大纲和教学课本的标题或目录,提取知识点;关联单元,用于根据学科培养大纲和教学课本的内容,提取知识点之间的关联;知识图谱构建单元,用于根据知识点和知识点之间的关联,并结合专家领域知识,生成对应学科的知识图谱。
在一个实施例中,该装置还包括知识点标注模型训练模块,用于:根据知识图谱,以题为单位标注试题文本,生成数据集,并根据数据集训练知识点标注模型。
本申请第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述实施例中所述的方法的步骤。
本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述实施例中所述的方法的步骤。
上述知识点标注方法、装置、电子设备和计算机存储介质,一方面,通过获取待标注的试题文本,对试题文本进行分词处理,生成词汇集,再将词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集。另一方面,将试题文本输入知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集。最后再按照预设的规则对第一标注标签集和第二标注标签集进行相似度匹配,生成知识点标注结果。整个知识点标注过程中,自动完成知识点标注,无需人工参与,有利于提高知识点标注过程的工作效率。
附图说明
图1为一个实施例中知识点标注方法的流程示意图;
图2为另一个实施例中知识点标注方法的流程示意图;
图3为一个实施例中对试题文挡进行预处理,生成试题文本的流程示意图;
图4为一个实施例中对试题文档进行预处理的过程示意图;
图5为一个实施例根据学科培养大纲和教学课本,构建对应学科的知识图谱的流程示意图;
图6为一个实施例中知识点标注装置的结构框图;
图7为另一个实施例中知识点标注装置的结构框图;
图8为一个实施例中电子设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种知识点标注方法,本实施例中以该方法应用于终端进行举例说明,可以理解,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的终端实现。本实施例中,知识点标注方法包括步骤S200至步骤S800。
步骤S200:获取待标注的试题文本,对该试题文本进行分词处理,生成词汇集。
其中,待标注的试题文本,可以是试卷或练习题等包含试题内容的文本。试题文本的学科,包括语文、数学、英语或政治等。总之,本申请实施例对试题文本的具体内容和学科类型不作限定。具体的,获取待标注的试题文本后,以题为单位,根据统计机器学习、词典规则等技术将试题文本划分成多个词语。可以理解,词汇集是指分词处理后得到的多个词语的集合。
步骤S400:将词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集。
其中,知识图谱是指针对某一特定学科,或该特定学科内的某部分内容,构建的逻辑结构及体系构架。本申请中的知识图谱,是通过两个以上的知识点构建而成的。具体的,将词汇集内的词语,与知识图谱中的知识点进行关键词匹配以及文本相似度对比,就可以找到一个或多个知识点标签,生成第一标注标签集。
步骤S600:将试题文本输入知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集。
具体的,将试题文本输入到知识点标注模型中,通过深度学习技术提取文本特征进行向量化表示,根据Softmax算法将向量化的表示转换成当前试题属于每个知识点标签的概率分布,并将知识点的概率值高于预设阈值的知识点标签输出,生成第二标注标签集。
步骤S800:通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配,提取相似度大于预设阈值的知识点标签,生成知识点标注结果。
使用词向量及文本相似度技术,将第一标注标签集和第二标注标签集中的知识点标签进行对比,提取出相似度大于预设相似度阈值的知识点标签,并根据第一标注标签集加入隐藏的预备知识点,生成最终的标注结果。
下面以预设相似度阈值为80%的情况,进行举例说明。
例如,针对一个试题,第一标注标签集包括:长江经济带发展、生态环境、协同发展、绿色发展、辩证法、两点论、重点论、同一性、斗争性、主要矛盾、次要矛盾。第二标注标签集包括:主要矛盾、次要矛盾、辩证法。通过文本相似度技术融合,可以得出两部分中的“主要矛盾、次要矛盾、辩证法”是相同的。但“辩证法”和“同一性”或“斗争性”的相关性高,计算得出相似度为81%。结合第一标注标签集和第二标注标签集中相似度高于80%的知识点,就可以生成最终的知识点标注结果。
在一个实施例中,文本相似度技术为余弦相似度技术。余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。具体的,将第一标注标签集和第二标注标签集进行向量化标识,并将向量根据坐标值,绘制到向量空间中,再计算向量间的余弦值,余弦值接近1,夹角趋于0°,表明两个向量越相似,余弦值接近于0,夹角趋于90°,表明两个向量越不相似。
进一步的,在一个实施例中,生成知识点标注结果之前,还包括在构建好的知识图谱中,按照当前生成的知识点标签查找出隐藏的知识点,然后添加进去。
上述知识点标注方法,一方面,通过获取待标注的试题文本,对试题文本进行分词处理,生成词汇集,再将词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集。另一方面,将试题文本输入知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集。最后再按照预设的规则对第一标注标签集和第二标注标签集进行相似度匹配,生成知识点标注结果。整个知识点标注过程中,自动完成知识点标注,无需人工参与,有利于提高知识点标注过程的工作效率,降低成本。另外,人工标注的主观性强,标注的准确率与标注人员的经验相关,本实施例中,无需人工干预自动完成知识点标注,可以消除人的主观因素的影响,提高知识点标注的准确性。
在一个实施例中,请参考图2,步骤S200之前,还包括步骤S100:对试题文挡进行预处理,生成试题文本。
具体的,试题文档中包括纯文本内容和非纯文本内容,其中非纯文本内容通常包括图片、公式和表格等。对试题文档进行预处理,将纯文本和非纯文本内容进行预处理,重新编码后生成试题文本。可以全面的提取试题文档中的有用信息,提高知识点标注的效率和准确性。
在一个实施例中,请参考图3,步骤S100包括步骤S120至步骤S160。
步骤S120:判断试题文档的文档类型,并根据文档类型对试题文档进行格式转换,生成转换文档。
其中,试题文档的文档类型,是指试题文档的格式,如PDF(Portable DocumentFormat,可移植文档格式)、Word或Excel。具体的,先判断试题文档的文档类型,再根据文档类型对试题文档进行格式转换。请参考图4,提供了一种文档预处理过程。如图4所示,当试题文档是Word文档时,将试题文档转换成mhtml格式。当试题文档不是Word文档如PDF文档时,先将试题文档转换成Word文档,再进一步转换成mhtml格式。由于mhtml格式可以将Word文档中的图片、公式、表格等其他富文本信息存储到一个.mht文件中,并将Word文档中的图片和公式自动转成imagebase64的图片编码格式。将文档转换为mhtml格式后,可以便于后续处理。
步骤S140:判断转换文档中各信息点对应的元素类型,并根据元素类型,按照对应的算法对各信息点进行解析,得到解析结果。
其中,元素类型是指文本、图片、公式或表格等。将转换后的文件输入到mhtml解析模块中,判断转换文档中各信息点对应的元素类型,并根据元素类型,按照对应的算法对各信息点进行解析,就可以得到解析结果。具体的,针对元素类型为文本、图片和表格的信息点,直接进入对应的解析模块中,得到解析结果。针对元素类型为公式的信息点,首先进行公式imagebase64内容编码的识别,再将公式内容转换成LaTeX语言,然后再将LaTeX语言转换成文字描述,得到解析结果。例如,“\int”用“积分”替换,“\vec”用“向量”替换。由于公式中通常包含知识点,通过替换后,可以更加全面的提取试题中的知识点。
步骤S160:存储解析结果,生成试题文本。
将解析结果存储至数据库,就得到了待处理的试题文本。
上述实施例中,先对试题文档进行预处理,生成试题文本,由于试题文档中的非文字内容也会包含知识点,通过预处理,有利于更加全面的提取试题中的知识点,提高知识点标注方法的准确性。
在一个实施例中,请参考图2,步骤S400之前,还包括步骤S300:根据学科培养大纲和教学课本,构建对应学科的知识图谱。
其中,步骤S300可以在步骤S100之前、之后或与步骤S100同时进行,同样的,步骤S300也可以在步骤S200之前、之后或与步骤S100同时进行。
如上文所述,知识图谱是指针对某一特定学科,或该特定学科内的某部分内容,构建的逻辑结构及体系构架。具体的,根据学科培养大纲、教学课本和专业领域知识,可以发现学科中的知识点具有层次包含和相互关联的特性,构建对应学科的知识图谱。
在一个实施例中,请参考图5,步骤S300包括步骤S320至步骤S360。
步骤S320:根据学科培养大纲和教学课本的标题或目录,提取知识点。
可以理解,学科培养大纲和教学课本中包括多种层次的标题或目录,相应的,根据不同层次的标题或目录,就可以构建不同层次的知识点。具体的,采用自顶向下的设计模式,从学科培养大纲及教学课本中获取知识点:将培养大纲和教学课本中的第一层标题或一级目录中的内容提取为大知识点;将培养大纲和教学课本中的第二层标题或二级目录中的内容提取为中知识点;将培养大纲和教学课本中的第三层标题或三级目录中的内容提取为小知识点。
步骤S340:根据学科培养大纲和教学课本的内容,提取知识点之间的关联。
具体的,不同层次的知识点之间,是包含与被包含的关系。例如,一个大知识点包含很多中知识点,一个中知识点包含多个小知识点。针对同一层次知识点,根据学科培养大纲和教学课本的内容,可以提取知识点之间的联系。例如,知识点A的学习需要先掌握知识点B,那么知识点B就是知识点A的预备知识点,此时,使用一个有向箭头由知识点A指向知识点B,并标识“预备”字样。另外,只有知识点之间有较强的关联才能标记“预备”,例如:学科培养大纲及教学课本中对知识点A的描述中,出现了“需要提前掌握b”、“已知b”或“根据b”等描述,而内容b对应知识点B,则知识点B为知识点A的“预备”知识点。
步骤S360:根据知识点和知识点之间的关联,并结合专家领域知识,生成对应学科的知识图谱。
具体的,专家领域知识包括相关的知识图谱和学科知识词典。结合专家领域知识,按照设定的检查规则,就可以检查步骤S320中提取的知识点的内容,以及步骤S340中构建的知识点之间的关系。再根据检查结果对知识点和知识点之间的关系进行修正,就可以生成对应学科的知识图谱。
上述实施例中,根据学科培养大纲和教学课本,按照自顶向下的设计模式,提取知识点,并构建知识点之间的关联,再结合专家领域知识进行修正,生成知识图谱,有利于提高知识图谱的准确度,进而提高标注结果的可靠性。
在一个实施例中,请继续参考图2,步骤S300之后,步骤S600之前,还包括步骤S500。其中,步骤S500可以在步骤S200之前、之后或与步骤S200同时进行,同样的,步骤S500也可以在步骤S400之前、之后或与步骤S400同时进行。
步骤S500:根据知识图谱,以题为单位标注试题文本,生成数据集,并根据数据集训练知识点标注模型。
具体的,根据知识图谱的内容,以最小层次的知识点为标签,对试题文本的各题进行标注,生成数据集,再将数据集输入到知识点标注模型中进行训练。可以理解,模型预测的准确率与数据集中试题的数量正相关。因此,在模型预测阶段,知识点标注结果后,可以将包含标注内容的试题文本存储至数据集中,增加数据集中试题的数量,进一步提高知识点标注结果的准确率。
应该理解的是,虽然上述实施例中涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例中涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种知识点标注装置,包括:分词模块200、第一标注标签集生成模块400、第二标注标签集生成模块600和知识点标注结果确定模块800。其中:分词模块200,用于获取待标注的试题文本,对试题文本进行分词处理,生成词汇集;第一标注标签集生成模块400,用于将词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集;第二标注标签集生成模块600,用于将试题文本输入知识点标注模型,并对试题文本进行向量化处理,再基于预设算法生成第二标注标签集;知识点标注结果确定模块800,用于通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配,提取相似度大于预设阈值的知识点标签,生成知识点标注结果。
在一个实施例中,请参考图7,该装置还包括预处理模块100,用于:对试题文挡进行预处理,生成试题文本。
在一个实施例中,预处理模块100包括文档转换单元、解析单元和试题文本生成单元。其中,文档转换单元,用于判断试题文档的文档类型,并根据文档类型对试题文档进行格式转换,生成转换文档;解析单元,用于判断转换文档中各信息点对应的元素类型,并根据元素类型,按照对应的算法对各信息点进行解析,得到解析结果;试题文本生成单元,用于存储解析结果,生成试题文本。
在一个实施例中,请继续参考图7,该装置还包括知识图谱构建模块300,用于:根据学科培养大纲和教学课本,构建对应学科的知识图谱。
在一个实施例中,知识图谱构建模块300包括知识点构建单元、关联单元和知识图谱构建单元。其中,知识点构建单元,用于根据学科培养大纲和教学课本的标题或目录,提取知识点;关联单元,用于根据学科培养大纲和教学课本的内容,提取知识点之间的关联;知识图谱构建单元,用于根据知识点和知识点之间的关联,并结合专家领域知识,生成对应学科的知识图谱。
在一个实施例中,请继续参考图7,该装置还包括知识点标注模型训练模块500,用于:根据知识图谱,以题为单位标注试题文本,生成数据集,并根据数据集训练知识点标注模型。
关于知识点标注装置的具体限定可以参见上文中对于知识点标注方法的限定,在此不再赘述。上述知识点标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识点标注方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种知识点标注方法,其特征在于,包括:
获取待标注的试题文本,对所述试题文本进行分词处理,生成词汇集;
将所述词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集;所述知识图谱由两个以上的知识点构成;
将所述试题文本输入知识点标注模型,并对所述试题文本进行向量化处理,再基于预设算法生成第二标注标签集;
通过文本相似度技术对所述第一标注标签集和所述第二标注标签集进行相似度匹配,提取相似度大于预设相似度阈值的知识点标签,生成知识点标注结果。
2.根据权利要求1所述的知识点标注方法,其特征在于,所述文本相似度技术为余弦相似度技术。
3.根据权利要求1所述的知识点标注方法,其特征在于,所述获取待标注的试题文本,对所述试题文本进行分词处理,生成词汇集之前,还包括:
对所述试题文挡进行预处理,生成试题文本。
4.根据权利要求3所述的知识点标注方法,其特征在于,所述对所述试题文挡进行预处理,生成试题文本,包括:
判断所述试题文挡的文档类型,并根据所述文档类型对所述试题文档进行格式转换,生成转换文档;
判断所述转换文档中各信息点对应的元素类型,并根据所述元素类型,按照对应的算法对所述各信息点进行解析,得到解析结果;
存储所述解析结果,生成试题文本。
5.根据权利要求1所述的知识点标注方法,其特征在于,将所述词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集之前,还包括:
根据学科培养大纲和教学课本,构建对应学科的知识图谱。
6.根据权利要求5所述的知识点标注方法,其特征在于,所述根据学科培养大纲和教学课本,构建对应学科的知识图谱,包括:
根据学科培养大纲和教学课本的标题或目录,提取知识点;
根据所述学科培养大纲和所述教学课本的内容,构建所述知识点之间的关联;
根据所述知识点和所述知识点之间的关联,并结合专家领域知识,生成对应学科的知识图谱。
7.根据权利要求5所述的知识点标注方法,其特征在于,所述根据学科培养大纲和教学课本,构建对应学科的知识图谱之后,所述将所述试题文本输入预设的知识点标注模型,并对所述试题文本进行向量化处理,再基于预设算法生成第二标注标签集之前,还包括:
根据所述知识图谱,以题为单位标注所述试题文本,生成数据集,并根据所述数据集训练知识点标注模型。
8.一种知识点标注装置,其特征在于,包括:
分词模块,用于获取待标注的试题文本,对所述试题文本进行分词处理,生成词汇集;
第一标注标签集生成模块,用于将所述词汇集与对应的知识图谱进行匹配,并根据匹配结果生成第一标注标签集;
第二标注标签集生成模块,用于将所述试题文本输入到知识点标注模型,并对所述试题文本进行向量化处理,再基于预设算法生成第二标注标签集;
知识点标注结果确定模块,用于按照预设的规则对所述第一标注标签集和所述第二标注标签集进行相似度匹配,生成知识点标注结果。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011428558.1A CN114610892A (zh) | 2020-12-09 | 2020-12-09 | 知识点标注方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011428558.1A CN114610892A (zh) | 2020-12-09 | 2020-12-09 | 知识点标注方法、装置、电子设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114610892A true CN114610892A (zh) | 2022-06-10 |
Family
ID=81856839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011428558.1A Withdrawn CN114610892A (zh) | 2020-12-09 | 2020-12-09 | 知识点标注方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610892A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186780A (zh) * | 2022-09-14 | 2022-10-14 | 江西风向标智能科技有限公司 | 学科知识点分类模型训练方法、系统、存储介质及设备 |
CN116955589A (zh) * | 2023-09-19 | 2023-10-27 | 山东山大鸥玛软件股份有限公司 | 一种基于教材知识图谱的智能命题方法、系统、命题终端及存储介质 |
CN117034864A (zh) * | 2023-09-07 | 2023-11-10 | 广州市新谷电子科技有限公司 | 可视化标注方法、装置、计算机设备以及存储介质 |
CN117421426A (zh) * | 2023-12-18 | 2024-01-19 | 广东信聚丰科技股份有限公司 | 基于人工智能辅助的知识点标注方法及系统 |
CN117435746A (zh) * | 2023-12-18 | 2024-01-23 | 广东信聚丰科技股份有限公司 | 基于自然语言处理的知识点标注方法及系统 |
CN118070776A (zh) * | 2024-04-25 | 2024-05-24 | 江西风向标智能科技有限公司 | 一种物理试题查重方法及系统 |
-
2020
- 2020-12-09 CN CN202011428558.1A patent/CN114610892A/zh not_active Withdrawn
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186780A (zh) * | 2022-09-14 | 2022-10-14 | 江西风向标智能科技有限公司 | 学科知识点分类模型训练方法、系统、存储介质及设备 |
CN117034864A (zh) * | 2023-09-07 | 2023-11-10 | 广州市新谷电子科技有限公司 | 可视化标注方法、装置、计算机设备以及存储介质 |
CN117034864B (zh) * | 2023-09-07 | 2024-05-10 | 广州市新谷电子科技有限公司 | 可视化标注方法、装置、计算机设备以及存储介质 |
CN116955589A (zh) * | 2023-09-19 | 2023-10-27 | 山东山大鸥玛软件股份有限公司 | 一种基于教材知识图谱的智能命题方法、系统、命题终端及存储介质 |
CN116955589B (zh) * | 2023-09-19 | 2024-01-30 | 山东山大鸥玛软件股份有限公司 | 一种基于教材知识图谱的智能命题方法、系统、命题终端及存储介质 |
CN117421426A (zh) * | 2023-12-18 | 2024-01-19 | 广东信聚丰科技股份有限公司 | 基于人工智能辅助的知识点标注方法及系统 |
CN117435746A (zh) * | 2023-12-18 | 2024-01-23 | 广东信聚丰科技股份有限公司 | 基于自然语言处理的知识点标注方法及系统 |
CN117435746B (zh) * | 2023-12-18 | 2024-02-27 | 广东信聚丰科技股份有限公司 | 基于自然语言处理的知识点标注方法及系统 |
CN117421426B (zh) * | 2023-12-18 | 2024-03-05 | 广东信聚丰科技股份有限公司 | 基于人工智能辅助的知识点标注方法及系统 |
CN118070776A (zh) * | 2024-04-25 | 2024-05-24 | 江西风向标智能科技有限公司 | 一种物理试题查重方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610892A (zh) | 知识点标注方法、装置、电子设备和计算机存储介质 | |
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、系统、装置和存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111581229A (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN110443571A (zh) | 基于知识图谱进行简历评估的方法、装置及设备 | |
CN112990180B (zh) | 判题方法、装置、设备及存储介质 | |
CN110442872B (zh) | 一种文本要素完整性审核方法及装置 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN115795056B (zh) | 非结构化信息构建知识图谱的方法、服务器及存储介质 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN115934955A (zh) | 一种电力标准知识图谱构建方法、知识问答系统及装置 | |
CN115309910A (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
CN110738050A (zh) | 基于分词和命名实体识别的文本重组方法及装置、介质 | |
CN118095267A (zh) | 一种基于向量匹配的语言模型回答溯源方法及系统 | |
CN114048282A (zh) | 一种基于文本树局部匹配的图文跨模态检索方法及系统 | |
CN113407676A (zh) | 题目批改方法和系统、电子设备和计算机可读介质 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN114579796B (zh) | 机器阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220610 |