CN112100976B - 知识点关系标注方法及系统 - Google Patents

知识点关系标注方法及系统 Download PDF

Info

Publication number
CN112100976B
CN112100976B CN202011020342.1A CN202011020342A CN112100976B CN 112100976 B CN112100976 B CN 112100976B CN 202011020342 A CN202011020342 A CN 202011020342A CN 112100976 B CN112100976 B CN 112100976B
Authority
CN
China
Prior art keywords
test question
question content
unit
knowledge point
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011020342.1A
Other languages
English (en)
Other versions
CN112100976A (zh
Inventor
许昭慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd filed Critical Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority to CN202011020342.1A priority Critical patent/CN112100976B/zh
Publication of CN112100976A publication Critical patent/CN112100976A/zh
Application granted granted Critical
Publication of CN112100976B publication Critical patent/CN112100976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明公开了知识点关系标注方法及系统。通过对试题内容进行分割,获得试题内容中的每一个单元句,再根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量,然后根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,最后根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,通过这一系列的智能化操作,完成了对试题所涉及知识点的标注,提高了标注的效率。

Description

知识点关系标注方法及系统
技术领域
本发明涉及智能教育技术领域,特别涉及知识点关系标注方法及系统。
背景技术
目前,将智能化技术应用到教学过程中,提高教学质量,已经成为了各个学校、培训机构的技术流行趋势。
当前,对于试题中涉及到的知识点,通常都是人工标注,非常的耗费精力,并且,人工标注时,由于标注人主观影响,标注结果的准确性也很难保证,因此,急需一种能够智能、自动、准确的标注试题对应的知识点的技术。
发明内容
本发明实施例提供了一种知识点关系标注方法及系统。
本发明实施例提供了一种知识点关系标注方法,包括:
对试题内容进行分割,获得所述试题内容中的每一个单元句;
根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量;
根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
在一个实施例中,所述根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure GDA0003174320040000021
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure GDA0003174320040000022
其中,
Figure GDA0003174320040000023
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure GDA0003174320040000024
等于或大于预设阈值时,表示所述第t个单元句涉及到了第j个知识点,记录所述第t个单元句涉及到了第j个知识点;当
Figure GDA0003174320040000025
小于预设阈值时,表示所述第t个单元句未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句与每个知识点之间的修正后关联度,并记录所述第t个单元句所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句所涉及的所有知识点,并记录所述试题内容中每一个单元句所涉及到的知识点。
在一个实施例中,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
在一个实施例中,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure GDA0003174320040000031
其中,fk表示涉及到第k个知识点的所有单元句的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
在一个实施例中,按照如下公式(4)计算所述U的取值:
Figure GDA0003174320040000032
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有单元句对应的试题内容部分的总占用存储空间大小。
一种知识点关系标注系统,包括:
分割模块,用于对试题内容进行分割,获得所述试题内容中的每一个单元句;
第一确定模块,用于根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量;
第二确定模块,用于根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
标注模块,用于根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
在一个实施例中,以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure GDA0003174320040000041
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure GDA0003174320040000042
其中,
Figure GDA0003174320040000043
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure GDA0003174320040000051
等于或大于预设阈值时,表示所述第t个单元涉及到了第j个知识点,记录所述第t个单元句涉及到了第j个知识点;当
Figure GDA0003174320040000052
小于预设阈值时,表示所述第t个单元句未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句与每个知识点之间的修正后关联度,并记录所述第t个单元句所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句所涉及的所有知识点,并记录所述试题内容中每一个单元句所涉及到的知识点。
在一个实施例中,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
在一个实施例中,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure GDA0003174320040000053
其中,fk表示涉及到第k个知识点的所有单元句的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
在一个实施例中,按照如下公式(4)计算所述U的取值:
Figure GDA0003174320040000061
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有单元句对应的试题内容部分的总占用存储空间大小。
本发明实施例提供的上述技术方案,通过对试题内容进行分割,获得试题内容中的每一个单元句,再根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量,然后根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,最后根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,通过这一系列的智能化操作,完成了对试题所涉及知识点的标注,提高了标注的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种知识点关系标注方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
如图1所示,为本发明实施例公开一种知识点关系标注方法,如图1所示,包括步骤S1-S4:
步骤S1、对试题内容进行分割,获得试题内容中的每一个单元句。
其中,单元句是指试题中被逗号、句号、分号、冒号、感叹号等标点符号隔开的一个一个的句子,具体的分割标准可以自由设定,本发明不做限制。
步骤S2、根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量。
其中,可以预先设置每个字符(例如字母、汉字、数字、数学符号等字符)对应的字符串,字符串可以是由多个数字构成的、唯一标识字符的编码;单元句中包括的每个字符按照出现顺序依次排列,构成单元句对应的字符串向量。
步骤S3、根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点。
步骤S4、根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
本发明实施例提供的上述技术方案,通过对试题内容进行分割,获得试题内容中的每一个单元句,再根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量,然后根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,最后根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注各单元句所涉及的知识点,通过这一系列的智能化操作,完成了对试题所涉及知识点的标注,提高了标注的效率。
在一个实施例中,根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到试题内容中的每一个单元句与知识点之间的关联度:
Figure GDA0003174320040000081
其中,Ttj表示试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的关联度进行修正:
Figure GDA0003174320040000082
其中,
Figure GDA0003174320040000083
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure GDA0003174320040000084
等于或大于预设阈值时,表示第t个单元句涉及到了第j个知识点,记录第t个单元句涉及到了第j个知识点;当
Figure GDA0003174320040000085
小于预设阈值时,表示第t个单元句未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行步骤A1-A2,确定试题内容中第t个单元句与每个知识点之间的修正后关联度,并记录第t个单元句所涉及到的知识点;
步骤A4、循环执行步骤A1-A3,确定试题内容中每一个单元句所涉及的所有知识点,并记录试题内容中每一个单元句所涉及到的知识点。
上述技术方案中,首先根据公式(1)计算每个单元句与各个知识点之间的关联度,看单元句是否涉及知识点,然后为了防止因为字符串差异的因素导致关联度的计算有误差,根据公式(2)对关联度进行修正,进而循环对每个单元句都计算修正关联度,最终获得试题内容中所涉及的知识点。该方法通过将字符转换为字符串、进而利用公式智能分析出试题内容涉及到的知识点,不仅能提高分析效率,而且准确度也很高。
在一个实施例中,根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,包括:
步骤A51、统计试题内容中每一个单元句所涉及的知识点,确定试题内容中同一知识点对应的所有单元句;
步骤A61、将试题内容中同一知识点对应的所有单元句进行同一方式的标注,标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所有单元句加批注框,批注框中写明对应的同一知识点的知识点内容。
上述标注方式,可以方便地让用户的查看到试题内容中每个单元句涉及到的知识点,方便用户使用。
在一个实施例中,步骤A4之后,还包括:
步骤A52、统计试题内容中所有单元句所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算X个知识点中,每个知识点在试题内容中的重要程度值:
Figure GDA0003174320040000091
其中,fk表示涉及到第k个知识点的所有单元句的总数目;Yk表示第k个知识点在试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为试题内容涉及到的知识点。U的取值可以人为设定,例如3或者5等。
上述技术方案,可以实现重点标注试题内容主要涉及到的知识点,而将一些非主要涉及的知识点不予以标注,加快标注效率。
在一个实施例中,按照如下公式(4)计算U的取值:
Figure GDA0003174320040000101
其中,INT()为取整函数;g为试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有单元句对应的试题内容部分的总占用存储空间大小。
对应前述提供的知识点关系标注方法,本发明实施例还提供了一种知识点关系标注系统,包括:
分割模块,用于对试题内容进行分割,获得试题内容中的每一个单元句;
第一确定模块,用于根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量;
第二确定模块,用于根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点;
标注模块,用于根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注。
在一个实施例中,根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到试题内容中的每一个单元句与知识点之间的关联度:
Figure GDA0003174320040000111
其中,Ttj表示试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的关联度进行修正:
Figure GDA0003174320040000112
其中,
Figure GDA0003174320040000113
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure GDA0003174320040000114
等于或大于预设阈值时,表示第t个单元句涉及到了第j个知识点,记录第t个单元句涉及到了第j个知识点;当
Figure GDA0003174320040000115
小于预设阈值时,表示第t个单元句未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行步骤A1-A2,确定试题内容中第t个单元句与每个知识点之间的修正后关联度,并记录第t个单元句所涉及到的知识点;
步骤A4、循环执行步骤A1-A3,确定试题内容中每一个单元句所涉及的所有知识点,并记录试题内容中每一个单元句所涉及到的知识点。
在一个实施例中,根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,包括:
步骤A51、统计试题内容中每一个单元句所涉及的知识点,确定试题内容中同一知识点对应的所有单元句;
步骤A61、将试题内容中同一知识点对应的所有单元句进行同一方式的标注,标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所有单元句加批注框,批注框中写明对应的同一知识点的知识点内容。
在一个实施例中,步骤A4之后,还包括:
步骤A52、统计试题内容中所有单元句所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算X个知识点中,每个知识点在试题内容中的重要程度值:
Figure GDA0003174320040000121
其中,fk表示涉及到第k个知识点的所有单元句的总数目;Yk表示第k个知识点在试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为试题内容涉及到的知识点。
在一个实施例中,按照如下公式(4)计算U的取值:
Figure GDA0003174320040000122
其中,INT()为取整函数;g为试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有单元句对应的试题内容部分的总占用存储空间大小。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明实施例。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明实施例的精神或范围的情况下,在其它实施例中实现。因此,本发明实施例将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种知识点关系标注方法,其特征在于,包括:
对试题内容进行分割,获得所述试题内容中的每一个单元句;
根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量,其具体包括:预先设置每个字符对应的字符串,字符串是由多个数字构成的、唯一标识字符的编码;单元句中包括的每个字符按照出现顺序依次排列,构成单元句对应的字符串向量;其中,所述字符包括字母、汉字、数字或者数学符号;
根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注;
其中,所述根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure FDA0003174320030000011
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure FDA0003174320030000021
其中,
Figure FDA0003174320030000022
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure FDA0003174320030000023
等于或大于预设阈值时,表示所述第t个单元句涉及到了第j个知识点,记录所述第t个单元句涉及到了第j个知识点;当
Figure FDA0003174320030000024
小于预设阈值时,表示所述第t个单元句未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句与每个知识点之间的修正后关联度,并记录所述第t个单元句所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句所涉及的所有知识点,并记录所述试题内容中每一个单元句所涉及到的知识点。
2.如权利要求1所述的方法,其特征在于,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
3.如权利要求1或2所述的方法,其特征在于,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure FDA0003174320030000031
其中,fk表示涉及到第k个知识点的所有单元句的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
4.如权利要求3所述的方法,其特征在于,
按照如下公式(4)计算所述U的取值:
Figure FDA0003174320030000032
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有单元句对应的试题内容部分的总占用存储空间大小。
5.一种知识点关系标注系统,其特征在于,包括:
分割模块,用于对试题内容进行分割,获得所述试题内容中的每一个单元句;
第一确定模块,用于根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量,其具体包括:预先设置每个字符对应的字符串,字符串是由多个数字构成的、唯一标识字符的编码;单元句中包括的每个字符按照出现顺序依次排列,构成单元句对应的字符串向量;其中,所述字符包括字母、汉字、数字或者数学符号;
第二确定模块,用于根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
标注模块,用于根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注;
其中,所述根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure FDA0003174320030000041
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure FDA0003174320030000042
其中,
Figure FDA0003174320030000043
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure FDA0003174320030000044
等于或大于预设阈值时,表示所述第t个单元句涉及到了第j个知识点,记录所述第t个单元句涉及到了第j个知识点;当
Figure FDA0003174320030000045
小于预设阈值时,表示所述第t个单元句未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句与每个知识点之间的修正后关联度,并记录所述第t个单元句所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句所涉及的所有知识点,并记录所述试题内容中每一个单元句所涉及到的知识点。
6.如权利要求5所述的系统,其特征在于,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
7.如权利要求5或6所述的系统,其特征在于,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure FDA0003174320030000051
其中,fk表示涉及到第k个知识点的所有单元句的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
8.如权利要求7所述的系统,其特征在于,
按照如下公式(4)计算所述U的取值:
Figure FDA0003174320030000061
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有单元句对应的试题内容部分的总占用存储空间大小。
CN202011020342.1A 2020-09-24 2020-09-24 知识点关系标注方法及系统 Active CN112100976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011020342.1A CN112100976B (zh) 2020-09-24 2020-09-24 知识点关系标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011020342.1A CN112100976B (zh) 2020-09-24 2020-09-24 知识点关系标注方法及系统

Publications (2)

Publication Number Publication Date
CN112100976A CN112100976A (zh) 2020-12-18
CN112100976B true CN112100976B (zh) 2021-11-16

Family

ID=73756191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011020342.1A Active CN112100976B (zh) 2020-09-24 2020-09-24 知识点关系标注方法及系统

Country Status (1)

Country Link
CN (1) CN112100976B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN107688600A (zh) * 2017-07-12 2018-02-13 百度在线网络技术(北京)有限公司 知识点挖掘方法及装置
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108334493A (zh) * 2018-01-07 2018-07-27 深圳前海易维教育科技有限公司 一种基于神经网络的题目知识点自动提取方法
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置
CN109598995A (zh) * 2019-01-08 2019-04-09 上海健坤教育科技有限公司 基于贝叶斯知识跟踪模型的智能教学系统
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161496A (ja) * 1997-11-27 1999-06-18 Sekisui Chem Co Ltd 事例ベース推論システム
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
CN105930509B (zh) * 2016-05-11 2019-05-17 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法
CN110377802B (zh) * 2019-07-26 2021-07-02 江苏曲速教育科技有限公司 一种新增试题的知识点标注方法及系统
CN111104455B (zh) * 2019-12-18 2023-08-04 四川文轩教育科技有限公司 多源多维的学校教学横向信息差异比对分析方法
CN111475645B (zh) * 2020-03-17 2024-04-30 平安国际智慧城市科技股份有限公司 知识点标注方法、装置及计算机可读存储介质
CN111460145A (zh) * 2020-03-18 2020-07-28 天闻数媒科技(北京)有限公司 一种学习资源推荐方法、设备及存储介质
CN111563166B (zh) * 2020-05-28 2024-02-13 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN107688600A (zh) * 2017-07-12 2018-02-13 百度在线网络技术(北京)有限公司 知识点挖掘方法及装置
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108334493A (zh) * 2018-01-07 2018-07-27 深圳前海易维教育科技有限公司 一种基于神经网络的题目知识点自动提取方法
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置
CN109598995A (zh) * 2019-01-08 2019-04-09 上海健坤教育科技有限公司 基于贝叶斯知识跟踪模型的智能教学系统
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统

Also Published As

Publication number Publication date
CN112100976A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN109766538B (zh) 一种文本纠错方法、装置、电子设备以及存储介质
CN110795938B (zh) 文本序列分词方法、装置及存储介质
US8140337B2 (en) Apparatus, method and program for text mining
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN111144079B (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
CN109190099B (zh) 句模提取方法及装置
CN113407675A (zh) 教育题目自动批改方法、装置和电子设备
CN111680669A (zh) 一种试题分割方法、系统及可读存储介质
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN112445831B (zh) 数据标注方法及装置
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN112100976B (zh) 知识点关系标注方法及系统
CN108511036A (zh) 一种中文症状标注的方法及系统
CN110032714B (zh) 一种语料标注反馈方法及装置
CN111695342B (zh) 基于语境信息的文本内容校正方法
CN114511084A (zh) 增强问答交互信息的自动问答系统答案抽取方法及系统
CN114203158A (zh) 一种儿童中文口语评测和检错纠错方法及装置
CN114511858A (zh) 基于ai和rpa的公文文件处理方法、装置、设备和介质
CN112528003A (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN108874770B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN111104480A (zh) 一种创新型ai智能文本处理系统
CN110059314A (zh) 一种基于增强学习的关系抽取方法
CN115687334B (zh) 数据质检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20221020

Granted publication date: 20211116

PP01 Preservation of patent right