CN109766548B - 考点识别方法、装置、设备和计算机存储介质 - Google Patents

考点识别方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN109766548B
CN109766548B CN201811640609.XA CN201811640609A CN109766548B CN 109766548 B CN109766548 B CN 109766548B CN 201811640609 A CN201811640609 A CN 201811640609A CN 109766548 B CN109766548 B CN 109766548B
Authority
CN
China
Prior art keywords
template
knowledge point
keywords
test question
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811640609.XA
Other languages
English (en)
Other versions
CN109766548A (zh
Inventor
刘凯
张昱华
王小蕾
胡静
潘竞帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingshi Lexue Education Technology Co ltd
Original Assignee
Beijing Jingshi Lexue Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingshi Lexue Education Technology Co ltd filed Critical Beijing Jingshi Lexue Education Technology Co ltd
Priority to CN201811640609.XA priority Critical patent/CN109766548B/zh
Publication of CN109766548A publication Critical patent/CN109766548A/zh
Application granted granted Critical
Publication of CN109766548B publication Critical patent/CN109766548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及考点识别方法、装置、设备和计算机存储介质,该考点识别方法包括:试题获取步骤,获取试题;知识点关键词获取步骤,从所获取的试题中获得知识点关键词;试题标记词获取步骤,从所获取的试题中获得试题标记词;权重分配步骤,根据所述知识点关键词与所述模板标记词的距离,为所获得的知识点关键词分配权重。根据本发明的方法,能够准确确定各知识点。

Description

考点识别方法、装置、设备和计算机存储介质
技术领域
本发明涉及教育领域,尤其涉及试题的考点识别。
背景技术
考试试题的自动化分析是在线教育和自适应教育中的关键技术问题,其中又以试题考点的自动识别为核心,已知的技术无法有效区分单一试题的多个知识点的重要性排序,即无法准确确定比较重要的知识点(“考点”)与相对不怎么重要的知识点(“非考点”)。
发明内容
本发明鉴于现有技术的以上问题作出,用以克服或缓解现有技术中存在的一个或更多个问题,至少提供一种有益的选择。
根据本发明的一个方面,提供了一种考点识别方法,包括:试题获取步骤,获取试题;知识点关键词获取步骤,从所获取的试题中获得知识点关键词;试题标记词获取步骤,从所获取的试题中获得试题标记词;权重分配步骤,根据所述知识点关键词与所述试题标记词的距离,为所获得的知识点关键词分配权重。
根据一种实施方式,所述知识点关键词有多个,所述方法还包括权重调整步骤,根据各知识点关键词在所述试题中位置,调整分配给各知识点关键词的权重。
根据一种实施方式,所述试题标记词获取步骤根据预定的试题模板来确定标记词,当在所述试题中发现这些模板中的模板标记词时,即将该模板标记词确定为所述试题标记词。
根据一种实施方式,所述预定的试题模板包括试题是模板、试题求模板、试题问模板、试题异类模板,所述试题是模板的模板关键词为以下词中的一个或更多个:是、和是、关系是、根是、则、为、等于、=、有、();所述试题求模板的模板关键词为以下词中的一个或更多个:求、求证、则、证明、画出、化简、写出、填写、那么、叫做、做出、画;所述试题问模板的模板关键词为以下词中的一个或更多个:问、吗、多少、几个、怎样、怎么、?、是否、何值、百分之几;所述试题异类模板为无法通过语义来指明求解问题的模板,其关键词为下划线。
根据一种实施方式,所述权重分配步骤包括:模板类型确定步骤,用于确定试题所述的试题模板类型是前向模板还是后向模板;以及加权步骤,根据所述试题模板的方向类型,即是前向模板还是后向模板来进行知识点关键词加权。
根据一种实施方式,所述加权步骤包括:移位步骤,根据所述试题属于前向模板还是后向模板,对知识点关键词进行移位,形成新的知识点关键词序列,其中对于属于前向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前,对于属于后向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前,并最后整体倒序排列;以及衰减加权步骤,根据预定的函数对所述新的知识点关键词序列进行加权,使所述新的知识点关键词序列中最靠前的知识点关键词具有最高的权重,并逐渐衰减。
根据一种实施方式,所述权重调整步骤包括:近邻词对构建步骤,按照关键词的顺序构建近邻词对;需调整近邻词对确定步骤,根据相邻的近邻词对的后向位差从多个近邻词对中选择需要进行权重调整的近邻词对;近邻词对权重调整单元,对所确定出的近邻词对的权重进行调整。
根据本发明的另一方面,提供了一种考点识别装置,包括:试题获取单元,获取试题;知识点关键词获取单元,从所获取的试题中获得知识点关键词;试题标记词获取单元,从所获取的试题中获得试题标记词;权重分配单元,根据所述知识点关键词与所述试题标记词的距离,为所获得的知识点关键词分配权重。
根据一种实施方式,所述知识点关键词有多个,所述方法还包括权重调整单元,根据各知识点关键词在所述试题中位置,调整分配给各知识点关键词的权重。
根据一种实施方式,所述试题标记词获取单元根据预定的试题模板来确定模板标记词,当在所述试题中发现这些模板中的模板标记词时,即将该模板标记词确定为试题标记词。
根据一种实施方式,所述预定试题模板包括试题是模板、试题求模板、试题问模板、试题异类模板,所述试题是模板的模板关键词为以下词中的一个或更多个:是、和是、关系是、根是、则、为、等于、=、有、();所述试题求模板的模板关键词为以下词中的一个或更多个:求、求证、则、证明、画出、化简、写出、填写、那么、叫做、做出、画;所述试题问模板的模板关键词为以下词中的一个或更多个:问、吗、多少、几个、怎样、怎么、?、是否、何值、百分之几;所述试题异类模板为无法通过语义来指明求解问题的模板,其关键词为下划线。
根据一种实施方式,所述权重分配单元包括:模板类型确定单元,用于确定试题所属的模板的方向类型是前向模板还是后向模板;以及加权单元,根据所述试题所述模板的方向类型属于前向模板还是后向模板来进行知识点关键词加权。
根据一种实施方式,所述加权单元包括:移位单元,根据试题属于前向模板还是后向模板,对知识点关键词进行移位,形成新的知识点关键词序列,在所述移位单元中,对于属于前向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前;对于属于后向模板的试题,将试题标记词后的知识点关键词按照倒序放到原来最前方的知识点关键词之前,并最后整体倒序排列;以及衰减加权单元,根据预定的函数对所述新的知识点关键词序列进行加权,使所述新的知识点关键词序列中最靠前的知识点关键词具有最高的权重,并逐渐衰减。
根据一种实施方式,所述权重调整单元包括:近邻词对构建单元,按照关键词的顺序构建近邻词对;需调整近邻词对确定单元,根据相邻的近邻词对的后向位差从多个近邻词对中选择需要进行权重调整的近邻词对;近邻词对权重调整单元,对所述需调整近邻词对确定单元所确定的近邻词对的权重进行调整。
根据本发明的又一方面,提供了一种考点识别设备,所述设备包括:
一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述任一实施方式的方法。
根据本发明的再一方面,提供了一种计算机可读介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任一实施方式的方法。
根据本发明的实施方式,能够准确地识别试题中的知识点以及其重要性。
附图说明
图1示出了依据本发明的一种实施方式的考点识别方法的示意性流程图;
图2示出了依据本发明一种实施方式的进行知识点关键词权重分配的示意性流程图;
图3和图4是用于解释权重衰减的示意图;
图5示出了示出了依据本发明的一种实施方式的考点识别方法的示意性流程图;
图6示出了本发明的一种实施方式的权重调整步骤的示意性流程图;
图7示出了依据本发明一种实施方式的考点识别装置的示意性方框图。
图8示出了依据本发明的一种实施方式的权重调整单元的示意性方框图;以及
图9示出了依据本发明的一种实施方式的知识点识别设备的示意性方框图。
具体实施方式
在下文中,简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出了依据本发明的一种实施方式的考点识别方法的示意性流程图。
如图1所示,依据本发明的一种实施方式,首先在步骤S110,获取试题。试题也称考题,用来对学生或学员进行测试。试题中会包括一个或更多个的知识点,比较重要的知识点就是考点,因而一道试题中可能包括一个或更多个考点。试题可以是语文试题、英语试题以及数学试题。下文会以中小学数学试题为例对本发明进行说明。中小学数学试题例如“方程2x-1=0的根是____。”等。获取试题的方法可以采用现在已知的或未来知悉的任何方法来实现。例如通过拍照获得试卷的图像,然后对试卷的图像进行识别,从而得到一道道的试题。
然后在步骤S120和S130,分别获得知识点关键词和试题标记词。试题标记词是指指明求解问题的词。对于中小学数学试题,一般可用来划分已知条件和求解问题。知识点关键词用来指明知识点,知识点包括背景知识点、目标知识点等。例如,对于以下试题:
“对于二次函数y=-x2+bx+c的图象如图所示,则一次函数y=bx+c的图象不经过第____象限”
“二次函数、y=-x2+bx+c、图象、一次函数、y=bx+c、图象、经过、象限”等均是知识点。
根据一种实施方式,首先对试题切分,对字符串初筛与标准化.对于中文试题,一种方法是使用中文分词技术,对大量试题进行分词,统计出题目中分词出现频次,优先选择高频词汇,再根据领域词典判别题目词汇与领域学科的语义相关性,选定最终关键词。可以根据模板或数据库确定标记词。
例:2008年5月10日北京奥运会火炬接力传递活动在美丽的海滨城市汕头举行,整个火炬传递路线全长约40820米,用科学计数法表示火炬传递路程是______
通用词典分词的结果是:“2008,年,5,月,10,日,北京,奥运会,火炬,接力,传递,活动,在,美丽,的,海滨,城市,汕头,举行,整个,火炬,传递,路线,全长约,40820,米,,,用,科学,计数法,表示,火炬,传递,路程,是,______”,此时,可以根据数学领域词典或数据库确定出高语义相关关键词。
1)使用默认分词方式统计所有题目的词频总表,剔除词频过高或过低的词后,作为一级词集,本例中,保留的词集为“城市,科学,计数法,路程”
2)继而,从一级词集中剔除语义相对疏远的词汇,沉淀出二级词汇。本例中,经二级词集拣选后所需保留词集为“科学,计数法,路程”
3)最后,计算二级词集中各词汇与目标领域(本例为初中数学)知识点体系叶节点词汇(该词汇例如可依据国家教育部相关教学大纲制定)的距离,将其中距离较短的词汇作为三级词集。从而可将科学技术法、路程作为最后的关键词。
用于确定标记词的标记词模板例如可以包括如下的模板:
(1)是模板:包括标记词“是(和是、关系是、根是等)、则、为、等于、=、有、()等词中的一个或更多个。符合该模板的试题例如:
①方程3x-1=0的根是____。
②不等式组(2x+3>7),(3-x≤-2)的解集是____。
③若反比例函数y=k/x的图象经过点(2,3)、(3,m)和(n,-1),则k=____,m=____,n=____。
④在直角三角形ABC中,∠ACB=90度,CD是AB边上中线,图中有____个等腰三角形。
⑤已知P点坐标为(3,4),则P点关于x轴对称的点的坐标为____。
⑥已知0≤x≤3,化简
Figure BDA0001931048390000072
⑦(y+1)2+(y+1)(y2-2y+1)等于____。
(2)求模板:包括标记词“求、求证、则、证明、画出、化简、写出、填写、那么、叫做、做出、画”等词中的一个或更多个,符合该模板的试题例如:
①已知代数式(4-x)/6的值不小于1/3,求x的正整数解。
②已知:如图,在△ABC中,DE∥BC,∠A=60°,∠C=70°.求证:∠ADE=50°。
③设
Figure BDA0001931048390000071
证明:a2+b2=1。
④根据9:12=3:4,写出比值最大的比例式是____。
(3)“问”模板:包括标记词“问、吗、多少、几个、怎样、怎么、是否、何值、百分之几、?”中的一个或更多个,符合该模板的试题例如:
学生小李为使跳绳200次所用的时间减少10秒,必须把每秒钟的跳绳次数增加10%,问小李原来跳绳200次所用的时间是多少秒?
化纤厂的年产值在两年内从原来的500万元增加到605万元,求每年的平均增长率是多少?
如图是新华初级中学六年级数学竞赛奖人数的扇形统计图,求三等奖占获奖总数的百分之几?
同时掷两枚正方体骰子,“点数和为5”的概率有多大?“点数和不为5”的概率有多大?它们有怎样的关系?
a为何值时,方程x/5+a=x/3-a/15(x-5)有解或无解?
(4)异类模板
定义:无法通过语义模板关键词进行分类的所有试题
处理:使用下划线作为标记词
例:位似图形上任意一对对应点到____的距离之比等于位似比。
步骤S120和S130没有执行的先后顺序。在本文中,除非上下文中可以明确得出,标号的大小仅仅是为了说明的方便,不是对其执行顺序的限制。
最后,在步骤S140中,根据所述知识点关键词与所述模板标记词的距离,为所获得的知识点关键词分配权重。
可以根据这些分配了权重的知识点关键词来明确考点以及考点在该试题中的重要程度。
图2示出了依据本发明一种实施方式的进行知识点关键词权重分配的示意性流程图。
如图2所示,根据一种实施方式,首先在步骤S141,确定试题所属的模板的方向类型,即是前向模板还是后向模板。
在本文的示例中,将自左至右的阅读顺序定义为前向,而将自右至左的逆阅读顺序定义为后向。
(1)前向模板
定义:核心问题或核心关键词位于标记词后
包含:“求”模板、异类模板
例:已知代数式(4-x)/6的值不小于1/3,求x的正整数解。
核心关键词是“正整数解”,位于标记词‘求’的后面,即为前向模板
(2)后向模板
定义:核心问题或核心关键词位于标记词前
包含:“是”模板、“问”模板
例:水结成冰后,体积增加1/10,现在冰的体积是22立方分米,原来水的体积是多少?
核心关键词是“体积”,位于标记词‘多少’的前面,即为前向模板。
然后在步骤S142中,根据试题所属的模板的方向类型,即是前向模板还是后向模板来进行知识点关键词加权。
对于前向模板的情况,标记词后面的关键词,离标记词越近其分配的权重越高。对于后向模板的情况,标记词前的关键词,离标记词越近其分配的权重越高。
例:求等腰直角三角形的内切圆与外接圆半径的比值
Figure BDA0001931048390000091
该题的标记词为“求”,使用的是前向模板;关键词分别为“等腰直角三角形”、“内切圆”、“外接圆”、“半径”、“比值”;标记词后的关键词分别为“等腰直角三角形”、“内切圆”、“外接圆”、“半径”、“比值”,由它们组成1个序列,使用1/(x+2)+0.5函数进行加权,实际过程如下:
根据一种实施方式,首先根据模板是前向模板还是后向模板,对知识点关键词进行移位,形成新的知识点关键词序列。
例如对于以下的情况:
给定某一试题T,该试题对应的模板为M,基于数学词典试题T可以析出m个关键词,其中An为模板标记词(简称为标记词),且n<m。此时,关键词队列为Alist:
Alist=A1,A2,…,An,An+1,…,Am
如果模板为前向模板,则形成如下的序列:
Af=An,An+1,…,Am,A1,A2,…,An-1
“An,An+1,…,Am”是标记词An的前向知识点关键词序列,“A1,A2,…,An-1”是标记词An的后向知识点关键词序列,移动“A1,A2,…,An-1”序列到An,An+1,…,Am的尾端,形成该试题的前向模板序列。
如果模板为后向模板,则形成如下的序列:
Ab=An,An-1,…,A2,A1,Am,…,An+1
“An,An-1,…,A2,A1”是标记词An的后向知识点关键词序列,“Am,…,An+1”是An的前向知识点关键词序列的倒序,移动“Am,…,An+1”序列到“An,An-1,…,A2,A1”序列的尾端,形成该试题的后向模板序列。
然后对所形成的知识点关键词序列进行衰减加权。根据一种实施方式,在该衰减加权步骤,根据预定的函数对所述新的知识点关键词序列进行加权,使所述新的知识点关键词序列中最靠前的知识点关键词具有最高的权重,并逐渐衰减,序列中最后的知识点关键词具有最小的权重。
根据该实施方式,可以用统一的函数对标记词两边的知识点关键词进行加权,能够减低复杂度,提高算法速度,进而提供良好的体验。
图3和图4是用于解释权重衰减的示意图。如图3所示,移位完毕后,无论前向模板还是后向模板,就标记词的任何一侧而言,靠近标记词的知识点关键词总是会有较高的权重。如图4所示,移位之后,Af、Ab的赋值方向一致,可用同一种赋权方法进行统一处理,而不必为Af、Ab单独设计不同的算法,节省大量计算资源的同时也提升了处理效率。
根据一种实施方式,权重的衰减可使用函数
Figure BDA0001931048390000111
的曲线进行拟合,即衰减加权依据该函数进行。通过该函数得到权重赋值如表1所示。
表1权重赋值表
位置 1 2 3 4 5 6 7 8 9 10 11
权重 0.50 0.33 0.25 0.20 0.17 0.14 0.12 0.11 0.10 0.09 0.08
图5示出了示出了依据本发明的一种实施方式的考点识别方法的示意性流程图。与图1所示的实施方式相比较,其增加权重调整步骤S150,根据各关键词的近邻词位差对关键词的权重进行调整。
发明人通过对大量试题(尤其是中小学数学试题)的观察发现,试题关键词的相互位置对关键词权重的分布也具有重要的影响:两个关键词距离越近,二者语义关联越强烈;两个关键词距离越远,二者语义关联越弱。因此,在标记词中心权重分配算法的基础上,再对Alist权重进行第二次调整。
给定某一数学试题T,基于数学词典试题T可以析出m个关键词,其中第n个关键词An的在试题T中的起始位置值为kn(每个字符长度为1,且n<m),则将(kn-kn-1)称为关键词An的近邻词位差,记为pn,而将An-1和An称为近邻词对。近邻词对中的两个关键词的近邻词位差可以称为该近邻词对的位差,包括前向位差和后向位差。近邻词位差具有前向和后向两种不同的计算方向,由于实际上前向与后向的计算结果对权重调整的效果相同,因此默认采用与阅读顺序相反的后相位差进行计算。
例如,给定试题:
二次函数y=-x2+bx+c的图象如图所示,则一次函数y=bx+c的图象不经过第____象限。
实际切分为:
二次函数,y=-x2+bx+c,图象,一次函数,y=bx+c,图象,经过,象限上例的各个关键词在原试题中的位置关系如表2所示:
表2近邻词位差
Figure BDA0001931048390000121
图6示出了本发明的一种实施方式的权重调整步骤的示意性流程图。如图6所示,根据一种实施方式,权重调整步骤S150包括以下的步骤:
S151、按照关键词的顺序构建近邻词对。根据一种实施方式,计算步骤如下:自左至右对关键词列表进行扫描,每次选取三个关键词A1、A2、A3,并构成两套词对(A1,A2)及(A2,A3)。在本例中,则首先构建近邻词对T1(“二次函数”,“y=-x2+bx+c”)和T2(“y=-x2+bx+c”,“图像”)。当然,可以一次性针对所有的关键词,每相邻两个确定近邻词对,一次性完成。
S152、确定需要变更权重的近邻词对。根据一种实施方式,根据相邻的近邻词对的近邻词位差来确定需要变更权重的近邻词对。例如,提升相邻的近邻词对中近邻词位差小的近邻词对。在一个实施例中,判定近邻词对距离(近邻词位差)更小的一方,词对T1的近邻词位差,即“二次函数”的后向位差为0,词对T2的近邻词位差即“y=-x2+bx+c”的后向位差为1。T1<T2,说明词对T1的距离更为紧密,于是同时对T1中的两个关键词提升相同的权重,T2不做改动。
S153,变更近邻词对权重。在一种实施方式中,具体数值则以An为中心按照以下公式进行计算:
Figure BDA0001931048390000122
此时,近邻词对“二次函数”和“y=-x2+bx+c”便有:
Figure BDA0001931048390000131
W1_old是上文的用指定函数(例如
Figure BDA0001931048390000132
)计算出关键词的权重,即在前述加权的基础上再次对符合近邻条件的关键词对进行权重调整,只有符合是近邻词对的关键词可以使用W1_new这个公式。
S154、将被变更了权重的词对中包括的关键词以及该词对之前关键词从扫描列表中剔除后,再次自左至右重复上述操作直至待处理扫描列表中关键词个数不足3个为止,然后应用调整后的权重。在本例中,T1词对是被变更了权重的词对,其前面没有关键词了,因而只将T1词对的关键词从扫描列表中剔除后,再次自左至右重复上述操作直至待处理扫描列表中关键词个数不足3个为止,然后应用调整后的权重。如果在上面的例子中,T2是被变更了权重的词对,则剔除T2中包括的关键词以及其前面的关键词,即下一次操作时,对一次函数、y=bx+c、以及图像这三个关键词组成的近邻词对进行操作。即该步骤S154从关键词列表中剔除进行了权重调整的近邻词对中包括的关键词以及之前的关键词(每次仅利用了三个关键词的情况),或从步骤S151所确定的近邻词对中剔除包含进行了权重调整的近邻词对中包括的关键词以及之前的关键词的近邻词对(一次性构建所有的近邻词对的情况),并指示重复步骤151或步骤S152。
依据本发明的技术方案,模板匹配方案计算量小、运行速度快;更符合学科专业特点,因此准确率也较其他方法更高。
图7示出了依据本发明一种实施方式的考点识别装置的示意性方框图。如图7所示,依据本发明的一种实施方式,考点识别装置包括:试题获取单元110,用于获取试题;知识点关键词获取单元120和试题标记词获取单元130,分别用于获得知识点关键词和试题标记词;权重分配单元140,用于根据所述知识点关键词与所述模板标记词的距离,为所获得的知识点关键词分配权重;以及权重调整单元150,用于根据各相邻知识点关键词之间的距离,调整知识点关键词的权重。
各单元的实现与功能可以参见对方法的步骤的描述。
在本发明中,可以利用对方法或步骤的说明来理解与之对应或实现相同功能的装置或单元,也可以利用对装置的说明来理解与之对应或实现相同功能的方法或步骤。
依据本发明的一种实施方式,权重分配单元140可以包括:模板类型确定单元,用于确定试题的模板类型是前向模板还是后向模板;以及加权单元,根据模板的方向类型,即是前向模板还是后向模板来进行知识点关键词加权。
根据一种实施方式,加权单元可以包括移位单元,根据试题属于前向模板还是后向模板,对知识点关键词进行移位,形成新的知识点关键词序列,在所述移位单元中,对于属于前向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前;对于属于后向模板的试题,将试题标记词后的知识点关键词按照倒序放到原来最前方的知识点关键词之前,并最后整体倒序排列;以及衰减加权单元,根据预定的函数对所述新的知识点关键词序列进行加权,使所述新的知识点关键词序列中最靠前的知识点关键词具有最高的权重,并逐渐衰减。
根据本发明的一种实施方式,考点识别装置可以省略权重调整单元150。
图8示出了依据本发明的一种实施方式的权重调整单元150的示意性方框图。如图8所示,依据本发明的一种实施方式,权重调整单元150包括:近邻词对构建单元151,获得试题中的近邻词对;需调整近邻词对确定单元152,从多个近邻词对中选择需要进行权重调整的近邻词对;近邻词对权重调整单元153,对所述需调整近邻词对确定单元152所确定的近邻词对的权重进行调整。在一种实施方式中,近邻词对构建单元151每次从关键词队列中选取3个关键词并构建近邻词对,所述权重调整单元150还包括剔除单元154,从关键词列表中剔除进行了权重调整的近邻词对中包括的关键词以及之前的关键词,并指示邻词对构建单元151再次工作。根据一种实施方式,近邻词对构建单元151一次性将关键词队列中的相邻关键词构建成近邻词对,所述近权重调整单元150还包括剔除单元154,从近邻词对构建单元151所确定的近邻词对中剔除包含进行了权重调整的近邻词对中包括的关键词以及之前的关键词的近邻词对,并指示所述需调整近邻词对确定单元152再次工作。
在另一个实施例中,本发明还提供一种知识点识别设备,如图9所示,该设备包括:存储器610和处理器620,存储器610内存储有可在处理器620上运行的计算机程序。所述处理器620执行所述计算机程序时实现上述实施例中的方法。所述存储器610和处理器620的数量可以为一个或多个。
该设备还包括:
通信接口630,用于与外界设备进行通信,进行数据交互传输。
存储器610可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器610、处理器620和通信接口630独立实现,则存储器610、处理器620和通信接口630可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Component)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器610、处理器620及通信接口630集成在一块芯片上,则存储器610、处理器620及通信接口630可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
以上所述,为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或表示第一特征水平高度小于第二特征。
上文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,上文中对特定例子的部件和设置进行描述。当然,它们为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

Claims (14)

1.一种考点识别方法,包括:
试题获取步骤,获取试题;
知识点关键词获取步骤,从所获取的试题中获得知识点关键词;
试题标记词获取步骤,从所获取的试题中获得试题标记词;
权重分配步骤,根据所述知识点关键词与所述试题标记词的距离,为所获得的知识点关键词分配权重;
所述权重分配步骤包括:
模板类型确定步骤,用于确定试题所属的试题模板的方向类型是前向模板还是后向模板;以及
加权步骤,根据所述试题所属试题模板的方向类型属于前向模板还是后向模板来进行知识点关键词加权;
其中,自左至右的阅读顺序为前向,自右至左的逆阅读顺序为后向,所述前向模板是指核心问题或核心关键词位于标记词后的模板,所述后向模板是指核心问题或核心关键词位于标记词前的模板。
2.根据权利要求1所述的考点识别方法,其特征在于,所述知识点关键词有多个,所述方法还包括权重调整步骤,根据各知识点关键词在所述试题中位置,调整分配给各知识点关键词的权重。
3.根据权利要求1所述的考点识别方法,其特征在于,所述试题标记词获取步骤根据预定的试题模板来确定标记词,当在所述试题中发现这些模板中的模板标记词时,即将该模板标记词确定为所述试题标记词。
4.根据权利要求3所述的考点识别方法,其特征在于,所述预定的试题模板包括试题是模板、试题求模板、试题问模板、试题异类模板,
所述试题是模板的模板关键词为以下词中的一个或更多个:
是、和是、关系是、根是、则、为、等于、=、有、();
所述试题求模板的模板关键词为以下词中的一个或更多个:
求、求证、则、证明、画出、化简、写出、填写、那么、叫做、做出、画;
所述试题问模板的模板关键词为以下词中的一个或更多个:
问、吗、多少、几个、怎样、怎么、?、是否、何值、百分之几
所述试题异类模板为无法通过语义来指明求解问题的模板,其关键词为下划线。
5.根据权利要求1所述的考点识别方法,其特征在于,
所述加权步骤包括:
移位步骤,根据所述试题属于前向模板还是后向模板,对知识点关键词进行移位,形成新的知识点关键词序列,其中对于属于前向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前,对于属于后向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前,并最后整体倒序排列;以及
衰减加权步骤,根据预定的函数对所述新的知识点关键词序列进行加权,使所述新的知识点关键词序列中最靠前的知识点关键词具有最高的权重,并逐渐衰减。
6.根据权利要求2所述的考点识别方法,其特征在于,所述权重调整步骤包括:
近邻词对构建步骤,按照关键词的顺序构建近邻词对;
需调整近邻词对确定步骤,根据相邻的近邻词对的后向位差从多个近邻词对中选择需要进行权重调整的近邻词对;
近邻词对权重调整步骤,对所确定出的近邻词对的权重进行调整。
7.一种考点识别装置,包括:
试题获取单元,获取试题;
知识点关键词获取单元,从所获取的试题中获得知识点关键词;
试题标记词获取单元,从所获取的试题中获得试题标记词;
权重分配单元,根据所述知识点关键词与所述试题标记词的距离,为所获得的知识点关键词分配权重;
所述权重分配单元包括:
模板类型确定单元,确定试题所属的试题模板的方向类型是前向模板还是后向模板;以及
加权单元,根据所述试题所属试题模板的方向类型属于前向模板还是后向模板来进行知识点关键词加权;
其中,自左至右的阅读顺序为前向,自右至左的逆阅读顺序为后向,所述前向模板是指核心问题或核心关键词位于标记词后的模板,所述后向模板是指核心问题或核心关键词位于标记词前的模板。
8.根据权利要求7所述的考点识别装置,其特征在于,所述试题标记词获取单元根据预定的试题模板来确定模板标记词,当在所述试题中发现这些模板中的模板标记词时,即将该模板标记词确定为试题标记词。
9.根据权利要求8所述的考点识别装置,其特征在于,所述预定的试题模板包括试题是模板、试题求模板、试题问模板、试题异类模板,所述试题是模板的模板关键词为以下词中的一个或更多个:是、和是、关系是、根是、则、为、等于、=、有、();所述试题求模板的模板关键词为以下词中的一个或更多个:求、求证、则、证明、画出、化简、写出、填写、那么、叫做、做出、画;所述试题问模板的模板关键词为以下词中的一个或更多个:问、吗、多少、几个、怎样、怎么、?、是否、何值、百分之几;所述试题异类模板为无法通过语义来指明求解问题的模板,其关键词为下划线。
10.根据权利要求7所述的考点识别装置,其特征在于,所述加权单元包括:
移位单元,根据试题属于前向模板还是后向模板,对知识点关键词进行移位,形成新的知识点关键词序列,在所述移位单元中,对于属于前向模板的试题,将试题标记词后的知识点关键词按照正序放到原来最前方的知识点关键词之前;对于属于后向模板的试题,将试题标记词后的知识点关键词按照倒序放到原来最前方的知识点关键词之前,并最后整体倒序排列;以及
衰减加权单元,根据预定的函数对所述新的知识点关键词序列进行加权,使所述新的知识点关键词序列中最靠前的知识点关键词具有最高的权重,并逐渐衰减。
11.根据权利要求7所述的考点识别装置,其特征在于,所述知识点关键词有多个,所述装置还包括:权重调整单元,根据各知识点关键词在所述试题中位置,调整分配给各知识点关键词的权重。
12.根据权利要求11所述的考点识别装置,其特征在于,所述权重调整单元包括:近邻词对构建单元,按照关键词的顺序构建近邻词对;需调整近邻词对确定单元,根据相邻的近邻词对的后向位差从多个近邻词对中选择需要进行权重调整的近邻词对;近邻词对权重调整单元,对所述需调整近邻词对确定单元所确定的近邻词对的权重进行调整。
13.一种考点识别设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201811640609.XA 2018-12-29 2018-12-29 考点识别方法、装置、设备和计算机存储介质 Active CN109766548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811640609.XA CN109766548B (zh) 2018-12-29 2018-12-29 考点识别方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811640609.XA CN109766548B (zh) 2018-12-29 2018-12-29 考点识别方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN109766548A CN109766548A (zh) 2019-05-17
CN109766548B true CN109766548B (zh) 2023-01-31

Family

ID=66453121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811640609.XA Active CN109766548B (zh) 2018-12-29 2018-12-29 考点识别方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN109766548B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377802B (zh) * 2019-07-26 2021-07-02 江苏曲速教育科技有限公司 一种新增试题的知识点标注方法及系统
CN113627137A (zh) * 2021-10-11 2021-11-09 江西软云科技股份有限公司 一种题目生成方法、系统、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150538A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> 重要キーワード抽出装置及び方法及びプログラム
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
CN107590127A (zh) * 2017-09-21 2018-01-16 北京师范大学 一种题库知识点自动标注方法及系统
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150538A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> 重要キーワード抽出装置及び方法及びプログラム
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
CN107590127A (zh) * 2017-09-21 2018-01-16 北京师范大学 一种题库知识点自动标注方法及系统
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置

Also Published As

Publication number Publication date
CN109766548A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN107967254B (zh) 知识点预测方法及装置、存储介质、电子设备
CN111198938B (zh) 一种样本数据处理方法、样本数据处理装置及电子设备
CN109033244B (zh) 搜索结果排序方法和装置
CN109766548B (zh) 考点识别方法、装置、设备和计算机存储介质
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
KR102265573B1 (ko) 인공지능 기반 입시 수학 학습 커리큘럼 재구성 방법 및 시스템
CN109829162A (zh) 一种文本分词方法及装置
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN115795009A (zh) 基于生成式多语言模型的跨语言问答系统构建方法和装置
CN108733644A (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN108090099A (zh) 一种文本处理方法及装置
CN113051930A (zh) 基于Bert模型的意图识别方法、装置及相关设备
CN111931867A (zh) 基于轻量级模型的新冠肺炎x射线图像分类方法及系统
CN112184089A (zh) 试题难度预测模型的训练方法、装置、设备及存储介质
CN110909146A (zh) 用于推送反问标签的标签推送模型训练方法、装置及设备
CN116129189A (zh) 一种植物病害识别方法、设备、存储介质及装置
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
CN109801675B (zh) 一种确定蛋白质脂质功能的方法、装置和设备
CN110354501B (zh) 行为预测方法、装置及电子设备
CN104317912A (zh) 基于邻域与距离度量学习的图像语义自动标注方法
Campagni et al. University student progressions and first year behaviour
CN110580465A (zh) 品相确定方法及装置、存储介质、电子装置
CN112989057B (zh) 文本标签确定方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant