CN105955962B - 题目相似度的计算方法及装置 - Google Patents

题目相似度的计算方法及装置 Download PDF

Info

Publication number
CN105955962B
CN105955962B CN201610304614.8A CN201610304614A CN105955962B CN 105955962 B CN105955962 B CN 105955962B CN 201610304614 A CN201610304614 A CN 201610304614A CN 105955962 B CN105955962 B CN 105955962B
Authority
CN
China
Prior art keywords
topic
feature vector
feature
topics
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610304614.8A
Other languages
English (en)
Other versions
CN105955962A (zh
Inventor
熊蜀光
黄琰
杨力学
白建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xintang Sichuang Educational Technology Co Ltd
Original Assignee
Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xintang Sichuang Educational Technology Co Ltd filed Critical Beijing Xintang Sichuang Educational Technology Co Ltd
Priority to CN201610304614.8A priority Critical patent/CN105955962B/zh
Publication of CN105955962A publication Critical patent/CN105955962A/zh
Application granted granted Critical
Publication of CN105955962B publication Critical patent/CN105955962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种题目相似度的计算方法及装置,其中,该计算方法包括:基于题库中所有题目生成特征词语集;基于所述特征词语集获得每道题目的特征向量;根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值。本发明能够极大地提高老师和教辅人员寻找相似题目的效率,从而能够提高老师的教学效率和学生的学习效率。

Description

题目相似度的计算方法及装置
技术领域
本发明涉及计算机辅助教学领域,尤其涉及查找相类似题目的方法,具体来说就是一种题目相似度的计算方法及装置。
背景技术
随着计算机和互联网技术的发展,中小学教育,乃至大学教育中的练习和考试题目均实现了数字化存储,并可上传到网络上供学生使用。随着时间的推移,题目的数量会越来越大,例如,许多教学机构的题库中已经存储了数十万道题目。这给题目的有效索引带来了困难,例如想要从海量的题库中查找到与某道题目类似的题目,以让学生进行有针对性的巩固练习,将变得不易。
现有常用的解决办法是:1.由老师或教辅人员手动将题库中题目进行分类,将相似的题目分在同一类别下,以便学生进行针对性的巩固练习,然而此种方式费时费力,对于小规模题库还能实现,对于海量题库进行人工分类,则根本无法实现;2.开发计算机检索系统,通过输入关键词的方式进行检索,然而经常出现关键词对应的题目很多,无法对搜索结果进行精准的区分,依然需要借助人力进行细分。例如在某教学机构的题库中,搜索“一元二次方程”,对应的题目达上千道之多,如果老师或教辅人员不进行进一步细分根本无法利用检索出来的题目。
如果能够采用自动化精确计算的方式获取与给定题目相似的题目,并将这些相似题目推送给用户,将会极大地提高老师和教辅人员寻找相似题目的效率,从而降低老师工作强度,提高老师的教学效率。另一方面,学生通过更加针对性地练习相似题目,可以避免盲目的题海战术,提高学生的学习效率。
因此,本领域技术人员亟需一种相似题目查找方法,以提高老师的教学效率和学生的学习效率。
发明内容
有鉴于此,本发明要解决的技术问题在于提供一种题目相似度的计算方法及装置,解决了现有技术中需要借助人力才能完成相似题目精准查找,费时费力效率低下的问题。
为了解决上述技术问题,本发明的具体实施方式提供一种题目相似度的计算方法,包括:基于题库中所有题目生成特征词语集;基于所述特征词语集获得每道题目的特征向量;根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值。
本发明的具体实施方式还提供一种题目相似度的计算装置,包括:生成单元,用于基于题库中所有题目生成特征词语集;获得单元,用于基于所述特征词语集获得每道题目的特征向量;计算单元,用于根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值。
根据本发明的上述具体实施方式可知,题目相似度的计算方法及装置至少具有以下有益效果:基于题库中所有题目产生特征词语集,再根据特征词语集获得每道题目的特征向量,对于题库中任意一道题目,根据该题目的特征相向量和题库中其它题目的特征向量分别计算该题目与其它题目之间的相似度值,最后根据相似度值对题库中其它题目进行降序排列,并根据预先设置向用户推送队列中预定数目的题目。本发明可以在题库中自动检索到与当前题目极其相似的题目,精准度高,不需要人工参与,能够极大地提高老师和教辅人员寻找相似题目的效率,从而降低老师工作强度,提高老师的教学效率;另一方面,学生通过更加针对性地练习相似题目,可以避免盲目的题海战术,提高学生的学习效率。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本发明所欲主张的范围。
附图说明
下面的所附附图是本发明的说明书的一部分,其绘示了本发明的示例实施例,所附附图与说明书的描述一起用来说明本发明的原理。
图1为本发明具体实施方式提供的一种题目相似度的计算方法的实施例一的流程图;
图2为本发明具体实施方式提供的一种题目相似度的计算方法的实施例二的流程图;
图3为本发明具体实施方式提供的一种题目相似度的计算方法的实施例三的流程图;
图4为本发明具体实施方式提供的一种题目相似度的计算方法的实施例四的流程图;
图5为本发明具体实施方式提供的一种题目相似度的计算方法的实施例五的流程图;
图6为本发明具体实施方式提供的一种题目相似度的计算装置的实施例一的示意框图;
图7为本发明具体实施方式提供的一种题目相似度的计算装置的实施例二的示意框图;
图8为本发明具体实施方式提供的一种题目相似度的计算装置的实施例三的示意框图;
图9为本发明具体实施方式提供的一种题目相似度的计算装置的实施例四的示意框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。
本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
图1为本发明具体实施方式提供的一种题目相似度的计算方法的实施例一的流程图,如图1所示,基于题库中所有题目产生特征词语集,再根据特征词语集获得每道题目的特征向量,最后根据任一题目的特征相向量和题库中其它题目的特征向量分别计算该题目与其它题目之间的相似度值。
在该附图所示的具体实施方式中,题目相似度的计算方法包括:
步骤101:基于题库中所有题目生成特征词语集。首先要建立题库(即题目数据库),即在数据库中存放每道题目的题目描述(如果题目是选择题目,根据用户的需求,可以存放选择题目的题干和选项描述,也可以仅存放选择题目的题干描述,而不存放选择题目的选项描述),根据所有题目的题目描述生成特征词语集,特征词语集以关键词的形式存在。
步骤102:基于所述特征词语集获得每道题目的特征向量。假如特征词语集共有n个关键词组成,那么特征向量长度就是n,特征向量的特征向量值以0、1表示,即对于任一道题目来说,它的题目所具有的关键词对应的特征向量值为1,其它特征向量值均为0。
步骤103:根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值。由于对于任一道题目来说,其特征向量长度均为n,根据当前题目的特征向量和题库中其它题目的特征向量可以计算当前题目与题库中其它题目之间的相似度值。本发明的具体实施例中,当前题目与题库中其它题目之间的相似度值S的具体计算公式为:
其中,R表示当前题目的特征向量;Rn-1表示其它题目的特征向量,题库中共有n道题目;∧为逻辑求“与”符号;∨为逻辑求“或”符号;P表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“与”后,特征向量值为1的个数;Q表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“或”后,特征向量值为1的个数。
参见图1,利用题库中所有题目产生特征词语集,再根据特征词语集获得每道题目的特征向量,根据任一道题目的特征相向量和题库中其它题目的特征向量分别计算该题目与其它题目之间的相似度值,能够极大地提高老师和教辅人员寻找相似题目的效率,从而降低老师工作强度,提高老师的教学效率;另一方面,学生通过更加针对性地练习相似题目,可以避免盲目的题海战术,提高学生的学习效率。
在本发明的具体实施例中,当题目类型为选择题目时,所述字符串可以来源于选择题目的题干和选择题目的选项,所述字符串也可以仅来源于选择题目的题干。根据用户需求,对于选择题目而言,可以在题库中合理存放题目内容(题目描述),例如,如果在题库中既存放题干描述,又存放选项描述,当前题目为选择题目时,可以增加与当前选择题目相似的选择题目的检索精度;如果在题库中仅存放题干描述,可以防止检索相似题目时,选择题目对非选择题目的干扰,满足用户的个性化需求,提高用户体验度。
图2为本发明具体实施方式提供的一种题目相似度的计算方法的实施例二的流程图,如图2所示,根据相似度值对题库中其它题目进行降序排序,排列越靠前,说明与当前题目的相关性越强。
在该附图所示的具体实施方式中,步骤103之后,该计算方法还包括:
步骤104:根据所述相似度值对题库中其它题目进行降序排序。根据所述相似度值对题库中其它题目排序后,按照相似度值从大到小产生一个题目的排序结果。
步骤105:根据排序结果向用户推送预定数量的题目。用户可以为老师、教辅人员、题库管理人员、考试出题人员等。
参见图2,对题库中其它题目进行降序排序后,用户可以直观看到与当前题目最相关的题目,并将相似度值位于前几位的题目推送给老师或者教辅人员,方便老师或者教辅人员对题目的选取,进一步降低了老师或者教辅人员的工作强度,提高老师或者教辅人员的教学效率。本发明具体实施例中,可以根据学生的学习时间,以及学生对当前题目的掌握程度,根据排序结果合理设置向用户推送题目的数量,例如,系统默认推送3道题目,如果学生的学习时间比较长,可以通过设置,推送5道与当前题目最相似的题目;如果学生对当前题目的掌握程度比较好,可以通过设置,推送1道与当前题目最相似的题目,本发明不以此为限。
图3为本发明具体实施方式提供的一种题目相似度的计算方法的实施例三的流程图,如图3所示,根据用户的设置,还可以根据相似度值向用户推送预定数量的题目。
在该附图所示的具体实施方式中,步骤103之后,该计算方法还包括:
步骤106:设置所述相似度值的门限值。例如将门限值设置为0.5,只把题库中与当前题目之间的相似度值大于0.5的题目推送给用户。
步骤107:将相似度值大于所述门限值的题目推送给用户。
参见图3,设置相似度值的门限值,可以让题库管理者了解题库中题目分布,可以平衡题库中各类题目的分布,将将相似度值大于所述门限值的题目推送给用户,方便考虑选题,增加A、B卷考试模式的公平公正性,而且也方便老师或教辅人员给学生指定练习或者题目,进一步提高了老师的教学效率,同时可以让学生进行更具有针对性的练习,提高学生的学习效率。
图4为本发明具体实施方式提供的一种题目相似度的计算方法的实施例四的流程图,如图4所示,去除题目中的字符(不包括单词)、数字、标点、助词和公式获得字符串,进而获得字符串的所有子字符串,并滤除在题库中所有题目中出现次数小于预定阈值的子字符串,从而形成特征词语集。
在该附图所示的具体实施方式中,步骤101具体包括:
步骤1011:获取题库中每道题目的字符串。例如某道题目为:“关于x的一元二次方程x2+k=0有实数根,则k的取值范围为?”,去除题目中的字符(不包括单词)、数字、标点、助词和公式获得字符串。即去除题目描述为:“关于x的一元二次方程x2+k=0有实数根,则k的取值范围为?”中的字符(不包括单词)、数字、标点、助词和公式获得字符串为“关于一元二次方程实数根取值范围”。题目可以为中文或者外文,字符串可以为中文或者外文。
步骤1012:获得所述字符串的所有子字符串。字符串“关于一元二次方程实数根取值范围”的所有子字符串如下:
长度为1的子字符串:关、于、一、元、二、次、方、程、实、数、根、取、值、范、围;
长度为2的子字符串:关于、于一、一元、元二、二次、次方、方程、程实、实数、数根、根取、取值、值范、范围;
长度为3的子字符串:关于一、于一元、一元二、元二次、二次方、次方程、方程实、程实数、实数根、数根取、根取值、取值范、值范围;
……
长度为14的子字符串:关于一元二次方程实数根取值范、于一元二次方程实数根取值范围;
长度为15的子字符串:关于一元二次方程实数根取值范围。
步骤1013:滤除在所有题目中出现次数小于预定阈值的子字符串,并将剩余的子字符串定义为特征词语。统计每个子字符串在多少道题目中出现过,并事先指定阈值m,如果子字符串在题目中出现的次数小于m,则滤除该子字符串,并将剩余的子字符串定义为特征词语。例如“关于一元”在5道题目中出现,“二次方程”在10道题目中出现,取m=8,则滤除“关于一元”,假定获得的特征词语为“一次方程、二元一次方程、二次方程、一元二次方程、虚数根、实数根、取值范围”。
步骤1014:利用所述特征词语组成特征词语集。滤除在题库中所有题目中出现次数小于预定阈值的子字符串后,剩余子字符串组成特征词语集,那么特征词语集为[一次方程、二元一次方程、二次方程、一元二次方程、虚数根、实数根、取值范围]。
步骤1015:滤除完全包含在其它特征词语中的特征词语。为了降低数据处理量并提高题目相似度的计算精度,还可以进一步滤除特征词语集中完全包含在其它特征词语中的特征词语,即在特征词语集中,如果一个特征词语是另外一个特征词语的真子串,则将该真子串滤除,例如,“二次方程”和“一元二次方程”都在特征词语集中,“二次方程”是“一元二次方程”的真子串,那么就将“二次方程”滤除;同理,“一次方程”是“二元一次方程”的真子串,那么就将“一次方程”滤除,最终获得的特征词语集为[二元一次方程、一元二次方程、虚数根、实数根、取值范围]。
参见图4,最终获得的特征词语集既全面,又不存在遗漏,可以实现相似题目的精准检索,提高老师和教辅人员寻找相似题目的效率,并让学生练习精准的相似题目,避免盲目的题海战术,提高学生的学习效率。
图5为本发明具体实施方式提供的一种题目相似度的计算方法的实施例五的流程图,如图5所示,根据特征词语集中子字符串的数量构建初始特征向量,并确定每道题目对应的字符串中所包含的特征词语,再对初始特征向量进行赋值来获得该道题目对应的特征向量。
在该附图所示的具体实施方式中,步骤102具体包括:
步骤1021:根据特征词语的数量构建特征向量值全为0的初始特征向量。假如特征词语集中特征词语(即上文所说的关键词)的数量为n,那么初始特征向量A的特征向量长度L就是n,初始特征向量A=[0、0、…、0、0|共n个0]。
步骤1022:确定每道题目对应的所述字符串中所包含的特征词语。假如,某道题目的字符串为“关于一元二次方程实数根取值范围”,并且确定该道题目包含的特征词语为“一元二次方程”、“实数根”和“取值范围”。
步骤1023:根据该道题目所包含的特征词语将初始特征向量中对应的特征向量值赋值为1从而获得该道题目对应的特征向量。将初始特征向量中对应“一元二次方程”、“实数根”和“取值范围”的特征向量值赋值为1,剩余的特征向量值不变,仍然为0,即获得该道题目对应的特征向量。为了便于说明,假如特征词语集中特征词语的数量为5,即特征向量长度L也为5,并且特征词语集为[二元一次方程、一元二次方程、虚数根、实数根、取值范围],那么该道题目对应的特征向量为[0、1、0、1、1]。
本发明具体实施例中,当前题目与题库中其它题目之间的相似度值S的具体计算公式为:
其中,R表示当前题目的特征向量;Rn-1表示其它题目的特征向量,题库中共有n道题目;∧为逻辑求“与”符号;∨为逻辑求“或”符号;P表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“与”后,特征向量值为1的个数;Q表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“或”后,特征向量值为1的个数。
假如,当前题目对应的特征向量为[0、1、0、1、1],题库中题目一的特征向量为[1、0、1、0、1],当前题目的特征向量与题目一对应的特征向量相“与”后为[0、0、0、0、1],特征向量值为1的个数为1,当前题目的特征向量与题目一对应的特征向量相“或”后为[1、1、1、1、1],特征向量值为1的个数为5,那么当前题目与题目一之间的相似度值S1如果题库中题目二的特征向量为[1、1、1、0、1],当前题目的特征向量与题目二对应的特征向量相“与”后为[0、1、0、0、1],特征向量值为1的个数为2,当前题目的特征向量与题目一对应的特征向量相“或”后为[1、1、1、1、1],特征向量值为1的个数为5,那么当前题目与题目二之间的相似度值S2显然,当前题目与题目一、题目二相比,当前题目与题目二更加相似,优先向用户推送题目二。
图6为本发明具体实施方式提供的一种题目相似度的计算装置的实施例一的示意框图,如图6所示的计算装置可以应用在图1-图5所示的计算方法中,生成单元基于题库中所有题目产生特征词语集,获得单元根据特征词语集获得每道题目的特征向量,计算单元根据任一题目的特征相向量和题库中其它题目的特征向量分别计算该题目与其它题目之间的相似度值,然后,排序单元可以根据相似度值对题库中其它题目进行降序排序,推送单元也可以根据相似度值向用户推送预定数量的题目。
在该附图所示的具体实施方式中,该计算装置包括生成单元1、获得单元2、计算单元3、排序单元4和推送单元5,其中,生成单元1用于基于题库中所有题目生成特征词语集;获得单元2用于基于所述特征词语集获得每道题目的特征向量;计算单元3用于根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值;排序单元4用于根据所述相似度值对题库中其它题目进行降序排序;第一推送单元5用于根据排序结果向用户推送预定数量的题目。
参见图6,利用题库中所有题目产生特征词语集,再根据特征词语集获得每道题目的特征向量,根据任一道题目的特征相向量和题库中其它题目的特征向量分别计算该题目与其它题目之间的相似度值,最后根据相似度值对题库中的题目进行排序,并根据排序结果将相似度值较大的题目推送给用户,能够极大地提高老师和教辅人员寻找相似题目的效率,从而降低老师工作强度,提高老师的教学效率;另一方面,学生通过更加针对性地练习相似题目,可以避免盲目的题海战术,提高学生的学习效率。
在本发明的具体实施例中,当题目类型为选择题目时,所述字符串可以来源于选择题目的题干和选择题目的选项,所述字符串也可以仅来源于选择题目的题干。根据用户需求,对于选择题目而言,可以在题库中合理存放题目内容(题目描述),例如,如果在题库中既存放题干描述,又存放选项描述,当前题目为选择题目时,可以增加与当前选择题目相似的选择题目的检索精度;如果在题库中仅存放题干描述,可以防止检索相似题目时,选择题目对非选择题目的干扰,满足用户的个性化需求,提高用户体验度。
图7为本发明具体实施方式提供的一种题目相似度的计算装置的实施例二的示意框图,如图7所示,为了便于用户选题,还可以利用设置单元设置相似度值的门限值;并利用第二推送单元将相似度值大于所述门限值的题目推送给用户。
在该附图所示的具体实施方式中,该计算装置还包括设置单元6和第二推送单元7,其中,设置单元6用于设置所述相似度值的门限值;第二推送单元7用于将相似度值大于所述门限值的题目推送给用户。
如图7所示,通过设置相似度值的门限值向用户推送题目,可以让题库管理者了解题库中题目分布,可以平衡题库中各类题目的分布,将将相似度值大于所述门限值的题目推送给用户,方便考虑选题,增加A、B卷考试模式的公平公正性,而且也方便老师或教辅人员给学生指定练习或者题目,进一步提高了老师的教学效率,同时可以让学生进行更具有针对性的练习,提高学生的学习效率。
图8为本发明具体实施方式提供的一种题目相似度的计算装置的实施例三的示意框图,如图8所示的计算装置可以应用到图4所示的计算方法中,去除题目中的字符(不包括单词)、数字、标点、助词和公式获得字符串,获得模块进而获得字符串的所有子字符串,滤除模块滤除在题库中所有题目中出现次数小于预定阈值的子字符串,从而形成特征词语集。
在该附图所示的具体实施方式中,所述生成单元1进一步包括获取模块11、获得模块12、滤除模块13、组成模块14和备用滤除模块15,其中,获取模块11用于获取题库中每道题目的字符串;获得模块12用于获得所述字符串的所有子字符串;滤除模块13用于滤除在所有题目中出现次数小于预定阈值的子字符串,并将剩余的子字符串定义为特征词语;组成模块14用于利用所述特征词语组成特征词语集;备用滤除模块15用于滤除完全包含在其它特征词语中的特征词语。
参见图8,利用上述模块最终获得的特征词语集既全面,又不存在遗漏,可以实现相似题目的精准检索,提高老师和教辅人员寻找相似题目的效率,并让学生练习精准的相似题目,避免盲目的题海战术,提高学生的学习效率。
图9为本发明具体实施方式提供的一种题目相似度的计算装置的实施例四的示意框图,如图9所示的计算装置可以应用到图5所示的计算方法中,构建模块根据特征词语集中特征词语的数量构建初始特征向量,确定模块确定每道题目对应的字符串中所包含的特征词语,赋值模块再对初始特征向量进行赋值来获得该道题目对应的特征向量。
在该附图所示的具体实施方式中,所述获得单元2进一步包括构建模块21、确定模块22和赋值模块23,其中,构建模块21用于根据特征词语的数量构建特征向量值全为0的初始特征向量;确定模块22用于确定每道题目对应的所述字符串中所包含的特征词语;赋值模块23用于根据该道题目所包含的特征词语将初始特征向量中对应的特征向量值赋值为1从而获得该道题目对应的特征向量。
本发明具体实施例中,当前题目与题库中其它题目之间的相似度值S的具体计算公式为:
其中,R表示当前题目的特征向量;Rn-1表示其它题目的特征向量,题库中共有n道题目;∧为逻辑求“与”符号;∨为逻辑求“或”符号;P表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“与”后,特征向量值为1的个数;Q表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“或”后,特征向量值为1的个数。
本发明提供一种题目相似度的计算方法及装置,基于题库中所有题目产生特征词语集,再根据特征词语集获得每道题目对应的特征向量,对于题库中任意一道题目,根据该题目的特征相向量和题库中其它题目的特征向量,分别计算该题目与其它题目之间的相似度值,最后根据相似度值对题库中其它题目进行降序排列,并根据排序结果向用户推送队列中相似度值较大的题目;还可以设置相似度值的门限值,将相似度值大于门限值的题目推送给用户,方便老师或者教辅人员为学生选题,保证A、B卷考试模块的公平公正性,并且还为题库管理人员管理题库提供了客观依据;通过计算机就可以在题库中自动检索到与当前题目极其相似的题目,精准度高,不需要人工参与,并且不受语言限定,可以中文、英文、法文、韩文等语言,能够极大地提高老师或者教辅人员寻找相似题目的效率,从而降低老师或者教辅人员的工作强度,提高老师或者教辅人员的教学效率;另一方面,学生能够更加针对性地进行相似题目练习,可以避免盲目的题海战术,提高学生的学习效率。
上述的本发明实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本发明的实施例也可为在数据信号处理器(Digital Signal Processor,DSP)中执行上述方法的程序代码。本发明也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array,FPGA)执行的多种功能。可根据本发明配置上述处理器执行特定任务,其通过执行定义了本发明揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。
以上所述仅为本发明示意性的具体实施方式,在不脱离本发明的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本发明保护的范围。

Claims (9)

1.一种题目相似度的计算方法,其特征在于,该计算方法包括:
基于题库中所有题目生成特征词语集;
基于所述特征词语集获得每道题目的特征向量;以及
根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值;
根据所述相似度值对题库中其它题目进行降序排序;以及
根据排序结果向用户推送预定数量的题目;
其中,根据学生的学习时间或学生对当前题目的掌握程度,根据排序结果设置向用户推送题目的数量。
2.如权利要求1所述的题目相似度的计算方法,其特征在于,基于题库中所有题目生成特征词语集的步骤,具体包括:
获取题库中每道题目的字符串;
获得所述字符串的所有子字符串;
滤除在所有题目中出现次数小于预定阈值的子字符串,并将剩余的子字符串定义为特征词语;以及
利用所述特征词语组成特征词语集。
3.如权利要求2所述的题目相似度的计算方法,其特征在于,根据滤除处理后的子字符串生成特征词语集的步骤之后,还包括:
滤除完全包含在其它特征词语中的特征词语。
4.如权利要求2或3所述的题目相似度的计算方法,其特征在于,基于所述特征词语集获得每道题目的特征向量的步骤,具体包括:
根据特征词语的数量构建特征向量值全为0的初始特征向量;
确定每道题目对应的所述字符串中所包含的特征词语;以及
根据该道题目所包含的特征词语将初始特征向量中对应的特征向量值赋值为1从而获得该道题目对应的特征向量。
5.如权利要求1所述的题目相似度的计算方法,其特征在于,当前题目与题库中其它题目之间的相似度值S的具体计算公式为:
其中,R表示当前题目的特征向量;Rn-1表示其它题目的特征向量,题库中共有n道题目;∧为逻辑求“与”符号;∨为逻辑求“或”符号;P表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“与”后,特征向量值为1的个数;Q表示当前题目的特征向量对应的特征向量值与其它题目的特征向量对应的特征向量值相“或”后,特征向量值为1的个数。
6.如权利要求2或3所述的题目相似度的计算方法,其特征在于,所述题目为选择题目,所述字符串来源于选择题目的题干和选项,或者所述字符串仅来源于选择题目的题干。
7.一种题目相似度的计算装置,其特征在于,该计算装置包括:
生成单元,用于基于题库中所有题目生成特征词语集;
获得单元,用于基于所述特征词语集获得每道题目的特征向量;以及
计算单元,用于根据当前题目的特征向量和题库中其它题目的特征向量分别计算当前题目与题库中其它题目之间的相似度值;
排序单元,用于根据所述相似度值对题库中其它题目进行降序排序;以及
第一推送单元,用于根据排序结果向用户推送预定数量的题目,其中,根据学生的学习时间或学生对当前题目的掌握程度,根据排序结果设置向用户推送题目的数量。
8.如权利要求7所述的题目相似度的计算装置,其特征在于,所述生成单元进一步包括:
获取模块,用于获取题库中每道题目的字符串;
获得模块,用于获得所述字符串的所有子字符串;
滤除模块,用于滤除在所有题目中出现次数小于预定阈值的子字符串,并将剩余的子字符串定义为特征词语;以及
组成模块,用于利用所述特征词语组成特征词语集。
9.如权利要求8所述的题目相似度的计算装置,其特征在于,所述获得单元进一步包括:
构建模块,用于根据特征词语的数量构建特征向量值全为0的初始特征向量;
确定模块,用于确定每道题目对应的所述字符串中所包含的特征词语;以及
赋值模块,用于根据该道题目所包含的特征词语将初始特征向量中对应的特征向量值赋值为1从而获得该道题目对应的特征向量。
CN201610304614.8A 2016-05-10 2016-05-10 题目相似度的计算方法及装置 Active CN105955962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610304614.8A CN105955962B (zh) 2016-05-10 2016-05-10 题目相似度的计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610304614.8A CN105955962B (zh) 2016-05-10 2016-05-10 题目相似度的计算方法及装置

Publications (2)

Publication Number Publication Date
CN105955962A CN105955962A (zh) 2016-09-21
CN105955962B true CN105955962B (zh) 2019-11-05

Family

ID=56915345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610304614.8A Active CN105955962B (zh) 2016-05-10 2016-05-10 题目相似度的计算方法及装置

Country Status (1)

Country Link
CN (1) CN105955962B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776724B (zh) * 2016-11-16 2020-09-08 福建天泉教育科技有限公司 一种题目分类方法及系统
CN108182275A (zh) * 2018-01-24 2018-06-19 上海互教教育科技有限公司 一种数学变式训练题推送系统以及关联方法
CN108376132B (zh) * 2018-03-16 2020-08-28 中国科学技术大学 相似试题的判定方法及系统
CN109271401B (zh) * 2018-09-26 2021-11-12 杭州大拿科技股份有限公司 一种题目搜索、批改方法、装置、电子设备和存储介质
EP3859558A4 (en) * 2018-09-26 2022-06-22 Hangzhou Dana Technology Inc. ANSWER MARKING PROCEDURE FOR HEADPHONES, DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIA
CN109189895B (zh) * 2018-09-26 2021-06-04 杭州大拿科技股份有限公司 一种针对口算题的题目批改方法及装置
CN109284355B (zh) * 2018-09-26 2020-09-22 杭州大拿科技股份有限公司 一种批改试卷中口算题的方法及装置
CN109326161A (zh) * 2018-12-05 2019-02-12 杭州大拿科技股份有限公司 一种试卷批改一体机
CN109583429B (zh) * 2018-12-26 2021-04-30 杭州大拿科技股份有限公司 一种批改试卷中应用题的方法及装置
CN109712043B (zh) * 2018-12-28 2021-03-19 杭州大拿科技股份有限公司 一种答案批改方法及装置
CN110297886A (zh) * 2019-05-31 2019-10-01 广州大学 基于短文本的oj题目分类器构建方法及题目模拟方法
CN112559676B (zh) * 2019-09-25 2022-05-17 北京新唐思创教育科技有限公司 相似题目的检索方法、装置及计算机存储介质
CN110675677A (zh) * 2019-10-16 2020-01-10 杭州大拿科技股份有限公司 用于辅助数学应用题的方法及装置
CN110765278B (zh) * 2019-10-24 2022-10-25 深圳小蛙出海科技有限公司 一种查找相似习题的方法、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103870463A (zh) * 2012-12-10 2014-06-18 中国电信股份有限公司 测试题目的选择方法与系统
CN105373594A (zh) * 2015-10-23 2016-03-02 广东小天才科技有限公司 一种筛查题库中重复试题的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870463A (zh) * 2012-12-10 2014-06-18 中国电信股份有限公司 测试题目的选择方法与系统
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN105373594A (zh) * 2015-10-23 2016-03-02 广东小天才科技有限公司 一种筛查题库中重复试题的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
个性化远程教育学习管理系统的设计与实现;张洪波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第03期);第26页 *
基于文本分类和相似度的重题检测研究;梁涛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080815(第08期);第30-32页第4.3.2-4.3.3节 *
聚类初始中心点选取研究;杨天霞 等;《南京师大学报(自然科学版)》;20101231;第33卷(第4期);第162页 *

Also Published As

Publication number Publication date
CN105955962A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105955962B (zh) 题目相似度的计算方法及装置
Feng et al. Extracting action sequences from texts based on deep reinforcement learning
Gomaa et al. Short answer grading using string similarity and corpus-based similarity
CN109165350A (zh) 一种基于深度知识感知的信息推荐方法和系统
CN112784608B (zh) 试题推荐方法、装置、电子设备和存储介质
Örkcü et al. Estimating the parameters of 3-p Weibull distribution using particle swarm optimization: A comprehensive experimental comparison
CN110110330A (zh) 基于文本的关键词提取方法和计算机设备
CN106547734A (zh) 一种问句信息处理方法及装置
Jiménez et al. Handling uncertainty in citizen science data: Towards an improved amateur-based large-scale classification
Heilbron et al. Collecting and annotating human activities in web videos
CN109165040A (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
CN107608953A (zh) 一种基于不定长上下文的词向量生成方法
CN105608075A (zh) 一种相关知识点的获取方法及系统
CN107545038A (zh) 一种文本分类方法与设备
CN110008309A (zh) 一种短语挖掘方法及装置
CN105930319A (zh) 建立获取题目知识点模型、获取题目知识点的方法和装置
CN103309857B (zh) 一种分类语料确定方法和设备
CN111820922B (zh) 一种面向幼儿计算思维的测评方法
CN105893363A (zh) 一种获取知识点的相关知识点的方法及系统
Yeşiltaş et al. Trends in research on the use of digital games in education
Mühling et al. Dimensions of programming knowledge
CN110070120A (zh) 基于判别采样策略的深度度量学习方法及系统
CN109377017A (zh) 一种信息系统实用化及数据健康度评价方法
CN113495963B (zh) 网络安全知识图谱的嵌入表示方法及装置
CN106897436A (zh) 一种基于变分推断的学术研究热点关键词提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant