CN113221547A - 基于信息抽取和知识图谱的试题推荐方法 - Google Patents

基于信息抽取和知识图谱的试题推荐方法 Download PDF

Info

Publication number
CN113221547A
CN113221547A CN202110083233.2A CN202110083233A CN113221547A CN 113221547 A CN113221547 A CN 113221547A CN 202110083233 A CN202110083233 A CN 202110083233A CN 113221547 A CN113221547 A CN 113221547A
Authority
CN
China
Prior art keywords
test question
test
question
knowledge points
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110083233.2A
Other languages
English (en)
Other versions
CN113221547B (zh
Inventor
张毅
王爽胜
何彬
叶培明
李克强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110083233.2A priority Critical patent/CN113221547B/zh
Publication of CN113221547A publication Critical patent/CN113221547A/zh
Application granted granted Critical
Publication of CN113221547B publication Critical patent/CN113221547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于信息抽取和知识图谱的试题推荐方法,包括步骤:通过神经网络模型对试题进行实体识别和实体关系抽取,得到试题所考查的三元组知识点,形成试题知识图谱;根据已构建的试题知识图谱,构建基于三元组知识点关联的试题网络;根据错题以及试题网络进行试题推荐。本发明通过神经网络模型对试题进行知识点自动化提取,能有效节省人工,同时避免人工的主观性偏差,另外本发明抽取到的三元组知识点较章节大知识点,以及关键词知识点更加精细,同时考虑试题背后考查知识点之间的组合关系,构建试题网络,将试题间基于知识点的关联程度数字化、精细化,并根据错题和试题间精细化的关联信息,进行试题推荐,使得试题推荐结果更加准确。

Description

基于信息抽取和知识图谱的试题推荐方法
技术领域
本发明属于计算机软件技术领域,具体涉及一种基于信息抽取和知识图谱的试题推荐方法。
背景技术
随着互联网技术的发展,信息的爆炸式的增长使得网络中信息泛滥问题变得特别严重,对于用户来说从海量数据中寻找对于自己有价值的数据显得十分困难。近年来,鉴于推荐技术在各个领域均有较大的价值,各行各业的专家学者都投身于推荐技术的研究中去。在教育领域,当前有很多线上题库网站,能辅助学生进行课外学习,以达到更好的学习效果,但如何在海量的试题中找到对于自己有价值的试题显得十分困难。
一方面这些平台的运营和维护需要耗费大量的人工成本,同时存在人为主观因素的影响。因此如何让计算机去阅读并理解知识,实现教育资源的自动化整合显得十分重要。
另一方面试题知识点的抽取是进行试题推荐的基础,但现有试题知识点的抽取方法比较粗糙,比如按章节知识点划分或者通过分词得到关键词,然后通过人工筛选关键词作为知识点,这些方法对试题知识点的提取比较粗糙,基于粗糙知识点的试题知识点提取将影响到后续推荐方法的效果。
此外,目前主流推荐方法中主要有基于规则的推荐技术、基于内容的推荐技术和协同过滤技术。基于规则的推荐技术,过度依赖于专业领域的语言专家定义语法规则,需要耗费大量时间来提取规则,人工成本太高,同时迁移成本巨大。
基于内容的推荐对复杂属性的处理不够友好,同时对新用户不能产生好的推荐。
基于协同过滤,认知诊断等推荐方法,推荐与错题极其相似的试题。这样的推荐结果很可能导致用户重复做相似或者相同的题,而忽略了试题背后考查知识点与知识点的组合关系,降低了用户的学习效率,同时存在由于数据稀疏性带来的冷启动问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于信息抽取和知识图谱的试题推荐方法。本发明的技术方案如下:
一种基于信息抽取和知识图谱的试题推荐方法,其包括以下步骤:
S1、采用深度学习方法中的神经网络模型对试题文本进行实体识别;
S2、采用深度学习方法中的神经网络模型对试题文本进行实体关系抽取;
S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络;
S4、根据错题集和已构建的试题网络进行试题推荐。
进一步的,所述步骤S1中对试题文本进行进行实体识别,具体步骤包括:
S1-1、设计实体类别,并对试题文本进行实体标注,形成数据集;
S1-2、构建深度学习神经网络模型,并在步骤S1-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;
S1-3、用步骤S1-2中训练好的神经网络模型对未标注的试题文本进行实体标注。
进一步的,所述步骤S2中对试题文本进行进行实体关系抽取,具体步骤包括:
S2-1、设计实体关系类别,并对试题文本进行实体关系标注,形成数据集;
S2-2、构建深度学习神经网络模型,并在步骤S2-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;
S2-3、用步骤S2-2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取。
进一步的,所述步骤S3中基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,具体步骤包括:
S3-1、基于步骤S1和S2抽取到的实体及实体关系,确定试题与三元组知识点之间的映射关系,并统计同一试题中出现三元组知识点的总个数,并统计各个三元组知识点在同一试题中出现的次数,从而构建好以各个三元组知识点和试题为节点,对应知识点在试题中知识点总占比为边的试题知识图谱;
S3-2、基于步骤S3-1构造的试题知识图谱,构造基于知识点关联的试题网络,以衡量试题间的关联程度。
进一步的,所述步骤S3-1知识点占比的计算方法如下:
Figure BDA0002910081150000031
其中Ni表示三元组知识点i在试题j中的次数,Mj为试题j中统计的所有三元组知识点的个数,相同三元组也算在统计数里面,Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。
进一步的,所述步骤S3-2节点间的距离计算公式(Li,j为试题i与试题j之间基于知识点的关联程度,即距离)如下:
Figure BDA0002910081150000032
Figure BDA0002910081150000033
Figure BDA0002910081150000034
其中,Ci,j表示:试题i,j共有的三元组知识点集合;Li,j表示试题i与试题j 之间基于知识点的关联程度即距离,Sm,i表示三元组知识点m在试题i中所有三元组知识点的占比,Sm,j表示三元组知识点m在试题j中所有三元组知识点的占比,m为Ci,j中的三元组知识点,Sp,i表示三元组知识点p在试题i中所有三元组知识点的占比,Sq,j分别表示三元组知识点q在试题i中所有三元组知识点的占。
Scom(i,j)表示试题i与试题j之间三元组知识点相似度;
Ecom(i,j)表示试题i与试题j中排除共有三元组知识点后,剩余三元组中的实体相似度,α为权重系数;
Di,j:表示在Bi,j中,且与Bj,i中的三元组具有相同实体的三元组集合;
Dj,i:表示在Bj,i中,且与Bi,j中的三元组具有相同实体的三元组集合;Bi,j:表示排除试题i与试题j公有的三元组知识点后,试题i中的其它三元组的集合;
Bj,i:表示排除试题i与试题j公有的三元组知识点后,试题j中的其它三元组的集合;
Ep,q:表示三元组p与三元组q具有的相同实体的个数。
进一步的,在计算Ecom(i,j)之前,要进行实体的语义的相似度分析,即通过bert 语言预训练模型得到字的词向量表示,从而得到实体的向量表示,通过实体向量的余弦相似度来判断实体之间的相似度,余弦相似度计算公式如下:
Figure BDA0002910081150000041
其中,M,N分别表示两个实体的向量表示,sim(M,N)表示两实体的余弦相似度,其取值范围为[-1,1]当两实体的余弦相似度大于0.8时,判定两实体相同。
进一步的,所述步骤S4中根据错题集和已构建的试题网络进行试题推荐具体包括以下步骤:
S4-1、根据错题集x,错题集的大小为m,得到错题集中与第n的错题相邻的所有错题的集合Dn
S4-2、得到所有与错题相邻并且非错题集x中的错题所组成的错题集合C,并计算集合C中的元素ci出现在D1-Dm中的频次
Figure BDA0002910081150000042
S4-3、遍历C中的元素,找到具有相同
Figure BDA0002910081150000054
的元素,组成同频集合TF;
S4-4、计算
Figure BDA0002910081150000051
Zj表示同频集合中的试题j与错题集中错题的距离之和。
其中,X表示错题集合,集合中元素个数为m;dij:表示试题i与试题j间的距离,即基于知识点的关联程度;Dn:表示第n个错题与其相邻的试题集合; C:C=D1∪D2...∪Dm-X,表示所有与错题有关联的试题的集合,并排除其中与错题集X中相同的元素;
Figure BDA0002910081150000052
表示集合c中的元素ci出现在D1-Dm中的频次;TF:表示集合c中
Figure BDA0002910081150000053
相同的项组成的集合。
S4-5、对于不同频数的TF集合按照频数从高到低排序,TF中的试题按照Zj从大到小排序,以此得到试题集合C中所有试题的排序,取前k项进行推荐。
本发明的优点及有益效果如下:
1、本发明通过神经网络模型对试题文本进行实体识别和实体关系抽取,得到三元组知识点,能通过训练好的模型完成知识点的自动抽取,节省了人工成本,同时能避免人工主观性带来的偏差。
2、抽取到的三元组知识点,相对于章节大知识点或关键词更加精细,使得试题知识点标注更加精确,便于后续的试题推荐。
3、本发明能在自动提取到的三元组精细知识点的基础上,考虑试题背后考查知识点之间的组合关系,构建试题网络,将试题间基于知识点的关联程度数字化、精细化,并根据试题间的精细化的关联信息,进行试题推荐,使得试题推荐结果更加准确。
4、本发明根据用户给出的错题即知识盲点进行试题推荐,同时由于试题网络的构建是基于题库中大量的试题信息,因而能避免冷启动问题。
附图说明
图1是本发明提供优选实施例基于信息抽取和知识图谱的试题推荐方法的流程示意图;
图2是构造试题知识图谱,进而得到试题网络的举例流程图;
图3是错题集和已构建的试题网络进行试题推荐的流程图;
图4是根据错题集和已构建的试题网络进行试题推荐的举例流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,为本发明的基于信息抽取和知识图谱的试题推荐方法的流程示意图。包括以下步骤:
S1、对试题文本进行实体识别,包括以下步骤:
S1-1、设计实体类别(实体类别的设计取决于具体课程,不同课程的实体类别是不一样的),并对试题文本进行实体标注,形成数据集;
S1-2、构建深度学习神经网络模型,并在步骤S1-1中的数据集进行训练,并保存训练好的模型参数;(不同神经网络模型存在差异,主要是模型里神经元之间的权重系数)
S1-3、用步骤S1-2中训练好的神经网络模型对未标注的试题文本进行实体标注;
S2、对试题文本进行实体关系抽取,包括以下步骤:
S2-1、设计实体关系类别(实体关系类别的设计取决于具体课程,不同课程的实体类别是不一样的),并对试题文本进行实体关系标注,形成数据集;
S2-2、构建深度学习神经网络模型,并在步骤S2-1中的数据集进行训练,并保存训练好的模型参数;(不同神经网络模型存在差异,主要是模型里神经元之间的权重系数)
S2-3、用步骤S2-2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取;
S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络,包括以下步骤:
S3-1、基于步骤S1和S2抽取到的实体及实体关系,确定试题与三元组知识点之间的映射关系,并统计同一试题中出现三元组知识点的总个数,并统计各个三元组知识点在同一试题中出现的次数,从而构建好以各个三元组知识点和试题为节点,对应知识点在试题中知识点总占比为边的试题知识图谱,其中知识点占比的计算方法如下:
Figure BDA0002910081150000071
其中Ni表示三元组知识点i在试题j中的次数,Mj为试题j中统计的所有三元组知识点的个数,相同三元组也算在统计数里面,Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。
S3-2、基于步骤S3-1构造的试题知识图谱,构造基于知识点关联的试题网络,以衡量试题间的关联程度,其中节点间的距离计算公式(Li,j为试题i与试题j之间基于知识点的关联程度,即距离)如下:
Figure BDA0002910081150000072
Figure BDA0002910081150000073
Figure BDA0002910081150000074
其中,Ci,j表示:试题i,j共有的三元组知识点集合;Li,j表示试题i与试题j 之间基于知识点的关联程度即距离,Sm,i表示三元组知识点m在试题i中所有三元组知识点的占比,Sm,j表示三元组知识点m在试题j中所有三元组知识点的占比,m为Ci,j中的三元组知识点,Sp,i表示三元组知识点p在试题i中所有三元组知识点的占比,Sq,j分别表示三元组知识点q在试题i中所有三元组知识点的占。
Scom(i,j)表示试题i与试题j之间三元组知识点相似度。
Ecom(i,j)表示试题i与试题j中排除共有三元组知识点后,剩余三元组中的实体相似度,α为权重系数。
Bi,j:表示排除试题i与试题j公有的三元组知识点后,试题i中的其它三元组的集合。
Bj,i:表示排除试题i与试题j公有的三元组知识点后,试题j中的其它三元组的集合。
Di,j:表示在Bi,j中,且与Bj,i中的三元组具有相同实体的三元组集合。
Dj,i:表示在Bj,i中,且与Bi,j中的三元组具有相同实体的三元组集合。
Ep,q:表示三元组p与三元组q具有的相同实体的个数。
由于不同的实体可能包含的语义信息大致相同,所以在计算Ecom(i,j)之前,要进行实体的语义的相似度分析,即通过bert语言预训练模型得到字的词向量表示,从而得到实体的向量表示,通过实体向量的余弦相似度来判断实体之间的相似度,余先相似度计算公式如下:
Figure BDA0002910081150000081
其中,M,N分别表示两个实体的向量表示,sim(M,N)表示两实体的余弦相似度,其取值范围为[-1,1]当两实体的余弦相似度大于0.8时,判定两实体相同。
图2为构造试题知识图谱,进而得到试题网络的举例流程图,其中权重系数取α为0.25。
S4、根据错题集和已构建的试题网络进行试题推荐,其实现流程如图3所示,图中各个参数说明如下:
X:错题集合,集合中元素个数为m。
dij:表示试题i与试题j间的距离,即基于知识点的关联程度。
Dn:表示第n个错题与其相邻的试题集合。
C:C=D1∪D2...∪Dm-X,表示所有与错题有关联的试题的集合,并排除其中与错题集X中相同的元素。
Figure BDA0002910081150000091
表示集合c中的元素ci出现在D1-Dm中的频次。
TF:表示集合C中
Figure BDA0002910081150000092
相同的项组成的集合。
根据错题集和已构建的试题网络进行试题推荐,具体包括以下流程:
S4-1、根据错题集x,错题集的大小为m,得到错题集中与第n的错题相邻的所有错题的集合Dn
S4-2、得到所有与错题相邻并且非错题集x中的错题所组成的错题集合C,并计算集合C中的元素ci出现在D1-Dm中的频次
Figure BDA0002910081150000093
S4-3、遍历C中的元素,找到具有相同
Figure BDA0002910081150000094
的元素,组成同频集合TF;
S4-4、计算
Figure BDA0002910081150000095
Zj表示同频集合中的试题j与错题集中错题的距离之和。
S4-5、对于不同频数的TF集合按照频数从高到低排序,TF中的试题按照Zj从大到小排序,以此得到试题集合C中所有试题的排序,取前k项进行推荐。
图4为根据错题集和已构建的试题网络进行试题推荐的举例流程图,其中错题集为试题1和2。
上述实施例阐明的方法,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,包括以下步骤:
S1、采用基于深度学习方法中的神经网络模型对试题文本进行实体识别;
S2、采用基于深度学习方法中的神经网络模型对试题文本进行实体关系抽取;
S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络;
S4、根据错题集和已构建的试题网络进行试题推荐。
2.根据权利要求1所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S1中对试题文本进行进行实体识别,具体步骤包括:
S1-1、设计实体类别,并对试题文本进行实体标注,形成数据集;
S1-2、构建深度学习神经网络模型,并在步骤S1-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;
S1-3、用步骤S1-2中训练好的神经网络模型对未标注的试题文本进行实体标注。
3.根据权利要求2所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S2中对试题文本进行进行实体关系抽取,具体步骤包括:
S2-1、设计实体关系类别,并对试题文本进行实体关系标注,形成数据集;
S2-2、构建深度学习神经网络模型,并在步骤S2-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;
S2-3、用步骤S2-2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取。
4.根据权利要求3所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3中基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,具体步骤包括:
S3-1、基于步骤S1和S2抽取到的实体及实体关系,确定试题与三元组知识点之间的映射关系,并统计同一试题中出现三元组知识点的总个数,并统计各个三元组知识点在同一试题中出现的次数,从而构建好以各个三元组知识点和试题为节点,对应知识点在试题中知识点总占比为边的试题知识图谱;
S3-2、基于步骤S3-1构造的试题知识图谱,构造基于知识点关联的试题网络,以衡量试题间的关联程度。
5.根据权利要求4所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3-1知识点占比的计算方法如下:
Figure FDA0002910081140000021
其中Ni表示三元组知识点i在试题j中的次数,Mj为试题j中统计的所有三元组知识点的个数,相同三元组也算在统计数里面,Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。
6.根据权利要求4所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3-2节点间的距离计算公式如下:
Figure FDA0002910081140000022
Figure FDA0002910081140000023
Figure FDA0002910081140000024
其中,Ci,j表示:试题i,j共有的三元组知识点集合;Li,j表示试题i与试题j之间基于知识点的关联程度即距离,Sm,i表示三元组知识点m在试题i中所有三元组知识点的占比、Sm,j表示三元组知识点m在试题j中所有三元组知识点的占比、m为Ci,j中的三元组知识点、Sp,i表示三元组知识点p在试题i中所有三元组知识点的占比、Sq,j分别表示三元组知识点q在试题i中所有三元组知识点的占;
Scom(i,j)表示试题i与试题j之间三元组知识点相似度;
Ecom(i,j)表示试题i与试题j中排除共有三元组知识点后,剩余三元组中的实体相似度,α为权重系数;
Di,j:表示在Bi,j中,且与Bj,i中的三元组具有相同实体的三元组集合;
Dj,i:表示在Bj,i中,且与Bi,j中的三元组具有相同实体的三元组集合;Bi,j:表示排除试题i与试题j公有的三元组知识点后,试题i中的其它三元组的集合;
Bj,i:表示排除试题i与试题j公有的三元组知识点后,试题j中的其它三元组的集合;
Ep,q:表示三元组p与三元组q具有的相同实体的个数。
7.根据权利要求6所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,在计算Ecom(i,j)之前,要进行实体的语义的相似度分析,即通过bert语言预训练模型得到字的词向量表示,从而得到实体的向量表示,通过实体向量的余弦相似度来判断实体之间的相似度,余弦相似度计算公式如下:
Figure FDA0002910081140000031
其中,M,N分别表示两个实体的向量表示,sim(M,N)表示两实体的余弦相似度,其取值范围为[-1,1]当两实体的余弦相似度大于0.8时,判定两实体相同。
8.根据权利要求1所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S4中根据错题集和已构建的试题网络进行试题推荐具体包括以下步骤:
S4-1、根据错题集x,错题集的大小为m,得到错题集中与第n的错题相邻的所有错题的集合Dn
S4-2、得到所有与错题相邻并且非错题集x中的错题所组成的错题集合C,并计算集合C中的元素ci出现在D1-Dm中的频次
Figure FDA0002910081140000032
S4-3、遍历C中的元素,找到具有相同
Figure FDA0002910081140000041
的元素,组成同频集合TF;
S4-4、计算
Figure FDA0002910081140000042
Zj表示同频集合中的试题j与错题集中错题的距离之和。
其中,X表示错题集合,集合中元素个数为m;dij:表示试题i与试题j间的距离,即基于知识点的关联程度;Dn:表示第n个错题与其相邻的试题集合;
C:C=D1∪D2...∪Dm-X,表示所有与错题有关联的试题的集合,并排除其中与错题集X中相同的元素;
Figure FDA0002910081140000043
表示集合c中的元素ci出现在D1-Dm中的频次;TF:表示集合c中
Figure FDA0002910081140000044
相同的项组成的集合。
S4-5、对于不同频数的TF集合按照频数从高到低排序,TF中的试题按照Zj从大到小排序,以此得到试题集合C中所有试题的排序,取前k项进行推荐。
CN202110083233.2A 2021-01-21 2021-01-21 基于信息抽取和知识图谱的试题推荐方法 Active CN113221547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110083233.2A CN113221547B (zh) 2021-01-21 2021-01-21 基于信息抽取和知识图谱的试题推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110083233.2A CN113221547B (zh) 2021-01-21 2021-01-21 基于信息抽取和知识图谱的试题推荐方法

Publications (2)

Publication Number Publication Date
CN113221547A true CN113221547A (zh) 2021-08-06
CN113221547B CN113221547B (zh) 2022-05-03

Family

ID=77084473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110083233.2A Active CN113221547B (zh) 2021-01-21 2021-01-21 基于信息抽取和知识图谱的试题推荐方法

Country Status (1)

Country Link
CN (1) CN113221547B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806558A (zh) * 2021-09-22 2021-12-17 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
CN111858951A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 基于知识图谱的学习推荐方法及装置、终端设备
US20200387804A1 (en) * 2019-06-07 2020-12-10 Peritus.AI, Inc. Constructing and utilizing a knowledge graph for information technology infrastructure
US20200395000A1 (en) * 2018-01-23 2020-12-17 Ai Speech Co., Ltd Human-machine dialogue method and electronic device
CN112100394A (zh) * 2020-08-10 2020-12-18 淮阴工学院 一种用于推荐医疗专家的知识图谱构建方法
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112131407A (zh) * 2020-09-29 2020-12-25 四川宇德中创信息科技有限公司 一种基于知识图谱的智能组卷系统及方法
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
US20200395000A1 (en) * 2018-01-23 2020-12-17 Ai Speech Co., Ltd Human-machine dialogue method and electronic device
CN111858951A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 基于知识图谱的学习推荐方法及装置、终端设备
US20200387804A1 (en) * 2019-06-07 2020-12-10 Peritus.AI, Inc. Constructing and utilizing a knowledge graph for information technology infrastructure
CN112100394A (zh) * 2020-08-10 2020-12-18 淮阴工学院 一种用于推荐医疗专家的知识图谱构建方法
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112131407A (zh) * 2020-09-29 2020-12-25 四川宇德中创信息科技有限公司 一种基于知识图谱的智能组卷系统及方法
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王通 等: "基于深度学习的威胁情报知识图谱构建技术", 《计算机与现代化》 *
胡辉: "基于知识图谱的个性化习题推荐研究", 《中国优秀硕士学位论文全文数据库 (社会科学Ⅱ辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806558A (zh) * 2021-09-22 2021-12-17 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备
CN113806558B (zh) * 2021-09-22 2024-03-26 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备

Also Published As

Publication number Publication date
CN113221547B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN103425635B (zh) 一种答案推荐方法和装置
CN110851723B (zh) 一种基于大规模知识点标注结果的英语习题推荐方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN108804689A (zh) 面向问答平台的融合用户隐连接关系的标签推荐方法
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN110096575B (zh) 面向微博用户的心理画像方法
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN107301165A (zh) 一种试题难度分析方法及系统
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
Watrianthos Sentiment analysis of traveloka app using naïve bayes classifier method
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
CN109726747A (zh) 基于社交网络推荐平台的数据融合排序方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN107944049A (zh) 一种基于深度学习的电影推荐方法
Sinha et al. NLP-based automatic answer evaluation
CN113221547B (zh) 基于信息抽取和知识图谱的试题推荐方法
Dina et al. Measuring User Satisfaction of Educational Service Applications Using Text Mining and Multicriteria Decision-Making Approach.
JP7303243B2 (ja) 試験問題予測システム及び試験問題予測方法
CN112396091B (zh) 社交媒体图像流行度预测方法、系统、存储介质及应用
Das et al. Automated pipeline for sentiment analysis of political tweets
CN116257618A (zh) 一种基于细粒度情感分析的多源智能旅游推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant