CN108334493B - 一种基于神经网络的题目知识点自动提取方法 - Google Patents
一种基于神经网络的题目知识点自动提取方法 Download PDFInfo
- Publication number
- CN108334493B CN108334493B CN201810013406.1A CN201810013406A CN108334493B CN 108334493 B CN108334493 B CN 108334493B CN 201810013406 A CN201810013406 A CN 201810013406A CN 108334493 B CN108334493 B CN 108334493B
- Authority
- CN
- China
- Prior art keywords
- knowledge point
- neural network
- knowledge
- titles
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于神经网络的题目知识点自动提取方法,包括:获取课程大纲信息,根据课程大纲信息组成知识点集合,获取与课程大纲信息对应的题目文本;在题目文本上手工标注与知识点集合相匹配的一个或多个题目,将已标注的题目存储至数据库,其中,知识点总数为a,已标注的题目总数为b;对a个知识点分别建立包含1个隐含层的神经网络,判断输入的向量描述的题目是否属于当前神经网络对应的知识点;若是,根据神经网络进行训练,对未标注的题目进行标注,提取对应的知识点。可用于电子化习题的自动知识点标注,并利用神经网络的方式,对所分析的题目文字描述结构与知识点对应关系进行训练,提升知识点标注的准确度,提高了工作效率,减少了工作量。
Description
技术领域
本发明属于知识提取领域,尤其涉及一种基于神经网络的题目知识点自动提取方法。
背景技术
在中小学教学过程中,存在大量电子化的习题。此类习题往往采用人工标注的形式进行知识点确认,工作效率低,工作量巨大。
发明内容
本发明实施例提供一种基于神经网络的题目知识点自动提取方法,旨在解决现有技术中电子化的习题往往采用人工标注的形式进行知识点确认,工作量巨大的问题。
本发明实施例是这样实现的,一种基于神经网络的题目知识点自动提取方法,所述方法包括:
获取课程大纲信息,根据课程大纲信息确定知识点,组成知识点集合,并获取与课程大纲信息对应的题目文本;
在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库,其中,所述知识点集合的知识点总数为a,已标注的题目总数为b;
对a个知识点分别建立包含1个隐含层的神经网络,其输入为(a+b)维向量,输出为0/1标记,隐含层节点数为log2(a+b),判断输入的向量描述的题目是否属于当前神经网络对应的知识点;
若是,则根据神经网络进行训练,对未标注的题目进行标注,提取对应的知识点。
优选地,所述获取课程大纲信息具体为:
获取学科和年级信息,根据获取的学科和年级信息确定课程大纲信息。
优选地,所述在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库,之后还包括:
对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树;
对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树;
从所述句法结构树中提取关键名词,并将提取的关键名词与知识点集合中的知识点进行逐一匹配,形成a维的针对未标注的题目的知识点相似度向量A;将未标注的题目的句法结构树和已标注的题目的句法结构树进行比对,形成b维的已标注的题目相似度向量B。
优选地,所述对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树具体为:
对所述题目文本中未标注题目进行自然语言句法分析,将文字转换成句法结构树。
本发明提供的基于神经网络的题目知识点自动提取方法,所述方法包括:获取课程大纲信息,根据课程大纲信息确定知识点,组成知识点集合,并获取与课程大纲信息对应的题目文本;在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库,其中,所述知识点集合的知识点总数为a,已标注的题目总数为b;对 a个知识点分别建立包含1个隐含层的神经网络,其输入为(a+b)维向量,输出为0/1标记,隐含层节点数为log2(a+b),判断输入的向量描述的题目是否属于当前神经网络对应的知识点;若是,则根据神经网络进行训练,对未标注的题目进行标注,提取对应的知识点。可用于电子化习题的自动知识点标注,并利用神经网络的方式,对所分析的题目文字描述结构与知识点对应关系进行训练,提升知识点标注的准确度,提高了工作效率,减少了工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
以下附图仅旨在于对本发明做示意性说明和解释,并不限定本发明的范围。
图1是本发明实施例提供的一种基于神经网络的题目知识点自动提取方法的实现流程;
图2是本发明实施例提供的另一种基于神经网络的题目知识点自动提取方法的实现流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”“另”“又”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供的基于神经网络的题目知识点自动提取方法,可用于电子化习题的自动知识点标注,并利用神经网络的方式,对所分析的题目文字描述结构与知识点对应关系进行训练,提升知识点标注的准确度,提高了工作效率,减少了工作量。
以下结合具体实施例对本发明的具体实现进行详细描述。
图1示出了本发明实施例提供的一种基于神经网络的题目知识点自动提取方法的实现流程,详述如下:
在步骤S101中,获取课程大纲信息,根据课程大纲信息确定知识点,组成知识点集合,并获取与课程大纲信息对应的题目文本。
在本实施例中,可通过获取给定的学科和年级信息确定课程大纲信息,并获取该课程大纲信息。例如,获取到的学科信息为语文,年级信息为小学3 年级,那么,可以确定需要训练的课程大纲为小学3年级语文,并获取小学3 年级语文课程大纲。同时,根据获取的小学3年级语文课程大纲,将与小学3 年级语文课程大纲相关的知识点组成知识点集合,并获取与小学3年级语文课程大纲相关的题目文本。由此可知,可根据获取的任一学科和年级信息确定相对应的课程大纲信息,并获取该课程大刚信息,提高了工作效率,减少了工作量。
在步骤S102中,在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库,其中,所述知识点集合的知识点总数为a,已标注的题目总数为b。
在步骤S103中,对a个知识点分别建立包含1个隐含层的神经网络,其输入为(a+b)维向量,输出为0/1标记,隐含层节点数为log2(a+b),判断输入的向量描述的题目是否属于当前神经网络对应的知识点。
在步骤S104中,若输入向量描述的题目属于当前神经网络对应的知识点,则根据神经网络进行训练,对未标注的题目进行标注,提取对应的知识点。
本实施例提供的基于神经网络的题目知识点自动提取方法,可用于电子化习题的自动知识点标注,并利用神经网络的方式,对所分析的题目文字描述结构与知识点对应关系进行训练,提升知识点标注的准确度,提高了工作效率,减少了工作量。
图2示出了本发明实施例提供的另一种基于神经网络的题目知识点自动提取方法的实现流程,详述如下:
在步骤S102之后,还包括如下步骤:
在步骤S201中,对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树。
在本实施例中,所述对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树的具体步骤为:对所述题目文本中未标注题目进行自然语言句法分析,将文字转换成句法结构树,根据句法结构树反映出的逻辑关系,进一步反映出题目的逻辑属性。
在步骤S202中,从所述句法结构树中提取关键名词,并将提取的关键名词与知识点集合中的知识点进行逐一匹配,形成a维的针对未标注的题目的知识点相似度向量A;将未标注的题目的句法结构树和已标注的题目的句法结构树进行比对,形成b维的已标注的题目相似度向量B。
在本实施例中,从句法结构树中提取关键名词可反映出题目的内容属性,并通过从句法结构树中提取的关键名词所反映出的逻辑关系,可进一步反映出题目的逻辑属性,进而能够通过句法结构树进行两个维度的综合评估。
上述发明提供的基于神经网络的题目知识点自动提取方法,所述方法包括:获取课程大纲信息,根据课程大纲信息确定知识点,组成知识点集合,并获取与课程大纲信息对应的题目文本;在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库,其中,所述知识点集合的知识点总数为a,已标注的题目总数为b;对a个知识点分别建立包含1个隐含层的神经网络,其输入为(a+b)维向量,输出为0/1标记,隐含层节点数为log2(a+b),判断输入的向量描述的题目是否属于当前神经网络对应的知识点;若是,则根据神经网络进行训练,对未标注的题目进行标注,提取对应的知识点。可用于电子化习题的自动知识点标注,并利用神经网络的方式,对所分析的题目文字描述结构与知识点对应关系进行训练,提升知识点标注的准确度,提高了工作效率,减少了工作量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于神经网络的题目知识点自动提取方法,其特征在于,所述方法包括:
获取课程大纲信息,根据课程大纲信息确定知识点,组成知识点集合,并获取与课程大纲信息对应的题目文本;
在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库,其中,所述知识点集合的知识点总数为a,已标注的题目总数为b;
对a个知识点分别建立包含1个隐含层的神经网络,其输入为(a+b)维向量,输出为0/1标记,隐含层节点数为log2(a+b),判断输入的向量描述的题目是否属于当前神经网络对应的知识点;
若是,则根据神经网络进行训练,对未标注的题目进行标注,提取对应的知识点;
所述在所述题目文本上手工标注与所述知识点集合中每个知识点相匹配的一个或多个题目,并将已标注的题目存储至数据库之后还包括:
对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树;
从所述句法结构树中提取关键名词,并将提取的关键名词与知识点集合中的知识点进行逐一匹配,形成a维的针对未标注的题目的知识点相似度向量A;将未标注的题目的句法结构树和已标注的题目的句法结构树进行比对,形成b维的已标注的题目相似度向量B。
2.如权利要求1所述的基于神经网络的题目知识点自动提取方法,其特征在于,所述获取课程大纲信息具体为:
获取学科和年级信息,根据获取的学科和年级信息确定课程大纲信息。
3.如权利要求2所述的基于神经网络的题目知识点自动提取方法,其特征在于,所述对所述题目文本中未标注的题目进行句法分析,将文字转换成句法结构树具体为:
对所述题目文本中未标注题目进行自然语言句法分析,将文字转换成句法结构树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810013406.1A CN108334493B (zh) | 2018-01-07 | 2018-01-07 | 一种基于神经网络的题目知识点自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810013406.1A CN108334493B (zh) | 2018-01-07 | 2018-01-07 | 一种基于神经网络的题目知识点自动提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334493A CN108334493A (zh) | 2018-07-27 |
CN108334493B true CN108334493B (zh) | 2021-04-09 |
Family
ID=62924858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810013406.1A Active CN108334493B (zh) | 2018-01-07 | 2018-01-07 | 一种基于神经网络的题目知识点自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108334493B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000798A (zh) * | 2019-05-27 | 2020-11-27 | 广东小天才科技有限公司 | 一种语文题型的答案获取方法及装置 |
CN110209655B (zh) * | 2019-06-11 | 2021-07-13 | 深圳市仝智科技有限公司 | 基于认知过程的问答库生成系统及方法 |
CN110968708A (zh) * | 2019-12-20 | 2020-04-07 | 华中师范大学 | 一种教育信息资源属性标注方法及系统 |
CN111898343B (zh) * | 2020-08-03 | 2023-07-14 | 北京师范大学 | 一种基于短语结构树的相似题目识别方法和系统 |
CN112000714A (zh) * | 2020-08-21 | 2020-11-27 | 扬州大学 | 一种提取教学知识点关联的挖掘方法 |
CN112100976B (zh) * | 2020-09-24 | 2021-11-16 | 上海松鼠课堂人工智能科技有限公司 | 知识点关系标注方法及系统 |
CN112800182A (zh) * | 2021-02-10 | 2021-05-14 | 联想(北京)有限公司 | 试题生成方法及装置 |
CN113010687B (zh) * | 2021-03-03 | 2023-02-03 | 广州视源电子科技股份有限公司 | 一种习题标签预测方法、装置、存储介质以及计算机设备 |
CN113066358B (zh) * | 2021-04-14 | 2023-01-10 | 吴光银 | 理科教学辅助系统 |
CN113868369A (zh) * | 2021-08-13 | 2021-12-31 | 贝壳技术有限公司 | 一种基于问卷题目的业务逻辑校验方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183806A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种不同平台间识别同一用户的方法与系统 |
CN105930319A (zh) * | 2016-05-09 | 2016-09-07 | 北京新唐思创教育科技有限公司 | 建立获取题目知识点模型、获取题目知识点的方法和装置 |
CN106251261A (zh) * | 2016-07-29 | 2016-12-21 | 国家电网公司高级培训中心 | 一种培训方案生成方法及装置 |
CN107066443A (zh) * | 2017-03-27 | 2017-08-18 | 成都优译信息技术股份有限公司 | 基于线性回归适用于多语种的句子相似度获取方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575952B2 (en) * | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US9852648B2 (en) * | 2015-07-10 | 2017-12-26 | Fujitsu Limited | Extraction of knowledge points and relations from learning materials |
-
2018
- 2018-01-07 CN CN201810013406.1A patent/CN108334493B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183806A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种不同平台间识别同一用户的方法与系统 |
CN105930319A (zh) * | 2016-05-09 | 2016-09-07 | 北京新唐思创教育科技有限公司 | 建立获取题目知识点模型、获取题目知识点的方法和装置 |
CN106251261A (zh) * | 2016-07-29 | 2016-12-21 | 国家电网公司高级培训中心 | 一种培训方案生成方法及装置 |
CN107066443A (zh) * | 2017-03-27 | 2017-08-18 | 成都优译信息技术股份有限公司 | 基于线性回归适用于多语种的句子相似度获取方法及系统 |
Non-Patent Citations (3)
Title |
---|
A Hybrid Neural Network-Latent Topic Model;Li Wan,et al;《Proceedings of the 15th International Conference on Artificial Intelligence and Statistics》;20121231;第1287-1294页 * |
Recurrent Convolutional Neural Networks for Text Classification;Siwei Lai;《Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence》;20151231;第2267-2273页 * |
基于主题模型的多示例多标记学习方法;严考碧,等;《计算机应用》;20150810;第35卷(第8期);第2233-2237页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108334493A (zh) | 2018-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334493B (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN106649778B (zh) | 基于深度问答的交互方法和装置 | |
CN107885844A (zh) | 基于分类检索的自动问答方法及系统 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN1936893A (zh) | 基于互联网信息的输入法词频库的生成方法和系统 | |
CN104679885A (zh) | 一种基于语义特征模型的用户搜索串机构名识别方法 | |
CN106844344B (zh) | 用于对话的贡献度计算方法及主题抽取方法和系统 | |
CN111292751A (zh) | 语义解析方法及装置、语音交互方法及装置、电子设备 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN110781681A (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及系统 | |
CN109190099B (zh) | 句模提取方法及装置 | |
CN108520065B (zh) | 命名实体识别语料库的构建方法、系统、设备及存储介质 | |
CN112380868A (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CN118484526B (zh) | 基于向量知识库的大模型问答对话方法、系统及存储介质 | |
CN111144116B (zh) | 一种文档知识结构化的抽取方法及装置 | |
CN117076718A (zh) | 一种基于大语言模型的图数据库查询处理系统及方法 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN105389303A (zh) | 一种异源语料自动融合方法 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
CN111159999B (zh) | 一种填充词槽的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |