CN114036266A - 一种基于自然语言处理的智能策略组卷方法、装置及设备 - Google Patents
一种基于自然语言处理的智能策略组卷方法、装置及设备 Download PDFInfo
- Publication number
- CN114036266A CN114036266A CN202111394762.0A CN202111394762A CN114036266A CN 114036266 A CN114036266 A CN 114036266A CN 202111394762 A CN202111394762 A CN 202111394762A CN 114036266 A CN114036266 A CN 114036266A
- Authority
- CN
- China
- Prior art keywords
- knowledge point
- volume
- teaching material
- target
- searching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于自然语言处理的智能策略组卷方法、装置及设备,该方法通过根据组卷需求在预构建的教材数据库中查找目标教材电子档;利用自然语言处理技术提取所述目标教材电子档中的知识点;根据所述知识点生成组卷策略;根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。本申请通过利用自然语言处理技术提取考试的知识点,大大节约了时间,提提高了组卷效率。
Description
技术领域
本申请涉及在线教育技术领域,尤其涉及一种基于自然语言处理的智能策略组卷方法、装置及设备。
背景技术
随着互联网的发展,计算机已经应用到人生生活中的各个领域,在线教育领域中,自动组卷成为教育系统智能化必备的功能。组卷就是按照用户给定的查询参数抽出最适合要求的试题,组成能够实际使用的试卷的过程。定位这种查询参数成为组卷策略。
其中,查询参数包括科目、试题类型和知识点等,对于科目、试题类型这种参数比较简单,容易设定,只需要根据需求自行设定即可,在所有查询参数中最难设定的是知识点,例如在一次期末考试时,需要对整个学期的教学内容进行总结、复盘以确定知识点,工作强度较大,耗费的时间较多且效率慢。
因此,本申请提供一种基于自然语言处理的智能策略组卷方法、装置及设备。
发明内容
本申请实施例的目的在于提供一种基于自然语言处理的智能策略组卷方法、装置及设备,以解决组卷策略的确定耗费人力物力且效率低下的问题。具体技术方案如下:
第一方面,提供了一种基于自然语言处理的智能策略组卷方法,所述方法包括:
根据组卷需求在预构建的教材数据库中查找目标教材电子档;
利用自然语言处理技术提取所述目标教材电子档中的知识点;
根据所述知识点生成组卷策略;
根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。
可选地,所述根据组卷需求在预构建的教材数据库中查找目标教材电子档包括:
获取组卷需求信息;
提取所述组卷需求信息中的关键词;所述关键词包括教科书版本、科目、年级、学期和章节;
根据所述关键词在预构建的教材数据库中查找标签;
根据所述标签查找标签对应的目标教材电子档。
可选地,所述教材数据库的构建包括如下步骤:
在网络端获取各年级各科目各版本的教科书的电子文档;
为各电子文档添加标签后存储在教材数据库中。
可选地,所述利用自然语言处理技术提取所述目标教材电子档中的知识点包括:
提取所述组卷需求中的章节信息;
根据所述章节信息确定所述目标教材电子档中的组卷内容文本;
对所述组卷内容文本进行预处理得到预处理的组卷文本;
对所述组卷文本进行分词处理得到若干个文本段;
根据预设知识点筛选规则查找包含知识点的文本段;
根据所述包含知识点的文本段构建知识点表格,所述知识点表格包括知识点编号和知识点内容。
可选地,所述对所述组卷内容文本进行预处理得到预处理的组卷文本包括:
清洗所述组卷内容文本;
删除所述组卷内容文本中的不相关字符,所述不相关字符包括非字母、数字字符。
可选地,所述根据预设知识点筛选规则查找包含知识点的文本段包括:
确定第一知识点筛选特征和第二知识点筛选特征;所述第一知识点筛选特征为预设的目标字体,所述第二知识点筛选特征为预设的关键词;
将每个文本段与所述第一知识点筛选特征和第二知识点筛选特征进行匹配;
将包含有第一知识点筛选特征或第二知识点筛选特征的文本段确定为包含知识点的文本段。
可选地,所述根据所述知识点生成组卷策略包括:
为每个知识点设定赋予权重值;
根据每个知识点及其对应的权重值、编号生成组卷策略。
第二方面,本申请提供一种基于自然语言处理的在线教育智能策略组卷装置,所述装置包括:
查找单元,用于根据组卷需求在预构建的教材数据库中查找目标教材电子档;
提取单元,用于利用自然语言处理技术提取所述目标教材电子档中的知识点;
生成单元,用于根据所述知识点生成组卷策略;
组卷单元,用于根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。
第三方面,本申请提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的基于自然语言处理的智能策略组卷方法。
本申请实施例有益效果:
本申请实施例提供了一种基于自然语言处理的智能策略组卷方法、装置及设备,本申请通过根据组卷需求在预构建的教材数据库中查找目标教材电子档;利用自然语言处理技术提取所述目标教材电子档中的知识点;根据所述知识点生成组卷策略;根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。本申请通过利用自然语言处理技术提取考试的知识点,大大节约了时间,提提高了组卷效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于自然语言处理的智能策略组卷方法的流程图;
图2为本申请实施例提供的一种基于自然语言处理的智能策略组卷装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种基于自然语言处理的智能策略组卷方法,下面将结合具体实施方式,对本申请实施例提供的一种基于自然语言处理的智能策略组卷方法进行详细的说明,如图1所示,具体步骤如下:
步骤S101:根据组卷需求在预构建的教材数据库中查找目标教材电子档。
步骤S102:利用自然语言处理技术提取所述目标教材电子档中的知识点。
步骤S103:根据所述知识点生成组卷策略。
步骤S104:根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。
可选地,所述根据组卷需求在预构建的教材数据库中查找目标教材电子档包括:
获取组卷需求信息;
提取所述组卷需求信息中的关键词;所述关键词包括教科书版本、科目、年级、学期和章节;
根据所述关键词在预构建的教材数据库中查找标签;
根据所述标签查找标签对应的目标教材电子档。
可选地,所述教材数据库的构建包括如下步骤:
在网络端获取各年级各科目各版本的教科书的电子文档;
为各电子文档添加标签后存储在教材数据库中。
可选地,所述利用自然语言处理技术提取所述目标教材电子档中的知识点包括:
提取所述组卷需求中的章节信息;
根据所述章节信息确定所述目标教材电子档中的组卷内容文本;
对所述组卷内容文本进行预处理得到预处理的组卷文本;
对所述组卷文本进行分词处理得到若干个文本段;
根据预设知识点筛选规则查找包含知识点的文本段;
根据所述包含知识点的文本段构建知识点表格,所述知识点表格包括知识点编号和知识点内容。
可选地,所述对所述组卷内容文本进行预处理得到预处理的组卷文本包括:
清洗所述组卷内容文本;
删除所述组卷内容文本中的不相关字符,所述不相关字符包括非字母、数字字符。
在一个示例中,不相关的字符例如页眉、页脚或者乱码等。
可选地,所述根据预设知识点筛选规则查找包含知识点的文本段包括:
确定第一知识点筛选特征和第二知识点筛选特征;所述第一知识点筛选特征为预设的目标字体,所述第二知识点筛选特征为预设的关键词。
在一个示例中,第一知识点筛选特征例如为加粗字体,对于加粗的字体一般为标题,标题一般包括一级标题、二级标题等,而标题中往往包括知识点总称。
第二知识点筛选特征例如为“公式”、“概念是”、“内涵是”等。包含这些关键词的文本段一般都为知识点。
将每个文本段与所述第一知识点筛选特征和第二知识点筛选特征进行匹配;
将包含有第一知识点筛选特征或第二知识点筛选特征的文本段确定为包含知识点的文本段。
可选地,所述根据所述知识点生成组卷策略包括:
为每个知识点设定赋予权重值;
根据每个知识点及其对应的权重值、编号生成组卷策略。
第二方面,基于同样的发明构思,本申请提供一种基于自然语言处理的在线教育智能策略组卷装置,如图2所示,所述装置包括:
查找单元201,用于根据组卷需求在预构建的教材数据库中查找目标教材电子档;
提取单元202,用于利用自然语言处理技术提取所述目标教材电子档中的知识点;
生成单元203,用于根据所述知识点生成组卷策略;
组卷单元204,用于根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现基于自然语言处理的在线教育智能策略组卷方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一基于自然语言处理的在线教育智能策略组卷方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一基于自然语言处理的在线教育智能策略组卷方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于自然语言处理的智能策略组卷方法、装置及设备,其特征在于,所述方法包括:
根据组卷需求在预构建的教材数据库中查找目标教材电子档;
利用自然语言处理技术提取所述目标教材电子档中的知识点;
根据所述知识点生成组卷策略;
根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。
2.根据权利要求1所述的方法,其特征在于,所述根据组卷需求在预构建的教材数据库中查找目标教材电子档包括:
获取组卷需求信息;
提取所述组卷需求信息中的关键词;所述关键词包括教科书版本、科目、年级、学期和章节;
根据所述关键词在预构建的教材数据库中查找标签;
根据所述标签查找标签对应的目标教材电子档。
3.根据权利要求2所述的方法,其特征在于,所述教材数据库的构建包括如下步骤:
在网络端获取各年级各科目各版本的教科书的电子文档;
为各电子文档添加标签后存储在教材数据库中。
4.根据权利要求1所述的方法,其特征在于,所述利用自然语言处理技术提取所述目标教材电子档中的知识点包括:
提取所述组卷需求中的章节信息;
根据所述章节信息确定所述目标教材电子档中的组卷内容文本;
对所述组卷内容文本进行预处理得到预处理的组卷文本;
对所述组卷文本进行分词处理得到若干个文本段;
根据预设知识点筛选规则查找包含知识点的文本段;
根据所述包含知识点的文本段构建知识点表格,所述知识点表格包括知识点编号和知识点内容。
5.根据权利要求4所述的方法,其特征在于,所述对所述组卷内容文本进行预处理得到预处理的组卷文本包括:
清洗所述组卷内容文本;
删除所述组卷内容文本中的不相关字符,所述不相关字符包括非字母、数字字符。
6.根据权利要求4所述的方法,其特征在于,所述根据预设知识点筛选规则查找包含知识点的文本段包括:
确定第一知识点筛选特征和第二知识点筛选特征;所述第一知识点筛选特征为预设的目标字体,所述第二知识点筛选特征为预设的关键词;
将每个文本段与所述第一知识点筛选特征和第二知识点筛选特征进行匹配;
将包含有第一知识点筛选特征或第二知识点筛选特征的文本段确定为包含知识点的文本段。
7.根据权利要求1所述的方法,其特征在于,所述根据所述知识点生成组卷策略包括:
为每个知识点设定赋予权重值;
根据每个知识点及其对应的权重值、编号生成组卷策略。
8.一种基于自然语言处理的在线教育智能策略组卷装置,其特征在于,所述装置包括:
查找单元,用于根据组卷需求在预构建的教材数据库中查找目标教材电子档;
提取单元,用于利用自然语言处理技术提取所述目标教材电子档中的知识点;
生成单元,用于根据所述知识点生成组卷策略;
组卷单元,用于根据所述组卷策略在预设题库中查找目标试题,并将所述目标试题组成考试试卷。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111394762.0A CN114036266A (zh) | 2021-11-23 | 2021-11-23 | 一种基于自然语言处理的智能策略组卷方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111394762.0A CN114036266A (zh) | 2021-11-23 | 2021-11-23 | 一种基于自然语言处理的智能策略组卷方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114036266A true CN114036266A (zh) | 2022-02-11 |
Family
ID=80138436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111394762.0A Pending CN114036266A (zh) | 2021-11-23 | 2021-11-23 | 一种基于自然语言处理的智能策略组卷方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036266A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093706A (zh) * | 2023-10-19 | 2023-11-21 | 杭州烛微智能科技有限责任公司 | 一种试卷生成方法、系统、介质及电子设备 |
-
2021
- 2021-11-23 CN CN202111394762.0A patent/CN114036266A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093706A (zh) * | 2023-10-19 | 2023-11-21 | 杭州烛微智能科技有限责任公司 | 一种试卷生成方法、系统、介质及电子设备 |
CN117093706B (zh) * | 2023-10-19 | 2024-01-09 | 杭州烛微智能科技有限责任公司 | 一种试卷生成方法、系统、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
USRE49576E1 (en) | Standard exact clause detection | |
US10095780B2 (en) | Automatically mining patterns for rule based data standardization systems | |
CN107168954B (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
CN113282955B (zh) | 隐私政策中隐私信息提取方法、系统、终端及介质 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN110704719B (zh) | 企业搜索文本分词方法和装置 | |
WO2018171295A1 (zh) | 一种给文章标注标签的方法、装置、终端及计算机可读存储介质 | |
CN103605691A (zh) | 用于处理社交网络中发布内容的装置和方法 | |
CN111966792B (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN111563212A (zh) | 一种内链添加方法及装置 | |
CN106202349B (zh) | 网页分类字典生成方法及装置 | |
CN114036266A (zh) | 一种基于自然语言处理的智能策略组卷方法、装置及设备 | |
CN111126058A (zh) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 | |
CN112579729B (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN108073678B (zh) | 应用于大数据分析中的文档解析处理方法、系统及装置 | |
CN111126073B (zh) | 语义检索方法和装置 | |
CN115952770B (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN112579937A (zh) | 一种字符的高亮显示方法及装置 | |
CN111539383A (zh) | 公式知识点识别方法及装置 | |
CN112784536B (zh) | 数学应用题解答模型的处理方法、系统和存储介质 | |
CN110909532B (zh) | 用户名称匹配方法、装置、计算机设备和存储介质 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |