CN114282531A - 一种题目检测方法、装置、电子设备和存储介质 - Google Patents

一种题目检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114282531A
CN114282531A CN202110975272.3A CN202110975272A CN114282531A CN 114282531 A CN114282531 A CN 114282531A CN 202110975272 A CN202110975272 A CN 202110975272A CN 114282531 A CN114282531 A CN 114282531A
Authority
CN
China
Prior art keywords
question
information
topic
detected
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110975272.3A
Other languages
English (en)
Inventor
李习华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110975272.3A priority Critical patent/CN114282531A/zh
Publication of CN114282531A publication Critical patent/CN114282531A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种题目检测方法、装置、电子设备和存储介质,所述方法包括:对待检测题目进行多模态的特征识别,从而得到基于多种题目特征信息确定的题目识别信息。并基于该题目识别信息确定与待检测题目对应的相似题目,提高了相似题目的有效性,从而在新增题目对应的对象行为信息较少时,基于相似题目对应的对象行为信息和待检测题目的题目识别信息,目标对象对待检测题目的行为状态信息,即判断目标对象是否能够答对待检测题目,从而避免了新增题目缺少对象状态信息导致的冷启动问题,提高了判断新增题目对应的行为状态信息的有效性和准确性。

Description

一种题目检测方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种题目检测方法、装置、电子设备和存储介质。
背景技术
近年来,基于网络发展的新型教育形态正在风靡全球,其快速发展也获得了互联网巨头和资本市场的青睐。随着用户对碎片化、多样化学习需求的与日俱增,互联网在线教育也越来越被用户所接受。相关技术中,在互联网在线教育新增了题目时,由于新增题目缺少用户答题记录,从而无法判断新增题目对应的对象状态信息,存在冷启动问题。
发明内容
本申请提供了一种题目检测方法、装置、电子设备和存储介质,可以避免新增题目缺少对象状态信息导致的冷启动问题,提高了判断新增题目对应的行为状态信息的有效性和准确性。
一方面,本申请提供了一种题目检测方法,所述方法包括:
获取待检测题目;
将所述待检测题目输入到题目识别模型中进行多模态题目特征识别,得到所述待检测题目对应的题目识别信息,所述题目识别信息为基于所述待检测题目对应的多种题目特征信息得到的,所述题目特征信息为文本特征信息和至少一种非文本特征信息;
基于所述题目识别信息,从预设的历史题目集中确定与所述待检测题目对应的相似题目;
基于所述题目识别信息和所述相似题目对应的对象行为信息,确定目标对象对所述待检测题目的行为状态信息,所述行为状态信息表征所述目标对象答对所述待检测题目的概率。
另一方面提供了一种题目检测装置,所述装置包括:
待检测题目获取模块,用于获取待检测题目;
多模态题目特征识别模块,用于将所述待检测题目输入到题目识别模型中进行多模态题目特征识别,得到所述待检测题目对应的题目识别信息,所述题目识别信息为基于所述待检测题目对应的多种题目特征信息得到的,所述题目特征信息为文本特征信息和至少一种非文本特征信息;
相似题目确定模块,用于基于所述题目识别信息,从预设的历史题目集中确定与所述待检测题目对应的相似题目;
行为状态信息确定模块,用于基于所述题目识别信息和所述相似题目对应的对象行为信息,确定目标对象对所述待检测题目的行为状态信息,所述行为状态信息表征所述目标对象答对所述待检测题目的概率。
另一方面提供了一种电子设备,所述电子设备包括:处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种题目检测方法。
另一方面提供了一种计算机可读存储介质,所述存储介质包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种题目检测方法。
本申请提供的一种题目检测方法、装置、电子设备和存储介质,该方法可以对待检测题目进行多模态的特征识别,从而得到基于多种题目特征信息确定的题目识别信息。并基于该题目识别信息确定与待检测题目对应的相似题目,提高了相似题目的有效性,从而在新增题目对应的对象行为信息较少时,基于相似题目对应的对象行为信息和待检测题目的题目识别信息,目标对象对待检测题目的行为状态信息,即判断目标对象是否能够答对待检测题目,从而避免了新增题目缺少对象状态信息导致的冷启动问题,提高了判断新增题目对应的行为状态信息的有效性和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种题目检测方法的应用场景示意图;
图2为本申请实施例提供的一种题目检测方法的流程图;
图3为本申请实施例提供的一种题目检测方法中对公式和公式中的参数进行标准化的流程图;
图4为本申请实施例提供的一种题目检测方法中对图像特征和知识点特征进行特征提取并压缩的流程图;
图5为本申请实施例提供的一种题目检测方法中图像特征信息或知识点特征信息对应的自编码层的示意图;
图6为本申请实施例提供的一种题目检测方法中行为状态确定模型的示意图;
图7为本申请实施例提供的一种题目检测方法中对题目识别模型进行训练的流程图;
图8为本申请实施例提供的一种题目检测方法中模型训练的示意图;
图9为本申请实施例提供的一种题目检测方法中模型训练过程中两种损失数据的计算方法的流程图;
图10为本申请实施例提供的一种题目检测装置的示意图;
图11为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且,术语“第一”、“第二”等适用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
请参见图1,其显示了本申请实施例提供的一种题目检测方法的应用场景示意图,该应用场景包括客户端110和服务器120,服务器120获取待检测题目,将待检测题目输入到题目识别模型中进行多模态题目特征识别,得到待检测题目对应的题目识别信息,并基于题目识别信息,从预设的历史题目集中确定与待检测题目对应的相似题目。服务器120接收客户端110发送的目标对象,服务器120基于题目识别信息和相似题目对应的对象行为信息,确定目标对象对待检测题目的行为状态信息,判断目标对象是否会答对待检测题目。服务器120向客户端110发送该行为状态信息。
在本申请实施例中,客户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。客户端110包括UI(User Interface,用户界面)层,客户端110通过该UI层对外显示行为状态信息,另外,基于API(Application ProgrammingInterface,应用程序接口)将目标对象的相关信息发送给服务器120。
在本发明实施例中,服务器120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的,服务器120可以用于通过题目识别模型,得到待检测题目对应的题目识别信息。并确定与待检测题目对应的相似题目,以及确定目标对象对待检测题目的行为状态信息。
请参见图2,其显示了一种题目检测方法,可应用于服务器侧,该方法包括:
S210.获取待检测题目;
在一些实施例中,待检测题目可以由文字信息,以及图像信息、公式信息和知识点信息中的一种或多种信息构成。
S220.将待检测题目输入到题目识别模型中进行多模态题目特征识别,得到待检测题目对应的题目识别信息,题目识别信息为基于待检测题目对应的多种题目特征信息得到的;
在一些实施例中,将待检测题目输入到题目识别模型中进行多模态题目特征识别,得到不同种类的题目特征信息,组合不同种类的题目特征信息可以得到题目识别信息。题目特征信息为文本特征信息和至少一种非文本特征信息,非文本特征信息可以包括图像特征信息、公式特征信息和知识点特征信息。
在一些实施例中,题目识别模型包括多种题目特征信息分别对应的多个特征提取网络,将待检测题目输入到题目识别模型中进行多模态题目特征识别,得到待检测题目对应的题目识别信息包括:
将待检测题目输入到多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息;
按照待检测题目中的信息排列顺序,对多种题目特征信息进行组合,得到题目识别信息。
在一些实施例中,题目识别模型包括多种题目特征信息分别对应的多个特征提取网络,例如公式特征提取网络、文字特征提取网络、图像特征提取网络、知识点特征提取网络等。在多个特征提取网络中,分别对待检测题目进行对应的题目特征提取,可以得到公式特征信息、文字特征信息、图像特征信息和知识点特征信息。
按照待检测题目中的信息排列顺序,并在有知识点特征信息的情况下,将知识点特征信息排在最后一个,对多种题目特征信息进行组合,可以得到题目识别信息。例如待检测题目中为第一段文字信息、公式信息、第二段文字信息、图像信息这样的顺序,则对多种题目特征信息进行组合时,将第一段文字特征信息、公式特征信息、第二段文字信息、图像特征信息和知识点特征信息进行组合,得到题目识别信息。
在对公式特征信息、文字特征信息、图像特征信息和知识点特征信息进行组合之前,对公式特征信息、文字特征信息、图像特征信息和知识点特征信息分别对应的特征维度进行处理,将公式特征信息的特征维度、文字特征信息的特征维度、图像特征信息的特征维度和知识点特征信息的特征维度保持一致。
基于文本、图片、公式以及知识点等多模态的特征,得到题目识别信息,表达待检测题目,相比于现有技术中只通过文本特征表达题目的方法,可以提高题目识别信息的丰富性。
在一些实施例中,请参见图3,题目特征信息包括公式特征信息,特征提取网络包括公式特征提取网络,将待检测题目输入到多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息之前,该方法还包括:
S310.对待检测题目中的公式进行标准化处理,得到标准化公式信息;
S320.基于预设的参数标准信息,对标准化公式信息中的参数进行更新,得到目标公式信息;
将待检测题目输入到多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息包括:
S330.将目标公式信息输入到公式特征提取网络中进行特征提取,得到公式特征信息。
在一些实施例中,对待检测题目进行预处理,基于预设的转换标准信息,将待检测题目中的公式转换为标准化公式信息。转换标准信息可以为latex公式规则信息。在得到标准化公式信息之后,为了避免由于参数不同导致两个具有相同数学含义的公式被判断为不相同的公式,可以基于预设的参数标准信息,对标准化公式信息中的参数进行更新,得到目标公式信息。例如参数标准信息对应的公式1为2*a+b=c,待检测题目中的公式2为2*x+y=z,公式1和公式2具有相同的数学含义,但是参数并不相同,获取公式1中的字母集合并排序,可以得到[a,b,c],然后确定每个参数标准信息中的参数需要对应替换的参数,得到参数替换关系[a→x,b→y,c→z]。基于参数替换关系,对公式2中的参数进行替换,得到目标公式信息。
在对公式特征提取网络进行训练时,可以将参数标准化后的目标公式信息作为一个词向量,输入到待训练的公式特征提取网络进行训练,得到包含公式特征信息的词向量,将文本信息对应的分词结果输入到待训练的文本特征提取网络中进行训练,得到包括文本特征信息的词向量,将公式特征信息的词向量和文本特征信息的词向量作为词向量集合。
对公式信息以及公式信息中的参数均进行标准化处理,可以避免表示相同数学含义的公式,由于使用了不同的参数而被误认为是两个公式,通过对公式和参数进行标准化处理,可以提高公式特征信息的一致性,并提高题目识别信息的合理性。
在一些实施例中,请参见图4,题目特征信息包括目标图像特征信息和目标知识点特征信息,特征提取网络包括图像特征提取网络和知识点特征提取网络,将待检测题目输入到多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息包括:
S410.将待检测题目输入到图像特征提取网络中进行特征提取,得到初始图像特征信息;
S420.将待检测题目输入到知识点特征提取网络中进行特征提取,得到初始知识点特征信息;
S430.对初始图像特征信息和初始知识点特征信息进行压缩,得到目标图像特征信息和目标知识点特征信息。
在一些实施例中,将待检测题目输入到图像特征提取网络中进行图像特征提取,可以得到初始图像特征信息,将待检测题目输入到知识点特征提取网络中进行特征提取,可以得到初始知识点特征信息。将初始图像特征信息输入到图像特征对应的自编码层中进行特征压缩,将初始图像特征信息压缩为固定维度的信息,得到目标图像特征信息。将初始知识点特征信息输入到知识点特征对应的自编码层中进行特征压缩,将初始知识点特征信息压缩为固定维度的信息,得到目标知识点特征信息。
请参见图5,在训练自编码层时,可以在待训练的自编码层后增加解码层,输入样本图像特征信息或样本知识点特征信息,在待训练的自编码层中对样本图像特征信息或样本知识点特征信息进行压缩后,得到压缩后图像特征信息或压缩后知识点特征信息。在解码层中对压缩后图像特征信息或压缩后知识点特征信息进行解码,得到解码后图像特征信息或解码后知识点特征信息。确定样本图像特征信息和解码后图像特征信息间的图像损失数据,基于图像损失数据,对待训练的自编码层进行训练,得到图像特征对应的自编码层。确定样本知识点特征信息和解码后知识点特征信息间的知识点损失数据,基于知识点损失数据,对待训练的自编码层进行训练,得到图像特征对应的自编码层。
基于压缩后的图像特征信息和压缩后的知识点特征信息,在后续步骤中执行相似题目的确定,行为状态信息的确定等操作时,可以降低参数规模,降低噪声干扰,从而提高确定行为状态信息的准确性。
S230.基于题目识别信息,从预设的历史题目集中确定与待检测题目对应的相似题目;
在一些实施例中,待检测题目可能为新增题目,新增题目缺少对应的用户答题数据,也就是新增题目的题目识别信息对应的第一对象行为信息较少,因而无法判断目标对象答对新增题目的概率。因此,获取新增题目对应的相似题目识别信息,从而可以将新增题目的相似题目中的用户答题数据,作为判断目标对象答对新增题目的概率的参考信息。预设的历史题目识别信息集中的题目识别信息均对应有丰富的第二对象行为信息。
在一些实施例中,基于题目识别信息,从预设的历史题目集中确定与待检测题目对应的相似题目包括:
确定题目识别信息和历史题目集中的历史题目对应的历史题目识别信息间的相似度;
基于相似度,从历史题目集中确定相似题目。
在一些实施例中,历史题目集中历史题目对应的对象行为信息的数目大于预设数目阈值。在构建历史题目集时,可以获取每个待筛选题目对应的对象行为信息,将对应的对象行为信息的数目大于预设数目阈值的待筛选题目作为历史题目集,即筛选用户答题数据大于一定数量的题目构建历史题目集。
通过待检测题目对应的题目识别信息和历史题目对应的题目识别信息,确定待检测题目和相似题目是否考察相近的知识点,是否是相同的题型和难度,是否有结构一致的图片等,在两者考察相近的知识点,且为相同的题型和难度,或具有结构一致的图片的情况下,将该历史题目确定为待检测题目对应的相似题目。
题目识别信息可以为向量信息,则获取历史题目集中每个历史题目对应的历史题目识别信息,计算题目识别信息和每个历史题目识别信息间的距离,基于该距离确定待检测题目和每个历史题目间的相似度,该距离可以为余弦距离、欧拉距离等。可以将历史题目集中,历史题目识别信息与题目识别信息间的距离大于预设的距离阈值的历史题目作为相似题目。
在一些实施例中,可以基于相似度的大小,从大到小对历史题目集中历史题目进行排序,得到历史题目序列,将历史题目序列中前预设数目个历史题目作为相似题目。并在确定目标对象对待检测题目的行为状态信息时,输入每个历史题目对应的相似度,从而可以增加这些相似题目对应的相似度大小作为参考权重信息。
在待检测题目对应的对象行为信息的数目较少时,可以基于相似题目对应的对象行为信息,估计待检测题目对应的对象行为信息,从而对新增题目也可以进行行为状态信息的确定,扩大了确定行为状态信息的范围,也提高了对新增题目的行为状态信息进行确定的准确性和有效性。
S240.基于题目识别信息和相似题目对应的对象行为信息,确定目标对象对待检测题目的行为状态信息,行为状态信息表征目标对象答对待检测题目的概率。
在一些实施例中,基于相似题目的标识信息,获取相似题目对应的对象行为信息。将相似题目与待检测题目间的相似度作为每个相似题目对应的对象行为信息的参考权重信息,基于对象行为信息和参考权重信息,可以在待检测题目对应的对象行为信息较少的情况下,可以将相似题目对应的对象行为信息作为待检测题目对应的对象行为近似信息,从而基于对象行为近似信息和题目识别信息,确定目标对象对待检测题目的行为状态信息。行为状态信息可以指示目标对象答对待检测题目或目标对象答错待检测题目。
在一些实施例中,请参见图6,如图6所示,将目标用户、答题场景信息、题目识别信息和相似题目输入到行为状态确定模型中,基于相似题目对应的对象行为信息和相似题目对应的相似度,确定待检测题目对应的对象行为近似信息,再基于对象行为近似信息和题目识别信息,确定目标对象对待检测题目的行为状态信息。行为状态确定模型可以为一个二分类模型,输出为“目标对象答对待检测题目”和“目标对象答错待检测题目”。
在一些实施例中,请参见图7,该方法还包括:
S710.对样本题目对应的样本题目识别信息进行截取,得到样本题目片段和样本题目片段对应的上下文信息;
S720.将上下文信息输入到第一待训练模型中进行片段信息识别,得到训练题目片段;
S730.根据训练题目片段和样本题目片段,对待训练模型进行训练,得到题目识别模型对应的预训练模型;
S740.对预训练模型进行调整,得到第二待训练模型;
S750.将样本题目输入到第二待训练模型中进行多模态题目特征识别,得到训练题目识别信息;
S760.根据样本题目识别信息和训练题目识别信息,对第二待训练模型进行训练,得到题目识别模型。
在一些实施例中,请参见图8,在经过多个已训练的特征提取网络,对样本题目进行特征提取并按照样本题目中的信息排列顺序进行组合后,可以得到样本题目识别信息。对样本题目识别信息进行随机截取,可以得到样本题目片段以及样本题目片段对应的上下文信息,上下文信息即样本题目识别信息中位于样本题目片段之前的信息和位于样本题目片段之后的信息。将上下文信息输入到第一待训练模型中进行片段信息识别,可以得到训练题目片段。第一待训练模型为用于进行题目片段识别的模型,根据训练题目片段和样本题目片段间的损失数据,可以对待训练模型进行训练,得到题目识别模型对应的预训练模型,预训练模型即可以学习到样本题目片段前后的上下文信息。再对预训练模型中的网络进行调整,得到第二待训练模型,第二待训练模型即为用于进行题目识别的模型。将样本题目输入到第二待训练模型中进行题目识别,得到训练题目识别信息。根据样本题目识别信息和训练题目识别信息间的损失数据,对第二待训练模型进行训练,可以得到题目识别模型。
通过预训练模型学习样本题目片段前后的上下文信息,再基于预训练模型训练得到题目识别模型,可以提高模型训练的效率。
在一些实施例中,请参见图9,根据训练题目片段和样本题目片段,对待训练模型进行训练,得到题目识别模型包括:
S910.在样本题目片段为文本信息或公式信息的情况下,基于预设的第一损失函数,确定训练题目片段和样本题目片段间的第一损失数据;
S920.基于第一损失数据,对待训练模型进行训练,得到题目识别模型;
S930.在样本题目片段为图像信息或知识点信息的情况下,基于预设的第二损失函数,确定训练题目片段和样本题目片段间的第二损失数据;
S940.基于第二损失数据,对待训练模型进行训练,得到题目识别模型。
在一些实施例中,在样本题目片段为文本信息或公式信息的情况下,文本信息或公式信息均为分词对应的词向量信息,预设的第一损失函数为分类损失函数,基于预设的第一损失函数,可以确定训练题目片段和样本题目片段间的第一损失数据,第一损失数据可以为softmax对应的交叉熵损失。
在一些实施例中,在样本题目片段为图像信息或知识点信息的情况下,预设的第二损失函数为正则损失函数,基于预设的第二损失函数,可以确定训练题目片段和样本题目片段间的第二损失数据,第二损失数据可以为L2正则对应的损失数据。
在一些实施例中,第一损失数据和第二损失数据的通常计算公式如下:
loss=diff(mask,f(left,right))
其中,loss表示损失数据,可以为第一损失数据,也可以为第二损失数据。Mask为样本题目片段,f(left,right)为将上下文信息输入到第一待训练模型中进行片段信息识别,得到的训练题目片段。F表示在第一待训练模型中的操作。在进行模型训练时,第一损失数据和第二损失数据的量级相当,也就是第一损失数据对应的数据量和第二损失数据对应的数据量相近。
对不同种类的特征信息采用不同的方式进行训练,可以提高模型训练的准确性。
在一些实施例中,响应于客户端发送的题目推荐请求,可以获取客户端对应的目标对象,基于目标对象、待推荐题目对应的题目识别信息和相似题目,确定待推荐题目的行为状态信息,得到客户端对应的目标对象答对该待检测题目的概率。基于待推荐题目和待推荐题目的行为状态信息,可以从待推荐题目中获取目标题目,基于目标题目执行题目推荐处理,将目标题目发送到客户端。客户端发送的题目推荐请求可以为基于用户输入的指令触发的请求或基于服务器的主动推荐指令触发的请求。
本申请实施例提供了一种题目检测方法,该方法可以对待检测题目进行多模态的特征识别,从而得到基于多种题目特征信息确定的题目识别信息。并基于该题目识别信息确定与待检测题目对应的相似题目,提高了相似题目的有效性,从而在新增题目对应的对象行为信息较少时,基于相似题目对应的对象行为信息和待检测题目的题目识别信息,目标对象对待检测题目的行为状态信息,即判断目标对象是否能够答对待检测题目,从而避免了新增题目缺少对象状态信息导致的冷启动问题,提高了判断新增题目对应的行为状态信息的有效性和准确性。
本申请实施例还提供了一种题目检测装置,请参见图10,该装置包括:
待检测题目获取模块1010,用于获取待检测题目;
多模态题目特征识别模块1020,用于将待检测题目输入到题目识别模型中进行多模态题目特征识别,得到待检测题目对应的题目识别信息,题目识别信息为基于待检测题目对应的多种题目特征信息得到的,题目特征信息为文本特征信息和至少一种非文本特征信息;
相似题目确定模块1030,用于基于题目识别信息,从预设的历史题目集中确定与待检测题目对应的相似题目;
行为状态信息确定模块1040,用于基于题目识别信息和相似题目对应的对象行为信息,确定目标对象对待检测题目的行为状态信息,行为状态信息表征目标对象答对待检测题目的概率。
在一些实施例中,题目识别模型包括多种题目特征信息分别对应的多个特征提取网络,多模态题目特征识别模块包括:
特征提取单元,用于将待检测题目输入到多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息;
特征组合单元,用于按照待检测题目中的信息排列顺序,对多种题目特征信息进行组合,得到题目识别信息。
在一些实施例中,题目特征信息包括公式特征信息,特征提取网络包括公式特征提取网络,该装置还包括:
公式标准化模块,用于对待检测题目中的公式进行标准化处理,得到标准化公式信息;
参数标准化模块,用于基于预设的参数标准信息,对标准化公式信息中的参数进行更新,得到目标公式信息;
特征提取单元包括:
公式特征提取单元,用于将目标公式信息输入到公式特征提取网络中进行特征提取,得到公式特征信息。
在一些实施例中,题目特征信息包括目标图像特征信息和目标知识点特征信息,特征提取网络包括图像特征提取网络和知识点特征提取网络,特征提取单元包括:
图像特征提取单元,用于将待检测题目输入到图像特征提取网络中进行特征提取,得到初始图像特征信息;
知识点特征提取单元,用于将待检测题目输入到知识点特征提取网络中进行特征提取,得到初始知识点特征信息;
特征压缩单元,用于对初始图像特征信息和初始知识点特征信息进行压缩,得到目标图像特征信息和目标知识点特征信息。
在一些实施例中,相似题目确定模块包括:
相似度确定单元,用于确定题目识别信息和历史题目集中的历史题目对应的历史题目识别信息间的相似度;
相似题目确定单元,用于基于相似度,从历史题目集中确定相似题目。
在一些实施例中,该装置还包括:
样本截取模块,用于对样本题目对应的样本题目识别信息进行截取,得到样本题目片段和样本题目片段对应的上下文信息;
片段信息识别模块,用于将上下文信息输入到第一待训练模型中进行片段信息识别,得到训练题目片段;
第一模型训练模块,用于根据训练题目片段和样本题目片段,对待训练模型进行训练,得到题目识别模型对应的预训练模型;
模型调整模块,用于对预训练模型进行调整,得到第二待训练模型;
多模态题目特征识别训练模块,用于将样本题目输入到第二待训练模型中进行多模态题目特征识别,得到训练题目识别信息;
第二模型训练模块,用于根据样本题目识别信息和训练题目识别信息,对预训练模型进行训练,得到题目识别模型。
在一些实施例中,第一模型训练模块包括:
第一损失数据确定单元,用于在样本题目片段为文本信息或公式信息的情况下,基于预设的第一损失函数,确定训练题目片段和样本题目片段间的第一损失数据;
第一训练单元,用于基于第一损失数据,对待训练模型进行训练,得到题目识别模型;
第二损失数据确定单元,用于在样本题目片段为图像信息或知识点信息的情况下,基于预设的第二损失函数,确定训练题目片段和样本题目片段间的第二损失数据;
第二训练单元,用于基于第二损失数据,对待训练模型进行训练,得到题目识别模型。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的一种题目检测方法。
本实施例还提供了一种计算机可读存储介质,存储介质中存储有计算机可执行指令,计算机可执行指令由处理器加载并执行本实施例上述的一种题目检测方法。
本实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述题目检测的各种可选实现方式中提供的方法。
本实施例还提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行本实施例上述的一种题目检测方法。
设备可以为计算机终端、移动终端或服务器,设备还可以参与构成本申请实施例所提供的装置或系统。如图11所示,服务器11可以包括一个或多个(图中采用1102a、1102b,……,1102n来示出)处理器1102(处理器1102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1104、以及用于通信功能的传输装置1106。除此以外,还可以包括:输入/输出接口(I/O接口)、网络接口。本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器11还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
应当注意到的是上述一个或多个处理器1102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到服务器11中的其他元件中的任意一个内。
存储器1104可用于存储应用软件的软件程序以及模块,如本申请实施例中的方法对应的程序指令/数据存储装置,处理器1102通过运行存储在存储器1104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器1104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1104可进一步包括相对于处理器1102远程设置的存储器,这些远程存储器可以通过网络连接至服务器11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器11的通信供应商提供的无线网络。在一个实例中,传输装置1106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。
本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种题目检测方法,其特征在于,所述方法包括:
获取待检测题目;
将所述待检测题目输入到题目识别模型中进行多模态题目特征识别,得到所述待检测题目对应的题目识别信息,所述题目识别信息为基于所述待检测题目对应的多种题目特征信息得到的,所述题目特征信息为文本特征信息和至少一种非文本特征信息;
基于所述题目识别信息,从预设的历史题目集中确定与所述待检测题目对应的相似题目;
基于所述题目识别信息和所述相似题目对应的对象行为信息,确定目标对象对所述待检测题目的行为状态信息,所述行为状态信息表征所述目标对象答对所述待检测题目的概率。
2.根据权利要求1所述的题目检测方法,其特征在于,所述题目识别模型包括多种题目特征信息分别对应的多个特征提取网络,所述将所述待检测题目输入到题目识别模型中进行多模态题目特征识别,得到所述待检测题目对应的题目识别信息包括:
将所述待检测题目输入到所述多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息;
按照所述待检测题目中的信息排列顺序,对所述多种题目特征信息进行组合,得到所述题目识别信息。
3.根据权利要求2所述的题目检测方法,其特征在于,所述题目特征信息包括公式特征信息,所述特征提取网络包括公式特征提取网络,所述将所述待检测题目输入到所述多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息之前,所述方法还包括:
对所述待检测题目中的公式进行标准化处理,得到标准化公式信息;
基于预设的参数标准信息,对所述标准化公式信息中的参数进行更新,得到目标公式信息;
所述将所述待检测题目输入到所述多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息包括:
将所述目标公式信息输入到公式特征提取网络中进行特征提取,得到所述公式特征信息。
4.根据权利要求2所述的题目检测方法,其特征在于,所述题目特征信息包括目标图像特征信息和目标知识点特征信息,所述特征提取网络包括图像特征提取网络和知识点特征提取网络,所述将所述待检测题目输入到所述多个特征提取网络中分别进行对应的题目特征提取,得到多种题目特征信息包括:
将所述待检测题目输入到图像特征提取网络中进行特征提取,得到初始图像特征信息;
将所述待检测题目输入到知识点特征提取网络中进行特征提取,得到初始知识点特征信息;
对所述初始图像特征信息和所述初始知识点特征信息进行压缩,得到所述目标图像特征信息和所述目标知识点特征信息。
5.根据权利要求1所述的题目检测方法,其特征在于,所述基于所述题目识别信息,从预设的历史题目集中确定与所述待检测题目对应的相似题目包括:
确定所述题目识别信息和所述历史题目集中的历史题目对应的历史题目识别信息间的相似度;
基于所述相似度,从所述历史题目集中确定所述相似题目。
6.根据权利要求1所述的题目检测方法,其特征在于,所述方法还包括:
对样本题目对应的样本题目识别信息进行截取,得到样本题目片段和所述样本题目片段对应的上下文信息;
将所述上下文信息输入到第一待训练模型中进行片段信息识别,得到训练题目片段;
根据所述训练题目片段和所述样本题目片段,对所述待训练模型进行训练,得到所述题目识别模型对应的预训练模型;
对所述预训练模型进行调整,得到第二待训练模型;
将所述样本题目输入到所述第二待训练模型中进行多模态题目特征识别,得到训练题目识别信息;
根据所述样本题目识别信息和所述训练题目识别信息,对所述预训练模型进行训练,得到所述题目识别模型。
7.根据权利要求6所述的题目检测方法,其特征在于,所述根据所述训练题目片段和所述样本题目片段,对所述待训练模型进行训练,得到所述题目识别模型包括:
在所述样本题目片段为文本信息或公式信息的情况下,基于预设的第一损失函数,确定所述训练题目片段和所述样本题目片段间的第一损失数据;
基于所述第一损失数据,对所述待训练模型进行训练,得到所述题目识别模型;
在所述样本题目片段为图像信息或知识点信息的情况下,基于预设的第二损失函数,确定所述训练题目片段和所述样本题目片段间的第二损失数据;
基于所述第二损失数据,对所述待训练模型进行训练,得到所述题目识别模型。
8.一种题目检测装置,其特征在于,所述装置包括:
待检测题目获取模块,用于获取待检测题目;
多模态题目特征识别模块,用于将所述待检测题目输入到题目识别模型中进行多模态题目特征识别,得到所述待检测题目对应的题目识别信息,所述题目识别信息为基于所述待检测题目对应的多种题目特征信息得到的,所述题目特征信息为文本特征信息和至少一种非文本特征信息;
相似题目确定模块,用于基于所述题目识别信息,从预设的历史题目集中确定与所述待检测题目对应的相似题目;
行为状态信息确定模块,用于基于所述题目识别信息和所述相似题目对应的对象行为信息,确定目标对象对所述待检测题目的行为状态信息,所述行为状态信息表征所述目标对象答对所述待检测题目的概率。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的一种题目检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的一种题目检测方法。
CN202110975272.3A 2021-08-24 2021-08-24 一种题目检测方法、装置、电子设备和存储介质 Pending CN114282531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110975272.3A CN114282531A (zh) 2021-08-24 2021-08-24 一种题目检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110975272.3A CN114282531A (zh) 2021-08-24 2021-08-24 一种题目检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114282531A true CN114282531A (zh) 2022-04-05

Family

ID=80868458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110975272.3A Pending CN114282531A (zh) 2021-08-24 2021-08-24 一种题目检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114282531A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414319A (zh) * 2019-06-13 2019-11-05 中国软件与技术服务股份有限公司 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置
CN111813921A (zh) * 2020-08-20 2020-10-23 浙江学海教育科技有限公司 题目推荐方法、电子设备及计算机可读存储介质
CN111914176A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 题目的推荐方法及装置
CN111930901A (zh) * 2020-10-09 2020-11-13 北京世纪好未来教育科技有限公司 知识点向量获取、推荐题目确定方法及相关装置
CN112052828A (zh) * 2020-09-23 2020-12-08 腾讯科技(深圳)有限公司 一种学习能力确定方法、装置及存储介质
CN112100346A (zh) * 2020-08-28 2020-12-18 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112231491A (zh) * 2020-10-20 2021-01-15 中国科学技术大学 基于知识结构的相似试题识别方法
CN112257966A (zh) * 2020-12-18 2021-01-22 北京世纪好未来教育科技有限公司 模型处理方法、装置、电子设备及存储介质
CN112288145A (zh) * 2020-10-15 2021-01-29 河海大学 基于多视角认知诊断的学生成绩预测方法
CN112559676A (zh) * 2019-09-25 2021-03-26 北京新唐思创教育科技有限公司 相似题目的检索方法、装置及计算机存储介质
CN112989058A (zh) * 2021-05-10 2021-06-18 腾讯科技(深圳)有限公司 信息分类方法、试题分类方法、设备、服务器和存储介质
CN113220921A (zh) * 2021-06-03 2021-08-06 南京红松信息技术有限公司 一种基于文本和图像搜索的题库录入自动化方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414319A (zh) * 2019-06-13 2019-11-05 中国软件与技术服务股份有限公司 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置
CN112559676A (zh) * 2019-09-25 2021-03-26 北京新唐思创教育科技有限公司 相似题目的检索方法、装置及计算机存储介质
CN111914176A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 题目的推荐方法及装置
CN111813921A (zh) * 2020-08-20 2020-10-23 浙江学海教育科技有限公司 题目推荐方法、电子设备及计算机可读存储介质
CN112100346A (zh) * 2020-08-28 2020-12-18 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112052828A (zh) * 2020-09-23 2020-12-08 腾讯科技(深圳)有限公司 一种学习能力确定方法、装置及存储介质
CN111930901A (zh) * 2020-10-09 2020-11-13 北京世纪好未来教育科技有限公司 知识点向量获取、推荐题目确定方法及相关装置
CN112288145A (zh) * 2020-10-15 2021-01-29 河海大学 基于多视角认知诊断的学生成绩预测方法
CN112231491A (zh) * 2020-10-20 2021-01-15 中国科学技术大学 基于知识结构的相似试题识别方法
CN112257966A (zh) * 2020-12-18 2021-01-22 北京世纪好未来教育科技有限公司 模型处理方法、装置、电子设备及存储介质
CN112989058A (zh) * 2021-05-10 2021-06-18 腾讯科技(深圳)有限公司 信息分类方法、试题分类方法、设备、服务器和存储介质
CN113220921A (zh) * 2021-06-03 2021-08-06 南京红松信息技术有限公司 一种基于文本和图像搜索的题库录入自动化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
RUI SUN 等: "Multi-modal Knowledge Graphs for Recommender Systems", PROCEEDINGS OF THE 29TH ACM INTERNATIONAL CONFERENCE ON INFORMATION & KNOWLEDGE MANAGEMENT, 30 November 2020 (2020-11-30), pages 1405 - 1414 *
XIHUA LI 等: "LANA: Towards Personalized Deep Knowledge Tracing Through Distinguishable Interactive Sequences", Retrieved from the Internet <URL:https://arxiv.org/abs/2105.06266> *
李晓光 等: "LFKT:学习与遗忘融合的深度知识追踪模型", 软件学报, vol. 32, no. 3, 21 January 2021 (2021-01-21), pages 818 *
李青: "免费师范生信息化教学能力远程指导平台的实现", 中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑, 15 January 2021 (2021-01-15), pages 127 - 432 *
苏喻: "个性化教学系统中学生学业能力模型构建的研究与应用", 中国博士学位论文全文数据库 社会科学Ⅱ辑, 15 September 2018 (2018-09-15), pages 127 - 4 *

Similar Documents

Publication Publication Date Title
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN112949710B (zh) 一种图像的聚类方法和装置
CN110348362B (zh) 标签生成、视频处理方法、装置、电子设备及存储介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN110856037B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN110418204B (zh) 基于微表情的视频推荐方法、装置、设备和存储介质
CN110414581B (zh) 图片检测方法和装置、存储介质及电子装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN112800919A (zh) 一种检测目标类型视频方法、装置、设备以及存储介质
CN111062439A (zh) 一种视频清晰度分类方法、装置、设备和存储介质
CN112966072A (zh) 案件的预判方法、装置、电子装置和存储介质
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN113657087B (zh) 信息的匹配方法及装置
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112269937A (zh) 一种计算用户相似度的方法、系统及装置
CN112559868A (zh) 信息召回方法、装置、存储介质及电子设备
CN111354013A (zh) 目标检测方法及装置、设备和存储介质
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN109032683B (zh) 配置数据处理方法及装置
CN114282531A (zh) 一种题目检测方法、装置、电子设备和存储介质
CN116016421A (zh) 促进在计算装置中执行的基于媒体的内容共享的方法、计算装置可读存储介质以及计算装置
CN112862073B (zh) 一种压缩数据分析方法、装置、存储介质及终端
CN114416786A (zh) 流数据的处理方法、装置、存储介质及计算机设备
CN113627542A (zh) 一种事件信息处理方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination