CN111931875B

CN111931875B - 数据处理方法、电子设备及计算机可读介质

Info

Publication number: CN111931875B
Application number: CN202011074890.2A
Authority: CN
Inventors: 何明; 蔡柳; 林冲
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-10-08
Anticipated expiration: 2040-10-10
Also published as: CN111931875A

Abstract

本发明实施例公开了一种数据处理方法、电子设备及计算机可读介质，获得的第一特征向量可以表征题目特征以及学生答题行为特征，然后根据学生答题行为特征对应的学生的答题数量对第一特征向量的维度进行调整，获得第二特征向量；通过维度调整，有效地平衡了数据处理的准确度和复杂度；接着获得学生答题行为特征对应的知识点信息，根据知识点信息和第二特征向量，获得学生针对知识点信息所指示的知识点的第三特征向量；对第三特征向量进行聚类后基于聚类结果获得用于表征学生的知识点掌握程度的信息；由于特征向量可以表征题目特征以及学生答题行为特征，因此获得的用于表征学生的知识点掌握程度的信息更全面，即对学生的学习情况评估的更全面。

Description

数据处理方法、电子设备及计算机可读介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种与网络教育相关的数据处理方法、电子设备及计算机可读介质。

背景技术

随着互联网技术的发展，越来越多的教育采用了在线方式实现，即在线教育。在线教育以网络为介质，通过网络，学生与教师即使相隔万里也可以开展教学活动；并且，借助于网络课件，学生还可以随时随地进行学习，打破了时间和空间的限制。

目前的在线教育场景中，通常根据学生的作业或考试成绩对学生的学习情况进行评估，但这种方式评估依据单一，无法保证对学生的学习情况评估的全面性和准确性。

发明内容

本发明提供了一种数据处理方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种数据处理方法，包括：获得用于表征题目特征以及学生答题行为特征的第一特征向量；根据所述学生答题行为特征对应的学生的答题数量对所述第一特征向量的维度进行调整，获得第二特征向量；获得所述学生答题行为特征对应的知识点信息k，根据所述知识点信息和所述第二特征向量，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量；对所述第三特征向量进行聚类，获得聚类结果；基于所述聚类结果获得用于表征学生的知识点掌握程度的信息。

根据本发明实施例的第二方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的数据处理方法。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的数据处理方法。

根据本发明实施例提供的方案：获得的第一特征向量可以表征题目特征以及学生答题行为特征，然后根据学生答题行为特征对应的学生的答题数量对第一特征向量的维度进行调整，获得第二特征向量；通过对第一特征向量的维度进行调整，有效地平衡了数据处理的准确度和复杂度；接着获得学生答题行为特征对应的知识点信息，根据知识点信息和第二特征向量，获得学生针对知识点信息所指示的知识点的第三特征向量；对第三特征向量进行聚类，获得聚类结果；基于聚类结果获得用于表征学生的知识点掌握程度的信息；由于特征向量可以表征题目特征以及学生答题行为特征，因此获得的用于表征学生的知识点掌握程度的信息更全面，即对学生的学习情况评估的更全面。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明实施例一提供的一种数据处理方法的步骤流程图；

图2为根据本发明实施例一提供的一种自动编码器结构示意图；

图3为根据本发明实施例二提供的一种数据处理方法的步骤流程图；

图4为根据本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

参照图1，示出了根据本发明实施例一的一种数据处理方法的步骤流程图。

本实施例的数据处理方法包括以下步骤：

步骤101、获得用于表征题目特征以及学生答题行为特征的第一特征向量。

因学生对知识点的掌握程度可通过各种题目，如作业题目、考试题目等有效反馈，因此，本实施例针对学生已完成的题目进行数据处理，以了解学生对不同知识点的掌握程度。

具体到本实施例中，会获取第一特征向量，该第一特征向量融合了题目特征和学生答题行为特征。其中，题目特征可表征题目的属性信息，包括但不限于题目的类型、难度、分值、知识点数量、文本特征等；而学生答题行为特征则可表征学生在已完成的题目上的行为信息，包括但不限于学生的作答时长、作答时间、得分情况等。

由于题目特征包括了题目的类型、难度、分值、知识点数量、文本特征，并且这些特征能表征题目的属性，结合学生的作答时长、作答时间、得分情况等信息等信息，构建的第一特征向量能够更全面的反映题目属性以及学生的答题行为信息，为后续的得到学生的知识点掌握程度提供了基础。

在一可选的实施方式中，具体地，可以获取预设题目的信息；然后获取预设题目的信息指示的预设题目的题目特征和预设题目对应的学生针对预设题目的学生答题行为特征；最后根据该题目特征和学生答题行为特征，构建第一特征向量。

示例性的，若预设题目用t表示，则可以获取预设题目t的题目信息，然后获取该题目信息指示的题目t的题目特征qut，以及题目t的对应的学生u的学生答题行为特征qut，然后可以将题目特征qt以及学生答题行为特征qut进行拼接，得到第一特征向量cqut=（qt，qut）。

其中，题目特征和学生答题行为特征均可由本领域技术人员根据实际情况采用适当方式，基于题目及学生答题行为进行特征提取得到，本发明实施例对此不作限制。

上述实施例通过利用预设题目的信息指示的预设题目的题目特征以及学生答题行为特征构建第一特征向量，使得对学生的学习情况评估依据更丰富多维，为保证对学生的学习情况评估的全面性和准确性奠定了基础。

步骤102、根据学生答题行为特征对应的学生的答题数量，对第一特征向量的维度进行调整，获得第二特征向量。

其中，所述学生答题行为特征即为步骤101中构建第一特征向量时的学生答题行为特征，学生的答题数量可根据学生答题行为特征对应的题目个数获得，第一特征向量的维度可以用于指示该第一特征向量中包含的学生在不同题目每个知识点上的作答记录的数量，例如，若学生u作答了2道题目，且该2道题目均只包含1个知识点k，则可以构建2维的第一特征向量

。

在本实施例中，可以理解，学生答题行为特征对应的学生的答题数量越多，则第一特征向量的维度越高，学生答题行为特征对应的学生的答题数量越少，则第一特征向量的维度越低。维度较高，数据处理的效率就会变低；而若维度较低，则有可能数据量不足够，影响后续数据处理的精准度。因此，需要在维度、效率及精准度之间取得一个平衡，因此，可根据学生答题行为特征对应的学生的答题数量对第一特征向量的维度进行调整，例如，当学生答题行为特征对应的学生的答题数量较多时，为了提高数据处理效率，可以降低第一特征向量的维度；当学生答题行为特征对应的学生的答题数量较少时，为了提高后续数据处理的精准度，可以升高第一特征向量的维度。其中，对第一特征向量的维度的降低或升高调整的具体实现可由本领域技术人员根据实际情况设置，如，均调整至预设的维度阈值等。

可选地，步骤102可以包括以下：

若学生答题行为特征对应的学生的答题数量高于第一预设阈值，则降低第一特征向量的维度，和/或，若学生答题行为特征对应的学生的答题数量低于第二预设阈值，则升高第一特征向量的维度。

在本实施例中，上述第一预设阈值与第二预设阈值可以是相同的值，也可以是不同的值，具体可以根据实际的业务需求和实验效果进行适当设置，本发明实施例对此不做限制。当学生答题行为特征qut对应的学生的答题数量高于第一预设阈值时，表示第一特征向量cqut=（qt，qut）的维度较高，可能对后续的数据处理效率会有影响，则可以降低第一特征向量维度后得到的第二特征向量ncqut的维度（记为|ncqut|），此时|ncqut|<|cqut|。当学生答题行为特征qut对应的学生的答题数量低于第二预设阈值时，表示第一特征向量cqut=（qt，qut）的维度较低，则可以升高第一特征向量维度后得到的第二特征向量ncqut的维度，此时|ncqut|>|cqut|。示例性的，可将第一预设阈值设置为100000，第二预设阈值设置为10000，那么，当学生答题行为特征对应的学生的答题数量高于100000，则降低第一特征向量的维度；和/或，当学生答题行为特征对应的学生的答题数量低于10000，则升高第一特征向量的维度。可以理解，升高或者降低第一特征向量的维度，是为了保证第一特征向量的维度在一个合理的范围内。

在上述实施例中，通过降低第一特征向量的维度，使得后续数据处理效率得到提高，通过升高第一特征向量的维度，即对第一特征向量做了处理和映射，能够较好的考虑第一特征向量中的特征之间的相关性，从而提高了第一特征向量的准确性，进而提升了后续数据处理的准确性。

在一种可选方案中，可以通过自动编码器，根据学生答题行为特征对应的学生的答题数量，对第一特征向量的维度进行调整，获得第二特征向量。

自动编码器是一种无监督的神经网络模型，它可以学习到原始输入数据的特征，得到对应的特征向量，称之为编码；同时用学习到的特征向量可以重构出原始输入数据，称之为解码。具体的编码过程以及解码过程可参考现有技术，此处不再赘述。

而本实施例中，对自动编码器进行进一步的改进，以通过自动编码器，可以实现动态调整第一特征向量的维度，有效地平衡了后续数据处理的复杂度及数据处理的精准度。

具体地，在本实施例中，可以通过在自动编码器中设计能够根据向量自身的维度，判断需要对该向量进行升维或者降维，并对向量进行升维和降维的维度进行计算的模块，本实施例中称为升降维控制模块，带有升降维控制模块的自动编码器可以记为udd-AutoDE，以使得自动编码器根据升降维控制模块计算得到的维度，实现动态调整第一特征向量的维度，提高了数据处理算法的灵活性和可扩展性。

在一可选的实施方式中，如图2所示，上述自动编码器可以包括输入层、隐层和输出层；其中，输入层，用于接收第一特征向量；隐层中的最后一个隐层的维度为根据学生答题行为特征对应的学生的答题数量确定的维度，隐层用于对输入层接收的第一特征向量进行编码处理，获得确定的上述维度的第一特征向量；输出层，用于输出通过隐层处理后获得的第一特征向量。

在本实施例中，示例性的，可以将自动编码器隐层中的最后一个隐层的神经元数量，设置为通过上述升降维控制模块计算的|ncqut|，则利用自动编码器的隐层对输入层接收的第一特征向量进行编码处理后，可以从最后一个隐层获得维度为|ncqut|的第二特征向量，即，可以通过增加自动编码器隐层的神经元数量升高第一特征向量的维度，或者，通过减少自动编码器隐层的神经元数量以降低第一特征向量的维度。

步骤103、获得学生答题行为特征对应的知识点信息，根据知识点信息和第二特征向量，获得学生针对知识点信息所指示的知识点的第三特征向量。

其中，知识点信息用于指示学生答题行为特征对应的题目中所包含的不同的知识点，第二特征向量中可以包含多个上述学生答题行为特征对应的题目，每个题目又可以包含多个知识点，例如，若第二特征向量中包含10个题目，该10个题目共包含15个不同的知识点，因此上述知识点信息可以指示第二特征向量中的15个不同的知识点。

可选地，可以从学生作答的题目中，将相同知识点归纳为一个知识点维度；然后获得学生答题行为特征对应的知识点维度，作为知识点信息。

示例性的，若一张试卷中有30道题目，30道题目共设置了50个知识点，其中有20个知识点是两两重复的知识点，其余30个是互不相同的知识点，则可以得知，该试卷中的知识点维度为40个不同的维度，则可以分别标记该40个不同的知识点维度。可以获得学生答题行为特征对应的知识点，从而确定该知识点对应的知识点维度，然后根据知识点维度和上述第二特征向量，获得学生针对知识点信息所指示的知识点的第三特征向量。

上述实施例通过对学生作答的题目按照不同的知识点进行归纳，得到至少一个知识点维度，使得后续可以基于知识点维度，判断学生对某一知识点维度的掌握程度。

在一可选的实施方式中，可以基于知识点信息，对第二特征向量进行求平均计算，获得学生针对该知识点信息所指示的知识点的第三特征向量。

具体地，可以针对每个学生，基于当前学生对应的知识点维度，获得当前学生在各个知识点维度上的第二特征向量；然后将获得的各个知识点维度上的第二特征向量进行求平均计算，获得当前学生针对各个知识点维度所指示的知识点的第三特征向量。

在本实施例中，假设学生u在知识点维度k上的综合作答特征向量为cduk，则可以通过以下方式计算第三特征向量（记为cduk）：

获得学生u在知识点k（知识点维度k中包含的知识点也用k表示）上的所有答题记录（即第二特征向量）：

。

其中，m表示学生u在知识点k上作答的题目数量，也即，包含知识点k的题目数量为m，可以理解，即便学生u没有做某一道包含知识点k的题目，也可记录下来，例如可以使该道题目对应的第二特征向量为0，或者使其他记录方式，本实施例不做限制，使得后续对该学生在知识点k上的掌握程度的评估更加准确。

然后，对上述

进行平均，得到学生u在知识点k上的综合作答特征向量（上述第三特征向量）cduk，即：

，m表示学生u在知识点k上作答的题目数量。

上述实施例通过对学生u在知识点k上的所有答题记录求平均，即得到学生u在知识点k上的综合作答特征向量，相当于得到了学生u在知识点k上的表示平均作答水平的作答记录，为后续评估学生u在知识点k上的掌握程度提供了基础。

步骤104、对第三特征向量进行聚类，获得聚类结果。

在本实施例中，第三特征向量可以表示学生在该知识点上的掌握情况，由于每个学生在一个知识点上的掌握程度可能不同，为了便于统计每个学生在每个知识点上的掌握程度，可以通过聚类的方式，将掌握程度近似的第三特征向量进行聚成一类。可选地，聚类可采用的方式本实施例不做限制，例如可以通过K-Means聚类算法进行聚类，也可以通过均值偏移聚类算法进行聚类，再或者是通过DBSCAN聚类算法进行聚类等。

在本实施例中，可选地，可以采用BCM（Bayesian Case Model，贝叶斯实例模型）对上述第三特征向量进行聚类，获得至少一个聚类结果及各个聚类结果的代表性样例。

贝叶斯实例模型的算法是一种基于实例的方法，它是一种通过一些代表性的样本来解释聚类结果的方法，本实施例中利用BCM聚类后得到至少一个聚类结果及各个聚类结果的代表性样例，通过观察代表性样例，可以直观得获得其对应聚类结果的宏观特征。

从上述步骤103中，我们获得了不同学生的针对不同知识点维度的多个第三特征向量，在本步骤中，可以将多个第三特征向量，采用BCM进行聚类，得到表示不同掌握程度的类别，即上述至少一个聚类结果，并且，通过BCM可获得每个类别的原型，记为prn（表示第n个类别的原型为prn），需要说明的是，这里的原型指的是某个类别中最具有代表性的样本，即和该类最为相关的样本（也就是某个cduk），该原型能够一定程度上代表该类别。

上述通过引入贝叶斯实例模型，准确获得了表示不同掌握程度的类别以及各个类别的原型。一方面为后续的知识点诊断提供了数据，另一方面为知识点维度的可溯源提供了基础。

步骤105、基于聚类结果获得用于表征学生的知识点掌握程度的信息。

在本实施例中，步骤104虽然得到了聚类结果，例如不同掌握程度的类别，但是没有获得聚类结果所表示的不同类别的属性，例如不同掌握程度的类别所表示的掌握程度高低的信息，因此，可以通过专家标注的方式，获得每个类别的掌握程度高低的信息。

具体地，在一个实施方式中，可以获取对各个聚类结果进行知识点掌握程度标注的标注结果，然后根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息。

上述标注结果可以是分数，也可以是表示等级的字符或数字，本实施例不做限制。示例性的，比如得到三个类别，第一个类别经过专家标注，为高掌握程度；第二个类别经过专家标注，为中掌握程度；第三个类别经过专家标注，为低掌握程度。可以分别用数字来表示，即高掌握程度表示为3、中掌握程度表示为2、低掌握程度表示为1。根据所述标注结果可以获得用于表征学生的知识点掌握程度的等级或者分数。

可以理解，一个学生在一个知识点上的掌握情况只有一种，示例性的，若上述得到了每个学生在每个知识点维度上的掌握程度分数（假设为1到n中的某一个得分），即Suk=l；其中，l表示的是1到n中某一具体的得分，每个学生（1至U表示）在每个知识点（1至K表示）上的掌握程度可以表示为一个矩阵S，如下所示：

(1)

上述实施例中，通过专家标注，可以获得当前学生在每个知识点维度上的掌握程度，也可以称为微观掌握程度，使得学生能清楚的知道自己哪些知识点掌握的比较薄弱，进而清楚认识到自身的学习情况。

在另一个实施方式中，可以获取对各个聚类结果的代表性样例进行知识点掌握程度标注的标注结果，然后根据标注结果获得用于表征学生的知识点掌握程度的第一信息。

在本实施例中，由于聚类结果的代表性样例能够一定程度上代表该聚类结果，因此，可以直接借鉴每个聚类结果的代表性样例prn，对该代表性样例进行知识点掌握程度标注即可，通过代表性样例的标注结果，获得用于表征学生的知识点掌握程度的等级或者分数。

上述通过对代表性样例进行知识点掌握程度标注，能够一定程度上降低专家标注的成本，使得专家在标注时无需通览该聚类结果中的所有样例。

在得到微观掌握程度后，还可以计算得到学生的宏观掌握程度，即学生对试题的整体掌握程度。

具体地，可以针对每个学生，采用众数法对当前学生的第一信息对应的标注结果进行计算，得到用于表征当前学生的知识点掌握程度的第二信息。

在本实施例中，第一信息对应的标注结果即可以为上述每个学生在每个知识点上的掌握程度的分数，若想要获得学生u的宏观掌握程度（记为csu），则可以通过下述众数法对学生u的所有知识点掌握程度分数的集合su=（su1，...，suk，...，suK）,（即公式1的第u行）进行计算得到：

,(2)

其中，I（suk==l）为指示函数，当suk==l时，I（suk==l）=1；当suk≠l时，I（suk==l）=0；su1为表示学生u在知识点“1”上的掌握程度分数，suk表示学生u在知识点“k”（k=1，2，……，K）上的掌握程度分数，suK表示学生u在知识点“K”上的掌握程度分数，l为专家标注的具体的得分或者等级，此处以专家标注的是得分为例，numl表示专家标注的某一具体得分的数量，其中，每个得分对应于一种掌握程度。上述公式（2），通过

获得学生u在所有知识点上的不同知识点掌握程度（可通过分数体现）对应的数量，如得5分的有5个（牢固掌握程度），3分的有2个（一般掌握程度），1分的有1个（薄弱掌握程度）；通过“if numl≥others”确定数量最多的知识点掌握程度，如5分牢固掌握程度；则通过“csu=l”确定学生u的宏观掌握程度为l即5分即牢固掌握。例如，总共有10个知识点，这10个知识点的掌握程度分别为：一般（l=3分）、薄弱（l=1分）、牢固（l=5分）、一般、牢固、牢固、薄弱、牢固、牢固、薄弱，从这10个知识点的掌握程度来看，掌握为牢固的知识点数量为5个；掌握为一般的知识点有2个；掌握为薄弱的知识点数量有3个。则，通过

得到：num_牢固=5，num_一般=2，num_薄弱=3。因为5大于等于2以及3，因此“csu=5”，则这个学生的宏观掌握程度为牢固。

基于上述方式，可以准确地得到学生u的用于表征当前学生的知识点掌握程度的第二信息，即宏观掌握程度csu，进而使得学生对自己的综合掌握情况有所了解。

本发明实施例提供的数据处理方法，获得的第一特征向量可以表征题目特征以及学生答题行为特征，然后根据学生答题行为特征对应的学生的答题数量对第一特征向量的维度进行调整，获得第二特征向量；通过对第一特征向量的维度进行调整，有效地平衡了数据处理的准确度和复杂度；接着获得学生答题行为特征对应的知识点信息，根据知识点信息和第二特征向量，获得学生针对知识点信息所指示的知识点的第三特征向量；对第三特征向量进行聚类，获得聚类结果；基于聚类结果获得用于表征学生的知识点掌握程度的信息；由于特征向量可以表征题目特征以及学生答题行为特征，因此获得的用于表征学生的知识点掌握程度的信息更全面，即对学生的学习情况评估的更全面。

本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。

实施例二

在实施例一种可以准确得到学生的微观掌握程度（即在每个知识点上的掌握情况suk），还能够得到学生的宏观掌握程度（即整体掌握程度csu）。接下来，重点描述可溯源的方案，可以分为宏观层面的可溯源和微观层面的可溯源。

在得到微观掌握程度以及宏观掌握程度之后，还包括以下方法：

对用于表征学生的知识点掌握程度的第一信息和/或第二信息进行溯源。

在一可选的实施方式中，可以根据当前学生在各个知识点维度上的第二特征向量，与当前学生在各个知识点维度上对应的聚类结果的代表性样例，获得所述第一信息对应的第一溯源结果；

和/或，

根据第二信息对应的知识点，获得第二信息对应的第二溯源结果。

在本实施例中，第一信息可以表示上述学生在每个知识点上的掌握情况（微观掌握程度），第二信息可以表示学生对试题的整体掌握程度。可以理解，对于微观掌握程度对应的第一溯源结果以及整体掌握程度对应的第二溯源结果，可以根据实际需求进行获取，可以只获取两者中的一个，也可以两者均获取，本实施例不做限制。

上述实施例通过对用于表征学生的知识点掌握程度的第一信息和/或第二信息进行溯源，能够准确定位到与当前掌握程度较为相关的作答题目，使得学生能够清楚认识到自己哪个知识点掌握的不好，从而针对性地去弥补欠缺的知识点，用户体验较好。

在一可选的实施方式中，可以将当前学生在各个知识点维度上的第二特征向量，分别与当前学生在各个知识点维度上对应的聚类结果的代表性样例进行相似度计算，根据相似度计算结果确定所述第一信息对应的第一溯源结果。

在本实施例中，如图3所示，假设学生u在知识点k下的掌握程度为l，则：

步骤201、基于实施例一中步骤103获得的第二特征向量，例如是学生u在知识点k的第二特征向量的集合

，其中，m表示题目数量；以及基于实施例一中步骤104中获得的聚类结果，例如是学生u在知识点k的掌握程度的类别对应的原型（代表性样例）prl，可以采用余弦相似度的方法，分别计算每个

与原型prl的余弦相似度。

本步骤中，计算的余弦相似度越高，则表明本实施例中的上述第二特征向量与其对应的代表性样例的掌握程度分数或者等级越接近，可以理解，该学生u在该知识点k上的掌握程度之所以为l，主要是因为掌握程度为l对应的题目以及学生答题行为特征导致的。例如，若涉及知识点k的题目数量m等于5时，学生u在知识点k的第二特征向量分别为：

、

、

、

、

，则可以分别计算

与prl，

与prl，

与prl，

与prl，

与prl的余弦相似度，由于掌握程度l的打分可以直接参考原型prl进行打分，因此与原型的余弦相似度越高，表明该第二特征向量的掌握程度更接近l，因此该第二特征向量可以作为学生u的微观掌握程度即第一信息的溯源结果。

步骤202、可以将余弦相似度最高的第二特征向量对应的题目以及学生答题行为特征，作为该知识点k的掌握程度的溯源作答试题。

由于余弦相似度越高，则表明上述第二特征向量与其对应的代表性样例的掌握程度分数或者等级越接近，且第二特征向量中包含学生答题行为特征以及学生作答题目的题目特征，因此，可以通过余弦相似度最高的第二特征向量，获取其包含的题目特征所对应的题目或者知识点，也可以获取到学生在该题目上的答题行为特征，作为该知识点k的掌握程度的溯源作答试题。

可以理解，也可以选择余弦相似度得分最高的前几个第二特征向量对应的题目以及学生答题行为特征，作为该知识点k的掌握程度的溯源作答试题，也就是微观层面的溯源结果。即该学生u在该知识点k上的掌握程度之所以为l，主要原因是由溯源出的题目以及学生答题行为特征导致的，因为其与原型最为相似，即在数据处理时起到的影响较大。

本实施例通过对上述第二特征向量和与其对应的代表性样例进行相似度计算，能够准确的获得导致得出第一信息的结论的样例有哪些，精准的计算出第一信息的溯源结果。

在对学生整体掌握程度即第二信息进行溯源时，可以直接给出第二信息为众数（即l）的第三特征向量对应的知识点即可（参考公式2），即traceu=｛suk|if suk=l｝，l为专家标注的具体分数，suk表示学生u在知识点k上的掌握程度分数。每个第三特征向量可以表示一个知识点上的掌握程度，因此通过第三特征向量可以直接获取到其对应的知识点。可以理解，该学生之所以综合掌握程度为l，是因为掌握程度为l的知识点起了主要作用，所以只需将该学生所有掌握程度为l的知识点列出即可作为第二信息即宏观层面的溯源结果。

上述实施例精准地呈现了学生整体掌握程度的可溯源记录traceu，能够帮助用户准确地理解相应的诊断结果并进行针对性的学习方案优化。

实施例三

图4为本发明实施例三中电子设备的硬件结构；如图4所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。

其中：

处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。

通信接口302，用于与其它电子设备或服务器进行通信。

处理器301，用于执行程序305，具体可以执行上述数据处理方法实施例中的相关步骤。

具体地，程序305可以包括程序代码，该程序代码包括计算机操作指令。

处理器301可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器303，用于存放程序305。存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序305具体可以用于使得处理器301执行以下操作：获得用于表征题目特征以及学生答题行为特征的第一特征向量；根据所述学生答题行为特征对应的学生的答题数量对所述第一特征向量的维度进行调整，获得第二特征向量；获得所述学生答题行为特征对应的知识点信息，根据所述知识点信息和所述第二特征向量，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量；对所述第三特征向量进行聚类，获得聚类结果；基于所述聚类结果获得用于表征学生的知识点掌握程度的信息。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述学生答题行为特征对应的学生的答题数量对所述第一特征向量的维度进行调整，获得第二特征向量时：若所述学生答题行为特征对应的学生的答题数量高于第一预设阈值，则降低所述第一特征向量的维度；和/或，若所述学生答题行为特征对应的学生的答题数量低于第二预设阈值，则升高所述第一特征向量的维度。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述学生答题行为特征对应的学生的答题数量对所述第一特征向量的维度进行调整，获得第二特征向量时：通过自动编码器，根据所述学生答题行为特征对应的学生的答题数量，对所述第一特征向量的维度进行调整，获得第二特征向量。

在一种可选的实施方式中，自动编码器包括输入层、隐层和输出层；其中，所述输入层，用于接收所述第一特征向量；所述隐层中的最后一个隐层的维度为根据所述学生答题行为特征对应的学生的答题数量确定的维度，所述隐层用于对所述输入层接收的第一特征向量进行编码处理，获得确定的所述维度的第一特征向量；所述输出层，用于输出通过所述隐层处理后获得的所述第一特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在获得所述学生答题行为特征对应的知识点信息，根据所述知识点信息和所述第二特征向量，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量时：获得所述学生的所述学生答题行为特征对应的知识点信息；基于所述知识点信息，对所述第二特征向量进行求平均计算，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在获得所述学生的所述学生答题行为特征对应的知识点信息时：从学生作答的题目中，将相同知识点归纳为一个知识点维度；获得所述学生答题行为特征对应的知识点维度，作为知识点信息。

在一种可选的实施方式中，程序305还用于使得处理器301在基于所述知识点信息，对所述第二特征向量进行求平均计算，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量时：针对每个所述学生，基于当前学生对应的所述知识点维度，获得当前学生在各个所述知识点维度上的第二特征向量；将获得的各个所述知识点维度上的第二特征向量进行求平均计算，获得当前学生针对各个所述知识点维度所指示的知识点的第三特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在对所述第三特征向量进行聚类，获得聚类结果时：采用贝叶斯实例模型BCM对所述第三特征向量进行聚类，获得至少一个聚类结果及各个聚类结果的代表性样例。

在一种可选的实施方式中，程序305还用于使得处理器301在基于所述聚类结果获得用于表征学生的知识点掌握程度的信息时：获取对各个聚类结果进行知识点掌握程度标注的标注结果，根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息。

在一种可选的实施方式中，程序305还用于使得处理器301在获取对各个聚类结果进行知识点掌握程度标注的标注结果，根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息时：获取对各个聚类结果的代表性样例进行知识点掌握程度标注的标注结果，根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息。

在一种可选的实施方式中，程序305还用于使得处理器301在所述根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息之后：针对每个所述学生，采用众数法对当前学生的第一信息对应的标注结果进行计算，得到用于表征当前学生的知识点掌握程度的第二信息。

在一种可选的实施方式中，程序305还用于使得处理器301对所述用于表征学生的知识点掌握程度的所述第一信息和/或所述第二信息进行溯源。

在一种可选的实施方式中，程序305还用于使得处理器301在对所述用于表征学生的知识点掌握程度的所述第一信息和/或所述第二信息进行溯源时：根据当前学生在各个所述知识点维度上的第二特征向量，与当前学生在各个所述知识点维度上对应的聚类结果的代表性样例，获得所述第一信息对应的第一溯源结果；和/或，根据所述第二信息对应的知识点，获得所述第二信息对应的第二溯源结果。

在一种可选的实施方式中，程序305还用于使得处理器301在根据当前学生在各个所述知识点维度上的第二特征向量，与当前学生在各个所述知识点维度上对应的聚类结果的代表性样例，获得所述第一信息对应的第一溯源结果时：将当前学生在各个所述知识点维度上的第二特征向量，分别与当前学生在各个所述知识点维度上对应的聚类结果的代表性样例进行相似度计算，根据相似度计算结果确定所述第一信息对应的第一溯源结果。

在一种可选的实施方式中，程序305还用于使得处理器301在获得用于表征题目特征以及学生答题行为特征的第一特征向量时：获取预设题目的信息；获取所述预设题目的信息指示的预设题目的题目特征和所述预设题目对应的学生针对所述预设题目的学生答题行为特征；根据所述题目特征和所述学生答题行为特征，构建第一特征向量。

在一种可选的实施方式中，所述题目特征包括题目的类型、难度、分值、知识点数量、文本特征；所述学生答题行为特征包括所述学生的作答时长、作答时间、得分情况。

程序305中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，对包含公式的图片进行预处理，将预处理后的图片进行公式符号检测，得到上述公式包含的公式符号的类别信息以及位置信息；基于该公式符号的类别信息以及位置信息，构造混合特征向量；基于混合特征向量，进行上述公式符号的识别和转换，获得上述图片中包含的公式对应的字符串。由于本方案构造的混合特征向量包括了公式符号的位置信息以及类别信息，通过类别信息可以较为准确地确定公式符号的类别，而通过位置信息则可明确指示该公式符号的位置，由此，使得用于进行公式符号的识别和转换的信息更全面更完整，可以更为准确地对公式符号进行识别，进行公式符号的识别和转换的准确率和效率都更高。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本发明实施例中的方法中限定的上述功能。需要说明的是，本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接入模块和发送模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所描述的数据处理方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获得用于表征题目特征以及学生答题行为特征的第一特征向量；根据所述学生答题行为特征对应的学生的答题数量对所述第一特征向量的维度进行调整，获得第二特征向量；获得所述学生答题行为特征对应的知识点信息，根据所述知识点信息和所述第二特征向量，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量；对所述第三特征向量进行聚类，获得聚类结果；基于所述聚类结果获得用于表征学生的知识点掌握程度的信息。

在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获得用于表征题目特征以及学生答题行为特征的第一特征向量；所述第一特征向量的维度用于指示该第一特征向量中包含的学生在不同题目每个知识点上的作答记录的数量；

根据所述学生答题行为特征对应的学生的答题数量对所述第一特征向量的维度进行调整，获得第二特征向量，包括，通过自动编码器，根据所述学生答题行为特征对应的学生的答题数量，对所述第一特征向量的维度进行调整，获得第二特征向量；其中，所述自动编码器通过设置隐层中的最后一个隐层的神经元数量，对所述第一特征向量的维度进行调整；

所述自动编码器包括升降维控制模块，用于根据所述第一特征向量的维度，确定是否所述第一特征向量的进行升维或者降维，并对第一特征向量进行升维和降维的维度的计算；若所述学生答题行为特征对应的学生的答题数量高于第一预设阈值，则降低所述第一特征向量的维度；若所述学生答题行为特征对应的学生的答题数量低于第二预设阈值，则升高所述第一特征向量的维度；

获得所述学生答题行为特征对应的知识点信息，根据所述知识点信息和所述第二特征向量，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量；所述获得所述学生答题行为特征对应的知识点信息，根据所述知识点信息和所述第二特征向量，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量，包括：

获得所述学生的所述学生答题行为特征对应的知识点信息；

基于所述知识点信息，对所述第二特征向量进行求平均计算，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量；

对所述第三特征向量进行聚类，获得聚类结果；

基于所述聚类结果获得用于表征学生的知识点掌握程度的信息。

2.根据权利要求1所述的方法，其特征在于，所述自动编码器包括输入层、隐层和输出层；

其中，

所述输入层，用于接收所述第一特征向量；

所述隐层中的最后一个隐层的维度为根据所述学生答题行为特征对应的学生的答题数量确定的维度，所述隐层用于对所述输入层接收的第一特征向量进行编码处理，获得确定的所述维度的第一特征向量；

所述输出层，用于输出通过所述隐层处理后获得的第一特征向量，以作为所述第二特征向量。

3.根据权利要求1所述的方法，其特征在于，所述获得所述学生的所述学生答题行为特征对应的知识点信息，包括：

从学生作答的题目中，将相同知识点归纳为一个知识点维度；

获得所述学生答题行为特征对应的知识点维度，作为知识点信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述知识点信息，对所述第二特征向量进行求平均计算，获得所述学生针对所述知识点信息所指示的知识点的第三特征向量，包括：

针对每个所述学生，基于当前学生对应的所述知识点维度，获得当前学生在各个所述知识点维度上的第二特征向量；

将获得的各个所述知识点维度上的第二特征向量进行求平均计算，获得当前学生针对各个所述知识点维度所指示的知识点的第三特征向量。

5.根据权利要求3所述的方法，其特征在于，所述对所述第三特征向量进行聚类，获得聚类结果，包括：

采用贝叶斯实例模型BCM对所述第三特征向量进行聚类，获得至少一个聚类结果及各个聚类结果的代表性样例。

6.根据权利要求5所述的方法，其特征在于，基于所述聚类结果获得用于表征学生的知识点掌握程度的信息，包括：

获取对各个聚类结果进行知识点掌握程度标注的标注结果，根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息。

7.根据权利要求6所述的方法，其特征在于，所述获取对各个聚类结果进行知识点掌握程度标注的标注结果，根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息，包括：

获取对各个聚类结果的代表性样例进行知识点掌握程度标注的标注结果，根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息。

8.根据权利要求7所述的方法，其特征在于，在所述根据所述标注结果获得用于表征学生的知识点掌握程度的第一信息之后，还包括：

针对每个所述学生，采用众数法对当前学生的第一信息对应的标注结果进行计算，得到用于表征当前学生的知识点掌握程度的第二信息。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

对所述用于表征学生的知识点掌握程度的所述第一信息和/或所述第二信息进行溯源。

10.根据权利要求9所述的方法，其特征在于，所述对所述用于表征学生的知识点掌握程度的所述第一信息和/或所述第二信息进行溯源，包括：

根据当前学生在各个所述知识点维度上的第二特征向量，与当前学生在各个所述知识点维度上对应的聚类结果的代表性样例，获得所述第一信息对应的第一溯源结果；

和/或，

根据所述第二信息对应的知识点，获得所述第二信息对应的第二溯源结果。

11.根据权利要求10所述的方法，其特征在于，所述根据当前学生在各个所述知识点维度上的第二特征向量，与当前学生在各个所述知识点维度上对应的聚类结果的代表性样例，获得所述第一信息对应的第一溯源结果，包括：

将当前学生在各个所述知识点维度上的第二特征向量，分别与当前学生在各个所述知识点维度上对应的聚类结果的代表性样例进行相似度计算，根据相似度计算结果确定所述第一信息对应的第一溯源结果。

12.根据权利要求1所述的方法，其特征在于，所述获得用于表征题目特征以及学生答题行为特征的第一特征向量，包括：

获取预设题目的信息；

获取所述预设题目的信息指示的预设题目的题目特征和所述预设题目对应的学生针对所述预设题目的学生答题行为特征；

根据所述题目特征和所述学生答题行为特征，构建第一特征向量。

13.根据权利要求12所述的方法，其特征在于，所述题目特征包括题目的类型、难度、分值、知识点数量、文本特征；所述学生答题行为特征包括所述学生的作答时长、作答时间、得分情况。

14.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1－13中任一项所述的数据处理方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－13中任一项所述的数据处理方法。