CN111328407A

CN111328407A - 用于基于学习效率提供私人定制教育内容的机械学习方法、装置及计算机程序

Info

Publication number: CN111328407A
Application number: CN201980003209.4A
Authority: CN
Inventors: 车映慜; 申东珉; 李载闵; 李镕求; 许宰纬
Original assignee: Riiid Inc
Current assignee: Riiid Inc
Priority date: 2018-10-16
Filing date: 2019-10-16
Publication date: 2020-06-23
Also published as: US11704578B2; JP2022008867A; US20210133598A1; KR102015075B1; JP7474517B2; WO2020080826A1; JP2021508065A; BR112021007166A2; JP6960688B2

Abstract

本发明为在服务器中提供用户定制学习内容的方法，其特征在于，包括：步骤a，对特定科目构成包括一个以上的客观题的题目数据库，上述客观题包括一个以上的选项，向用户设备提供上述题目，从上述用户设备收集与上述题目有关的用户的选项选择数据；步骤b，利用上述用户各自的上述选项选择数据，对各个上述用户推定与上述题目有关的正确率；以及假设任意用户对任意题目选择各个选项，对各个题目计算上述用户对于上述题目数据库所包括的整个题目的正确率的变更率，按上述变更率高的顺序整列上述题目数据库所包括的题目来向上述用户进行推荐的步骤。

Description

用于基于学习效率提供私人定制教育内容的机械学习方法、装置及计算机程序

技术领域

本发明涉及基于数据提供用户定制内容的方法。更具体地，本发明涉及将所收集的解题结果数据适用于机器学习框架来推定对于用户的题目的学习效率并基于此推荐教育内容的方法。

背景技术

至今，教育内容通常以组合包提供。例如，记录在纸中的每个题目集至少收录有700个题目，线上或线下讲课均以1-2小时单位至少集合一个月的学习量来一次性销售。

但是，在受到教育的学生的立场上，个别不擅长的单元和不擅长的题目类型均不相同，因此，与组合包形态相比，需求私人定制内容。这是因为，为了在限定的时间内进行最有效的学习，与解答700个题目相比，挑选出学习效率最高的题目来进行学习更加有效。

但是，作为被教育人员的学生很难自己挑选出适合自己的题目。进而，补习班、出版社等以往的教育行业也同样依赖于主观经验和直觉来分析学生及题目，因此，很难向个别学生提供最优化的题目。

如上所述，在以往的教育环境中，很难提供被教育人员可以呈现出最优效率的私人订制内容，学生很容易对一律提供的教育内容失去成就感和兴趣。

发明内容

(一)要解决的技术问题

本发明的目的在于解决上述题目。更具体地，本发明涉及如下的方法，即，基于大量的解题结果数据分析用户和/或题目，基于此，计算对于各个用户的各个题目的学习效率并根据学习效率推荐学习内容。

(二)技术方案

在根据本发明实施例的服务器中，提供用户定制学习内容的方法的特征在于，包括：步骤a，对特定科目构成包括一个以上的客观题的题目数据库，上述客观题包括一个以上的选项，向用户设备提供上述题目，从上述用户设备收集与上述题目有关的用户的选项选择数据；步骤b，利用上述用户各自的上述选项选择数据，对各个上述用户推定与上述题目有关的正确率；以及假设任意用户对任意题目选择各个选项，对各个题目计算上述用户对于上述题目数据库所包括的整个题目的正确率的变更率，按上述变更率高的顺序整列上述题目数据库所包括的题目来向上述用户进行推荐的步骤。

(三)有益效果

根据本发明的实施例，本发明具有如下效果，即，以用户和/或题目分析结果为基础，可以向用户提供最优化的学习内容，从而可以将用户的学习效果极大化。

附图说明

图1为用于说明根据本发明的实施例推荐用户定制内容的过程的流程图。

图2为用于说明根据本发明的实施例计算用户的各个题目的学习效率的过程的流程图。

图3为用于说明根据本发明的实施例计算用户的各个题目的学习效率的过程的流程图。

具体实施方式

本发明并不局限于以下记载的实施例的说明内容，在不超出本发明的技术主旨的范围内，本发明所属技术领域的普通技术人员可施加多种变形。而且，在说明实施例的过程中，将省略说明本发明所属技术领域中广泛了解且与本发明的技术主旨并无直接关联的技术内容。

另一方面，在附图中，相同的附图标记表示相同的结构要素。而且，在附图中，一部分结构要素可以放大、省略或简要示出。这是为了省略与本发明的主旨无关的不必要的说明，由此明确说明本发明的主旨。

最近，随着IT设备的普及，用于用户分析的数据收集变得轻松。若可以充分收集用户数据，则用户的分析变得更加精密并可以向对应用户提供最适当形态的内容。

随着这种发展，尤其，在教育行业中对于用户定制教育内容提供的需求很高。

例如，在一个用户在英语科目中对“动词的时态”的理解程度差的情况下，若可以推荐包括与“动词的时态”有关的概念的题目，则学习效率将会提高。但是，如上所述，为了提供用户定制教育内容而需要对各个内容及用户进行精密地分析。

以往，为了分析内容和用户，专家通过手工作业定义对应科目的概念，且专家个别判断与对应科目的各个题目包括的哪种概念来标记。之后，以各个用户解出对特定概念标记的题目的结果信息为基础分析学习人员的实力。

若观察用户解题过程，出题人的意图可以为一两个，但是用户答错题的原因有数十种。例如，某种题目的类型为“假设法过去”，出题人的意图为“是否可以区分助动词的过去式和假设法”的情况。

在此情况下，与出题的意图相同，用户答错对应题目的原因可以为“无法区分助动词的过去式与假设法”，也可以是不了解提问的特定单词。在此情况下，对应用户最有效的题目可以为用于学习上述单词的题目。

但是，专家无法考虑所有情况来分析对应用户，因此，通常，用户根据题目类型及出题人意图来判断需要“假设法过去”、“助动词过去”、“假设法”等的概念有关的学习并推荐与此有关的题目。

如上所述，专家基于预先定义的标记信息来分析用户的方法具有标记信息依赖于人的主观，且不包括对于人类的行动的多种情况的数。不介入人的主观且数学生成的标记信息并非以数学形式赋予在题目，因此，对于结果数据有关的可靠度并不高。

因此，根据本发明实施例的数据分析服务器在学习数据分析适用机器学习框架来排除数据处理过程中的人的介入。

基于此，并未预先定义对应科目的概念(即，不生成与题目中的概念有关的标记信息)，可基于用户的解题结果日志来分析用户及题目。例如，数据分析服务器收集用户的解题结果日志并构成由用户和题目构成的多维空间，以用户是否答对或答错题目为基础，向上述多维空间赋予值，通过计算与各个用户及题目有关的向量的方式对用户和/或题目进行建模。

在此情况下，用户模型可以包括与对于整个题目的用户各个的特性有关的信息，题目模型可以包括与对于整个用户有关的题目各个的特性有关的信息。进而，题目模型可通过与构成特定题目的对应科目的概念有关的包括程度表现，用户模型可通过与构成特定用户的对应科目的概念有关的理解程度表现。

进而，根据本发明的实施例，利用上述题目模型和用户模型，可以计算任意用户对任意题目选择正确选项的概率，即，用户的各个题目的正确率。在此情况下，在本发明中，不应理解限制上述用户向量、上述题目向量包括哪种属性或特征。

例如，根据本发明的实施例，上述用户向量可以包括上述用户对任意概念理解的程度，即，概念的理解程度。进而，上述题目向量可以包括上述题目为哪种概念，即，概念结构。

进而，根据本发明的实施例，可以计算与对于特定用户的题目数据库所包括的题目有关的学习效果，可以按学习效率高的顺序向用户推荐题目。

例如，根据本发明的第一实施例，可以假设正确率低的题目的学习效率高。基于此，排除因特定用户已经理解而有可能答对的题目，而仅挑出有可能答错的题目来推荐。根据上述实施例，用户可以从肯定答错的题目开始学习。

根据本发明的第二实施例，若用户答对一种题目，则假设上述用户对于包括对应题目在内的新学习的模型预测的整个题目的正确率的增加率高的题目的学习效率高。基于此，可以向用户推荐更加轻松解出整个题目数据库的题目。基于此，用户可以从能够提高整个题目的正确率的题目开始学习。

进而，根据本发明的第三实施例，可以假设提高用户的实际考试分数的题目的学习效率高。基于此，在题目数据库的外部提出的与相同科目有关的实际考试分数按各个用户推定，可以推荐能够提高上述实际考试分数的题目。基于此，用户可以从能够提高实际考试分数的题目开始学习。

图1为用于说明根据本发明实施例推荐用户定制内容的过程的流程图。

步骤110及步骤130为在根据本发明的实施例的数据分析系统中收集学习数据并将题目和用户进行建模的步骤。

在步骤110中，数据分析服务器可以生成题目数据库及用户数据库。

例如，数据分析服务器收集市场中的各种题目来生成题目数据库。上述题目包括听力评价题目，可以为文本、图像、音频和/或视频形态。进而，数据分析服务器可以生成包括用户识别信息的用户数据库。

在步骤120中，数据分析服务器可以向用户设备提供上述题目数据库，并可以收集用户解出对应题目的结果数据。

在此情况下，数据分析服务器可以将收集的解题结果数据按用户、题目、结果的列表形态构成。例如，Y(u，i)意味着用户u解答题目i的结果，可在正确的情况下赋予1，错误的情况下赋予0。

进而，本发明的实施例的数据分析服务器构成由用户和题目构成的多维空间，以用户是否正确为基准向上述多维空间赋予值来计算对于各个用户及题目的向量。在此情况下，上述用户向量和题目向量所包括的特征并未特定(步骤130)。

例如，在本发明实施例的数据分析服务器中，若Y充分大，则并不额外定义概念。可以从Y推定用户的概念理解程度L及题目的概念结构R。在此情况下，根据本发明的实施例，上述L的各个元素具有0至1之间的值，R的各行的元素之和可以为1。

例如，在L的第一行值为[0、0、1、0.5、1]的情况下，这意味着第一用户没有完全理解第一概念及第二概念，完全理解第三概念及第五概念，而且，第四概念仅理解一半。

例如，当R的第一行值为[0、0.2、0.5、0.3、0]时，这意味着第一题目被解释成第二概念包括20％左右、第三概念包括50％左右、第四概念包括30％左右。

另一方面，在本发明实施例的数据分析系统中，若通过充分的可靠度推定L和R，则用户与题目之间的相互关系可通过低系数行列以数学形式联系。

*例如，服务器在分析对象整个用户数为n，分析对象整个题目数量为m的情况下，若构成对应科目的未知概念的数量为r，则将用户的各个概念的理解程度行列L定义为n byr行列，将与对于题目的各个概念的包括程度行列R定义为m by r行列。在此情况下，若将L与R的转置行列R^T相联系，则并不额外定义概念或概念的数量，而是分析用户与题目的相互关系。

若适用上述概念，则在L的第一行的值为[0、0、1、0.5、1]，R的第一行的值为[0、0.2、0.5、0.3、0]的上述例中，第一用户对于第一题目的理解程度X(1，1)可以如X(1，1)＝0.5+0.5×0.3＝0.65计算。即，第一用户理解第一题目的65％。

但是，用户对特定题目的理解程度和答对特定题目的概率有可能不相同。在上述例中，若第一用户理解第一题目的65％，则实际答对第一题目的概率是多少。

为此，本发明导入了用于心理学、认知科学、教育学等中使用的项目反映理论(Item Response Theory)的方法论。项目反映理论利用对于评价项目的应答来测定测试对象的特性，例如，认识能力、物理能力、技术、知识、态度、人格特征或评价项目的难度。

适用上述理论来使用充分大的数据来进行实验的结果，题目理解程度X和答对题目的概率P并不存在线性关系。使用充分大的数据来对题目理解程度X和答对题目的概率P进行实验的结果，可以获得二维图表。若利用以往的数学方法来计算可以说明上述现象的函数，则数学式1所示，可以导出用于推定用户答对题目的概率P的函数Φ。换句话说，题目正确率P可以在函数Φ适用题目理解程度X来计算。

数学式1

在对于第一用户的第一题目的理解程度为65％的上述例中，第一用户可以答对第一题目的概率如P(1，1)＝φ(X(1，1))＝0.8632计算，从而相当于86％。即，第一用户没有完全理解第二概念及第四概念，完全理解第三概念，第一题目为由20％的第二概念、50％的第三概念、30％的第四概念构成的题目，根据上述公式，若第一用户答出第一题目，则所推定的准确率为86％。

另一方面，为了推定用户的概念理解程度L、题目的概念结构R而可以根据以下例示的方法。这是基于概率梯度算法来推定用户i的概念理解程度L_i及题目j的概念结构R_j的方法，这仅是例示，本发明并不局限于此。

本发明实施例的数据分析系统可以对用户i的概念理解程度L_i、题目j的概念结构R_j的初始值赋予任意值。例如，数据分析系统可以对用户i的概念理解程度L_i的初始值及题目j的任意概念结构R_j的初始值赋予0至1之间的任意值。

进而，可以生成以解题结果数据为各个用户i、各个题目j的答对的情况为1，答错的情况为0设定val的列表。例如，可以将各个用户的解题结果数据组变换为在当用户i答出题目j时为正解的情况(i，j，1)且错误的情况为(i，j，0)的形态的列表。

之后，数据分析系统可以随机上传一个解题结果列表的数据。更具体地，数据分析系统适用对应时间点的用户i的概念理解程度L_i、题目j的概念结构R_j来计算特定用户i答对特定题目j的概率P_(i，j)的临时值tmp。

这是为了利用适用对应时间点的用户i的概念理解程度L_i、题目j的概念结构R_j来计算的概率P_(i，j)，即，特定用户i答对特定题目的概率与作为对于对应用户i的对应题目j的实际解题结果值的val(答对的情况为1，答错的情况为0)之间的差异来更新L及R。

在所选择的数据为(i，j，val)的情况下，数据分析系统可以利用对应时间点的L_i(用户i的概念理解程度)、R_j(题目j的概念结构)来计算用户i答对题目j的临时值

例如，在所选择的数据为(1，1，0)的情况下，意味着第一用户答错第一题目。但是，利用对应时间点的L₁、R₁来计算的结果，若第一用户答出第一题目，则答对的概率为86％，即，P＝0.86，则L₁、R₁需要反映数据(1，1，0)来进行更新。

为此，本发明实施例的数据分析系统可以利用用户i答对题目j的概率的临时值tmp及作为用户i实际答出题目j的数据的val的差异来计算对于所选择数据(i，j，val)的近似梯度grad。这可以利用以下数学式2来计算。

数学式2

进而，与grad一同反映对应用户答出的题目的数量u_i、答对对应题目的次数v_j并根据如下的数学式3更新用户i的概念理解程度L_i、题目j的概念结构R_j。

数学式3

L_i：(1-mu×step/u_i)×L_istep×grad×R_j

R_j：(1-mu×step/v_j)×R_j-step×grad×L_i

在此情况下，上述mu为控制上述数学式的性能的参数，根据现有技术，通过实验选择，上述step为与上述数学式接收新数据的速度有关的参数，可以根据现有技术，通过实验选择。

根据本发明的实施例，反复对于整个数据的上述过程，若反映所有数据，则再次随机混合列表，若充分反复上述过程，则可以可靠地推定L、R。

但是，在本发明实施例的数据分析框架中，将用户和题目以建模向量表现的理由是为了准确预测特定用户是否答对或答错特定题目。

如上所述，与用户的题目有关的正确率可以通过收集用户的答错结果来进行分析的方式推定，也可以利用选项的选择概率来推定。

例如，在第一用户对于特定题目的选项选择概率为(0.1、0.2、0、0.7)的情况下，用户可以通过高的概率选择选项4号，在对应题目的正解为4号的情况下，第一用户可以答对上述题目概率高。

另一方面，题目的难度可以通过收集整个用户的答对答错结果来分析的方式推定，也可以利用选项的选择概率来推定。

例如，对由四选一的形式构成的特定题目，在用户的选项选择概率为(0.5、0.1、0.3、0.6)的情况下，用户在第二题目中选择选项1号的概率与选择选项4号的概率类似，因此，第二题目被分类到难度高的类型。

为此，数据分析服务器可以包括用户选择的选项要素来收集对于整个题目和整个用户的解答结果数据。

更具体地，数据分析服务器对属于题目数据库的整个题目，用户在对应题目中选择哪个选项是可以通过收集选项选择结果的方式收集解答结果日志，追加地，也可以收集对于对应题目的答对答错结果。在此情况下，数据分析服务器可以构成用户、题目、对应用户在对应题目中选择的选项的列表。

之后，数据分析服务器将一个题目以选项单位扩大来执行数据分析处理。

例如，在题目i为单项选择题的情况下，题目i扩张为(i，1)(i，2)(i，3)(i，4)的4个变数，可通过值赋予各个题目-选项的各个用户的选择与否。

例如，E(i，j)是指题目i的选项j，Y'(u，E)意味着用户u是否选择题目i的选项j，根据本发明的实施例，选择的情况为1，未选择的情况为0。

进而，数据分析服务器以用户及题目-选项为变数构成多维空间，以用户是否选择对应题目-选项为基准向上述多维空间赋予值，并可以计算对于各个用户及题目-选项的向量。

之后，数据分析服务器可利用上述用户向量和上述题目-选项向量来推定任意用户选择任意题目-选项的概率，即，选择率。

在此情况下，在上述用户向量和上述题目-选项向量适用多种算法来推定上述选择率，在解释本发明的过程中，用于计算选择率的算法并不受限。

例如，根据本发明的实施例，若适用如以下数学式4的Sigmoid函数，则可以推定用户的题目-选项选择率(x为题目-选项向量，θ用户向量)。

数学式4

hθ(x)＝1/(1+e^(-θ*T*X)

进而，本发明实施例的数据分析服务器可以利用用户的选项选择率来推定题目的正确率。

但是，例如，对由四选一的形式构成的特定题目，特定用户的选项选择概率为(0.5、0.1、0.3、0.6)，在正解选项为1号的情况下，上述用户答对对应题目的概率将会成问题。即，可以考虑利用对于对应题目的多个选项选择率来推定对应题目的正确率的方法。

根据本发明的实施例，作为将选项选择率还原成题目准确率的简单方式，可以考虑对整个选项的选择率与正解选项的选择率进行比较的方法。

在此情况下，上述例中，对于对应用户的对应题目正确率可以通过0.5/(0.5+0.1+0.3+0.6)计算。但是，当用户解题时，并非以选项为单位进行区分来理解对应题目，而是以包括整个选项的构成及题目的出题意图在内的题目单位进行理解，因此，选项选择率与正确率无法简单联系。

因此，根据本发明的实施例，通过将对应题目的整个选项选择率平均化，并将整个选项的平均化的选择率适用于整个选项的选择率的方式，可以从选项选择率推定对应题目的正确率。

在上述例中，在选项的选择概率为(0.5、0.1、0.3、0.6)的情况下，若对整个选项对其进行平均化，则各个选项选择率可以变为(0.33、0.07、0.20、0.41)。在正解选项为1号的情况下，选项1的平均化的选择率为0.33，对于对应用户的对应题目的正确率为33％。

进而，本发明实施例的服务器可以利用用户的题目-选项选择概率来推定题目的正确率，由此，可以推定对于特定概念的用户的理解程度。

进而，数据分析服务器基于题目模型及用户模型来计算对于对应用户的特定题目的学习效率(步骤140)。

如上所述，本发明实施例的数据分析服务器可利用题目的选项单位的模型和用户模型来对各个用户计算题目的选项单位的选择概率及对应用户的题目单位的正确率。

根据本发明的第一实施例，可以假设正确率低的题目的学习效率高。基于此，服务器视为用户预先理解正确率高的题目，排除用户有可能答对的题目，仅推荐用户有可能答错的题目。

更具体地，在题目数据库组中，服务器排除用户预先解答的题目，将剩余题目按对于特定用户的正确率低的顺序整列来制定对于对应用户的推荐题目列表并提供(步骤150)。

例如，在用户-题目正确率P的1号行的值为[0.3、0.4、0.1、0.9、0.7]的情况下，用户1答对题目1、题目2、题目3、题目4、题目5的概率分别为30％、40％、10％、90％、70％。服务器可以向用户提供按题目3、题目1、题目2、题目5、题目4的顺序赋予优先顺序的题目推荐列表。在此情况下，若用户1已经解答题目5，则服务器可以制定出题目5之外的题目推荐列表。

根据上述实施例，服务器将题目数据库中的题目按用户正确率低的顺序整列来向用户进行推荐。用户可以从肯定答错的题目开始学习。

另一方面，数据分析服务器可以利用用户向量、题目-选项向量、选项选择率、题目的正确率、用户的概念理解程度、题目的概念结构中的一个以上来推荐用户定制内容(步骤150)。

例如，服务器可以向对于特定概念的理解程度低的用户推荐对于对应概念的强化课程。作为另一例，服务器向对于包括多个概念的题目的正确率低的用户推荐包括上述多个概念的题目。

另一方面，根据本发明的第二实施例，若用户答对一种题目，则在整个题目中，对于上述用户的正确率的变更率高的题目的学习效率高。基于此，可以向用户推荐能够更准确地解答题目数据库的题目，用户可以从能够提高整个题目的正确率的题目开始学习。

根据上述第二实施例，对于计算用户的各个题目的学习效率的过程的说明将参照图2进行后述。图2为用于说明根据本发明实施例计算用户的各个题目的学习效率的过程的流程图。

在任意时间点，若用户的各个题目的正确率或任意题目的各个选项的选择概率追加收集用户的解题结果数据，则反映其并进行更新。考虑到上述情况，对特定题目，若对应用户对题目数据库所包括的任意题目选择正解选项，则对于其他题目的对应用户的正确率将会稍微变更(步骤210至步骤230)。

之后，服务器假设对用户对整个题目数据库所包括的各个题目选择正解选项，对各个其他题目计算正确率的增加值，可以将正确率的变更值的合计或正确率的变更值的平均计算为对应题目的学习效率(步骤240)。

更具体地，在本发明实施例的数据分析服务器中，在上述用户选择对应选项的情况下，若在特定用户的任意题目的各个选项的选择概率适用其他题目的正确率变更值的平均值，则可以计算对应题目的学习效率。

例如，可以考虑对于用户A的特定题目a的第一选项的选择率为a1，对于第二选项的选择率为a2，对于第三选项的选择率为a3，对于第四选项的选择率为a4的情况。

在此情况下，若用户A对对应题目选择选项1，则用户A的模型及整个题目的模型适用用户A的第一选项选择活动而多少变更，根据变更的模型，各个题目的正确率也会多少变更。

由此，数据分析服务器适用对于用户A的第一选项选择的虚拟活动来计算整个题目的正确率变更平均值AVC_a1。

通过相同方法，数据分析服务器可通过假设用户A选择第二选项来计算AVC_a2，假设选择第三选项来计算AVC_a3，假设选择第四选项来计算AVC_a4。

之后，数据分析服务器可以通过以下的数学式计算通过用户A的题目a的学习效率E(A，a)。

数学式5

E(A，a)＝a1^＊AVC_a1+a2^＊AVC_a2+a3^＊AVC_a3+a4^＊AVC_a4

进而，数据分析服务器对整个题目计算E(A)，可以将E(A)用作为对应题目的学习效率。

之后，服务器可以按学习效率高的顺序整列整个题目。即，若用户学习对应题目并答对，则其他题目的整个正确率将会变更，若上述正确率的变更值高，则用户可以更加答好整个题目数据库，因此，视为学习效率高，从而向用户进行推荐(步骤250)。

另一方面，根据本发明的第三实施例，可以假设，可以提高用户的实际考试分数的题目会提高学习效率。基于此，对各个用户推定在题目数据库的外部出题的对于相同科目的实际考试分数，并推荐可以提高上述实际考试分数的题目。基于此，用户可以从能够提高实际考试分数的题目开始学习。

根据上述第三实施例，对于计算用户的各个题目的学习效率的过程的说明将在图3中的说明汇总后述。图3为用于说明根据本发明第三实施例计算可以提高实际考试分数的各个题目的学习效率的过程的流程图。

根据上述实施例，需要利用题目模型和用户模型来推定实际考试分数的过程。如何推定在题目数据库的外部出题的实际考试分数？

一般来说，对于以往特定考试的应试人的预想分数可以由专家推定。例如，在大学修学能力考试的情况下，可根据专家的技术与实际大学修学能力考试类似地构成模拟考试，以学生解答模拟考试的结果为基础预测大学修学能力考试的预想分数。

但是，上述方法依赖于专家的主观经验和直觉，因此，与实际考试结果存在很大差异的情况较多。专家通过各自的经验和直觉设计模拟考试，因此，通过上述模拟考试无法正常预测学生的实力或者准确地预测实际考试分数。

进而，考生解答模拟考试的行为自身很难被称为高效学习。模拟考试由与实际考试的题目类型类似的题目构成，因此，与应试人的实力无关地出题。即，模拟考试只为了推定考试分数来确认在整个学生中的自己的位置，而并非是为了应试人的学习而构成的题目，更不是提高学习效率的方式。

根据用于解决其的本发明的实施例，利用存在实际考试分数数据的用户组的实际考试分数数据推定在题目数据库的外部出题的实际考试分数，为了提高实际考试分数推定值而推荐需要的题目。

更具体地，根据本发明的实施例，利用上述用户组的实际考试分数数据(步骤320)，可以对各个用户计算表现与上述用户组的题目数据库所包括的所有题目有关的正确率的平均与实际考试分数之间的关系的建模函数。即，利用实际考试分数数据计算将整个题目的正确率的平均变换为实际考试分数的建模函数(计算上述建模函数的更加具体的方法将后述)。

若计算上述建模函数，则可以将不属于上述用户组的用户，即，可将与不存在实际考试分数数据的用户的上述题目数据库所包括的所有题目有关的正确率的平均变换为实际分数(步骤330)。

更具体地，对不存在外部考试分数数据的其他用户，在步骤310中，在通过充分的可靠度计算用户模型的情况下，若利用上述用户模型，则可以预测与题目数据库所包括的题目有关的正确率，若将所预测的正确率适用于上述建模函数，则可以将正确率变换为外部考试分数。

之后，若任意用户对任意题目选择任意选项(步骤340)，则用户模型及题目模型适用对应用户的选项选择活动，从而多少发生变更，根据所变更的模型，各个题目的正确率多少发生变更，适用上述建模函数变换的实际考试分数预测值也将会变更(步骤350)。

即，服务器假设对应用户对整个题目数据库所包括的各个题目选择各个选项，计算实际考试分数预测的变更值，可以将实际考试分数预测的变更值的合计或变更值的平均以学习效率计算。

另一方面，根据本发明的另一实施例，利用上述用户组，即，利用存在实际考试分数数据的用户组的实际考试分数数据(步骤320)，可以从题目数据库构成模拟考试套题，以使对于上述用户组的推定分数与上述实际考试分数数据类似(构成上述模拟考试套题的更加具体方法将后述)。

与由专家按与实际考试相同的题目类型构成的以往的模拟考试不同，上述模拟考试套题以推定分数是否与实际考试分数类似为基准构成。

若构成上述模拟考试套题，则利用不属于上述用户组用户的用户模型来计算上述模拟考试套题的推定分数(步骤330)。在上述模拟考试套题中，推定分数与实际分数类似，因此，可以将与不存在实际考试分数数据的用户的上述模拟考试套题有关的推定分数看成实际考试分数的预测值。

之后，若任意用户对任意题目选择各个选项(步骤340)，则用户模型及题目模型适用对应用户的选项选择活动而多少发生变更，根据所变更的模型，各个题目的正确率多少发生改变，对于上述模拟考试套题的推定分数也将变更(步骤350)。

即，服务器假设对应用户对整个题目数据库中的各个题目选择各个选项，计算实际考试分数预测(即，对于模拟考试套题的推定分数)的变更值，可通过对应题目的学习效率计算实际考试分数预测的变更值的合计或变更值的平均。

之后，服务器可以按实际考试分数预测值的上升率高的顺序整列题目数据库来向用户进行推荐(步骤360)。

另一方面，计算表示与题目数据库所包括的各个题目有关的正确率与外部考试分数之间的关系的建模函数的过程如下。

如上所述，数据分析服务器可以在整个用户中确认存在外部考试分数数据的用户组。这是为了利用上述用户组的外部考试分数数据与各个用户模型、可以从题目-选项模型求出的正确率及关系来构成外部考试分数预测效率高的题目集。

进而，本发明实施例的数据分析服务器检查题目集的性能，即，题目集是否大于外部考试分数的预测效率或者为了检查将上述题目集的分数变换为外部考试分数的建模函数的性能而将上述用户组的一部分分割为测试组。

例如，在属于数据库的整个用户中，在存在外部考试数据的用户为{A，B，C，D，E，F，G，H}的情况下，测试分析服务器可以将{A，B，C，D，E}区分为训练集，将{F，G，H}区分为测试集。

更具体地，数据分析服务器可以将存在外部考试分数数据的用户组分为任意两个组，一个组在数据分析框架分组为上述题目集及提供用于构成考试分数变换建模函数的数据的训练集，另一个组可以被分组为上述题目集及提供用于检查建模函数的性能的数据的测试集。

换句话说，在存在外部考试分数数据的用户组中，属于上述训练集的用户的数据用于题目集及考试分数变换建模函数构成，属于上述测试集的用户的数据可用于检查上述题目集及考试分数变换建模函数的性能。

之后，数据分析服务器利用上述用户组的外部考试分数数据及用户建模向量，在题目数据库中构成外部考试分数预测效率高的题目集。

尤其，如以往的模拟考试，本发明实施例的题目集并非以外部考试是否类似为基准构成，而是以对于外部考试分数的预测效率是否高为基准构成，题目数量和/或题目类型等无需从属于外部考试。

更具体地，尤其，数据分析服务器对题目数据库所包括的各个题目，可将利用存在外部考试分数数据的用户组的建模向量计算的正确率与上述用户组的外部分数数据的关系表现在多维平面。

例如，在题目数据库所包括的题目为100个题目的情况下，数据分析服务器可以按题目数量生成100个x轴，y轴由外部考试分数构成来生成多维平面。

例如，在存在外部考试分数数据的用户中，在属于训练集的用户为A、B、C、D、E等5个的情况下，数据分析服务器可以利用对用户A预先计算的建模向量来计算第一题目的正确率，将其设定为第一x轴(x1)的x值，将用户A的外部考试分数设定为y值来确定用户A的第一平面的坐标。

数据分析服务器可以通过相同方式确定用户B至用户E的第一平面的坐标来将与第一题目(x1)的外部考试分数的关系表现在多维空间中的x1平面。

进而，数据分析服务器通过相同方式形成对于第二题目至第100题目的平面并确定对于各个题目平面的用户A至用户E的(x，y)坐标，从而可以将与第二题目至第100题目的外部考试分数的关系表现在多维空间。

在此情况下，实质上，与上述用户组的个别题目有关的推定正确率和外部考试分数表现在二维平面，本发明实施例的数据分析服务器可以将表现在二维平面的值的关系变更为以数学形式表现的建模函数。

例如，本发明实施例的数据分析服务器可以计算将属于训练集的用户A、用户B、用户C、用户D、用户E的外部考试分数及与利用用户A、用户B、用户C、用户D、用户E的用户建模向量计算的第一题目有关的正确率的关系以数学形式表现的建模函数f1(x1)。

进而，以相同方式处理与第二题目至第100题目的有关的数据来求出建模函数f1(x2)至f1(x100)。在此情况下，f1(x1)至f1(x100)可根据相同基准确定。

即，为了构成题目集而计算的建模函数的形态对属于数据库的整个题目以相同形态确定最适合。例如，若第一题目的建模函数f1(x1)以ax+b形态的一维函数表现，对于第二题目至第100题目的建模函数f1(x2)至f1(x100)的建模函数也同样以一维函数形态表现最适合。

这是因为在属于题目数据库的题目中，题目集由外部考试分数预测效率高的题目构成，因此，比较基准需要相同。

进而，若本发明实施例的建模函数对整个题目适用相同基准，则其形态并不受到限制。即，建模函数只要被制定成表现训练集的数据最优化的形态即可，可根据以往适用的多种算法来计算。

若对于各个题目的建模函数被确定为对整个题目相同的形态，则本发明实施例的数据分析服务器利用对应题目的建模函数及属于测试集的用户的外部考试分数的偏差来构成外部考试分数预测效率高的题目集。

例如，数据分析服务器计算将利用属于测试集的用户F、用户G、用户H的用户建模向量来计算的第一题目(x1)的正确率适用于第一题目的建模函数f(x1)的值与用户F、用户G、用户H的外部考试分数差值的平均，若上述平均值(e)小，则判断为外部考试分数预测效率高。

求出上述平均值E的数学式如下，e是指题目集的外部考试分数推定效率。更具体地，e值越小，对应题目集的外部考试分数推定效率高。

数学式6

e₁＝(|y_F-f(X_1F)|+|y_G-f(X_1G)|+|y_H-f(X_1HH)|)/3

之后，数据分析服务器可根据相同基准计算e2至e100，具有最小的e的题目被判断为外部考试分数预测效率最高。

例如，在与第四题目有关的e4小于e1、e2、e3、e5至e100的情况下，第四题目可被判断为外部考试预测效率最高，因此，数据分析服务器可以将第四题目最初包括在题目集。

之后，以与第四题目一同分析为前提，数据分析服务器可以在第一题目、第二题目、第三题目、第五题目至第100题目中抽出外部考试预测效率高的题目。

为此，本发明实施例的数据分析服务器固定对于第四题目的平面，形成对于剩余第一题目、第二题目、第三题目、第五题目至第100题目的平面，从而可以再次计算将属于训练集的用户A、用户B、用户C、用户D、用户E的外部考试分数及与利用用户A、用户B、用户C、用户D、用户E的用户建模向量计算的剩余第一题目、第二题目、第三题目、第五题目至第100题目有关的正确率的关系以数学形式表现的建模函数f(x4，x1)、f(x4，x2)、f(x4，x3)、f(x4，x5)至f(x4，x100)(第二建模函数)。

上述第二建模函数值可通过第四题目和与对应题目有关的外部考试分数推定值解释。

在此情况下，上述二维建模函数f(x4，x1)、f(x4，x2)、f(x4，x3)、f(x4，x5)至f(x4，x100)可根据与仅具有第四题目来构成建模函数时相同的基准确定。

即，例如，与第四题目一同提供的第一题目的建模函数f(x4，x1)为cx4+dx1+e形态，如以往的f(x4)的ax4+b，直接根据线性模型的基准，通过仅通过追加x1的变数来增加维数的二维函数表现。对于与第四题目一同提供的第二题目、第三题目、第五题目至第100题目的建模函数(x4，x2)、f2(x4，x3)、f2(x4，x5)至f2(x4，x100)的建模函数也与以往的f(x4)相同的线性模型，通过各个题目x作为变数追加的二维函数形态表现最适合。

以第四题目包括在题目集为前提，若确定对于剩余题目的二维建模函数，则本发明实施例的数据分析服务器利用对应题目的二维函数及属于测试集的用户的外部考试分数的偏差来构成外部考试分数预测效率高的题目集。

例如，数据分析服务器计算将利用属于测试集的用户F、用户G、用户H的用户建模向量来计算的第一题目(x1)的正确率、第四题目(x4)的正确率适用于二维建模函数f(x4，x1)的值(这可通过第四题目和第一题目的外部考试分数推定值解释)与用户F、用户G、用户H的外部考试分数的差值的平均，若上述平均值小，则判断为外部考试分数预测效率高。这通过数学式表示如下。

数学式7

e_4，1＝(|y_F-f(x_4F，x_1F)|+|y_G-f(x_4F，x_1G)|+|y_H-f(x_4H，x_1H)|)/3

之后，数据分析服务器可根据相同的基准计算e4，2至e4，100，具有最小的e的题目被判断为外部考试分数预测效率最高。

例如，在对于第一题目e4，1小于e4，2、e4，3、e4，5至e4，100的情况下，与第四题目一同提供，从而，被判断为第一题目的外部考试预测效率最高，因此，数据分析服务器可以在题目集包括第一题目。

之后，数据分析服务器以一同分析第一题目及第四题目为前提，在第二题目、第三题目及第五题目至第100题目中，可以根据如上述方法的伦理抽出外部考试预测效率高的题目。

另一方面，根据上述方法，在通过具有最小限度的e的题目构成题目集的情况下，题目集构成的完成时间点将会成问题。题目集所包括的题目的数量越多，推定的精密度将会提高，为了构成题目集而对个别题目计算建模函数，可以增加为了计算优先顺序而需要的资源使用量。因此，通过最适合于推定外部考试分数的数量来构成题目集比较有效。

根据本发明的实施例，计算将与利用属于测试集的用户的建模向量计算的题目集有关的正确率适用于对应题目集的建模函数的值与属于测试集的用户的外部考试分数的差值的平均，即，计算e，可根据基于题目集的更新的e的变更趋势确定是否结束题目集结构。

根据本发明的实施例，数据分析服务器确认题目集的e的更新趋势来确定是否结束题目集的更新。更具体地，结束题目集的更新的情况可分为两种。

第一，可通过对应时间点的题目集充分推定属于测试集的用户的外部考试分数。即，是仅通过特定题目集充分执行外部考试分数推定的情况。这可通过确认对应时间点的题目集的e是否为临界值以下来进行判断。

第二，即使向题目集追加其他题目，外部考试分数推定的效率不会进一步提高。即，是在没有题目追加的效果的情况下，即使追加题目，也不会发生外部考试的分数推定效率的变化的情况。可通过确认即使更新题目集，更新题目集的推定效率，即，e也不会变更，是否在任意范围内维持来进行判断。

综上所述，本发明实施例的数据分析服务器执行题目集的更新并确认题目集的外部考试分数推定效率，即，e的变更趋势，在特定时间点的题目集的推定效率下降到预先设定的临界值或者上述推定效率维持在任意范围内的情况下，结束题目集的更新并构成题目集。

另一方面，以对题目集所包括的题目处于相同形态为前提，本发明实施例的建模函数可根据多种算法确定。但是，依然具有在适用多种算法来生成的多个建模函数中，选择外部考试分数推定最有效的函数的问题。

根据本发明的实施例，建模函数的有效性可以利用e，即，利用题目集的外部考试分数预测效率来计算。

例如，利用属于训练集{A，B，C，D，E}的用户的数据，根据第一基准抽出第一建模函数f1，可以考虑适用上述第一建模函数来构成的题目集为{第三题目(x3)，第四题目(x4)，第五题目(x5)}的情况。

进而，利用属于相同训练集{A，B，C，D，E}的数据，根据第二基准抽出第二建模函数f2，可以考虑适用第二建模函数来构成的题目集为{第一题目(x1)，第三题目(x3)，第五题目(x5)}的情况。

在上述例中，本发明实施例的数据分析服务器可以利用测试集{F，G，H}的数据来计算各个题目集及各个建模函数的e，即，题目集的外部考试分数预测效率，可以选择具有更小e值的建模函数。

更具体地，首先，数据分析服务器可以利用属于测试集的用户F、用户G、用户H的用户建模向量计算将作为第一题目集的{第三题目(x3)，第四题目(x4)，第五题目(x5)}的正确率适用于第一建模函数f1的值与用户F、用户G、用户H的外部考试分数的差值的平均，即，与第一建模函数有关的e1。

之后，数据分析服务器可利用属于测试集的F、G、H的用户建模向量来计算将第二题目{第一题目(x1)，第三题目(x3)，第五题目(x5)}的正确率适用于第二建模函数f2的值与用户F、用户G、用户H的外部考试分数的差值的平均，即，对于第二建模函数的e2。

之后，数据分析服务器选择具有更小的e值的建模函数及题目集来进行推定用户的外部考试分数的之后的步骤。

另一方面，以使对于用户的推定分数与不利用题目数据库并提出的实际考试分数数据类似的方式构成模拟考试套题的过程如下。

根据本发明的实施例，模拟考试可通过以下方法构成。

第一，利用与各个数据库题目的整个用户有关的平均正确率构成题目集，以使对于整个用户的模拟考试的平均分数属于任意范围。

例如，当参考语言能力考试的统计时，在对应考试的整个应考人的平均分数为67分至69分的情况下，数据分析服务器可以构成题目集，以使模拟考试也处于67分至69分的范围。

在此情况下，可以考虑对应考试的题目类型分布来构成模拟考试的题目集。例如，当参考语言能力考试的统计时，在实际考试出题中第一类型为20％、第二类型为30％、第三类型为40％及第四类型为10％的情况下，模拟考试也可以与实际考试类似地分布题目类型。

为此，根据本发明的实施例，可通过预先生成与题目类型有关的标签来在题目数据库追加索引信息。

例如，数据分析服务器可通过预先定义可被分类为任意类型的题目的标签，根据学习对应题目类型的题目模型的特性来对题目进行聚类，向聚类的题目组赋予与题目类型有关的标签的方式生成索引信息。

作为另一例，数据分析服务器可通过并不预先定义与题目类型有关的标签，利用题目的建模向量来对题目进行聚类，分析聚类的题目组的含义来赋予与题目类型有关的标签的方式生成索引信息。

根据本发明实施例，构成模拟考试的第二个方法利用对于对应考试的任意用户的实际分数信息。

例如，在对于语言能力考试的上述例中，在应考对应考试的用户A、用户B、用户C的实际分数分别为60分、70分、80分的情况下，可以构成模拟考试套题，以便适用预先计算的用户A、用户B、用户C的正确率来计算的模拟考试的推定分数分别为60分、70分、80分。

根据以使模拟考试的推定的分数接近实际分数的方式构成题目集的上述实施例，模拟考试与实际考试的类似度可以利用应考实际考试的用户的分数信息来计算。因此，可以提高模拟考试的可靠度，即，模拟考试的分数接近实际考试分数的可靠度。

在此情况下，根据本发明的实施例，可适用对应考试的题目类型分布信息来构成模拟考试套题，也可以适用统计分析的其他信息。

另一方面，数据分析服务器在构成模拟考试套题的过程中可以调节题目的分值，这是因为，属于数据库的题目未被赋予单独的分值信息，而实际考试对题目分别赋予不同的分值。

通常，实际考试向难题赋予高的分值，向简单的题目赋予低分值。对其进行解释，考虑题目的平均正确率、构成题目的概念的数量、题目提问的长度等，赋予实际题目的分值，根据题目类型赋予预先特定的分值。

因此，根据本发明实施例的数据分析服务器反映对应题目的平均正确率、构成题目的概念的数量、题目提问的长度及题目类型信息中的一个以上来赋予构成模拟考试套题的各个题目的分值。

为此，数据分析服务器为了生成与题目的概念有关的标签而按树结构罗列对应科目的学习要素和/或主题来对最少限度的学习要素生成元数据集，可生成与按适合于分析上述最少限度的学习要素的组单位进行分类来构成题目的概念有关的索引信息。

尤其，根据本发明的实施例，以使应考对应考试的用户的实际分数与对于对应用户的模拟考试套题的推定分数接近的方式赋予构成题目集的各个题目的分值。

若构成与实际考试类似度高的模拟考试套题，则可根据本发明的实施例的数据分析服务器推定与用户各个模拟考试有关的预测分数。以实际考试和模拟考试类似为前提，将模拟考试的分数推定为实际考试的分数。

尤其，根据本发明的实施例，用户无需直接解答模拟考试，可以按高的可靠度推定模拟考试的分数。

本发明实施例的模拟考试由题目数据库中的题目构成，如上所述，与属于数据库的各个题目有关的用户的正确率已预先计算。因此，利用对于构成模拟考试的所有题目的个别用户的正确率来推定对应用户的模拟考试预期分数。

在此情况下，根据本发明的实施例，构成多个用于推定任意考试分数的模拟考试套题，将与特定用户的多个模拟考试有关的分数平均化来推定与对应用户的实际考试有关的预测分数。

在本说明书和附图中记载的本发明的实施例为了轻松说明本发明的技术内容并帮助理解本发明而揭示特定例，而并非用于限定本发明的范围。除在此揭示的实施例之外，本发明所属技术领域的普通技术人员能够以本发明的技术思想为基础实施其他变形例。

Claims

1.一种用户分析方法，在服务器中对用户进行分析，其特征在于，包括：

步骤a，对特定科目构成包括一个以上的客观题的题目数据库，上述客观题包括一个以上的选项，向用户设备提供上述题目，从上述用户设备收集与上述题目有关的用户的选项选择数据；

步骤b，利用上述用户各自的上述选项选择数据，对各个上述用户推定与上述题目有关的正确率；

步骤c，对上述科目，确认存在未利用上述题目数据库出题后的外部考试分数数据的第一用户组，借助上述题目数据库构成模拟考试套题，上述模拟考试套题用来预测不存在上述外部考试分数数据的第二用户组的上述外部考试分数，在上述模拟考试套题中，利用上述正确率计算的对于上述第一用户组的推定分数与上述第一用户组的外部考试分数数据类似；以及

步骤d，不向上述第二用户组提供上述模拟考试套题，而是利用上述正确率来推定上述第二用户的上述模拟考试套题的预测分数，将上述模拟考试套题的预测分数推定为对于上述外部考试的预测分数。

2.根据权利要求1所述的用户分析方法，其特征在于，在上述步骤d之后，包括如下的步骤，即，假设任意用户对上述问题数据库中的任意题目选择任意选项，对各个题目计算对上述用户推定的对于上述外部考试的预测分数的上升率，按上述上升率高的顺序整列上述题目数据库所包括的题目来向上述用户进行推荐。

3.根据权利要求2所述的用户分析方法，其特征在于，上述步骤d包括：

利用上述第一用户组的外部考试分数数据来计算表示对于上述第一用户组的上述数据库所包括的各个问题的正确率与上述外部考试分数之间的关系的建模函数的步骤；以及

利用上述建模函数来将对于不属于上述第一用户组的上述第二用户组的上述问题数据库所包括的各个问题的正确率变换为外部考试分数的步骤。

4.根据权利要求1所述的用户分析方法，其特征在于，上述步骤c包括如下的步骤，即，利用构成上述模拟考试套题的各个问题对于整个用户的平均正确率来构成上述模拟考试套题，以使对于上述整个用户的上述模拟考试套题的平均分数与预先设定的范围相对应。

5.根据权利要求2所述的用户分析方法，其特征在于，上述步骤c包括如下的步骤，即，构成上述模拟考试套题，以便遵循预先计算的上述外部考试套题的问题类型分布信息。