CN110366735A

CN110366735A - 分析数据的方法、设备及计算机程序

Info

Publication number: CN110366735A
Application number: CN201780086950.2A
Authority: CN
Inventors: 车映慜; 许宰纬; 张荣峻
Original assignee: Increasingly Ltd
Current assignee: Increasingly Ltd
Priority date: 2017-05-19
Filing date: 2017-06-07
Publication date: 2019-10-22
Also published as: SG11201907703UA; JP6879526B2; JP2020510234A; KR101895959B1; WO2018212396A1; JP2021119397A; US20190377996A1

Abstract

本发明涉及一种在数据分析框架中建立新用户诊断用题集的方法，其特征在于，包括：建立包括若干个问题的问题数据库，收集针对所述问题的用户求解结果数据，并将所述求解结果应用到所述数据分析框架中，从而计算所述问题及/或用户建模向量的a步骤；从所述问题数据库中提取至少一个用于建立所述诊断用题集的候选题的b步骤；确认存在针对所述候选题的求解结果数据的用户，及存在所述用户求解结果数据的其他问题的c步骤；仅将针对所述候选题的所述用户的求解结果数据应用到所述数据分析框架中，从而计算虚拟用户建模向量的d步骤；应用所述虚拟用户建模向量，计算所述其他问题的虚拟正解率的e步骤；比较所述虚拟正解率和所述用户针对所述其他问题的实际求解结果数据，并根据所述用户数量，对比较结果进行平均，从而计算所述候选题的预测率的f步骤。

Description

分析数据的方法、设备及计算机程序

技术领域

本发明涉及一种分析数据并提供用户定制型内容的方法。更具体地讲，本发明涉及一种提取优化新用户分析的诊断用题集并标记应用机器学习框架的数据集的方法及设备。

背景技术

截至目前，教育内容多以套餐的形式提供。例如，每本纸质题集至少会收录700道题，线上、线下讲义也多为1～2个小时，捆绑至少一个月的学习量后一次性售出。

但，从接受教育的学生立场上来看，每个学生的薄弱单元和薄弱题型均有差异，因此，较比套餐形式，其实存在的是对个人定制型内容的需求。挑选出自己薄弱单元的薄弱题型集中学习，远比解答700道题的效果要明显得多。

但，对于受教育者——学生而言，很难自行弄清楚自己的薄弱之处。而且，在学院、出版社等传统教育行业中，也是依赖主观经验和直觉来分析学生和问题，因此，很难针对个别学生提供优化的问题。

因此，在传统的教育环境中，很难为受教育者提供可收获最有效的学习成果的个人定制型内容，而且，学生很快就会对套餐形式的教育内容失去成就感和兴趣。

发明内容

(一)要解决的技术问题

本发明旨在解决上述问题。更具体地讲，本发明要解决的技术问题是提供一种可有效提取分析用户所需样品数据的方法。另外，本发明要解决的另一个技术问题是提供一种标记方法用以解释应用基于无监督学习(unsupervised learning)和自律学习的机器框架分析得出的数据。

(二)技术方案

依据本发明的实施例，一种在数据分析框架中建立新用户诊断用题集的方法，其特征在于，包括：建立包括若干个问题的问题数据库，收集针对上述问题的用户求解结果数据，并将上述求解结果应用到上述数据分析框架中，从而计算上述问题及/或用户建模向量的a步骤；从上述问题数据库中提取至少一个用于建立上述诊断用题集的候选题的b步骤；确认存在针对上述候选题的求解结果数据的用户，及存在上述用户求解结果数据的其他问题的c步骤；仅将针对上述候选题的上述用户的求解结果数据应用到上述数据分析框架中，从而计算虚拟用户建模向量的d步骤；应用上述虚拟用户建模向量，计算上述其他问题的虚拟正解率的e步骤；比较上述虚拟正解率和上述用户针对上述其他问题的实际求解结果数据，并根据上述用户数量，对比较结果进行平均，从而计算上述候选题的预测率的f步骤。

另外，依据本发明的实施例，一种解释通过数据分析框架分析得出的结果的方法，其特征在于，包括：建立包括若干个问题的问题数据库，收集针对上述问题的用户求解结果数据，并将上述求解结果应用到上述数据分析框架中，从而形成至少一个针对用户的簇的a步骤；从上述簇中随机提取至少一个第一数据，并选择用于解释上述第一数据的第一标签的b步骤；为上述簇所包括的数据中与上述第一数据具有阈值范围内的相似度的数据分配第一标签的c步骤；从与上述第一数据具有阈值范围外的相似度的数据中，随机抽取至少一个第二数据，并选择用于解释上述第二数据的第二标签的d步骤；为上述簇所包括的数据中与上述第二数据具有阈值范围内的相似度的数据分配第二标签的e步骤；利用上述第一标签和上述第二标签来解释上述簇的f步骤。

(三)发明效果

依据本发明，其效果在于，可建立分析新用户所需的优化的诊断用题集。

另外，依据本发明的实施例，其效果在于，可有效解释应用机器学习框架分析得出的结果。

附图说明

图1示出的是在依据本发明实施例的数据分析框架中建立新用户诊断用题集的方法的流程图。

图2示出的是解释依据本发明实施例的基于无监督学习(unsupervisedlearning)的数据分析框架分析得出的结果的方法的流程图。

具体实施方式

本发明并不限于以下所记载的实施例的描述内容，在不脱离本发明技术要旨的范围内可施加各种变形是不言而喻的。另外，在描述实施例时，将省略对本发明所属技术领域中广泛已知且与本发明的技术要旨无直接关联的技术内容的描述。

另外，附图中使用相同的附图标记来表示相同的组件。另外，附图中的部分组件可能被夸大、省略或示意性地示出。这是为了省略与本发明要旨无关的不必要的描述，从而阐明本发明的要旨。

最近，随着IT设备的不断普及，收集用于分析用户的数据变得更加容易。如果能够充分收集用户数据，用户分析将更加精确，还可利用最适合用户的形式提供内容。

伴随着这种趋势，特别是教育行业对提供用户定制型教育内容表现出极大的需求。

举一个简单的例子来说，某个用户对英语科目中的“动词时态”缺乏理解，如果能为其推荐包括“动词时态”概念在内的问题，学习效率将会更高。但是，为达到提供这种用户定制型教育内容的目的，则有必要对每个内容和每个用户进行精密的分析。

按照传统方法，为达到分析内容和用户的目的，由专家对相应科目的概念进行手动定义，再由专家单独判断并标记相应科目的各个问题中包括哪些概念。然后，再根据每个用户解答被标记为特定概念的问题的结果信息，分析学习者的实力。

但是，这种方法的问题在于，标签信息取决于人的主观性。可问题是在没有人的主观性干预的情况下通过数学方法生成的标签信息并未通过数学方法分配给相应的问题，导致数据的可靠性不高。

因此，依据本发明实施例的数据分析服务器可以在学习数据分析中应用机器学习框架来排除数据处理过程中的人为干预。

据此，收集用户的解题结果日志，建立由用户和问题组成的多维空间，并以用户解题正确与否为准为上述多维空间分配值，以计算每个用户和问题的向量，凭借上述方式即可对用户及/或问题进行建模。

另外，使用上述用户向量及/或问题向量，可通过数学方法计算所有用户中特定用户的位置；可被聚类为与特定用户相似的组的其他用户；其他用户与相应用户的相似度；所有问题中特定问题的位置；可被聚类为与特定问题相似的组的其他问题；其他问题与相应问题的相似度等。另外，还可以以至少一个属性为准对上述用户和问题进行聚类。

这时，应注意的是，解释本发明时不得对上述用户向量和上述问题向量所包括的属性或特性加以限制。

例如，依据本发明的实施例，上述用户向量可包括上述用户对任意概念的理解程度，即对概念的理解程度。另外，上述问题向量可包括上述问题由哪些概念组成，即概念构成图。

但是，如果应用机器学习来分析学习数据，则存在几点需要解决的问题。

第一个问题就是如何处理有新引入的用户或问题的情况。关于新引入的用户或问题，在尚未累积相应用户或问题的数据之前是无法提供分析结果的。因此，有必要有效地从数据分析框架中收集初始数据，即导出具有任意可靠性的分析结果时所需的学习结果数据。

更具体来讲，为达到分析新引入的用户的目的，相应用户的解题结果数据需累积到一定程度，而且，还需解决建立用于提供可靠的分析结果的诊断题集的问题。

针对解题结果数据尚未累积到一定程度的用户，则无法提供可靠的分析结果，因此，用户需要解答诊断用问题，且诊断用问题越多，分析就越精密。但是，用户所期望的却是提供可更快提高学习效率的定制型问题。

因此，有必要建立可确保用户分析结果的可靠性达到任意范围以上的最小数量的诊断用问题。

本发明旨在解决上述问题。

依据本发明的实施例，可有效提取用于分析新引入的用户的诊断用问题。更具体地讲，可以有效地提取新用户应解答的题集，以计算尚无数据分析系统的问题数据库求解结果数据的具有任意可靠性的新用户的初始向量值。

据此，可有效建立用于用户诊断的题集，用户无需解答相应系统中的许多问题，也可有效提供可靠的分析结果。

同时，应用机器学习分析学习数据时，可能出现使用便于人们理解的方式来解释应用机器学习分析得出的结果值的标记问题。

在无人为干预，即无单独标记过程的情况下，应用机器学习框架来对学习结果数据建模时，会出现无法确认建模的结果中包括哪些特征的问题。另外，对用户或问题进行分类时，由于分类标准未得到确认，因此，又会出现需要事后解释分析结果以便于人们理解的问题。

例如，特定用户被分析为具有第一分类、第二分类、第三分类的属性时，必须以便于人们理解分类标准解释第一分类具有对动名词的理解度较低的属性，第二分类具有对时态的理解程度较高的属性，第三分类具有对TOEIC第一部分的中等攻克率的属性，才能说明相应用户的学习水平和薄弱之处。

但是，如果应用所谓的无监督学习方式的机器学习框架来分析数据，即使获得结果值，也很难确认是根据哪个属性进行的数据分类。

本发明旨在解决上述问题。

依据本发明的实施例，可提供一种事后标记方法，其以便于人们理解的方式解释基于无监督学习的机器学习分析得出的结果。

据此，可在机器学习过程中排除人的主观性，从而提取纯粹基于数据的建模结果，并为其和机器学习指定不同的标签，从而有效地解释机器学习的结果。

图1示出的是依据本发明实施例的提取用户诊断用题集的方法的流程图。

步骤110和步骤115是从数据分析系统中提取新用户诊断用题集的前提步骤。

依据本发明的实施例，在步骤110中，可以收集针对所有问题和所有用户的求解结果数据。

更具体来讲，数据分析服务器可建立问题数据库，并收集所有用户对属于上述问题数据库的所有问题的求解结果数据。

例如，数据分析服务器建立涉及市面上各种问题的数据库，并可以使用收集用户解答相应问题的结果的方式来收集求解结果数据。上述问题数据库包括听力评估问题，其可使用文本、图像、音频及/或视频形式提供。

这时，数据分析服务器可使用用户列表、问题列表、结果列表的形式建立收集的解题结果数据。例如，Y(u，i)表示用户u解答问题i的结果，答案正确时，被分配值1，答案错误时，被分配值0。

另外，依据本发明实施例的数据分析服务器可以建立由用户和问题组成的多维空间，并以用户解题正确与否为准为上述多维空间分配值，以计算每个用户和问题的向量(步骤115)。这时，并未指定包括用户向量和问题向量在内的特征。

然后，数据服务分析器可使用上述用户向量和上述问题向量来估计任意用户答对任意问题的概率，即正解率(步骤120)。

这时，可以在上述用户向量和上述问题向量中应用各种算法来计算上述正解率，且并不限定于解释本发明的计算正解率的算法。

例如，为估计正解率，数据分析服务器可在上述用户的向量值和上述问题的向量值中应用设定参数的Sigmoid函数来计算用户在相应问题上的正解率。

作为另一个示例，数据分析服务器可利用上述用户的向量值和上述问题的向量值，估计特定用户对特定问题的理解程度，并可利用上述理解程度，估计特定用户答对特定问题的概率。

例如，用户向量的第一行值为【0，0，1，0.5，1】时，可解释为，第一用户根本不理解第一和第二概念，完全理解第三和第五概念，而对第四概念只理解一半。

另外，问题向量的第一行值为【0，0.2，0.5，0.3，1】时，可解释为，第一题中根本不包括第一概念，包括约20％的第二概念，包括约50％的第三概念，并包括约30％的第四概念。

这时，如果估计第一用户对第一题的理解程度，则可使用0x0+0x0.2+1x0.5+0.5x0.5+1x0＝0.75来计算。即，可估计第一用户对第一题的理解程度为75％。

然而，用户对特定问题的理解程度和答对特定问题的概率并不相同。在上述示例中，如果第一用户对第一题的理解程度为75％，那么，第一用户在实际解答第一题时回答正确的概率又是多少呢？

为此，可以引入心理学、认知科学、教育学中使用的方法论来估计理解程度与正解率之间的关系。例如，可以考虑由Reckase和McKinley设计的M2PL(multidimensional two-parameter logisitc)潜在特征模型理论(Latent Trait Model)等来估计理解程度和正解率。

但是，如果本发明能够应用以合理方式估计理解程度和正解率之间的关系的现有技术来计算用户对问题的正解率就足够了，应注意的是，不可限于估计理解程度和正解率之间关系的方法论来解释本发明。

然后，数据分析服务器可从问题数据库中随意抽取至少一个候选题，以建立针对新用户的诊断用题集(步骤120)。

然后，数据分析服务器可确认存在候选题求解结果数据的用户，假设上述用户只解答过上述候选题，即可计算相应用户的虚拟向量值。上述虚拟向量值可计算只存在候选题求解结果数据的用户答对问题数据库中每个问题的概率(步骤130，140)。上述虚拟向量值可根据步骤110中描述的上述方法及合理的现有技术来计算。

例如，在问题数据库中的第一题被提取为诊断候选题时，解答上述第一题的用户是所有用户中的用户1，用户2，用户3，针对上述第一题，用户1的答案是正确答案，用户2的答案是正确答案，用户3的答案是错误答案时，数据分析服务器可将(用户，问题，val)的输入值确认为(1，1，1)，(2，1，1)，(3，1，0)，假设只存在(1，1，1)，(2，1，1)，(3，1，0)的输入值，即可计算用户1，2，3答对其他问题的概率。

这样做的目的在于，在假设上述用户为新用户且新用户只解答上述候选题时，即有关新用户的数据只存在上述候选题的求解结果时，确认相同分析框架内在其他问题上的正解预测率与实际结果的匹配程度。

换句话说，这样做的目的在于，朝通过相应问题估计的在其他问题上的正解概率与实际求解结果相一致的方向，提取诊断问题。

因此，数据分析服务器可确认解答候选题的用户实际解答的其他问题，并可应用上述虚拟向量值来计算上述其他问题的正解率，比较计算的正解率和实际求解结果(阶段160，170)。

在上述示例中，可假设用户1实际解答了第一，第三和第五题，且答对第一题(1，1，1)，答错第三题(1，3，0)，答对第五题(1，5，1)。这时，仅使用(1，1，1)的输入值计算的虚拟用户u的在第三、第五题上的正解率，即应用虚拟向量值计算的在第三，第五题的正解率为0.4，0.6时，第三、第五题与实际求解结果的差异可分别计算为:0.6和0.4。

然后，在步骤180中，数据分析服务器可对通过候选题估计的其他问题的正解率与实际值的差异进行平均。更具体来讲，针对存在候选题求解结果数据的其他所有用户，数据分析服务器可对上述其他用户实际解答的问题的上述差异进行平均。在本说明书中，其可被称为诊断候选题的平均比较值。

在上述示例中，用户1实际解答的问题为第一、第三、第五题，用户2实际解答的问题为第一、第二题，用户3实际解答的问题为第四、第五题时，可依据本发明实施例的数据分析服务器计算得出：假设只存在输入值(1，1，1)时，答对第三、第五题的概率和用户1实际解答第三、第五题的结果值的差异；假设只存在输入值(2，1，1)时，答对第二题的概率和用户2实际解答第二题的结果值的差异；假设只存在输入值(3，1，0)时，答对第四、第五题的概率和用户3实际解答第四、第五题的结果值的差异。

然后，针对问题2，3，4，5的每一个问题，数据分析服务器可对作为候选题的第一题的上述结果差异进行平均。

数据分析服务器以这种方式可将问题数据库中存在的每个问题设置为诊断候选题，计算相应候选题的平均比较值，并利用上述平均比较值建立诊断用问题(步骤190)。

例如，数据分析服务器可将问题数据库中的每个问题逐一设置为诊断候选题，计算每一个平均比较值，按照平均值较小的顺序排列诊断候选题，并从以上排列的诊断候选题中提取随机集，以这种方式生成诊断题集。

作为另一个示例，数据分析服务器按照问题数据库的预定数量将随机抽取的若干个问题设置为诊断问题候选题集，计算构成每个集的每个诊断候选题的平均比较值，以计算上述诊断问题候选题集的代表性平均比较值，最终可将上述代表性平均值在预定范围内的诊断候选题集，确定为诊断候选题集。

图2示出的是解释依据本发明实施例的应用机器学习框架得出的数据分析结果的流程图。

在步骤310中，数据分析服务器可在用户的解题结果数据中应用机器学习框架来进行用户及/或问题建模。

例如，依据本发明实施例的数据分析服务器基于所谓的基于无监督学习(Unsupervised Lerning)的机器学习框架，在无需单独对问题或用户进行标记的情况下，仅使用用户的求解结果，即可生成建模向量。

另外，数据分析服务器可基于数据之间的距离或概率分布来计算收集的用户解题结果数据的相似度，并可对上述相似度在阈值范围内的用户及/或问题进行分类。

作为另一个示例，依据本发明实施例的数据分析服务器可以基于收集的用户解题结果数据，生成所有用户和所有题目中每一个的向量，并可以以至少一个属性为准对用户或问题进行分类。

但是，这时，应用机器学习框架生成的用户向量、问题向量未附单独的标记，因此，很难解释上述向量包括哪些属性或根据哪种属性对用户和问题的进行的分类。

因此，依据本发明实施例的数据分析框架提出一种事后标记、解释通过机器学习获得的数据分析结果的方法。应注意的是，依据本发明实施例的标记并非在机器学习过程中应用，而是在机器学习结束之后，即旨在解释通过机器学习而获得的分析结果而被分配。

依据本发明实施例的数据分析框架可以从使用建模向量表示的问题或用户数据中，随机抽取至少一个问题或用户，并任意分配至少一个用于解释已抽取问题或用户的标签(步骤220)，并可将上述标签索引到相应的问题或用户(步骤230)。

上述标签，例如，可以是以树格式构成的有关特定科目的概念或主题的元数据的索引信息。上述概念或主题可由专家给出，但本发明不限于此。

图2中并未单独示出，但是，为达到生成标签的目的，数据分析服务器可使用树结构列出相应科目的学习元素及/或主题，从而生成最小学习元素的元数据集，并可将最小学习元素归类为适合分析的组单元。

例如，特定科目A的第一主题被归类为A1-A2-A3-A4-A5…，第一主题A1的详细主题又被归类为A11-A12-A13-A14-A15…，第二主题的A11的详细主题再被归类为A111-A112-A113-A114-A115…，再以同样的方法对第三主题的A111的详细主题进行归类时，相应科目的主题可以使用树结构列出。

这种树结构的最小学习单元可被管理为适合分析用户及/或问题的单位，即分析组。这是因为，相较于以学习元素的最小单位来设置解释用户及/或问题的标签，以适合分析的预定组为单位来设置更为适宜。

例如，使用树结构对英语科目的学习元素进行分类，由{动词-时态，动词-时态-过去完成进行时，动词-时态-现在完成进行时，动词-时态-未来完成进行时，动词-时态-过去完成时，动词-时态-现在完成时，动词-时态-未来完成时，动词-时态-过去进行时，动词-时态-现在进行时，动词-时态-未来进行时，动词-时态-一般过去时，动词-时态-一般现在时，动词-时态-一般未来时}构成最小单元时，如果分析用户分别在学习元素的最小单位<动词-时态>，<动词-时态-过去完成进行时>，<动词-时态-现在完成进行时>，<动词-时态-未来完成进行时>方面的薄弱之处，则会由于细分过度而无法得出有意义的分析结果。

这是因为学习通常是在特定类别下以全面、整体的方式进行的，所以，很难断定不了解过去完成进行时的学生就一定不了解现在过去进行时。因此，依据本发明的实施例，学习元素的最小单元可被管理为适合分析的单位，即分析组，并可将其用作用以描述提取上述分析组相关信息的问题的标签。

例如，数据分析服务器从簇中任意提取至少一个问题，并可为提取的问题分配可描述上述问题的出题意图的标签。

然后，数据分析服务器可以以分配给第一次提取的问题的第一标签为准，对所有问题数据进行分类(步骤230)。

例如，当第一标签被指定给最先提取的第一问题时，数据分析服务器可以以与上述第一问题的相似度为准，区分阈值范围内的问题和阈值范围外的问题。

另外，数据分析服务器可为与上述第一问题的相似度在阈值范围内的问题，分配上述第一标签。

然后，数据分析服务器可从与上述第一问题的相似度在阈值范围外的问题中，随机抽取至少一个问题(步骤240)，并选择用于解释第二次抽取的问题的第二标签，为第二次抽取的问题，及与上述第二次抽取的问题的相似度在阈值范围内的其他问题，分配上述第二标签。(步骤250)

这时，可将第一标签分配给与第一次抽取的问题相似的问题，可将第二标签分配给与第二次抽取的问题相似的问题可被分配第二标签，并可将第一标签和第二标签分配给与第一次抽取的问题和第二次抽取的问题相似的问题。

以这种方式重复对问题的标签分配，即可对所有问题进行分类(步骤260)。

例如，<动词-时态>的第一标签，<动词类型>的第二标签，<主动式和被动式>的第三标签被分配给特定问题，且其比率分别为75％，5％，20％时，则可使用第一标签和第三标签来解释相应问题。

例如，相应问题可被解释为以<动词-时态>为出题意图，并包括<主动式和被动式>的错误答案选项。

另外，将第一标签、第二标签、第三标签分配给用户时，可被解释为相应用户对的<动词-时态>和<主动式和被动式>的理解程度分别被估计为75％，20％。

本说明书和附图中公开的本发明实施例，仅为便于说明本发明技术内容及有助于理解本发明的具体示例，而非用来限定本发明的范围。对于本发明所属技术领域的技术人员来说，除本文公开的实施例外，基于本发明技术思想的其他变形示例也是可行的。

Claims

1.一种在数据分析框架中建立新用户诊断用题集的方法，其特征在于，包括：

建立包括若干个问题的问题数据库，收集针对所述问题的用户求解结果数据，并将所述求解结果应用到所述数据分析框架中，从而计算所述问题及/或用户建模向量的a步骤；

从所述问题数据库中提取至少一个用于建立所述诊断用题集的候选题的b步骤；

确认存在针对所述候选题的求解结果数据的用户，及存在所述用户求解结果数据的其他问题的c步骤；

仅将针对所述候选题的所述用户的求解结果数据应用到所述数据分析框架中，从而计算虚拟用户建模向量的d步骤；

应用所述虚拟用户建模向量，计算所述其他问题的虚拟正解率的e步骤；

比较所述虚拟正解率和所述用户针对所述其他问题的实际求解结果数据，并根据所述用户数量，对比较结果进行平均，从而计算所述候选题的预测率的f步骤。

2.根据权利要求1所述的题集建立方法，其特征在于，包括：以所述预测率在阈值范围内的候选题构成所述诊断用题集的步骤。

3.一种解释通过基于无监督学习(unsupervisedlearning)的数据分析框架分析得出的结果的方法，其特征在于，包括：

建立包括若干个问题的问题数据库，收集针对所述问题的用户求解结果数据，并将所述求解结果应用到所述数据分析框架中，从而形成至少一个针对用户的簇的a步骤；

从所述簇中随机提取至少一个第一数据，并选择用于解释所述第一数据的第一标签的b步骤；

为所述簇所包括的数据中与所述第一数据具有阈值范围内的相似度的数据分配第一标签的c步骤；

从与所述第一数据具有阈值范围外的相似度的数据中，随机抽取至少一个第二数据，并选择用于解释所述第二数据的第二标签的d步骤；

为所述簇所包括的数据中与所述第二数据具有阈值范围内的相似度的数据分配第二标签的e步骤；

利用所述第一标签和所述第二标签来解释所述簇的f步骤。

4.根据权利要求3所述的解释方法，其特征在于，包括：

使用树结构列出相应科目的学习元素及/或主题，从而生成所述科目的元数据集的步骤；

以分析组为单位对所述元数据进行分类，从而生成所述元数据的索引信息的步骤；及

将所述元数据的索引信息用作所述第一标签和所述第二标签的步骤。