CN110366735A - 分析数据的方法、设备及计算机程序 - Google Patents

分析数据的方法、设备及计算机程序 Download PDF

Info

Publication number
CN110366735A
CN110366735A CN201780086950.2A CN201780086950A CN110366735A CN 110366735 A CN110366735 A CN 110366735A CN 201780086950 A CN201780086950 A CN 201780086950A CN 110366735 A CN110366735 A CN 110366735A
Authority
CN
China
Prior art keywords
data
user
topic
label
solving result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780086950.2A
Other languages
English (en)
Inventor
车映慜
许宰纬
张荣峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Increasingly Ltd
Original Assignee
Increasingly Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Increasingly Ltd filed Critical Increasingly Ltd
Publication of CN110366735A publication Critical patent/CN110366735A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F1/00Cardboard or like show-cards of foldable or flexible material
    • G09F1/04Folded cards
    • G09F1/06Folded cards to be erected in three dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种在数据分析框架中建立新用户诊断用题集的方法,其特征在于,包括:建立包括若干个问题的问题数据库,收集针对所述问题的用户求解结果数据,并将所述求解结果应用到所述数据分析框架中,从而计算所述问题及/或用户建模向量的a步骤;从所述问题数据库中提取至少一个用于建立所述诊断用题集的候选题的b步骤;确认存在针对所述候选题的求解结果数据的用户,及存在所述用户求解结果数据的其他问题的c步骤;仅将针对所述候选题的所述用户的求解结果数据应用到所述数据分析框架中,从而计算虚拟用户建模向量的d步骤;应用所述虚拟用户建模向量,计算所述其他问题的虚拟正解率的e步骤;比较所述虚拟正解率和所述用户针对所述其他问题的实际求解结果数据,并根据所述用户数量,对比较结果进行平均,从而计算所述候选题的预测率的f步骤。

Description

分析数据的方法、设备及计算机程序
技术领域
本发明涉及一种分析数据并提供用户定制型内容的方法。更具体地讲,本发明涉及一种提取优化新用户分析的诊断用题集并标记应用机器学习框架的数据集的方法及设备。
背景技术
截至目前,教育内容多以套餐的形式提供。例如,每本纸质题集至少会收录700道题,线上、线下讲义也多为1~2个小时,捆绑至少一个月的学习量后一次性售出。
但,从接受教育的学生立场上来看,每个学生的薄弱单元和薄弱题型均有差异,因此,较比套餐形式,其实存在的是对个人定制型内容的需求。挑选出自己薄弱单元的薄弱题型集中学习,远比解答700道题的效果要明显得多。
但,对于受教育者——学生而言,很难自行弄清楚自己的薄弱之处。而且,在学院、出版社等传统教育行业中,也是依赖主观经验和直觉来分析学生和问题,因此,很难针对个别学生提供优化的问题。
因此,在传统的教育环境中,很难为受教育者提供可收获最有效的学习成果的个人定制型内容,而且,学生很快就会对套餐形式的教育内容失去成就感和兴趣。
发明内容
(一)要解决的技术问题
本发明旨在解决上述问题。更具体地讲,本发明要解决的技术问题是提供一种可有效提取分析用户所需样品数据的方法。另外,本发明要解决的另一个技术问题是提供一种标记方法用以解释应用基于无监督学习(unsupervised learning)和自律学习的机器框架分析得出的数据。
(二)技术方案
依据本发明的实施例,一种在数据分析框架中建立新用户诊断用题集的方法,其特征在于,包括:建立包括若干个问题的问题数据库,收集针对上述问题的用户求解结果数据,并将上述求解结果应用到上述数据分析框架中,从而计算上述问题及/或用户建模向量的a步骤;从上述问题数据库中提取至少一个用于建立上述诊断用题集的候选题的b步骤;确认存在针对上述候选题的求解结果数据的用户,及存在上述用户求解结果数据的其他问题的c步骤;仅将针对上述候选题的上述用户的求解结果数据应用到上述数据分析框架中,从而计算虚拟用户建模向量的d步骤;应用上述虚拟用户建模向量,计算上述其他问题的虚拟正解率的e步骤;比较上述虚拟正解率和上述用户针对上述其他问题的实际求解结果数据,并根据上述用户数量,对比较结果进行平均,从而计算上述候选题的预测率的f步骤。
另外,依据本发明的实施例,一种解释通过数据分析框架分析得出的结果的方法,其特征在于,包括:建立包括若干个问题的问题数据库,收集针对上述问题的用户求解结果数据,并将上述求解结果应用到上述数据分析框架中,从而形成至少一个针对用户的簇的a步骤;从上述簇中随机提取至少一个第一数据,并选择用于解释上述第一数据的第一标签的b步骤;为上述簇所包括的数据中与上述第一数据具有阈值范围内的相似度的数据分配第一标签的c步骤;从与上述第一数据具有阈值范围外的相似度的数据中,随机抽取至少一个第二数据,并选择用于解释上述第二数据的第二标签的d步骤;为上述簇所包括的数据中与上述第二数据具有阈值范围内的相似度的数据分配第二标签的e步骤;利用上述第一标签和上述第二标签来解释上述簇的f步骤。
(三)发明效果
依据本发明,其效果在于,可建立分析新用户所需的优化的诊断用题集。
另外,依据本发明的实施例,其效果在于,可有效解释应用机器学习框架分析得出的结果。
附图说明
图1示出的是在依据本发明实施例的数据分析框架中建立新用户诊断用题集的方法的流程图。
图2示出的是解释依据本发明实施例的基于无监督学习(unsupervisedlearning)的数据分析框架分析得出的结果的方法的流程图。
具体实施方式
本发明并不限于以下所记载的实施例的描述内容,在不脱离本发明技术要旨的范围内可施加各种变形是不言而喻的。另外,在描述实施例时,将省略对本发明所属技术领域中广泛已知且与本发明的技术要旨无直接关联的技术内容的描述。
另外,附图中使用相同的附图标记来表示相同的组件。另外,附图中的部分组件可能被夸大、省略或示意性地示出。这是为了省略与本发明要旨无关的不必要的描述,从而阐明本发明的要旨。
最近,随着IT设备的不断普及,收集用于分析用户的数据变得更加容易。如果能够充分收集用户数据,用户分析将更加精确,还可利用最适合用户的形式提供内容。
伴随着这种趋势,特别是教育行业对提供用户定制型教育内容表现出极大的需求。
举一个简单的例子来说,某个用户对英语科目中的“动词时态”缺乏理解,如果能为其推荐包括“动词时态”概念在内的问题,学习效率将会更高。但是,为达到提供这种用户定制型教育内容的目的,则有必要对每个内容和每个用户进行精密的分析。
按照传统方法,为达到分析内容和用户的目的,由专家对相应科目的概念进行手动定义,再由专家单独判断并标记相应科目的各个问题中包括哪些概念。然后,再根据每个用户解答被标记为特定概念的问题的结果信息,分析学习者的实力。
但是,这种方法的问题在于,标签信息取决于人的主观性。可问题是在没有人的主观性干预的情况下通过数学方法生成的标签信息并未通过数学方法分配给相应的问题,导致数据的可靠性不高。
因此,依据本发明实施例的数据分析服务器可以在学习数据分析中应用机器学习框架来排除数据处理过程中的人为干预。
据此,收集用户的解题结果日志,建立由用户和问题组成的多维空间,并以用户解题正确与否为准为上述多维空间分配值,以计算每个用户和问题的向量,凭借上述方式即可对用户及/或问题进行建模。
另外,使用上述用户向量及/或问题向量,可通过数学方法计算所有用户中特定用户的位置;可被聚类为与特定用户相似的组的其他用户;其他用户与相应用户的相似度;所有问题中特定问题的位置;可被聚类为与特定问题相似的组的其他问题;其他问题与相应问题的相似度等。另外,还可以以至少一个属性为准对上述用户和问题进行聚类。
这时,应注意的是,解释本发明时不得对上述用户向量和上述问题向量所包括的属性或特性加以限制。
例如,依据本发明的实施例,上述用户向量可包括上述用户对任意概念的理解程度,即对概念的理解程度。另外,上述问题向量可包括上述问题由哪些概念组成,即概念构成图。
但是,如果应用机器学习来分析学习数据,则存在几点需要解决的问题。
第一个问题就是如何处理有新引入的用户或问题的情况。关于新引入的用户或问题,在尚未累积相应用户或问题的数据之前是无法提供分析结果的。因此,有必要有效地从数据分析框架中收集初始数据,即导出具有任意可靠性的分析结果时所需的学习结果数据。
更具体来讲,为达到分析新引入的用户的目的,相应用户的解题结果数据需累积到一定程度,而且,还需解决建立用于提供可靠的分析结果的诊断题集的问题。
针对解题结果数据尚未累积到一定程度的用户,则无法提供可靠的分析结果,因此,用户需要解答诊断用问题,且诊断用问题越多,分析就越精密。但是,用户所期望的却是提供可更快提高学习效率的定制型问题。
因此,有必要建立可确保用户分析结果的可靠性达到任意范围以上的最小数量的诊断用问题。
本发明旨在解决上述问题。
依据本发明的实施例,可有效提取用于分析新引入的用户的诊断用问题。更具体地讲,可以有效地提取新用户应解答的题集,以计算尚无数据分析系统的问题数据库求解结果数据的具有任意可靠性的新用户的初始向量值。
据此,可有效建立用于用户诊断的题集,用户无需解答相应系统中的许多问题,也可有效提供可靠的分析结果。
同时,应用机器学习分析学习数据时,可能出现使用便于人们理解的方式来解释应用机器学习分析得出的结果值的标记问题。
在无人为干预,即无单独标记过程的情况下,应用机器学习框架来对学习结果数据建模时,会出现无法确认建模的结果中包括哪些特征的问题。另外,对用户或问题进行分类时,由于分类标准未得到确认,因此,又会出现需要事后解释分析结果以便于人们理解的问题。
例如,特定用户被分析为具有第一分类、第二分类、第三分类的属性时,必须以便于人们理解分类标准解释第一分类具有对动名词的理解度较低的属性,第二分类具有对时态的理解程度较高的属性,第三分类具有对TOEIC第一部分的中等攻克率的属性,才能说明相应用户的学习水平和薄弱之处。
但是,如果应用所谓的无监督学习方式的机器学习框架来分析数据,即使获得结果值,也很难确认是根据哪个属性进行的数据分类。
本发明旨在解决上述问题。
依据本发明的实施例,可提供一种事后标记方法,其以便于人们理解的方式解释基于无监督学习的机器学习分析得出的结果。
据此,可在机器学习过程中排除人的主观性,从而提取纯粹基于数据的建模结果,并为其和机器学习指定不同的标签,从而有效地解释机器学习的结果。
图1示出的是依据本发明实施例的提取用户诊断用题集的方法的流程图。
步骤110和步骤115是从数据分析系统中提取新用户诊断用题集的前提步骤。
依据本发明的实施例,在步骤110中,可以收集针对所有问题和所有用户的求解结果数据。
更具体来讲,数据分析服务器可建立问题数据库,并收集所有用户对属于上述问题数据库的所有问题的求解结果数据。
例如,数据分析服务器建立涉及市面上各种问题的数据库,并可以使用收集用户解答相应问题的结果的方式来收集求解结果数据。上述问题数据库包括听力评估问题,其可使用文本、图像、音频及/或视频形式提供。
这时,数据分析服务器可使用用户列表、问题列表、结果列表的形式建立收集的解题结果数据。例如,Y(u,i)表示用户u解答问题i的结果,答案正确时,被分配值1,答案错误时,被分配值0。
另外,依据本发明实施例的数据分析服务器可以建立由用户和问题组成的多维空间,并以用户解题正确与否为准为上述多维空间分配值,以计算每个用户和问题的向量(步骤115)。这时,并未指定包括用户向量和问题向量在内的特征。
然后,数据服务分析器可使用上述用户向量和上述问题向量来估计任意用户答对任意问题的概率,即正解率(步骤120)。
这时,可以在上述用户向量和上述问题向量中应用各种算法来计算上述正解率,且并不限定于解释本发明的计算正解率的算法。
例如,为估计正解率,数据分析服务器可在上述用户的向量值和上述问题的向量值中应用设定参数的Sigmoid函数来计算用户在相应问题上的正解率。
作为另一个示例,数据分析服务器可利用上述用户的向量值和上述问题的向量值,估计特定用户对特定问题的理解程度,并可利用上述理解程度,估计特定用户答对特定问题的概率。
例如,用户向量的第一行值为【0,0,1,0.5,1】时,可解释为,第一用户根本不理解第一和第二概念,完全理解第三和第五概念,而对第四概念只理解一半。
另外,问题向量的第一行值为【0,0.2,0.5,0.3,1】时,可解释为,第一题中根本不包括第一概念,包括约20%的第二概念,包括约50%的第三概念,并包括约30%的第四概念。
这时,如果估计第一用户对第一题的理解程度,则可使用0x0+0x0.2+1x0.5+0.5x0.5+1x0=0.75来计算。即,可估计第一用户对第一题的理解程度为75%。
然而,用户对特定问题的理解程度和答对特定问题的概率并不相同。在上述示例中,如果第一用户对第一题的理解程度为75%,那么,第一用户在实际解答第一题时回答正确的概率又是多少呢?
为此,可以引入心理学、认知科学、教育学中使用的方法论来估计理解程度与正解率之间的关系。例如,可以考虑由Reckase和McKinley设计的M2PL(multidimensional two-parameter logisitc)潜在特征模型理论(Latent Trait Model)等来估计理解程度和正解率。
但是,如果本发明能够应用以合理方式估计理解程度和正解率之间的关系的现有技术来计算用户对问题的正解率就足够了,应注意的是,不可限于估计理解程度和正解率之间关系的方法论来解释本发明。
然后,数据分析服务器可从问题数据库中随意抽取至少一个候选题,以建立针对新用户的诊断用题集(步骤120)。
然后,数据分析服务器可确认存在候选题求解结果数据的用户,假设上述用户只解答过上述候选题,即可计算相应用户的虚拟向量值。上述虚拟向量值可计算只存在候选题求解结果数据的用户答对问题数据库中每个问题的概率(步骤130,140)。上述虚拟向量值可根据步骤110中描述的上述方法及合理的现有技术来计算。
例如,在问题数据库中的第一题被提取为诊断候选题时,解答上述第一题的用户是所有用户中的用户1,用户2,用户3,针对上述第一题,用户1的答案是正确答案,用户2的答案是正确答案,用户3的答案是错误答案时,数据分析服务器可将(用户,问题,val)的输入值确认为(1,1,1),(2,1,1),(3,1,0),假设只存在(1,1,1),(2,1,1),(3,1,0)的输入值,即可计算用户1,2,3答对其他问题的概率。
这样做的目的在于,在假设上述用户为新用户且新用户只解答上述候选题时,即有关新用户的数据只存在上述候选题的求解结果时,确认相同分析框架内在其他问题上的正解预测率与实际结果的匹配程度。
换句话说,这样做的目的在于,朝通过相应问题估计的在其他问题上的正解概率与实际求解结果相一致的方向,提取诊断问题。
因此,数据分析服务器可确认解答候选题的用户实际解答的其他问题,并可应用上述虚拟向量值来计算上述其他问题的正解率,比较计算的正解率和实际求解结果(阶段160,170)。
在上述示例中,可假设用户1实际解答了第一,第三和第五题,且答对第一题(1,1,1),答错第三题(1,3,0),答对第五题(1,5,1)。这时,仅使用(1,1,1)的输入值计算的虚拟用户u的在第三、第五题上的正解率,即应用虚拟向量值计算的在第三,第五题的正解率为0.4,0.6时,第三、第五题与实际求解结果的差异可分别计算为:0.6和0.4。
然后,在步骤180中,数据分析服务器可对通过候选题估计的其他问题的正解率与实际值的差异进行平均。更具体来讲,针对存在候选题求解结果数据的其他所有用户,数据分析服务器可对上述其他用户实际解答的问题的上述差异进行平均。在本说明书中,其可被称为诊断候选题的平均比较值。
在上述示例中,用户1实际解答的问题为第一、第三、第五题,用户2实际解答的问题为第一、第二题,用户3实际解答的问题为第四、第五题时,可依据本发明实施例的数据分析服务器计算得出:假设只存在输入值(1,1,1)时,答对第三、第五题的概率和用户1实际解答第三、第五题的结果值的差异;假设只存在输入值(2,1,1)时,答对第二题的概率和用户2实际解答第二题的结果值的差异;假设只存在输入值(3,1,0)时,答对第四、第五题的概率和用户3实际解答第四、第五题的结果值的差异。
然后,针对问题2,3,4,5的每一个问题,数据分析服务器可对作为候选题的第一题的上述结果差异进行平均。
数据分析服务器以这种方式可将问题数据库中存在的每个问题设置为诊断候选题,计算相应候选题的平均比较值,并利用上述平均比较值建立诊断用问题(步骤190)。
例如,数据分析服务器可将问题数据库中的每个问题逐一设置为诊断候选题,计算每一个平均比较值,按照平均值较小的顺序排列诊断候选题,并从以上排列的诊断候选题中提取随机集,以这种方式生成诊断题集。
作为另一个示例,数据分析服务器按照问题数据库的预定数量将随机抽取的若干个问题设置为诊断问题候选题集,计算构成每个集的每个诊断候选题的平均比较值,以计算上述诊断问题候选题集的代表性平均比较值,最终可将上述代表性平均值在预定范围内的诊断候选题集,确定为诊断候选题集。
图2示出的是解释依据本发明实施例的应用机器学习框架得出的数据分析结果的流程图。
在步骤310中,数据分析服务器可在用户的解题结果数据中应用机器学习框架来进行用户及/或问题建模。
例如,依据本发明实施例的数据分析服务器基于所谓的基于无监督学习(Unsupervised Lerning)的机器学习框架,在无需单独对问题或用户进行标记的情况下,仅使用用户的求解结果,即可生成建模向量。
另外,数据分析服务器可基于数据之间的距离或概率分布来计算收集的用户解题结果数据的相似度,并可对上述相似度在阈值范围内的用户及/或问题进行分类。
作为另一个示例,依据本发明实施例的数据分析服务器可以基于收集的用户解题结果数据,生成所有用户和所有题目中每一个的向量,并可以以至少一个属性为准对用户或问题进行分类。
但是,这时,应用机器学习框架生成的用户向量、问题向量未附单独的标记,因此,很难解释上述向量包括哪些属性或根据哪种属性对用户和问题的进行的分类。
因此,依据本发明实施例的数据分析框架提出一种事后标记、解释通过机器学习获得的数据分析结果的方法。应注意的是,依据本发明实施例的标记并非在机器学习过程中应用,而是在机器学习结束之后,即旨在解释通过机器学习而获得的分析结果而被分配。
依据本发明实施例的数据分析框架可以从使用建模向量表示的问题或用户数据中,随机抽取至少一个问题或用户,并任意分配至少一个用于解释已抽取问题或用户的标签(步骤220),并可将上述标签索引到相应的问题或用户(步骤230)。
上述标签,例如,可以是以树格式构成的有关特定科目的概念或主题的元数据的索引信息。上述概念或主题可由专家给出,但本发明不限于此。
图2中并未单独示出,但是,为达到生成标签的目的,数据分析服务器可使用树结构列出相应科目的学习元素及/或主题,从而生成最小学习元素的元数据集,并可将最小学习元素归类为适合分析的组单元。
例如,特定科目A的第一主题被归类为A1-A2-A3-A4-A5…,第一主题A1的详细主题又被归类为A11-A12-A13-A14-A15…,第二主题的A11的详细主题再被归类为A111-A112-A113-A114-A115…,再以同样的方法对第三主题的A111的详细主题进行归类时,相应科目的主题可以使用树结构列出。
这种树结构的最小学习单元可被管理为适合分析用户及/或问题的单位,即分析组。这是因为,相较于以学习元素的最小单位来设置解释用户及/或问题的标签,以适合分析的预定组为单位来设置更为适宜。
例如,使用树结构对英语科目的学习元素进行分类,由{动词-时态,动词-时态-过去完成进行时,动词-时态-现在完成进行时,动词-时态-未来完成进行时,动词-时态-过去完成时,动词-时态-现在完成时,动词-时态-未来完成时,动词-时态-过去进行时,动词-时态-现在进行时,动词-时态-未来进行时,动词-时态-一般过去时,动词-时态-一般现在时,动词-时态-一般未来时}构成最小单元时,如果分析用户分别在学习元素的最小单位<动词-时态>,<动词-时态-过去完成进行时>,<动词-时态-现在完成进行时>,<动词-时态-未来完成进行时>方面的薄弱之处,则会由于细分过度而无法得出有意义的分析结果。
这是因为学习通常是在特定类别下以全面、整体的方式进行的,所以,很难断定不了解过去完成进行时的学生就一定不了解现在过去进行时。因此,依据本发明的实施例,学习元素的最小单元可被管理为适合分析的单位,即分析组,并可将其用作用以描述提取上述分析组相关信息的问题的标签。
例如,数据分析服务器从簇中任意提取至少一个问题,并可为提取的问题分配可描述上述问题的出题意图的标签。
然后,数据分析服务器可以以分配给第一次提取的问题的第一标签为准,对所有问题数据进行分类(步骤230)。
例如,当第一标签被指定给最先提取的第一问题时,数据分析服务器可以以与上述第一问题的相似度为准,区分阈值范围内的问题和阈值范围外的问题。
另外,数据分析服务器可为与上述第一问题的相似度在阈值范围内的问题,分配上述第一标签。
然后,数据分析服务器可从与上述第一问题的相似度在阈值范围外的问题中,随机抽取至少一个问题(步骤240),并选择用于解释第二次抽取的问题的第二标签,为第二次抽取的问题,及与上述第二次抽取的问题的相似度在阈值范围内的其他问题,分配上述第二标签。(步骤250)
这时,可将第一标签分配给与第一次抽取的问题相似的问题,可将第二标签分配给与第二次抽取的问题相似的问题可被分配第二标签,并可将第一标签和第二标签分配给与第一次抽取的问题和第二次抽取的问题相似的问题。
以这种方式重复对问题的标签分配,即可对所有问题进行分类(步骤260)。
例如,<动词-时态>的第一标签,<动词类型>的第二标签,<主动式和被动式>的第三标签被分配给特定问题,且其比率分别为75%,5%,20%时,则可使用第一标签和第三标签来解释相应问题。
例如,相应问题可被解释为以<动词-时态>为出题意图,并包括<主动式和被动式>的错误答案选项。
另外,将第一标签、第二标签、第三标签分配给用户时,可被解释为相应用户对的<动词-时态>和<主动式和被动式>的理解程度分别被估计为75%,20%。
本说明书和附图中公开的本发明实施例,仅为便于说明本发明技术内容及有助于理解本发明的具体示例,而非用来限定本发明的范围。对于本发明所属技术领域的技术人员来说,除本文公开的实施例外,基于本发明技术思想的其他变形示例也是可行的。

Claims (4)

1.一种在数据分析框架中建立新用户诊断用题集的方法,其特征在于,包括:
建立包括若干个问题的问题数据库,收集针对所述问题的用户求解结果数据,并将所述求解结果应用到所述数据分析框架中,从而计算所述问题及/或用户建模向量的a步骤;
从所述问题数据库中提取至少一个用于建立所述诊断用题集的候选题的b步骤;
确认存在针对所述候选题的求解结果数据的用户,及存在所述用户求解结果数据的其他问题的c步骤;
仅将针对所述候选题的所述用户的求解结果数据应用到所述数据分析框架中,从而计算虚拟用户建模向量的d步骤;
应用所述虚拟用户建模向量,计算所述其他问题的虚拟正解率的e步骤;
比较所述虚拟正解率和所述用户针对所述其他问题的实际求解结果数据,并根据所述用户数量,对比较结果进行平均,从而计算所述候选题的预测率的f步骤。
2.根据权利要求1所述的题集建立方法,其特征在于,包括:以所述预测率在阈值范围内的候选题构成所述诊断用题集的步骤。
3.一种解释通过基于无监督学习(unsupervisedlearning)的数据分析框架分析得出的结果的方法,其特征在于,包括:
建立包括若干个问题的问题数据库,收集针对所述问题的用户求解结果数据,并将所述求解结果应用到所述数据分析框架中,从而形成至少一个针对用户的簇的a步骤;
从所述簇中随机提取至少一个第一数据,并选择用于解释所述第一数据的第一标签的b步骤;
为所述簇所包括的数据中与所述第一数据具有阈值范围内的相似度的数据分配第一标签的c步骤;
从与所述第一数据具有阈值范围外的相似度的数据中,随机抽取至少一个第二数据,并选择用于解释所述第二数据的第二标签的d步骤;
为所述簇所包括的数据中与所述第二数据具有阈值范围内的相似度的数据分配第二标签的e步骤;
利用所述第一标签和所述第二标签来解释所述簇的f步骤。
4.根据权利要求3所述的解释方法,其特征在于,包括:
使用树结构列出相应科目的学习元素及/或主题,从而生成所述科目的元数据集的步骤;
以分析组为单位对所述元数据进行分类,从而生成所述元数据的索引信息的步骤;及
将所述元数据的索引信息用作所述第一标签和所述第二标签的步骤。
CN201780086950.2A 2017-05-19 2017-06-07 分析数据的方法、设备及计算机程序 Withdrawn CN110366735A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170062549A KR101895959B1 (ko) 2017-05-19 2017-05-19 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램
KR10-2017-0062549 2017-05-19
PCT/KR2017/005919 WO2018212396A1 (ko) 2017-05-19 2017-06-07 데이터를 분석하는 방법, 장치 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
CN110366735A true CN110366735A (zh) 2019-10-22

Family

ID=63593814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780086950.2A Withdrawn CN110366735A (zh) 2017-05-19 2017-06-07 分析数据的方法、设备及计算机程序

Country Status (6)

Country Link
US (1) US20190377996A1 (zh)
JP (2) JP6879526B2 (zh)
KR (1) KR101895959B1 (zh)
CN (1) CN110366735A (zh)
SG (1) SG11201907703UA (zh)
WO (1) WO2018212396A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101895959B1 (ko) * 2017-05-19 2018-09-06 (주)뤼이드 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램
CN109410675B (zh) * 2018-12-12 2021-03-12 广东小天才科技有限公司 一种基于学生画像的练习题推荐方法及家教设备
US11288265B2 (en) * 2019-11-29 2022-03-29 42Maru Inc. Method and apparatus for building a paraphrasing model for question-answering
US11620343B2 (en) 2019-11-29 2023-04-04 42Maru Inc. Method and apparatus for question-answering using a database consist of query vectors
WO2022216980A1 (en) * 2021-04-08 2022-10-13 Lightspeed, Llc Improved survey panelist utilization

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010070616A (ko) * 2000-07-25 2001-07-27 박종성 문항반응이론을 이용한 온라인 자격 및 인증시험 서비스시스템 및 방법
KR20060007608A (ko) * 2004-07-20 2006-01-26 조동기 학습 평가 클리닉 서비스 방법 및 그 시스템
CN101599227A (zh) * 2008-06-05 2009-12-09 千华数位文化股份有限公司 学习诊断系统及方法
JP4447411B2 (ja) * 2004-09-03 2010-04-07 株式会社エヌ・ティ・ティ・データ 学習者習得特性分析システム及びその方法並びにプログラム
CN101887572A (zh) * 2010-06-29 2010-11-17 华中科技大学 一种基于因特网的虚拟实验教学资源的管理方法
WO2013055024A1 (ko) * 2011-10-12 2013-04-18 한국과학기술연구원 로봇을 이용한 인지 능력 훈련 장치 및 그 방법
DE102015000835A1 (de) * 2015-01-26 2016-07-28 a.r.t associated researchers + trendsetters gmbh Computerimplementiertes Informations- und Wissensbereitstellungssystem
CN106204371A (zh) * 2016-06-29 2016-12-07 北京师范大学 一种支持工学融合的移动情境感知教学系统及方法
CN106250475A (zh) * 2016-07-29 2016-12-21 广东小天才科技有限公司 一种试题答案的推送方法及装置
KR101713487B1 (ko) * 2015-10-08 2017-03-07 한국교육과정평가원 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램
JP2017068189A (ja) * 2015-10-02 2017-04-06 アノネ株式会社 学習支援装置、学習支援方法、学習支援装置用プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082598A (ja) * 2000-09-07 2002-03-22 Keynet:Kk 学習支援システム及び学習支援方法
US20070172810A1 (en) * 2006-01-26 2007-07-26 Let's Go Learn, Inc. Systems and methods for generating reading diagnostic assessments
JP5233002B2 (ja) * 2008-10-16 2013-07-10 株式会社国際電気通信基礎技術研究所 能力評価方法、および能力評価システムのサーバ
JP5437211B2 (ja) * 2010-09-27 2014-03-12 株式会社日立ソリューションズ 出題頻度と学習者の弱点を考慮した問題抽出機能を備えるe−learningシステム
JP6247628B2 (ja) * 2014-12-09 2017-12-13 株式会社日立製作所 学習管理システムおよび学習管理方法
KR101895959B1 (ko) * 2017-05-19 2018-09-06 (주)뤼이드 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010070616A (ko) * 2000-07-25 2001-07-27 박종성 문항반응이론을 이용한 온라인 자격 및 인증시험 서비스시스템 및 방법
KR20060007608A (ko) * 2004-07-20 2006-01-26 조동기 학습 평가 클리닉 서비스 방법 및 그 시스템
JP4447411B2 (ja) * 2004-09-03 2010-04-07 株式会社エヌ・ティ・ティ・データ 学習者習得特性分析システム及びその方法並びにプログラム
CN101599227A (zh) * 2008-06-05 2009-12-09 千华数位文化股份有限公司 学习诊断系统及方法
CN101887572A (zh) * 2010-06-29 2010-11-17 华中科技大学 一种基于因特网的虚拟实验教学资源的管理方法
WO2013055024A1 (ko) * 2011-10-12 2013-04-18 한국과학기술연구원 로봇을 이용한 인지 능력 훈련 장치 및 그 방법
DE102015000835A1 (de) * 2015-01-26 2016-07-28 a.r.t associated researchers + trendsetters gmbh Computerimplementiertes Informations- und Wissensbereitstellungssystem
JP2017068189A (ja) * 2015-10-02 2017-04-06 アノネ株式会社 学習支援装置、学習支援方法、学習支援装置用プログラム
KR101713487B1 (ko) * 2015-10-08 2017-03-07 한국교육과정평가원 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램
CN106204371A (zh) * 2016-06-29 2016-12-07 北京师范大学 一种支持工学融合的移动情境感知教学系统及方法
CN106250475A (zh) * 2016-07-29 2016-12-21 广东小天才科技有限公司 一种试题答案的推送方法及装置

Also Published As

Publication number Publication date
US20190377996A1 (en) 2019-12-12
JP6879526B2 (ja) 2021-06-02
WO2018212396A1 (ko) 2018-11-22
SG11201907703UA (en) 2019-09-27
KR101895959B1 (ko) 2018-09-06
JP2020510234A (ja) 2020-04-02
JP2021119397A (ja) 2021-08-12

Similar Documents

Publication Publication Date Title
CN108182489B (zh) 一种基于在线学习行为分析的个性化学习推荐方法
CN110366735A (zh) 分析数据的方法、设备及计算机程序
Klassen et al. Measuring teacher engagement: development of the engaged teachers scale (ETS).
Kotsiantis et al. Using learning analytics to identify successful learners in a blended learning course
Fellnhofer Entrepreneurship education revisited: Perceived entrepreneurial role models increase perceived behavioural control
Alkhasawneh et al. Developing a hybrid model to predict student first year retention in STEM disciplines using machine learning techniques
US11417232B2 (en) Method, apparatus, and computer program for operating machine-learning framework
CN109155049A (zh) 提供个人定制型教育内容的方法、设备及计算机程序
CN108984516B (zh) 一种基于弹幕评论云数据的在线课程内容测评方法及系统
Danhier et al. Comparing compositional effects in two education systems: The case of the Belgian communities
CN112527821A (zh) 一种学生布鲁姆掌握度评估方法、系统及存储介质
Dakoumi et al. Is entrepreneurship for you? Effects of storytelling on entrepreneurial intention
CN105205504A (zh) 一种基于数据驱动的图像关注区域质量评价指标学习方法
Ikawati et al. Student behavior analysis to detect learning styles in Moodle learning management system
Shahbari et al. Adopting the modelling cycle for representing prospective and practising teachers’ interpretations of students’ modelling activities
Pei et al. Using automatic image processing to analyze visual artifacts created by students in scientific argumentation
KR20190049627A (ko) 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램
Mbunge et al. Diverging hybrid and deep learning models into predicting students’ performance in smart learning environments–a review
Çardak et al. The construct validity of Felder-Soloman index of learning styles (ils) for the prospective teachers
CN114202978A (zh) 一种基于大数据的智能培训方法及系统
CN106055875A (zh) 一种基于大数据的皮纹分析处理装置
Scoular et al. A generalized scoring process to measure collaborative problem solving in online environments
Daradkeh Exploring the use of an information visualization tool for decision support under uncertainty and risk
CN116340815A (zh) 一种基于卷积神经网络的高校异常行为学生识别方法
KR20190025871A (ko) 사용자 맞춤형 컨텐츠를 제공하기 위한 방법, 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191022