CN112559821A

CN112559821A - 高质数据的挖掘方法、生产方法和系统

Info

Publication number: CN112559821A
Application number: CN202011530665.5A
Authority: CN
Inventors: 黄鹤南
Original assignee: Zuoyebang Education Technology Beijing Co Ltd
Current assignee: Beijing Baige Feichi Technology Co.,Ltd.
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-26

Abstract

一种高质数据的挖掘方法、生产方法和系统。所述高质数据的挖掘方法，包括如下步骤：基于周期性特征，和/或，基于当前热点的相同簇或近似簇，来预估得到高质试题的相关数据信息。本发明的挖掘系统将所述挖掘方法与众包平台相结合。本发明通过预估高质试题的相关数据信息，提前生产高质试题，提高拍照试题的准召率；本发明的A/B档投产方式更适合高质试题的生产，可以更好地集中众包用户资源，更好保证生产的投资回报率。

Description

高质数据的挖掘方法、生产方法和系统

技术领域

本发明属于网络教育技术领域，尤其是机器学习辅助技术领域，更具体的是涉及一种高质数据的挖掘方法、生产方法和系统。

背景技术

随着网络和人工智能的发展，网络教育越来越普及，而网络教育中人工智能和机器学习的运用也越来越普遍。尤其是试题类的网络教育中，由于可能涉及海量的试题，原始的那种一题一答案的模式很难适应形势的发展，于是机器学习技术大力发展，能够尽量将各种类型的题进行各种归类解答，简化题库的开发和解答的难度。

近年来，图像识别技术的发展，则使试题型网络教育出现了一种新的形式，即采用拍照的形式上传试题去搜索答案，由于试题库的先天不足，不可能预先将所有题都收录，由此会出现很多题没有答案，而试题库的维护方虽然可以通过人工进行解答，并将答案收录到试题库，但人工解答的速度毕竟有限，每天补充试题及答案的数量很难大幅增长。

此外，由于现在技术的发展，试题库特别庞大，通常都采用众包方式来维护和分发试题的生产和解答任务，由此也需要业界研究和开发对应的众包系统，去研究如何更高效率地分配和管理挑题、判重、解答、审核、排版等众包任务。

发明内容

有鉴于此，本发明的主要目的在于提出一种高质数据的挖掘方法、生产方法和采用其的挖掘系统，以期至少部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的第一方面，提供了一种高质数据的挖掘方法，包括如下步骤：

基于周期性特征，和/或，基于当前热点的相同簇或近似簇，来预估得到高质试题的相关数据。

本发明第二方面提出一种高质试题的生产方法，包括以下步骤：

采用如上所述的挖掘方法预估得到高质试题的相关信息；

对得到的高质试题的相关信息进行评估，判断是否需要进一步扩展生产；

如果需要，则组织生产。

本发明第三方面提出一种高质试题的挖掘系统，包括：

数据整合分析模块，用于采用如上所述的挖掘方法预估得到高质试题的相关数据；

数据筛选模块，用于对数据整合分析模块判断得到的高质试题的相关数据进行评估，判断是否需要进一步扩展生产；

数据生产模块，对数据筛选模块判断需要进一步扩展生产的，组织对其进行生产。

本发明第四方面提出一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机可执行程序被所述处理器执行时，所述处理器执行如上所述的高质数据的挖掘方法。

本发明第五方面还提出一种计算机可读介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现如上所述的高质数据的挖掘方法。

基于上述技术方案可知，本发明的高质数据的挖掘方法、生产方法和采用其的众包系统相对于现有技术至少具有如下有益效果之一：

本发明通过预估热词的相同簇和相似簇，可以提前生产高质试题，提高拍照试题的准召率；

本发明通过众包系统，可以灵活地分配任务，适应不同规模的试题库的生产任务；

本发明通过设置不同优先级和权值，能够在保证紧急任务的前提下尽量扩展试题集；

本发明的A/B档投产方式更适合高质试题的生产，可以更好地集中众包用户资源，更好保证生产的投资回报率(ROI)；

本发明的重复投产策略是高质数据可以如期上线的重要保证，也是普通众包生产并不具备的能力。

附图说明

图1是本发明的高质数据的挖掘方法的方框流程图；

图2是作为本发明一实施例的高质数据的挖掘系统的框架示意图；

图3是作为本发明一实施例的高质数据的挖掘方法的整体流程图；

图4是作为本发明一实施例的电子设备的结构示意图；

图5是作为本发明一实施例的计算机可读记录介质的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本说明书中一些技术术语含义如下：

“众包”(Crowd-sourcing)是指一个公司或机构把过去由员工执行的工作任务外包给非特定(且通常是大型的)大众网络的做法。由此，众包系统就是实现这种众包的组织模式的一个系统。众包模式对美国的一些产业产生了颠覆性的影响，对于本发明所述的试题生产、解答任务，也可以通过众包系统来实现，从而可以既解决相关企业招聘人员的难度，实现从业人员的灵活性，又可以高效生产和解答试题，满足日益增长的需求。

高质试题，是本发明中相区别于普通试题而定义的一个概念，表示客户重复请求度高、需求量大且能够切合客户最关注的知识点的试题，也即是客户最想体验、最能有效提高其成绩的试题。

相对于普通试题数据，高质试题数据有很多明显特征，例如：

(1)周期性特征

由于学习的周期性规律，每一年的学生都会重复学习对应的知识，他们有学年、学季的周期性学习内容，也会经历周考、月考、中考、高考这些每年定期或固定间隔的考试。由此，高质试题显然是每一届学生都会经历和尝试的试题。

(2)知识点与相同题、相似题特征

题目的相同、相似判断是一个比较特殊的存在，以数学应用题为例：“小明和小红买10斤苹果，每人吃了2斤，还剩几斤？”如果将小明和小红买苹果换为小白和小黑买梨，其实本质是一道题。如果买10斤苹果换为买9斤苹果，那本质应该不是一道题。但是在实际判断时，根据语义做上述判断十分困难，各学科学段的判断方式也各不相同。

因此，试题库会将完全一致的题当做相同题，上述两种稍有改变的情况会记做相似题。

近年来拍照搜题方式的出现，极大地便利了广大学习者，但由于试题库的先天不足，不可能预先将所有试题都收录，由此会出现很多题没有答案，而试题库的维护方虽然可以通过人工进行解答，并将答案收录到试题库，但人工解答的速度毕竟有限，每天补充试题及答案的数量很难大幅增长。针对这一问题，本发明另辟蹊径，规避了常规的试题生产逻辑，即根据用户需求发现热点，然后针对热点组织生产的传统模式，而是提前就预估热点，然后组织生产，再上线等待用户搜索，从而可以提高拍照搜题时的准召率。

要做到提前预估，就需要对试题有一个评价，知道哪些试题可能需求度会高一些，由此本发明提出了高质试题的概念，即客户重复请求度高、需求量大且能够切合客户最关注的知识点的试题，通过提前预估可能存在的高质试题，将其优先生产题干和答案，来满足用户的需求。

由此，本发明引出了知识点信息、相同簇和相似簇等概念，即根据知识点和题目中主要信息的相关性将其分成不同的簇。其中，知识点信息是试题库数据的一个属性，占比较高的知识点数据都是由教研老师制定、补充，而非算法实现。而得到相同簇和相似簇的聚簇技术也是申请人在试题库建设方面的重要能力与技术储备之一，聚簇服务是题目判重、聚类、检索、挂载等业务依赖的基础服务，由于本发明直接使用已经完成聚簇的知识库和热词库，在此对聚簇的具体算法不做详细讨论。

本发明人发现，要提前预估得到高质试题的数据信息，其挖掘方法需要重点评估如下两个方面：(1)根据周期性知识点、学习内容作出题目生产预测；(2)根据当前热词，找出热相似簇、热知识点，再通过二者反推出需生产的题目。

具体地，如图1所示，本发明公开了一种高质数据的挖掘方法，包括如下步骤：

基于周期性特征，和/或，基于当前热点的相同簇或近似簇，来预估得到高质试题的相关数据信息。

其中，所述周期性特征是基于知识点的学期、学年信息，搜索试题与搜索人的学籍信息的周期性相关性，搜索试题的出现时机和频率来确定的。

其中，所述当前热点为系统根据搜索主题(Query)的相关辅助信息在试题库中检索到匹配的内容，从而映射(map)得到的相关知识点信息。

其中，当前热点的相同簇或近似簇还基于题目的页面浏览量(pv)、题目的辅助信息(例如学科学段、知识点、质量分、来源等)、题目的相似簇等来获得，其实现方式同样是通过在知识库中的映射关系。

其中，当前热点的相同簇或近似簇还基于题目的辅助信息(例如学段、知识点、质量分、来源等)，匹配当前时间信息：所属学年、学季，重点考试，重点学科进度等信息在试题库中进行检索，根据检索匹配内容推断获得对应热知识点，根据知识点检索得到对应重点题目，进而找出热簇。

本发明还公开了一种高质试题的生产方法，包括以下步骤：

采用如上所述的挖掘方法预估得到高质试题的相关数据信息；

对得到的高质试题的相关数据信息进行评估，判断是否需要进一步扩展生产；

如果需要，则组织生产。

其中，对需要进一步扩展生产的还需要根据其数据的生成来源进行时效性标记，将其分为高时效试题和低时效试题；

作为优选，在数据生产过程中，如果发现高时效试题超过时效性，会重新判断该题目是需要重投至低时效性生产，还是废弃生产。

其中，还根据题目的相同簇、完整度和/或丰富度信息，对在热题集中的题目进行打分；

基于预定的规则，对于部分高质数据不需要投产，对于部分低优数据也不需要投产，其余数据根据打分投产。

其中，对于需要组织生产的以众包的模式分发给试题生产人员进行生产。

其中，对于需要组织生产的，需要根据热题集的分数，将待生产的数据分为A/B档数据，其中A档数据为务必生产数据，B档数据为高优生产数据。

其中，所述A/B档数据会根据当前试题库的产能情况、当前A/B档数据量动态计算、预估任务完成情况来确定生产优先级和定价：如果产能不足，会优先提高优先级；当优先级已经足够高，会提高该环节生产价格；当产能仍然不足时，会降低B档的优先级与定价。

其中，为保证A档数据生产，对A档数据采用重复投放的模式，让更多众包系统任务接受人能够同时生产该题目，且在一位众包系统任务接受人完成生产后，其他人能够手动选择放弃该题目，获得部分收益。

其中，将生产后的题目传到试题库，并根据试题库中题目的页面浏览量进行排序，将其中排名靠前的作为下一轮数据挖掘的依据。

如图2所示，本发明还公开了一种高质试题的挖掘系统，包括：

数据整合分析模块，用于采用如上所述的挖掘方法预估得到高质试题的相关数据信息；

数据筛选模块，用于对数据整合分析模块判断得到的高质试题的相关数据信息进行评估，判断是否需要进一步扩展生产；

其中，所述数据筛选模块对需要进一步扩展生产的试题还会根据数据的生成来源进行时效性标记(即根据阈值确定生产截止日期(deadline))，将其分为高时效试题和低时效试题。对于高时效试题优先生产；而在数据生产的过程中，如果发现高时效试题超过时效性，会重新判断该题目是重投至低时效性生产，还是废弃生产。

其中，所述数据筛选模块还根据题目的相同簇和完整度、丰富度信息等，对在热题集中的题目进行打分，然后根据预定规则，一部分高质数据不需要投产，一部分低优数据不需要投产，其余数据根据打分投产。

其中，所述数据生产模块还包括一众包平台，对于需要进一步扩展生产的试题以众包的模式分发给试题生产人员。

其中，所述数据生产模块根据热题集的分数，将待生产的数据分为A/B档数据，其中A档数据为务必生产数据，B档数据为高优生产数据。

A/B档数据均属于较高优先级数据，但是生产定价不一定高于普通生产题目。A/B档数据也会根据当前题库的产能情况、当前A/B档数据量动态计算、预估任务完成情况。如果产能不足，会优先提高优先级；当优先级已经足够高(高于其他生产数据后，提高优先级不会提高生产效率)，会提高该环节生产价格(有上限)；当产能仍然不足时，会降低B档的优先级与定价(有下限，高于普通题目)。由此可见，试题库生产的各个环节都有相应的调优先级能力和调价能力，以便灵活适应各种生产任务。

为保证A档数据生产，数据生产模块对A档数据采用重复投放的模式，让更多众包系统任务接受人可同时生产该题目，一位众包系统任务接受人完成生产后，其他人可手动选择放弃该题目，获得部分收益。

数据生产模块会将生产后的题目上线，并根据上线后的页面浏览量进行排序，将其中排名靠前的作为下一轮数据挖掘的依据。

本发明还公开了一种电子设备，其包括处理器和存储器，所述存储器用于存储计算机可执行程序，其中当所述计算机可执行程序被所述处理器执行时，所述处理器执行如上所述的高质数据的挖掘方法。

本发明还公开了一种计算机可读介质，其上存储有计算机可执行程序，其中所述计算机可执行程序被执行时，实现如上所述的高质数据的挖掘方法。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图3是作为本发明一实施例的高质数据的挖掘方法的整体流程图。如图3所示，该挖掘方法的流程主要分为三部分：1、数据整合分析；2、数据投产；3、题目生产。

1、数据整合分析

对题库中的题目数据进行分析，筛选出热题投产。

(1)根据题目信息：题目的pv、题目辅助信息(学科学段、知识点、质量分、来源等)、题目的相似簇找出热知识点和热簇；其中，是根据题目的页面浏览量(pv)找到高PV数据，根据题目信息找到对应的热簇；根据题目的辅助信息找到对应的热知识点，技术上还是采用简单的映射(map)关系来实现。

(2)根据题目的辅助信息(学段、知识点、质量分、来源等)，匹配当前时间信息：所属学年、学季，重点考试，重点学科进度，进而推断出热知识点和热簇；其中，具体是通过将如上信息在试题库中检索，得到匹配的内容，即可拿到对应的知识点，再根据知识点可以查到对应重点题目，进而找出热簇。

(3)根据用户Query，挖掘相关知识点，找出热知识点；具体例如也是根据Query的相关辅助信息映射(map)匹配到对应的知识点数据。

(4)根据热知识点和热簇反查出热题集；具体例如同样是通过映射(map)关系来实现反查的。

(5)根据题目的pv、质量、丰富度信息，挖掘数据加入热题集。其实质类似于数据投产相同的过滤策略。

2、数据投产

在热题集中，根据题目的相同簇和完整度、丰富度信息，对题目进行打分，一部分高质数据不需要投产；一部分低优数据不需要投产；其余数据根据打分投产。

3、题目生产

根据热题集的分数，分为A/B档数据，其中A档数据为务必生产数据，B档数据为高优生产数据。

(1)A/B档数据流转

对于热题数据，会根据数据的生成来源进行时效性标记(即根据阈值确定生产截止日期(deadline))数据生产的过程中，如果发现超过时效性，会重新判断该题目重投至低时效性生产，还是废弃生产。

(2)A/B档数据生产

①题库生产的各个环节都有相应的调优先级能力和调价能力，A/B档数据均属于较高优先级数据，但是生产定价不一定高于普通生产题目

②A/B档数据会根据当前题库产能情况、当前A/B档数据量动态计算、预估任务完成情况。如果产能不足，会优先提高优先级；当优先级已经足够高(高于其他生产数据后，提高优先级不会提高生产效率)，会提高该环节生产价格(有上限)；当产能仍然不足时，会降低B档的优先级与定价(有下限，高于普通题目)。

③为保证A档数据生产，对A档数据采用重复投放的模式，让更多老师可同时生产该题目，一位老师完成生产后，其他老师可手动选择放弃该题，获得部分收益。

(3)数据反哺

生产后的题目会上线，根据上线后的页面浏览量(pv)，作为下一轮数据挖掘的依据。

本发明的A/B档投产方式是本发明的核心内容，与普通投产、生产方式(投题、定优先级定价、生产)相比，A/B档生产更适合高质题目的生产，主要有如下原因：

①优先级、定价自动调整规则可以更好地集中众包用户资源，保证重要数据的生产。

②对于预估投产的数据，分析其价值曲线不同于普通题目的逐步下降或周期升降曲线；其曲线应为截止日期(deadline)前极高，截止日期后为0。对于这种数据，A/B档生产的流转策略能够更好保证生产的投资回报率(ROI)。

③重复投产策略是高质数据可以如期上线的重要保证，也是普通众包生产并不具备的能力。

图4是本发明的该实施例的电子设备的结构示意图，该电子设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行如上所述的高质数据的挖掘方法。

如图4所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图4显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

图5是本发明的该实施例的计算机可读记录介质的示意图。如图5所示，计算机可读记录介质中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明如上所述的高质数据的挖掘方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Python、Java、C++等，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等，本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现，例如由机车端的微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现，例如计算机程序执行的某些方法步骤可以在机车端执行，另一部分可以在移动终端或智能头盔等中执行。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得电子设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高质数据的挖掘方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述周期性特征是基于知识点的学期、学年信息，搜索试题与搜索人的学籍信息的周期性相关性，搜索试题的出现时机和频率来确定的。

3.根据权利要求1所述的方法，其特征在于，所述当前热点为系统根据搜索主题的相关辅助信息在试题库中检索到匹配的内容，从而映射得到的相关知识点信息。

4.根据权利要求1所述的方法，其特征在于，所述当前热点的相同簇或近似簇还基于题目的页面浏览量、题目的辅助信息和/或题目的相似簇来获得。

5.根据权利要求1所述的方法，其特征在于，所述当前热点的相同簇或近似簇还基于题目的辅助信息，匹配当前时间信息：所属学年、学季，重点考试，重点学科进度信息在试题库中进行检索匹配得到。

6.一种高质试题的生产方法，其特征在于，包括以下步骤：

采用如权利要求1-5中任一项所述的高质数据的挖掘方法来预估得到高质试题的相关数据信息；

如果需要，则组织生产。

7.根据权利要求6所述的方法，其特征在于，对需要进一步扩展生产的还需要根据其数据的生成来源进行时效性标记，将其分为高时效试题和低时效试题。

8.根据权利要求7所述的方法，其特征在于，在数据生产过程中，如果发现高时效试题超过时效性，会重新判断该题目是需要重投至低时效性生产，还是废弃生产。

9.根据权利要求6所述的方法，其特征在于，对需要进一步扩展生产的还根据题目的相同簇、完整度和/或丰富度信息，对在热题集中的题目进行打分。

10.根据权利要求6所述的方法，其特征在于，对于需要组织生产的以众包的模式分发给试题生产人员进行生产。