CN107943940A - 数据处理方法、介质、系统和电子设备 - Google Patents

数据处理方法、介质、系统和电子设备 Download PDF

Info

Publication number
CN107943940A
CN107943940A CN201711183776.1A CN201711183776A CN107943940A CN 107943940 A CN107943940 A CN 107943940A CN 201711183776 A CN201711183776 A CN 201711183776A CN 107943940 A CN107943940 A CN 107943940A
Authority
CN
China
Prior art keywords
resource
subclass
feature vector
classification
guidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711183776.1A
Other languages
English (en)
Inventor
朱臻
杜靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Youdao Information Technology Hangzhou Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201711183776.1A priority Critical patent/CN107943940A/zh
Publication of CN107943940A publication Critical patent/CN107943940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明的实施方式提供了一种数据处理方法,包括获取辅导资源的数据,基于所述数据,确定所述辅导资源的特征向量,以及基于所述特征向量,以多级分类的方式对所述辅导资源进行分类,其中,在每个级别中,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率,以及对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。该方法在保证分类精度的同时,能够有效减少分类的次数,显著提高辅导资源的分类效率,该方法还能够减少因需要选择不同辅导资源类型的通用特征带来的困难。此外,本发明的实施方式提供了一种数据处理系统以及电子设备。

Description

数据处理方法、介质、系统和电子设备
技术领域
本发明的实施方式涉及信息技术领域,更具体地,本发明的实施方式涉及一种数据处理方法、介质、系统和电子设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
考试作为一种测评/选拔方式,具有公平无歧视和测评/选拔效果好的优势而被广泛运用,无论是学生时代还是成年以后,人们经常需要面对各种考试。为了在考试过程中取得期望的成绩,应试者需要在考试前使用辅导资源进行复习,例如选取与考试题型和内容类似的试题训练。为了提高训练效果,通常还请有经验的人士对辅导资源进行分类,以达到针对性训练的效果。
发明内容
但是,出于人工定义规则的原因,现有技术通常需要多人交叉校对,不仅人力成本大大增加,同时也造成解决评判标准无法统一的问题。
因此在现有技术中,人力成本高以及评判标准无法统一是非常令人烦恼的过程。
为此,非常需要一种改进的数据处理方法,以通过机器智能化地对辅导资源进行分类。
在本上下文中,本发明的实施方式期望提供一种数据处理方法、介质、系统和电子设备。
在本发明实施方式的第一方面中,提供了一种数据处理方法,包括,获取辅导资源的数据,基于所述数据,确定所述辅导资源的特征向量,以及基于所述特征向量,以多级分类的方式对所述辅导资源进行分类。其中,在每个级别中,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率,以及对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
在本发明的一个实施例中,所述辅导资源包括视频类辅导资源。
在本发明的另一实施例中,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量,标题名词特征向量,以TF-IDF方法确定的多个词的特征向量,或者关键词特征向量。
在本发明的另一实施例中,所述辅导资源包括试题,所述获取辅导资源的数据包括通过网络爬虫从互联网上获取试题的数据和/或通过电子文档类材料中获取试题的数据。
在本发明的另一实施例中,所述特征向量包括以下一种向量或者多种向量的拼接,关键词特征向量,由多个连续字符的词性和/或命名实体表征的特征向量,或者在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
在本发明的另一实施例中,所述对所述辅导资源进行分类包括对所述试题的题目属性进行分类,所述题目属性包括知识点或难易度中的至少一种。
在本发明的另一实施例中,所述基于所述特征向量,以多级分类的方式对所述辅导资源进行分类包括若所述辅导资源的特征向量具有特定特征,则越级确定所述辅导资源所属的子类。
在本发明的另一个实施例中,所述分类采用支持向量机的分类方法。
在本发明的另一实施例中,所述辅导资源包括非试题类文本辅导资源,所述方法还包括,确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量,计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度,以及根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
在本发明的另一实施例中,所述方法还包括获取用户属性信息,以及基于所述用户属性信息和所述辅导资源的分类结果,向所述用户推送辅导资源。
在本发明实施方式的第二方面中,提供了一种计算机可读存储介质,所述指令被处理单元执行时使所述处理单元执行根据如上所述任一项方法。
在本发明实施方式的第三方面中,提供了一种数据处理系统,包括第一获取模块、第一确定模块以及分类模块。第一获取模块,用于获取辅导资源的数据。确定模块,用于基于所述数据,确定所述辅导资源的特征向量。分类模块,用于基于所述特征向量,以多级分类的方式对所述辅导资源进行分类。其中,在每个级别中,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率,以及对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
在本发明的一个实施例中,所述辅导资源包括视频类辅导资源。
在本发明的另一实施例中,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量,标题名词特征向量,以TF-IDF方法确定的多个词的特征向量,或者关键词特征向量。
在本发明的另一实施例中,所述辅导资源包括试题,所述获取模块包括获取子模块,用于通过网络爬虫从互联网上获取试题的数据和/或通过电子文档类材料中获取试题的数据。
在本发明的另一实施例中,所述特征向量包括以下一种向量或者多种向量的拼接,关键词特征向量,由多个连续字符的词性和/或命名实体表征的特征向量,或者在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
在本发明的另一实施例中,所述对所述辅导资源进行分类包括对所述辅导资源的题目属性进行分类,所述题目属性包括知识点或难易度中的至少一种。
在本发明的另一实施例中,所述分类模块包括分类子模块,用于在所述辅导资源的特征向量具有特定特征的情况下,则越级确定所述辅导资源所属的子类。
在本发明的另一实施例中,所述分类采用支持向量机的分类方法。
在本发明的另一实施例中,所述辅导资源包括非试题类文本辅导资源,所述系统还包括第二确定模块、计算模块以及第三确定模块。第二确定模块,用于确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量。计算模块,用于计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度。第三确定模块,用于根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
在本发明的另一实施例中,所述系统还包括第二获取模块以及推送模块。第二获取模块,用于获取用户属性信息。推送模块,用于基于所述用户属性信息和所述辅导资源的分类结果,向所述用户推送辅导资源。
在本发明实施方式的第四方面中,提供了一种电子设备,包括,处理单元,以及存储单元,其上存储有可执行指令,所述指令被所述处理单元执行时使所述处理单元执行如上所述任一项方法。
该方法、介质、系统以及电子设备能够通过机器智能化地对辅导资源进行分类,并且,采用多级分类的方式,在保证分类精度的同时,能够有效减少分类的次数,显著提高辅导资源的分类效率,另外,该方法能够减少因需要选择不同辅导资源类型的通用特征带来的困难,可以根据不同的辅导资源类型设计具有针对性的特征。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施例的辅导资源的数据;
图2和图3示意性地示出了根据本发明实施例的数据处理方法的流程图;
图4示意性地示出了根据本发明实施例的多级分类以及越级确定子类的示意图;
图5示意性地示出了根据本发明另一实施例数据处理方法的流程图;
图6示意性地示出了根据本发明另一实施例数据处理方法的流程图;
图7示意性地示出了根据本发明实施例的可读存储介质的示意图;
图8示意性地示出了根据本发明实施例的数据处理系统的框图;
图9示意性地示出了根据本发明另一实施例的数据处理系统的框图;
图10示意性地示出了根据本发明另一实施例的数据处理系统的框图;以及
图11示意性地示出了根据本发明实施例的适于实现数据处理方法和系统的电子设备。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种数据处理方法、介质、系统和电子设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,目前主流的辅导资源的分类采用人工标注的方式,首先采用该种方式需要大量的人力采用,由于不同的辅导资源标注人的知识背景不同,导致评判的标准不可能完全一样,导致评判的划分,评判的用词以及评判的结果都可能出现不同。本发明实施例提供的数据处理方法按照统一的规则对辅导资源数据提取特征向量,并基于辅导资源数据的特征向量对辅导资源分类,使得评判标准统一,由于避免了人工参与,因而节省的人工成本,提高结果的可靠性。另外,本发明实施例提供的数据处理方法采用多级分类,在保证分类精度的同时,能够有效减少分类的次数,显著提高辅导资源的分类效率,此外,该方法能够减少因需要选择不同辅导资源类型的通用特征带来的困难,可以根据不同的辅导资源类型设计具有针对性的特征。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示意性地示出了根据本发明实施例的辅导资源数据。该辅导资源数据可以是来自数据库的导入,也可以是通过网络爬虫等工具从网页上爬取,甚至可以是人工录入,本发明实施例对此不做限制。
如图1所示,该辅导资源例如可以是试题,该试题的数据包括题目部分110。图1所示意性示出的试题为一道选择题,其题目部分110可以进一步包括题干和选项。在其他形式的辅导资源数据中,可以不包括选项等内容,也可以进一步包括其他形式的内容,本发明对此不做限制。
根据本发明实施例,试题数据还可以包括答案部分120。答案部分120例如可以包括标准答案、答案解析以及预设难度等内容。答案部分并非必要,其形式也可以是任意的形式,不限于以上所描述的内容。
在现有的分类过程中,通常是由具备相关经验的人员,通过阅读辅导资源,主观地判断该辅导资源的类别。类别可以是根据知识点划分的,也可以是根据难易度划分的等等。
本发明实施例提供的方法可以自动地获取的辅导资源数据的特征向量,从而基于该特征向量对其进行多级分类,使得评判标准统一,节省的人工成本,提高结果的可靠性,提高辅导资源的分类效率,降低分类难度。
示例性方法
下面结合图1的应用场景,参考图2、图3和图4来描述根据本发明示例性实施方式的数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图2所示,该方法包括操作S210~S230。
在操作S210,获取辅导资源的数据。
在操作S220,基于所述数据,确定所述辅导资源的特征向量。
在操作S230,基于所述特征向量,以多级分类的方式对所述辅导资源进行分类。
如图3所示,在每个级别中,包括操作S310和S320。
在操作S310,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率。
在操作S320,对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
图4示意性地示出了根据本发明实施例的多级分类以及越级确定子类的示意图。
如图4所示,在该实施例中的多级分类包括三个级别,最高级别只有一个类别,即类别1,中间级别包括属于类别1的三个子类,分别是类别1.1、类别1.2、类别1.3,最低级别包括类别1.1的两个子类,类别1.1.1和类别1.1.2,以及类别1.3的三个子类,类别1.3.1、类别1.3.2和类别1.3.3。应当注意,该三层结构可以是某一个分类结构的全部,也可能是某一个分类结构的一个局部,在实际应用中,分类结构可以具有各种结构,只要带有层级结构即可,本发明示例性实施例并不以上述内容为限。
根据本发明示例性实施例,在最高级别中,辅导资源属于类别1,下面将要确定该辅导资源所属的细分子类。
在操作S310,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率。根据本发明示例性实施例,该下一级别中的任意两个子类的各种组合方式包括,(类别1.1,类别1.2)、(类别1.2,类别1.3)以及(类别1.1,类别1.3),基于该三种组合方式,确定辅导资源在每个组合方式中属于每个子类的概率,例如(0.9,0.1)、(0.4,0.6)以及(0.8,0.2)。
在操作S320,对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。根据本发明示例性实施例,可以计算类别1.1的概率之和为0.9+0.8=1.7;类别1.2的概率之和为0.1+0.4=0.5;类别1.3的概率之和为0.6+0.2=0.8。基于上述内容,确定该辅导资源属于类别1.1的概率较大,可以确定该辅导资源属于类别1.1。
在下一级别中,可以重复以上方法,确定该辅导资源属于类别1.1.1或者属于类别1.1.2。
本发明示例性实施例的方法通过多级分类的方式,在保证分类精度的同时,相对于直接将所有最终的子类两两组合计算概率而言,其大大减少分类的复杂程度,提高分类效率,同时该方法能够减少因需要选择不同辅导资源类型的通用特征带来的困难,能够针对每一次分类设计针对性的特征,简化分类难度,提高分类效果。
根据本发明示例性实施例,所述辅导资源包括视频类辅导资源。
在长期的教学过程中,企业内部和学校积累了大量优质的视频辅导资源,包括在线直播视频、录播视频,针对某些特定内容的微课,这些视频资源可以依据学生的学习水平模型成为针对性强的辅导材料。而这些资源均以二进制音视频文件存在,无法直接用来解析和预测。
本发明示例性实施例通过音字转换工具,将视频中语音转换为叙述文字。考虑到各类视频资源的不同特点,采用不同的选取策略,其中微课由于时间较短,一般维持在5-12分钟,因此选取全片段作为预料。录播视频平均时长为90分钟,根据教案特点,主题相关的内容均在视频的前15分钟有较多暴露,而后面部分特征性不强,因此截取前15分钟作为输入预料。最后直播因为涉及到调音环境配置,可能存在一些上课无关的噪音数据。因此,本发明示例性实施例以连续5分钟平均语言达到30字/分钟以上作为截取开端,并且截取15分钟。经过挑选的数据部分辅导资源属性预测的基础。
根据本发明示例性实施例,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量,标题名词特征向量,以TF-IDF方法确定的多个词的特征向量,或者关键词特征向量。
标题名词特征向量。由于标题本身以文字形式存在,并且对视频内容有很强的表征性,而标题中存在一些虚词,如“的“,“一种”对属性分类不仅没有帮助,且还有干扰性。因此本文根据词性语出结果,将所有名词取出,考虑到标题较短,文字较少,所以不筛选名词的重要,而将名词全部取出作为特征。
以TF-IDF方法确定的多个词的特征向量。TF-IDF作为主要的文本分类工具,也被引入作为视频的特征的来源。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF得分较高的词表示该词对不同类别的文本的区分能力较强。本文根据教学辅导抽样预料整理出停用词表,包括呢,吗,你,我等虚词和噪音词。然后对各语音转换出来的文本进行词频统计,根据TF-IDF计算得到得分最高TOP30的词作为特征。
关键词特征向量。考虑到语料规模有限,同时为了进一步提高属性分类的精度,可以采用人工总结一套关于各个类别的关键词词袋。当文本中出现关键词词袋中的词时,将该词将作为特征转化为特征向量。
根据本发明示例性实施例,所述辅导资源包括试题,所述获取辅导资源的数据包括通过网络爬虫从互联网上获取试题的数据和/或通过电子文档类材料中获取试题的数据。
根据本发明示例性实施例,所述对所述辅导资源进行分类包括对所述试题的题目属性进行分类,所述题目属性包括知识点或难易度中的至少一种。例如,在英语考试范畴下,知识点可以划分为词知识点、短语知识点以及句知识点,其中,词知识点还可继续划分为名词知识点、动词知识点、形容词知识点、副词知识点、介词知识点等,短语知识点可以划分为介词短语知识点和动词短语知识点等,句知识点可以划分为时态知识点、语态知识点和从句知识点等。
所述基于所述特征向量,以多级分类的方式对所述辅导资源进行分类包括,若所述辅导资源的特征向量具有特定特征,则越级确定所述辅导资源所属的子类。继续参考图4,对本发明实施例的越级确定子类进行说明。
如图4所示,除了图中的实线箭头外,还可以包括至少一个虚线箭头,该虚线箭头表示一个越级确定子类的路径,可以在具有强特征的情况下,直接越级确定所述辅导资源所述的子类。例如,在英文语法的试题分类中,包括中间级别词知识点、短语知识点以及句知识点,在句知识点下还包括时态知识点、语态知识点和从句知识点,在从句知识点下还可以包括定语从句、状语从句等知识点,在试题中出现“so that”时,可以越过中间的层级,而直接确定该题目为状语从句知识点。当然,上述示例仅仅是为了使本领域技术人员明白本公开的技术方案,实际上,越级约定子类所需要的强特征可能不只是“出现so that”这样简单的条件。
根据本发明示例性实施例,所述分类可以采用支持向量机(SVM,Support VectorMachine)的分类方法。在该分类方法中,在实际进行分类之前,先使用将大量带有类别标记的辅导资源的特征向量进行训练,如果能够找到超平面对其进行正确地分割,则将该超平面的表达式作为分类函数,如果不能找到可以正确分割训练辅导资源的超平面,则将其映射到更高的维度寻找能将其正确分割的超平面作为分类函数。在辅导资源分类时,使用通过训练所确定出的分类函数,将各个辅导资源的特征向量带入分类函数,即可获得分类结果。
当然,本发明实施例也可以采用其他分类方法,包括朴素贝叶斯、决策树归纳、随机森林、隐马尔可夫模型、遗传算法、或者神经网络等。
根据本发明示例性实施例,在获取辅导资源数据后,需要对辅导资源中的词进行标注,该过程可以由经过训练的计算机自行完成。
例如:
What(WP)would(MD)some(DT)students(NNS)like(IN)to(TO)do(VB)after(IN)finishing(VBG)their(PRP)education(NN)?(.)
They(PRP)would(MD)like(VB)to(TO)start(VB)to(TO)work(VB)________(RB)they(PRP)need(VBP)not(RB)depend(VB)on(IN)their(PRP)parents(NNS)completely(RB).(.)
A.as(RB)soon(RB)as(IN)B.(NNP)before(IN)C.(NNP)so(IN)that(IN)D.(NNP)while(IN)
上述预处理采用Stanford的Core NLP的自然语言处理程序,括号中为词级处理结果的标注标记符号,其中PRP指人名代词、MD指情态动词、DT代表限定词、NNS标识名词复数、IN表示副词或连词,TO表示目的副词、VB表示动词,VBG表示动名词、NN指名词、RB指副词、NNP为专有名词。
根据本发明示例性实施例,在所述辅导资源包括试题的情况下,所述特征向量包括以下一种向量或者多种向量的拼接:
关键词特征向量;
由多个连续字符的词性和/或命名实体表征的特征向量;或者
在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
其中,关键词特征向量是指在某一范围有较高出现频率但是在其他区域出现概率较低的名词或动词,这些词具有较高的分类区分度。本发明实施例的该类特征是在分析原始语料的基础上总结出来,虽然该类特征总数量不多,但是有些特征只在固定的类别中出现,因此,对提高整体分类有较大贡献。例如,关键词“先行词”、“引导”以较高频率出现在定语从句知识点的答案解析中,而在其他知识点出现频率较低。
由多个连续字符的词性和/或命名实体表征的特征向量是指联合使用多个词性标注和命名实体识别标记。该类特征不仅具有较高区分度并且具有普遍适用性。例如,连词知识点中的选项中“连词”的词性标注出现的频率较高,大多数该类选择题的4个选项中出现“连词”词性标注达到3个以上。
由所述参考答案和/或参考答案临近词的字符表征的特征向量指在参考答案周围的词性标注和命名实体识别标记,在本文中该类特征特指在答案解析中,正确答案选项值在解析中的定位的周围的词标注特征。该特征基于的假设是离重要信息点(如正确选项值)距离越近的信息越重要,而离重要信息点的距离越远则越不重要。例如,可以将标准答案前m个词距和向后n个词距之间的词性标注和命名实体标注作为特征向量,m、n为正整数。例如,在正确选择为C附近,C向前10个词距的5个词为“that意为‘以至于”,其词性标注为“字母专有名词”、“名词性素语”、“介词”、“标点符号”以及“连词”,该五个词标注为正确答案的原因解析信息点所在位置,因此这些标注具有较好的表征性,利用该特征可以提高知识点分类效果。
下面参考图5,对本发明另一实施例的数据处理方法进行说明。
图5示意性地示出了根据本发明另一实施例数据处理方法的流程图。
如图5所示,数据处理方法在图2和图3所描述的实施例的基础上,还包括S510~S530。
在操作S510,确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量。
所述非试题类文本辅导资源例如可以是知识类概念文本,教材节选文本,各类辅导材料等。根据本发明示例性实施例,可以通过与上述试题类似的分词/标注方法对非试题类文本辅导资源进行预处理。由于本类辅导资源较多较杂,难以人为选择关键词和词袋,本发明示例性实施例采用特征自动获取的方式,例如采用标题和高频名词结合方式。首先将分好词的标题中名词取出,再挑选文本出现部分频率最高的名词。为了计算权重的公平,可以设置固定的数量,例如可以设定词总数为30个,将这30个词作为相似度计算的特征。
在操作S520,计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度。
在操作S530,根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
根据本发明示例性实施例,通过计算文本向量和目标属性类别的相似度值来确定该文本属于具体哪个类别。具体来讲,为了便于计算首先将词转换为词向量,本发明示例性实施例采用训练好的word2vec来计算词向量值,通过30个词的向量值累加和来表示整个文本的向量。本文通过计算文本向量和目标类别的标准向量的余弦值来决定类别归属。余弦值最高者即属于该类别。
图6示意性地示出了根据本发明另一实施例数据处理方法的流程图。
如图6所示,该方法在图2和图3所描述的实施例的基础上,还包括S610和S620。
在操作S610,获取用户属性信息。根据本发明示例性实施例,用户属性信息例如可以包括适合此用户的知识点或者适合此用户的辅导资源难度等。其中,上述属性信息可以是单独的属性,也可以是由多个低级属性所确定的高级属性,例如,适合此用户的知识点可以是由未训练的知识点,易错知识点等属性综合得到的,而适合此用户的辅导资源难度可以是由用户在不同难度的试题下的答题正确率所确定的。
在操作S620,基于所述用户属性信息和所述辅导资源的分类结果,向所述用户推送辅导资源。
该方法可以基于用户的属性,智能地向用户推荐适合的辅导资源。
另外,由本发明实施例的方法获得的分类结果还可以用于辅导资源知识图谱的构建。例如,可以将一定数量的辅导资源依据辅导资源的分类结果,存储到数据库中,以便在选取辅导资源时能够按照分类情况从数据库中查找和读取相关信息,进行展示。该方法能够依照分类结果进行更系统更准确地存储,构建功能更为强大的辅导资源数据库
本发明实施例的方法还可以用于在接收学生答题结果后,基于对试题的分类情况,例如,从数据库中获取该题目的知识点和难易度等维度的信息,从而能够更精细的评价学生答题结果,提高用户体验。
本发明所公开的上述实施例可任意组合,或者做简单变换,得到需要的处理策略,以实现较好的技术效果。
示例性介质
本发明示例性实施方式提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被处理单元执行时用于实现上述方法实施例中任一项所述的数据处理方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤,例如,所述电子设备可以执行如图2中所示的操作S210:获取辅导资源的数据;操作S220:基于所述数据,确定所述辅导资源的特征向量;操作S230:基于所述特征向量,以多级分类的方式对所述辅导资源进行分类;操作S310:基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率;操作320:对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图7所示,描述了根据本发明的实施方式的用于数据处理的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图8对本发明示例性实施方式的数据处理系统800进行介绍。
如图8所示,数据处理系统800可以包括第一获取模块810、第一确定模块820以及分类模块830。
第一获取模块810,例如执行上文参考图2描述的操作S210,用于获取辅导资源的数据。
第一确定模块820,例如执行上文参考图2描述的操作S220,用于基于所述数据,确定所述辅导资源的特征向量。
分类模块830,例如执行上文参考图2描述的操作S230,用于基于所述特征向量,以多级分类的方式对所述辅导资源进行分类,其中,在每个级别中,基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率,以及对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
在本发明的一个实施例中,所述辅导资源包括视频类辅导资源。
在本发明的另一实施例中,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量,标题名词特征向量,以TF-IDF方法确定的多个词的特征向量,或者关键词特征向量。
在本发明的另一实施例中,所述辅导资源包括试题,所述获取模块包括获取子模块,用于通过网络爬虫从互联网上获取的辅导资源的数据和/或通过电子文档类材料中获取的试题的数据。
在本发明的另一实施例中,所述特征向量包括以下一种向量或者多种向量的拼接,关键词特征向量,由多个连续字符的词性和/或命名实体表征的特征向量,或者在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
在本发明的另一实施例中,所述对所述辅导资源进行分类包括对所述辅导资源的题目属性进行分类,所述题目属性包括知识点或难易度中的至少一种。
在本发明的另一实施例中,所述分类模块包括分类子模块,用于在所述辅导资源的特征向量具有特定特征的情况下,则越级确定所述辅导资源所属的子类。
在本发明的另一实施例中,所述分类采用支持向量机的分类方法。
图9示意性地示出了根据本发明另一实施例的数据处理系统900的框图。
如图9所示,数据处理系统900在图8所示意的实施例的基础上还包括第二确定模块910、计算模块920以及第三确定模块930。
第二确定模块910,用于确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量。
计算模块920,用于计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度。
第三确定模块930,用于根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
图10示意性地示出了根据本发明另一实施例的数据处理系统1000的框图。
如图10所示,数据处理系统1000在图8所示意的实施例的基础上还包括第二获取模块1010以及推送模块1020。
第二获取模块1010,用于获取用户属性信息。
推送模块1020,用于基于所述用户属性信息和所述辅导资源的分类结果,向所述用户推送辅导资源。
由于发明的示例实施例的数据处理系统800、900或1000的各个功能模块与上述信息呈现方法的示例实施例的步骤对应,因此在此不再赘述。
示例性电子设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图11对本发明示例性实施方式的一种电子设备,用于对辅导资源分类。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤。例如,所述处理单元可以执行如图2中所示的操作S210:获取辅导资源的数据;操作S220:基于所述数据,确定所述辅导资源的特征向量;操作S230:基于所述特征向量,以多级分类的方式对所述辅导资源进行分类;操作S310:基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率;操作320:对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
下面参照图11来描述根据本发明的这种实施方式的电子设备1100。图11所示的电子设备1100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用电子设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
总线1130表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1120可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1121和/或高速缓存存储器1122,还可以进一步包括只读存储器(ROM)1123。
存储单元1120还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备1100也可以与一个或多个外部设备1140(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与电子设备1100交互的设备通信,和/或与使得电子设备1100能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了对显示区域中的多个组件进行显示的装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种数据处理方法,包括:
获取辅导资源的数据;
基于所述数据,确定所述辅导资源的特征向量;以及
基于所述特征向量,以多级分类的方式对所述辅导资源进行分类,其中,在每个级别中:
基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率;以及
对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
2.根据权利要求1所述的方法,其中,所述辅导资源包括视频类辅导资源。
3.根据权利要求2所述的方法,其中,所述基于所述数据,确定所述辅导资源的特征向量包括将音频转换成文字,并基于所述文字,确定以下至少一种特征向量:
标题名词特征向量;
以TF-IDF方法确定的多个词的特征向量;或者
关键词特征向量。
4.根据权利要求1所述的方法,其中,所述辅导资源包括试题,所述获取辅导资源的数据包括通过网络爬虫从互联网上获取试题的数据和/或通过电子文档类材料中获取试题的数据。
5.根据权利要求4所述的方法,其中,所述特征向量包括以下一种向量或者多种向量的拼接:
关键词特征向量;
由多个连续字符的词性和/或命名实体表征的特征向量;或者
在所述试题的数据包含参考答案的情况下,由所述参考答案和/或参考答案临近词的字符表征的特征向量。
6.根据权利要求1所述的方法,其中,所述基于所述特征向量,以多级分类的方式对所述辅导资源进行分类包括:
若所述辅导资源的特征向量具有特定特征,则越级确定所述辅导资源所属的子类。
7.根据权利要求1所述的方法,其中,所述辅导资源包括非试题类文本辅导资源,所述方法还包括:
确定非试题类文本辅导资源的标题名词特征向量和/或出现频率最高的多个词的特征向量作为该非试题类文本辅导资源的特征向量;
计算所述试题类文本辅导资源的特征向量与各个类别的标准向量的余弦相似度;以及
根据所述余弦相似度,确定所述试题类文本辅导资源所属的类别。
8.一种计算机可读存储介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。
9.一种数据处理系统,包括:
第一获取模块,用于获取辅导资源的数据;
第一确定模块,用于基于所述数据,确定所述辅导资源的特征向量;以及
分类模块,用于基于所述特征向量,以多级分类的方式对所述辅导资源进行分类,其中,在每个级别中:
基于当前类别在下一级别中的任意两个子类的各种组合方式,分别确定所述辅导资源在每个组合方式中属于每个子类的概率;以及
对于每个子类,计算所述辅导资源在每种组合方式下属于该子类的概率之和,确定辅导资源所属的子类。
10.一种电子设备,包括:
处理单元;以及
存储单元,其上存储有可执行指令,所述指令被所述处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。
CN201711183776.1A 2017-11-23 2017-11-23 数据处理方法、介质、系统和电子设备 Pending CN107943940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711183776.1A CN107943940A (zh) 2017-11-23 2017-11-23 数据处理方法、介质、系统和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711183776.1A CN107943940A (zh) 2017-11-23 2017-11-23 数据处理方法、介质、系统和电子设备

Publications (1)

Publication Number Publication Date
CN107943940A true CN107943940A (zh) 2018-04-20

Family

ID=61930107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711183776.1A Pending CN107943940A (zh) 2017-11-23 2017-11-23 数据处理方法、介质、系统和电子设备

Country Status (1)

Country Link
CN (1) CN107943940A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN109684436A (zh) * 2018-11-30 2019-04-26 北京作业盒子科技有限公司 一种知识的关联方法及应用
CN109902178A (zh) * 2019-02-28 2019-06-18 云孚科技(北京)有限公司 一种多级文本分类方法及系统
CN110572435A (zh) * 2019-08-05 2019-12-13 慧镕电子系统工程股份有限公司 一种云计算系统的数据处理方法
CN112800573A (zh) * 2019-11-14 2021-05-14 北京圣涛平试验工程技术研究院有限责任公司 可靠性分析方法及装置
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
CN101599126A (zh) * 2009-04-22 2009-12-09 哈尔滨工业大学 利用全局互信息加权的支持向量机分类器
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN109255031B (zh) * 2018-09-20 2022-02-11 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN109684436A (zh) * 2018-11-30 2019-04-26 北京作业盒子科技有限公司 一种知识的关联方法及应用
CN109684436B (zh) * 2018-11-30 2021-08-03 北京作业盒子科技有限公司 一种知识的关联方法及应用
CN109902178A (zh) * 2019-02-28 2019-06-18 云孚科技(北京)有限公司 一种多级文本分类方法及系统
CN110572435A (zh) * 2019-08-05 2019-12-13 慧镕电子系统工程股份有限公司 一种云计算系统的数据处理方法
CN110572435B (zh) * 2019-08-05 2022-02-11 慧镕电子系统工程股份有限公司 一种云计算系统的数据处理方法
CN112800573A (zh) * 2019-11-14 2021-05-14 北京圣涛平试验工程技术研究院有限责任公司 可靠性分析方法及装置
CN112800573B (zh) * 2019-11-14 2023-11-03 北京圣涛平试验工程技术研究院有限责任公司 可靠性分析方法及装置
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法

Similar Documents

Publication Publication Date Title
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
US20170193393A1 (en) Automated Knowledge Graph Creation
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
US10339168B2 (en) System and method for generating full questions from natural language queries
US20160350288A1 (en) Multilingual embeddings for natural language processing
US20210142791A1 (en) System and Method for Intent Discovery from Multimedia Conversation
US20210149936A1 (en) System and method for generating improved search queries from natural language questions
US9754504B2 (en) Generating multiple choice questions and answers based on document text
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
US10303766B2 (en) System and method for supplementing a question answering system with mixed-language source documents
US9613133B2 (en) Context based passage retrieval and scoring in a question answering system
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
US9953027B2 (en) System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
JP2018005690A (ja) 情報処理装置及びプログラム
WO2022234543A1 (en) Systems and methods for active curriculum learning
Benedetto et al. A survey on recent approaches to question difficulty estimation from text
US9984063B2 (en) System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
Li et al. Confidence estimation and reputation analysis in aspect extraction
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
Lee Natural Language Processing: A Textbook with Python Implementation
Bruchansky Political footprints: Political discourse analysis using pre-trained word vectors
US20240153396A1 (en) Language learning
Ellouze et al. C-DESERT Score for Arabic Text Summary Evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190821

Address after: 310052 Room 309, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Netease Youdao Information Technology (Hangzhou) Co., Ltd.

Address before: Hangzhou City, Zhejiang province Binjiang District 310052 River Street Network Road No. 599 building 4 layer 7

Applicant before: NetEase (Hangzhou) Network Co., Ltd.

TA01 Transfer of patent application right