CN111680157A

CN111680157A - 数据处理方法、装置、设备及计算机存储介质

Info

Publication number: CN111680157A
Application number: CN202010507991.8A
Authority: CN
Inventors: 牛临潇; 王海涛; 李南贤; 李�诚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-18

Abstract

本公开实施例公开了一种数据处理方法、装置、设备和计算机存储介质。该方法包括：获取第一数据，其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；获取分类器；其中，所述分类器是基于第二数据得到的，所述第二数据包括已分级文件中每一级别词汇的数量信息；通过分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别。如此，本公开实施例中，在待分级文件为任一阅读材料的情况下，可以灵活地确定出该阅读材料对应的级别。

Description

数据处理方法、装置、设备及计算机存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、设备以及计算机存储介质。

背景技术

在相关技术的语言学习体系中，语言学习者通常需要借助大量的阅读材料来巩固学习成果，拓宽学习范围。然而，在现有的语言学习，比如英语学习体系中，语言学习者通常只能从其所选择的语言学习体系内已经确定级别的、有限的若干阅读材料，来选择与其语言学习水平相当的阅读材料，而在面对该语言学习体系之外的任一阅读材料的情况下，语言学习者无法得知该阅读材料的级别信息，也就无法确定该阅读材料是否适合自身阅读学习。

发明内容

本公开实施例期望提供数据处理的技术方案。

本公开实施例提供了一种数据处理的方法，所述方法包括：

获取第一数据，其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；

获取分类器；其中，所述分类器是基于第二数据得到的，所述第二数据包括已分级文件中每一级别词汇的数量信息；

通过所述分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别。

可选的，所述方法还包括：

获取标准分级样本，其中，所述标准分级样本用于实现词汇分级；

基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，得到所述第一数据和所述第二数据。

由以上可以看出，在首先获取用于实现词汇分级的标准分级样本的条件下，再使用该标准分级样本对待分级文件和已分级文件进行处理，因而，得到的第一数据和第二数据，可以充分的体现出待分级文件和已分级文件分别承载的标准分级样本中级别的特征，从而第一数据和第二数据可以准确的体现出待分级文件和已分级文件的级别特征，为后续的分类器调整、以及对待分类文件的精确分类，提供了有利条件。

可选的，所述基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，包括：

基于所述标准分级样本，确定第三数据；其中，所述第三数据包括所述标准分级样本中每一级别词汇的集合；

基于所述第三数据，对所述待分级文件和所述已分级文件进行处理。

由以上可以看出，基于标准分级样本确定的第三数据，可以准确而客观的反映出标准分级样本中各个样本的级别特性，在这种情况下，再基于第三数据，对待分级文件和已分级文件进行处理，得到的第一数据和第二数据，能够体现出待分级文件和已分级文件中所包含的各个级别的词汇信息。

可选的，所述标准分级样本，包括至少两个级别的标准分级文件；所述基于所述标准分级样本，确定第三数据，包括：

在所述标准分级样本中检索待检索词汇，确定第一级别信息；其中，所述待检索词汇，用于表示所述标准分级样本中的任一词汇或词汇组合；所述第一级别信息，表示所述待检索词汇首次出现位置所对应的标准分级文件的级别信息；所述首次出现位置，用于表示所述待检索词汇在所述标准分级样本中首次出现的位置；

基于每一所述待检索词汇的所述第一级别信息，确定所述第三数据。

基于此，在本公开实施例提供的数据处理方法中，通过在标准分级样本中检索待检索词汇，首先确定待检索词汇的首次出现位置，再根据首次出现位置确定各个待检索词汇的第一级别信息，从而实现了在标准分级样本或标准分级文件未具备词汇列表的条件下，依然可以快速而全面的确定表示标准分级样本中每一级别词汇集合的第三数据。

可选的，所述在所述标准分级样本中检索待检索词汇，确定第一级别信息，包括：

确定所述待检索词汇在所述标准分级样本中的检索范围；

基于所述检索范围，在所述标准分级样本中检索所述待检索词汇，确定所述第一级别信息。

基于此，在本公开实施例中，首先确定待检索词汇在标准分级样本中的检索范围，再基于检索范围，在标准分级样本中检索待检索词汇，以确定第一级别信息，从而实现了待检索词汇的快速检索，因而，在确定第一级别信息的过程中，实现了计算量的降低，计算速度的提高，从而提高了计算效率。

可选的，所述确定所述待检索词汇在所述标准分级样本中的检索范围，包括：

基于预设的词汇级别判断规则和所述标准分级样本，确定第二级别信息；其中，所述第二级别信息，用于表示所述待检索词汇的起始检索级别信息；

基于所述第二级别信息，确定所述检索范围。

基于此，在本公开实施例中，首先基于预设的词汇级别判断规则和标准分级文件，确定表示待检索词汇的最低级别信息的第二级别信息，然后基于第二级别信息，确定检索范围，因而，本公开实施例所提供的检索范围的确定方法，可以很大程度上减少词汇检索的数量，从而降低了词汇检索的运算时间，节省了词汇检索所占用的计算资源，实现了待检索词汇的快速定位。

可选的，所述分类器是基于以下步骤得到的：

基于所述第二数据，获取比例信息；其中，所述比例信息，用于表示所述第二数据相对于所述已分级文件中所有词汇数量的比例；

基于所述比例信息，训练初始分类器，得到所述分类器。

基于此，在本公开实施例中，首先基于第二数据，获取表示第二数据相对于已分级文件中所有词汇数量比例的比例信息，再基于该比例信息，建立分类器。也就是说，在训练分类器之前，首先对分类器建立所依赖的数据进行了归一化处理，从而使得分类器训练过程中的数据运算范围缩小，缩短了分类器训练过程所需要的时间，也降低了分类器训练时数据运算产生的存储开销，进而降低了分类器训练的时间成本和运算资源成本。

可选的，所述方法还包括：

获取第二分级结果；其中，所述第二分级结果，用于表示与目标对象对应的级别信息；

基于所述第二分类结果，获取推荐文件列表；其中，所述推荐文件列表，用于表示所述待分级文件中与所述第二分级结果对应的文件列表。

基于此，在本公开实施例中，首先得到用于表示与目标对象对应级别信息的第二分级结果，再得到用于表示待分级文件中与第二分级结果对应的推荐文件列表。由此，本公开实施例中，在分类器训练完成之后，可以根据目标对象本身的级别信息推荐与其对应的推荐文件列表，一方面，使得目标对象获取对应推荐文件列表的操作更加快捷智能，另一方面，也使得目标对象获取的推荐文件列表的针对性更强。

可选的，所述获取第二分级结果，包括：

获取所述目标对象的级别测试结果；其中，所述级别测试结果，表示所述对目标对象进行词汇级别测试得到的结果；

基于所述级别测试结果，得到所述第二分级结果。

基于此，在本公开实施例中，首先获取表示目标对象通过级别测试得到的至少一个词汇的集合的级别测试结果，然后基于级别测试结果，得到第二分级结果。由此，本公开实施例中所获取到的第二分级结果，能够全面而客观的反应出目标对象的语言水平。

可选的，所述基于所述级别测试结果，得到所述第二分级结果，包括：

基于所述级别测试结果，确定第四数据；其中，所述第四数据，用于表示所述级别测试结果中每一级别的已识别词汇的数量信息；所述已识别词汇为在所述级别测试结果中所述目标对象能够正确识别的词汇；

通过所述分类器对所述第四数据进行处理，得到所述第二分级结果。

基于此，在本公开实施例中，首先获取级别测试集结果中每一级别的词汇数量的第四数据，然后通过分类器对第四数据进行处理，得到第二分级结果。由此，本公开实施例通过分类器所获取到的第二分级结果，能够快速全面而客观的反应出目标对象的语言水平。

本公开实施例还提供了一种数据处理装置，所述数据处理装置包括：获取模块和处理模块；其中：

所述获取模块，用于获取第一数据和第二数据；其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；所述第二数据，包括已分级文件所包含的每一级别词汇的数量信息；

所述处理模块，用于获取分类器；

所述处理模块，还用于通过所述分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别；所述分类器，是基于所述第二数据得到的。

可选的，所述获取模块，用于获取标准分级样本，其中，所述标准分级样本用于实现词汇分级；

所述处理模块，用于基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，得到所述第一数据和所述第二数据。

由以上可以看出，在首先获取用于实现词汇分级的标准分级样本的条件下，再使用该标准分级样本对待分级文件和已分级文件进行处理，因而，得到的第一数据和第二数据，可以充分的体现出待分级文件和已分级文件分别承载的标准分级样本中级别的特征，从而，第一数据和第二数据可以准确的体现出待分级文件和已分级文件的级别特征，为后续的分类器调整、以及对待分类文件的精确分类，提供了有利条件。

可选的，所述处理模块，用于基于所述标准分级样本，确定第三数据；其中，所述第三数据包括所述标准分级样本中每一级别词汇的集合；

可选的，所述处理模块，用于在所述标准分级样本中检索待检索词汇，确定第一级别信息；其中，所述待检索词汇，用于表示所述标准分级样本中的任一词汇或词汇组合；所述第一级别信息，表示所述待检索词汇首次出现位置所对应的标准分级文件的级别信息；所述首次出现位置，用于表示所述待检索词汇在所述标准分级样本中首次出现的位置；

所述处理模块，还用于基于每一所述待检索词汇的所述第一级别信息，确定所述第三数据。

可选的，所述处理模块，用于确定所述待检索词汇在所述标准分级样本中的检索范围；

所述处理模块，还用于基于所述检索范围，在所述标准分级样本中检索所述待检索词汇，确定所述第一级别信息。

可选的，所述处理模块，用于基于预设的词汇级别判断规则和所述标准分级样本，确定第二级别信息；其中，所述第二级别信息，用于表示所述待检索词汇的起始检索级别信息；

所述处理模块，还用于基于所述第二级别信息，确定所述检索范围。

可选的，分类器，是基于以下步骤得到的：

基于所述比例信息，训练初始分类器，得到所述分类器。

基于此，在本公开实施例中，首先基于第二数据，获取表示第二数据相对于已分级文件中所有词汇数量比例的比例信息，再基于该比例信息，建立分类器。也就是说，在训练分类器之前，首先对分类器建立所依赖的数据进行了归一化处理，从而使得分类器训练过程中的数据运算范围缩小，缩短了分类器训练过程所需要的时间，也降低了分类器建立时数据运算产生的存储开销，进而降低了分类器训练的时间成本和运算资源成本。

可选的，所述处理模块，用于获取第二分级结果；其中，所述第二分级结果，用于表示与目标对象对应的级别信息；

所述处理模块，还用于基于所述第二分级结果，获取推荐文件列表；其中，所述推荐文件列表，用于表示所述待分级文件中与所述第二分级结果对应的文件列表。

可选的，所述处理模块，用于获取所述目标对象的级别测试结果；其中，所述级别测试结果，表示对所述目标对象进行级别测试得到的结果；

所述处理模块，还用于基于所述级别测试结果，得到所述第二分级结果。

可选的，所述处理模块，用于基于所述级别测试结果，确定第四数据；其中，所述第四数据，用于表示所述级别测试结果中每一级别的已识别词汇的数量信息；所述已识别词汇为在所述级别测试结果中所述目标对象能够正确识别的词汇；

所述处理模块，还用于通过所述分类器对所述第四数据进行处理，得到所述第二分级结果。

基于此，在本公开实施例中，首先获取级别测试集结果中每一级别的词汇数量信息的第四数据，然后通过分类器对第四数据进行处理，得到第二分级结果。由此，本公开实施例通过分类器所获取到的第二分级结果，能够快速全面而客观的反应出目标对象的语言水平。

本公开实施例还提供了一种数据处理设备，所述数据处理设备包括处理器和存储器；其中：

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于运行所述计算机程序时，执行以上任一所述的数据处理方法。

本公开实施例还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前一项所述的数据处理方法。

由以上可以看出，在本公开实施例中，首先基于已分级文件中每一级别词汇的数量，获取分类器，因而，获取的分类器，能够充分体现出已分级文件每一级别的阅读材料所包含的每一级别词汇信息，然后获取待分级文件中每一级别词汇数量的第一数据，再通过分类器对第一数据进行处理，得到待分级文件对应级别的第一分级结果。由此，本公开实施例所提供的数据处理方法，可以利用分类器得到待分级文件所对应的级别，从而对于语言学习体系之外的任一阅读材料，都可以得到该阅读材料所对应的级别，因而，灵活的实现了任一阅读材料对应级别的快速准确确定，大大提高了语言学习者的学习效率，也拓宽了语言学习者的阅读材料的范围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的一种数据处理方法的流程示意图；

图2为本公开实施例提供的数据处理方法的具体实现流程示意图；

图3为本公开实施例提供的数据处理装置的结构示意图；

图4为本公开实施例提供的数据处理设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

应当理解，此处所描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。另外，以下是所提供的实施例是用于实施本公开的部分实施例，而非提供实施本公开的全部实施例，在不冲突的情况下，本公开实施例所述记载的技术方案，可以以任意组合的方式实施。

需要说明的是，在本公开实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

例如，本公开实施例提供的数据处理方法包含了一系列的步骤，但是，本公开实施例所提供的数据处理方法不限于所记载的步骤。同样地，本公开实施例所提供的数据处理装置，包括了一系列模块，但是，本公开实施例所提供的装置不限于明确记载的模块，还可以包括为获取相关信息、或基于数据进行处理时所需要设置的模块。

本公开实施例可以应用于终端和服务器等硬件或硬件组成的计算机系统中，并可以与众多其它通用或专用计算系统环境或配置一起操作，或者可通过处理器运行计算机可执行代码的方式实现本公开实施例。这里，终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统，等等，服务器可以是服务器计算机系统小型计算机系统大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端、服务器等电子设备，可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

通常情况下，语言学习者，比如英语学习者，除了需要按照语言学习计划学习语言学习体系中提供的材料，比如课文、授课文件之外，还需要通过大量的阅读材料来巩固学习成果，拓宽学习范围。

在相关技术中，以英语学习为例，英语学习者所采用的阅读材料，通常包括英语学习体系中的阅读资料和英语学习体系之外的其他阅读资料两部分。

一方面，英语学习体系中的阅读资料，通常都已经针对英语授课标准、英语学习者的学习进度和水平进行了分级，因而，英语学习者，可以在英语学习体系中选择与当前授课进度以及自身英语水平对应等级的阅读资料。

另一方面，英语学习体系之外的其他阅读资料，通常也具有相应的分类标准，比如：指导性阅读分级体系(Guided Reading Level，GRL)、蓝思阅读分级(Lexile)、发展性阅读评估(Developmental Reading Assessment，DRA)以及进阶阅读(Accelerated Reader，AR)，比如对于一份已经采用过GRL/Lexile/DRA/AR分级的阅读材料，英语学习者可以根据阅读材料的分级标签得知该阅读材料的难易程度。

此外，在相关技术中，还有诸如与语言等级考试相关的阅读材料。以英语等级考试为例，大学英语的四级考试和六级考试，都有与考试类型对应的、难度已经划分级别的阅读材料。

以上列举的几种类型的阅读材料，在英语学习者使用或阅读该阅读材料之前，阅读材料的难易程度级别均已经被划分完成，或者说，这些阅读材料，还可以是根据设定难易程度的目标等级，由专业人员根据设定难易程度的目标等级撰写的。

对语言学习者而言，比如英语学习者而言，其通过一些其他途径比如杂志、报纸、网页页面链接等方式获取到的阅读资料，并未纳入上述几种阅读材料的范围，语言学习者也就无法确定这一类别的阅读资料对应的级别。

针对上述技术问题，在本公开实施例中，提出了一种数据处理方法，可以将语言学习者获得的任何一种学习资料进行处理，得到该学习资料的级别信息。

需要说明的是，在本公开实施例所提供的数据处理方法中，词汇可以用于表示单独的词汇本身，还可以用于表示词汇与词汇之间的组合，比如，词汇组合。

图1为本公开实施例提供的数据处理方法的流程图。如图1所示，本公开实施例提供的数据处理方法的流程可以包括以下步骤：

步骤101、获取第一数据。

其中，第一数据包括待分级文件中每一级别词汇的数量信息。

本公开实施例中，待分级文件可以包括至少一个未分级的阅读材料。

在一种实施方式中，待分级文件可以包含有多种不同级别的词汇。

在一种实施方式中，待分级文件，可以用于表示并未经过分级的阅读材料，或者是与语言学习体系中的各个级别并未进行匹配的材料。

在一种实施方式中，通过网页、杂志或报纸等途径，获取到的词汇数量满足预设要求的材料，并以一定的形式进行保存，可以得到待分级文件。

本公开实施例中，在待分级文件的阅读材料中包含有一个级别的词汇时，第一数据所表示的该唯一级别的词汇的数量信息，可以是该唯一级别的词汇的个数。比如，在待分级文件的每一阅读材料中，仅包括第M级别的词汇，在这种情况下，第一数据，可以用于表示第M级别的词汇个数，比如N_m；其中，在级别从1开始划分的情况下，M为大于或等于1的整数，N_m为大于0的整数。

在一种实施方式中，在待分级文件的阅读材料中包含有至少两个级别的词汇时，第一数据，可以是待分级文件中每一级别词汇的个数的集合，示例性地，第一数据，可以将每一级别词汇的个数以数组或数字集合的形式进行表示。比如，待分级文件的所有阅读材料中，包括第一级别至第K级别的词汇，第一数据可以为第一级别至第K级别中每一级别的词汇个数的集合，如(N₁，……，N_K)，其中，K为大于1的整数，N₁，……，N_K均为大于或等于0的整数，并且，N₁，……，N_K分别用于表示第一级别至第K级别词汇的个数信息。

在一种实施方式中，在待分级文件的阅读材料中包含有至少两个级别的词汇时，第一数据，可以是待分级文件中每一级别词汇的个数比例的集合，其中，每一级别词汇的个数比例，可以是当前级别词汇的个数与所有级别词汇的个数之和的比例。示例性地，第一数据，可以将每一级别词汇的个数比例以数组或数字集合的形式进行表示。比如，待分级文件的每一阅读材料中，包括第一级别至第K级别的词汇，第一数据可以为(P₁，……，P_k)，其中，P₁，……，P_k为第一级别到第K级别的词汇的个数比例，且P₁，……，P_k均为大于或等于0，且小于1的数字，其中，P₁＝N₁/(N₁+……+N_K)，且P₁+……+P_k＝1。

本公开实施例中，第一数据，可以是对待分级文件的每一阅读材料进行分析，先得到待分级文件的每一阅读材料所包含的每一词汇，再对每一词汇进行分级统计而获取到的。

步骤102、获取分类器。

其中，分类器是基于第二数据得到的，第二数据包括已分级文件中每一级别词汇的数量信息。

本公开实施例中，已分级文件，可以用于表示语言学习体系内通过一定方式分级的文件。

在一种实施方式中，已分级文件，可以用于表示经过GRL/Lexile/DRA/AR等方式分级的文件。

在一种实施方式中，已分级文件，可以用于表示与语言等级考试相关联的、并经过语言等级考试机构分级的文件。

在一种实施方式中，已分级文件，还可以用于表示通过如下方式至少之一进行等级划分得到的文件：

根据语言学习体系的进展程度、难易程度等进行等级划分；

根据语言学习者的接受能力以及个人喜好等进行等级划分；

根据语言学习者的学习目标、学习程度等进行等级划分；

根据语言学习者的专业要求、学习方向等进行等级划分。

在一种实施方式中，已分级文件，可以用于表示与语言学习体系中所采用的学习资料的等级一一对应的文件。例如，英语课文。

在一种实施方式中，第二数据，不仅包括已分级文件中每一级别的词汇的数量信息，还包括每一级别的词汇对应的级别信息。

在本公开实施例中，第二数据的表示方式与第一数据类似，此处不再重复。

在本公开实施例中，分类器可以是基于第二数据得到的，能够对待分级文件进行分级的线性分类器。

在一种实施方式中，分类器可以是基于第二数据进行训练得到的、能够对待分级文件进行分级的神经网络或支持向量机。

在本公开实施例中，步骤101和步骤102的上述执行顺序可以互换。

步骤103、通过分类器对第一数据进行处理，得到第一分级结果。

其中，第一分级结果，用于表示待分级文件对应的级别。

在本公开实施例中，将第一数据输入至训练完成的分类器中，分类器根据第一数据中携带的每一级别词汇的数量信息，对第一数据进行级别划分，并将级别划分的结果即第一分级结果输出。

示例性地，在本公开实施例中，第一分级结果，可以用于表示待分级文件对应的等级，比如第一级、第K级，还可以用于表示待分级文件对应的子等级，比如第1.1级，第1.K级等。

在实际应用中，步骤101至步骤103可以利用电子设备中的处理器实现，上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可变成逻辑门阵列(Field Programmable Gate Array，FPGA)、中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

由以上可以看出，在本公开实施例中，首先基于已分级文件中每一级别词汇的数量，获取分类器，因而，获取的分类器，能够充分体现出已分级文件每一级别的阅读材料所包含每一级别词汇的数量信息，然后获取待分级文件中每一级别词汇数量的第一数据，再通过分类器对第一数据进行处理，得到待分级文件对应级别的第一分级结果。由此，本公开实施例所提供的数据处理方法，可以利用分类器得到待分级文件所对应的级别，从而对于语言学习体系之外的任一阅读材料，都可以得到该阅读材料所对应的级别，因而，灵活的实现了任一阅读材料对应级别的高效确定，大大提高了语言学习者的学习效率，也拓宽了语言学习者的阅读材料的范围。

在一种实施方式中，本公开实施例所提供的数据处理方法，还包括：

获取标准分级样本，其中，标准分级样本用于实现词汇分级；基于标准分级样本，分别对待分级文件和已分级文件进行处理，得到第一数据和第二数据。

在本公开实施例中，标准分级样本，可以用于表示与某一分级标准对应的分级数据样本。

示例性地，分级数据样本，可以用于表示与上述分级标准对应的可阅读文件。其中，上述可阅读文件，可以以文本的形式进行展示，还可以以图片的形式进行展示。可选的，在图片形式展示的可阅读文件中，每一级别的词汇均是能够被清晰准确地识别的。

示例性地，分级数据样本，可以用于表示与上述分级标准对应的可阅读文件所包含的样本词汇列表。可选的，样本词汇列表，可以是对上述可阅读文件进行词汇识别和词汇归类得到的。可选地，样本词汇列表，可以包括可阅读文件中每一级别信息以及与每一级别信息对应的所有词汇列表。

示例性地，分级数据样本，可以包括上述可阅读文件以及与上述可阅读文件对应的样本词汇列表。

在本公开实施例中，标准分级样本，可以用于表示与权威分级标准对应的分级数据样本。例如，标准分级样本是与权威分级标准对应的可阅读材料或词汇列表等。

在一种实施方式中，标准分级样本，可以用于表示与GRL/Lexile/DRA/AR等分级标准对应的分级数据样本。

在一种实施方式中，标准分级样本，可以用于表示与语言等级考试规定的考试范围一一对应的分级数据样本。

在一种实施方式中，标准分级样本，可以用于表示与语言学习体系对应的分级数据样本。

在一种实施方式中，标准分级样本，可以用于表示与语言学习体系所采用的学习材料对应的分级数据样本。

在一种实施方式中，标准分级样本，可以用于表示与以下至少一项对应的分级样本数据：语言学习者的年龄、语言学习者的学习程度、语言学习者的接受能力、语言授课进度关联的教学材料。

在一种实施方式中，在语言学习者为在校学生的情况下，标准分级样本，可以为学校语言授课的教材。

在一种实施方式中，标准分级样本，可以包括至少两个级别的标准分级文件。

在一种实施方式中，标准分级样本可以包括至少一个标准级别的阅读材料。

在本公开实施例中，第一数据和第二数据，可以是基于标准分级样本中的所有阅读材料所包含的词汇，分别对待分级文件和已分级文件进行词汇统计而得到的。

示例性地，在标准分级样本中可以包括第一级别至第K级别的阅读材料，其中，第一级别的阅读材料至第K级别的阅读材料中，分别包括Q₁，……，Q_k个可阅读文件，且每一可阅读文件都携带有级别信息。通过对以上各个级别所对应的所有可阅读文件中的词汇进行统计，可以确定K个级别中每个级别词汇的数量信息分别为M₁，……，M_k。其中，Q₁，……，Q_k以及M₁，……，M_k均为大于或等于0的整数。

对于任一待分级文件，可以识别并统计待分级文件中的词汇，得到第一词汇列表。然后基于标准分级样本中的每一级别的词汇，对第一词汇列表中的任一词汇如第一词汇进行匹配，若匹配成功，则基于标准分级样本中词汇的级别对第一词汇进行级别标记，如此重复执行上述匹配和级别标记的过程，直至第一词汇列表中的每一词汇均匹配完成为止，最终得到第一词汇列表中所有词汇的级别信息以及词汇数量信息即第一数据。

对于任一已分级文件，可以采用与任一待分级文件相同的方法获取第二数据，此处不再赘述。

在本公开实施例中，基于标准分级样本，分别对待分级文件和已分级文件进行处理，还可以通过以下方式来实现：

基于标准分级样本，确定第三数据；基于第三数据，对待分级文件和已分级文件进行处理。

其中，第三数据包括标准分级样本中每一级别词汇的集合。

在本公开实施例中，第三数据，可以包括标准分级样本中每一级别的标准分级样本所对应的词汇的集合。

在一种实施方式中，第三数据，可以包括标准分级样本所包含的每一级别的标准分级样本中，各个阅读材料中所有词汇统一统计得到的集合。

在本公开实施例中，对待分级文件和已分级文件进行处理，可以是基于第三数据所包含的标准分级样本中每一个级别的词汇，对待分级文件和已分级文件进行词汇划分而实现的。

示例性地，对待分级文件进行词汇划分，可以是通过以下方式来实现的：对待分级文件中包含的词汇进行识别和统计，得到第四词汇列表，从第三数据中依次获取其所覆盖的K个级别的词汇列表，将第四词汇列表中的任一词汇如第四词汇，在K个级别的词汇列表中进行遍历匹配，若匹配成功，则将第四词汇的级别标记为匹配成功的词汇对应的级别，比如第K1级别，如此重复执行遍历匹配以及标记级别的操作，直至第四词汇列表中的词汇全部遍历为止，可以获得第四词汇列表中的每一词汇的级别信息，再依据每一词汇的级别信息，对第四词汇列表中的词汇进行统计，从而可以得到第一数据。

对已分级文件进行词汇划分，可以采用与待分级文件进行词汇划分相同的操作，此处不再赘述。

由以上可以看出，基于标准分级样本，确定第三数据，实现了确定的第三数据，可以准确而客观的反映出标准分级样本中各个样本的级别特性，在这种情况下，再基于第三数据，对待分级文件和已分级文件进行处理，得到的第一数据和第二数据，能够体现出待分级文件和已分级文件中所包含的各个级别的词汇信息。

在本公开实施例中，标准分级样本，包括至少两个级别的标准分级文件。

标准分级文件，可以用于表示标准分级样本中的阅读材料。

在一种实施方式中，标准分级文件中，可以包含有多个词汇，并且，以上多个词汇，可以充分体现出该标准分级文件的级别属性。

在本公开实施例中，基于第三数据，对待分级文件和已分级文件进行处理，还可以通过如下方式来实现：

在标准分级样本中检索待检索词汇，确定第一级别信息；其中，待检索词汇，用于表示标准分级样本中的任一词汇；第一级别信息，表示待检索词汇首次出现位置所对应的标准分级文件的级别信息；首次出现位置，用于表示待检索词汇在标准分级样本中首次出现的位置；基于每一待检索词汇的第一级别信息，确定第三数据。

在本公开实施例中，在基于第三数据，对待分级文件和已分级文件进行处理之前，还可以按照预设级别顺序，对标准分级样本中的每一标准分级文件进行排序。其中，预设级别顺序，可以是从最低级别递增至最高级别的顺序。如此，在对待分级文件和已分级文件进行处理时，可以根据上述排序的结果，将每一待检索词汇，按照从最低级别开始级别递增的遍历检索匹配，能够快速而精确的确认每一待检索词汇的首次出现位置，从而加快了待分级文件和已分级文件中每一词汇的级别确认速度。

在本公开实施例中，待检索词汇，可以用于表示标准分级样本中任一标准分级文件中出现的词汇。

在一种实施方式中，待检索词汇，可以用于表示标准分级样本中任一标准分级文件中出现的词汇组合，比如英语中的词组。

在一种实施方式中，待检索词汇，可以用于表示标准分级样本中指定级别的任一标准分级文件中出现的词汇，或者词汇组合。

在一种实施方式中，待检索词汇，可以用于表示标准分级样本中指定级别的、指定标准分级文件中出现的任一词汇，或者词汇组合。

在本公开实施例中，首次出现位置，可以用于表示与待检索词汇对应的标准分级文件的名称或级别。

在一种实施方式中，首次出现位置，可以用于表示与待检索词汇对应的位置信息；其中，该位置信息，包括待检索词汇首次出现的标准分级文件的级别信息，以及首次出现的标准分级文件的文件名称信息。比如，待检索词汇为“dinosaur”，其首次出现位置，可以为第二级别的第三个标准分级文件。

在本公开实施例中，第一级别信息，可以用于表示待检索词汇首次出现位置所对应的标准分级文件的级别信息，比如上文中的标准分级文件的名称和/或级别。

在本公开实施例中，第一级别信息，可以是通过如下方式确定的：

基于待检索词汇，对标准分级样本中的每一词汇进行遍历，从而确定待检索词汇在标准分级样本中的首次出现位置，再根据首次出现位置对应的标准分级样本中的标准分级文件的级别，确定第一级别信息。

在本公开实施例中，第三数据，可以是通过如下方式确定的：

获取标准分级样本中的每一词汇；基于标准分级样本中的每一词汇，依次对标准分级样本进行遍历，确定每一词汇的首次出现位置，再根据该首次出现位置，确定以上每一词汇出现的标准分级文件对应的第一级别信息；根据以上第一级别信息，对每一词汇进行划分，得到第三数据。

在相关技术中，为了对标准分级样本，或标准分级文件进行分析，通常会基于标准分级样本或标准分级文件附加的词汇列表开展，而在实际应用中，并非所有的标准分级样本或标准分级文件都具备词汇列表；另一方面，标准分级样本或标准分级文件所附加的词汇列表，也无法展示标准分级样本或标准分级样本的所有词汇信息。其中，附加的词汇列表，表示标准分级样本或标准分级文件本身配置的词汇列表，比如，英文课本中附加的每一单元的单词表；或者，语文课本中附加的生字生词表。

在一种实施方式中，在标准分级样本为语言学习教材，并且，语言学习教材附加有词汇表的情况下，词汇表中包含了语言学习教材中每一级别词汇的集合，此时，词汇表即为第三数据，可以直接依据词汇表确定待检索词汇的第一级别信息。

可选的，为了能够涵盖标准分级样本即语言学习教材的词汇表中未统计的基础词汇，可以增加一个附加级别。具体的，与该附加级别对应的词汇，可以是标准分级样本即语言学习教材中并未记载的、使用频率较高的、较为简单的词汇。可选的，该附加级别，可以作为标准分级样本即词汇表的最低级别，而标准分级样本即词汇表中的词汇，则将该最低级别作为初始级别，其他级别在最低级别的基础上依次进行级别信息的递增统计。

在本公开实施例中，在标准分级样本中检索待检索词汇，确定第一级别信息，可以通过如下方式来实现：

确定待检索词汇在标准分级样本中的检索范围；基于检索范围，在标准分级样本中检索待检索词汇，确定第一级别信息。

在本公开实施例中，检索范围，可以用于表示待检索词汇在标准分级样本中的级别的检索范围，比如，某个词汇的检索范围确定为第P级别到第L级别对应的标准分级文件；其中，P为大于或等于1的整数，L为大于P的整数。

在一种实施方式中，检索范围，可以用于表示在标准分级样本中某一级别的若干标准分级文件的范围；其中，标准分级样本由至少两个级别的标准分级文件组成，而每一级别的标准分级文件，可以包括有相同级别的多个标准分级文件。比如，第K级别的标准分级样本，包括有N1个标准分级文件，检索范围，可以是从第M至第N个标准分级文件；其中，M为大于或等于1的整数；N为大于M且小于或等于N1的整数；N1为大于或等于2的整数。

相应地，在本公开实施例中，第一级别信息，可以是通过如下方式确定的：

在与检索范围对应的标准分级文件中，对待检索词汇进行检索，得到待检索词汇的首次出现位置；再根据首次出现位置，确定第一级别信息。

在本公开实施例中，确定待检索词汇在标准分级样本中的检索范围，可以通过如下方式来实现：

基于预设的词汇级别判断规则和标准分级样本，确定第二级别信息；基于第二级别信息，确定检索范围。

其中，第二级别信息，用于表示待检索词汇的起始检索级别信息。

在本公开实施例中，第二级别信息，可以用于表示待检索词汇在标准分级样本中的起始检索级别信息。比如，对于单词“apple”，其起始检索级别信息可以为第一级，也就是说，第二级别信息，可以为第一级。

在本公开实施例中，预设的词汇级别判断规则，可以用于表示某些词汇或词汇组合在标准分级文件中的级别分布的规则。比如，“apple”属于简单、常用且使用频率较高的词汇，这一类别的词汇在标准分级文件中，通常分布在较低的级别范围，也就是说，对“apple”的检索可以从较低的级别比如第一级开始；而“astronauts”，则属于专业性较强、特殊应用场合才会用到的词汇，这一类别的词汇在标准分级文件中，通常分布在中间的级别范围，而不会分布在较低的级别范围，因此，对“astronauts”的检索可以从中间的级别而非最低级别比如第一级开始。

示例性地，通过预设的词汇级别判断规则，可以初步判断出待检索词汇的起始检索级别。比如，对于“apple”，其起始检索级别，可以为第一级；对于“astronauts”，其起始检索级别，可以为一中间级别，比如第三级。

在一种实施方式中，预设的词汇级别判断规则，可以用于表示具备第一特征的词汇或词汇组合，在标准分级文件中的分布规则。具体的，第一特征，可以用于表示词汇或词汇组合较为简单，日常使用的概率较高，比如“as well”。

在一种实施方式中，预设的词汇级别判断规则，可以用于表示具备第二特征的词汇或词汇组合，在标准分级文件中的分布规则。具体的，第二特征，可以用于表示词汇或词汇组合本身较为简单，但是需要在一些比较特殊的结构中使用才能体现其具体的含义，比如“AC”，需要在电路相关的语境中，方能体现出其具体的含义。

在一种实施方式中，预设的词汇级别判断规则，可以用于表示具备第三特征的词汇或词汇组合，在标准分级文件中的、与专业性相关的分布规则。具体的，第三特征，可以用于表示词汇或词汇组合本身专业性较强，比如：“DNA”、“astronauts”等。

在一种实施方式中，预设的词汇级别判断规则，可以用于表示具备第四特征的词汇或词汇组合，在标准分级样本中的、与应用场合相关的分布规则。具体的，第四特征，可以用于表示词汇或词汇组合的应用场合，比如，在标准分级样本中，第M级别的标准分级文件侧重于指定类型的应用场合，如用餐场合或商务谈判场合，并且，待检索词汇或词汇组合的也对应于用餐场合或商务谈判场合。

在本公开实施例中，检索范围，可以是从第二级别信息所代表的级别，至标准分级样本所覆盖的最高级别之间的范围。

在一种实施方式中，检索范围，可以用于表示将标准分级样本所覆盖的整体级别，按照从最低级别到最高级别依次排列后，从最低级别开始检索的范围。

示例性地，在确定检索范围之后，将检索范围所覆盖的级别从最低级别到最高级别排列之后，从检索范围的最低级别开始，按照待检索词汇对每一级别的词汇进行检索，直至检索到待检索词汇。

基于此，在本公开实施例中，首先基于预设的词汇级别判断规则和标准分级文件，确定表示待检索词汇的起始检索级别信息的第二级别信息，然后基于第二级别信息，确定检索范围，因而，本公开实施例所提供的检索范围的确定方法，可以很大程度上减少词汇检索的次数，从而降低了词汇检索的运算时间，节省了词汇检索所占用的计算资源，实现了待检索词汇的快速定位。

在本公开实施例中，分类器是基于以下方式得到的：

基于第二数据，获取比例信息；基于比例信息，训练初始分类器，得到分类器。

其中，比例信息，用于表示第二数据相对于已分级文件中所有词汇数量的比例。

在本公开实施例中，比例信息，可以用于表示已分级文件中，每一级别的词汇数量，相对于已分级文件中所有词汇数量的比例。

在一种实施方式中，比例信息，包括有每一级别词汇的比例数据。可选的，通过每一级别词汇的比例数据，还可以得到与每一级别词汇对应的级别信息。

在本公开实施例中，初始分类器，可以是选定的用于进行词汇级别分类的、分类权重系数或参数未进行调整的分类器。示例性地，初始分类器，可以是线性分类器；初始分类器，还可以是神经网络类型的分类器。

示例性地，线性分类器，可以是通过如下方式得到的：

将比例信息中的比例数据输入至线性分类器，得到与比例信息对应的级别划分输出结果；将该级别划分输出结果与比例信息中携带的级别信息进行匹配，得到匹配结果，若匹配结果表明级别划分输出结果与比例信息中携带的级别信息不匹配，则调整线性分类器的权重向量，重复执行上述比例数据输入得到级别划分输出结果、级别划分输出结果与级别信息匹配以及根据匹配结果调整线性分类器权重向量的过程，直至线性分类器的输出与比例信息中携带的级别信息匹配；若匹配结果表明级别划分输出结果与比例信息中携带的级别信息匹配，则停止调整线性分类器的权重相量，由此得到最终满足分类要求的线性分类器。

在一种实施方式中，分类器，还可以是基于神经网络的分类功能来实现的。示例性地，分类器，可以是长短期记忆网络(Long Short-Term Memory,LSTM)等。具体地，神经网络的分类器，可以是通过如下方式得到的：

将比例信息中的比例数据输入至神经网络，得到与比例信息对应的级别划分输出结果，将该级别划分输出结果与比例信息中携带的级别信息进行匹配，得到匹配结果，若匹配结果表明级别划分输出结果与比例信息中携带的级别信息不匹配，则调整神经网络的参数，重复执行上述将比例信息输入至神经网络得到级别划分输出结果、级别划分输出结果与级别信息匹配以及根据匹配结果调整神经网络参数的过程，直至神经网络输出的级别划分输出结果与比例信息中携带的级别信息匹配；若匹配结果表明级别划分输出结果与比例信息中携带的级别信息匹配，则停止调整神经网络的参数，由此得到最终满足分类要求的神经网络。

基于此，在本公开实施例中，首先基于第二数据，获取表示第二数据相对于已分级文件中所有词汇数量比例的比例信息，再基于该比例信息，建立分类器。也就是说，在建立分类器之前，首先对分类器建立所依赖的数据进行了归一化处理，从而使得分类器建立过程中的数据运算范围缩小，缩短了分类器建立过程所需要的时间，也降低了分类器建立时数据运算产生的存储开销，进而降低了分类器建立的时间成本和运算资源成本。

本公开实施例所提供的数据处理方法，还可以包括：

获取第二分级结果；其中，第二分级结果，用于表示与目标对象对应的级别信息；基于第二分级结果，获取推荐文件列表；其中，推荐文件列表，用于表示待分级文件中与第二分级结果对应的文件列表。

在本公开实施例中，目标对象，可以用于表示语言学习者。

在一种实施方式中，目标对象，可以用于表示想要获取与其语言学习水平相当的阅读材料的语言学习者。

在本公开实施例中，第二分级结果，可以用于表示与目标对象语言学习水平对应的级别信息。

在一种实施方式中，第二分级结果，可以是通过目标对象执行的语言学习水平测试得到的。

在一种实施方式中，第二分级结果，可以是通过目标对象的语言表达得到的，比如，目标对象对相应语种的口语输出、或者是书面输出进行评估得到第二分级结果等。

在本公开实施例中，推荐文件列表，可以是通过如下方式得到的：

通过分类器对任一阅读材料所对应的待分级文件进行分类，得到第一分级结果；然后将第二分级结果与第一分级结果进行匹配，若匹配成功，则将第一分级结果对应的待分级文件添加至推荐文件列表中，从而得到最终的推荐文件列表；若匹配失败，则可以输出匹配失败的提示信息，不对推荐文件列表执行添加操作。

在一种实施方式中，推荐文件列表，可以是通过如下方式得到的：

确定待分级文件，比如目标对象通过新闻报道、网页内容连接等方式选定的至少一个阅读材料的数据集合；进而获取待分级文件中的词汇数量信息；然后通过分类器对该词汇数量信息进行处理，得到第一分级结果；基于第二分级结果与第一分级结果的匹配关系，确定推荐文件列表。具体地，若第二分级结果与第一分级结果匹配成功，则将第一分级结果对应的待分级文件添加至推荐文件列表中；若匹配失败，则不执行添加动作。

示例性地，在本公开实施例中，第二分级结果，可以用于表示与目标对象对应的等级，比如第一级、第K级，还可以用于表示与目标对象对应的子等级，比如第1.1级，第1.K级等。

基于此，在本公开实施例中，首先得到用于表示与目标对象对应级别信息的第二分级结果，再得到用于表示待分级文件中与第二分级结果对应的推荐文件列表。由此，本公开实施例中，在分类器建立之后，可以根据目标对象本身的级别信息推荐与其对应的推荐文件列表，一方面，使得目标对象获取对应推荐文件列表的操作更加快捷智能，另一方面，也使得目标对象获取的推荐文件列表的针对性更强。

示例性地，在本公开实施例中，得到第二分级结果，可以通过如下方式来实现：

获取目标对象的级别测试结果；基于级别测试结果，得到第二分级结果。

其中，级别测试结果，表示对目标对象进行级别测试得到的结果。

在本公开实施例中，级别测试，可以是为了获取目标对象的第二分级结果，而设置与级别相关的测试环节，例如词汇选择题测试。

在一种实施方式中，级别测试，可以与级别测试数据对应。其中，级别测试数据，可以包括至少一个级别的词汇。

示例性地，级别测试数据，可以包括标准分级样本和/或已分级样本中至少一个级别的多个词汇。

在一种实施方式中，级别测试数据，可以包括标准分级样本和/或已分级样本中至少一个级别的所有词汇。

在一种实施方式中，级别测试数据，可以包括标准分级样本和/或已分级样本中、至少一个级别的指定数量的词汇。其中，指定数量词汇是能够充分的体现出所属级别的词汇，例如某一级别中被使用频率最高的前N个词汇。

在一种实施方式中，级别测试数据中是否包含已分级样本对应的词汇，可以是通过目标对象的选择操作结果来获取的。示例性地，若目标对象在级别测试中正确选择了与已分级样本对应的词汇，则级别测试结果中会包含已分级样本对应的词汇。若目标对象在级别测试中错误的选择了词汇，即使选择结果中包括与已分级样本对应的词汇，级别测试结果中也不会体现错误选择的词汇及其级别信息。

在一种实施方式中，级别测试数据中的每一词汇，还可以包括词汇对应的级别信息。

在本公开实施例中，基于级别测试结果中每一词汇对应的级别信息，可以得到第二分级结果。具体的，在级别测试结果中，超过第一比例阈值的词汇属于第一级别的情况下，可以确定第二分级结果为第一级别；其中，第一比例阈值，可以为一个较大的阈值，比如80％。

在本公开实施例中，使用线性分类器对级别测试结果进行分类，可以得到第二分级结果。

在一种实施方式中，使用神经网络类型的分类器，对级别测试结果进行处理，可得到第二分级结果。

示例性地，在本公开实施例中，基于级别测试结果，得到第二分级结果，还可以通过如下方式来实现：

基于级别测试结果，确定第四数据；其中，第四数据，用于表示级别测试结果中每一级别的已识别词汇的数量信息；已识别词汇，用于表示在级别测试结果中目标对象能够正确识别的词汇；通过分类器对第四数据进行处理，得到第二分级结果。

在本公开实施例中，能够正确识别，可以用于表示目标对象能够正确的识别词汇/词汇组合的含义，例如选择出英文词汇对应的中文含义。

在一种实施方式中，能够正确识别，可以用于表示目标对象能够正确的选择词汇或词汇组合的应用场景，比如，目标对象通过在线或离线的方式参加级别测试，在包括各个级别范围词汇的级别测试题集的基础上，通过填空、翻译等方式确定目标对象是否能够正确选择词汇或词汇组合。

在本公开实施例中，基于标准分级文件，对已识别词汇进行处理，可以得到第四数据。

在一种实施方式中，在确定的第三数据中依次检索已识别数据，可以得到已识别数据中每一词汇的级别信息；根据每一词汇的级别信息，对已识别数据进行归类，可以得到第四数据。

在本公开实施例中，获取第四数据中各个级别的词汇的比例信息，再将比例信息输入至分类器，可以得到第二分级结果。

基于此，在本公开实施例中，首先基于级别测试结果，获取级别测试集结果中每一级别的词汇数量的第四数据，然后通过分类器对第四数据进行处理，得到第二分级结果。由此，本公开实施例通过分类器所获取到的第二分级结果，能够全面而客观的反应出目标对象的语言水平。

在一个示例中，词汇为单词，标准分级样本为语言授课所采用的教材，已分级文件为语言授课对应的已分级课外阅读资料，级别测试数据为与教材和/或课外阅读资料对应的选择题库，第一级别信息为教材中单词级别，第二分级结果为学生学习等级，推荐文件列表为对应的课外阅读文章列表，如图2所示，本公开实施例所提供的数据处理方法的具体实现流程包括：

步骤201：根据语言授课所采用的教材，确定单词级别。

具体地，可以先按照级别递增的顺序对教材进行排序，然后从教材中提取单词，并将单词在教材中首次出现时所在教材对应的级别，设定为该单词对应的级别。

步骤202：根据已分级课外阅读资料，建立分类器。

具体地，可以根据步骤201确定的单词级别对已分级课外阅读资料中出现的单词进行级别划分，得到级别划分结果，并统计每一级别中单词的数量；然后，根据每一级别单词的数量，相应地得到每一级别单词数量相对于课外阅读资料总单词数量的比例信息；再根据该比例信息，建立分类器。

示例性地，在第K级别的已分级课外阅读资料所包含的词汇数量信息中，可以包含多个级别的词汇的比例信息，比如，第K级别的已分级课外阅读资料中包括第K-1级别、第K-2级别以及第K级别的词汇，其中，以上各个级别的词汇所占的比例为：P_k-1、P_k-2以及P_k，并且，P_k-1、P_k-2、P_k之和为1，K为大于或等于3的整数。也就是说，在课外阅读资料的级别确定的情况下，该课外阅读资料中所包含的各个级别词汇的比例信息是确定的，或者，各个级别词汇的比例信息处于一定区间范围内。

示例性地，根据比例信息，建立分类器，可以是通过如下方式实现的：将已分级的每一级别的课外阅读资料对应的各个比例信息输入至分类器中，调整分类器的分类权重参数，从而使得分类器能够基于输入的各个比例信息得到其对应的级别信息。

步骤203：根据选择题库对学生进行级别测试，获取学生学习等级。

具体地，学生对选择题库中的每一选择题中所包含的单词进行识别，并提交识别结果；然后，根据步骤201确定的单词级别对学生提交的识别结果进行划分，得到划分结果，并根据划分结果，获取学生的学习等级。示例性地，学生的学习等级，可以是通过分类器对划分结果进行处理得到的；也可以是通过选择题库对划分结果进行分析得到的，本公开实施例对此不做限制。

步骤204：对任一阅读材料进行分级，得到与学生学习等级对应的课外阅读文章列表。

具体地，可以根据步骤201确定的单词级别，对任一阅读材料中的单词进行划分，并将划分结果输入至分类器中，得到该阅读材料的级别信息，并将该级别信息与学生学习等级进行匹配。

可选的，若匹配成功，可以输出“适合阅读该材料”的提示信息，并将该阅读材料添加至课外阅读文章列表中；若匹配失败，则输出“不适合阅读该材料”的提示信息。

可选的，还可以根据学生的学习等级，在学生选定的包括多个任一阅读材料的数据集合中，筛选出与学生的学习等级匹配的阅读材料，从而得到课外阅读文章列表。

在图2中，直观地展示了本公开所提供的数据处理方法，在应用到英语学习体系中的情况下分类器的获取过程，以及得到与学生的学习等级对应级别的课外阅读文章列表的过程。

由以上可知，本公开提供的数据处理方法，可以根据语言授课所采用的教材即标准分级样本、以及课外阅读资料即待分级文件的每一文件中，每个级别单词出现的比例作为特征，自动的建立用于对任一待分级文件进行分级的分类器，能够实现对任一待分级文件进行快速、准确的级别划分；并且，在上述分类器建立的过程中，不需要人为设定词汇比例，从而也降低了分类器的建立成本。

由此，本公开提供的数据处理方法，可以解决相关技术中，现有的课外阅读资料分级方式单一，在面临通过更多其他途径获取到的、未分类的课外阅读文章时，对于初级语言学习者，无法选择与其自身水平和兴趣匹配的阅读文件，也就无法丰富语言学习者的学习材料的问题。也就是说，通过本公开提供的数据处理方法，可以实现对任一课外阅读文章的快速、准确分级，从而丰富和拓宽了语言学习者的课外学习视野，也能够从更大程度上满足语言学习者的学习要求，从而，可以激发语言学习者的学习兴趣，提高语言学习者的学习效率。

更进一步地，本公开提供的数据处理方法，还可以增加分词模块，其中，分词模块，可以对输入的词汇信息进行分辨识别，比如，可以对输入的词汇信息进行语种的分辨识别，比如英语、汉语、法语、韩语等；此外，分词模块还可以用于对待分级文件、已分级文件、或标准分级样本进行词汇划分。由此，本公开提供的数据处理方法中，在分词模块的协助下，可以应用于多种语言的学习过程，例如任一拉丁语系的语言学习过程，只要获取了任一拉丁语系的语言学习系统对应的标准分级文件和已分级文件，就可以实现自动的对任一未分级文件快速准确的分级；还可以针对同一语系、相同学习体系中不同区域的不同授课材料，灵活的调整分类器，从而使得分类器具备了更广泛的实用性，并且，分类器的针对性也会更强。

在前述实施例所提供的数据处理方法的基础上，本公开实施例提供了一种数据处理装置3，如图3所示，该数据处理装置3包括：获取模块301和处理模块302；其中：

获取模块301，用于获取第一数据和第二数据；其中，第一数据包括待分级文件中每一级别词汇的数量信息；第二数据，包括已分级文件所包含的每一级别词汇的数量信息；

处理模块302，用于获取分类器；

处理模块302，还用于通过分类器对第一数据进行处理，得到第一分级结果；其中，第一分级结果，用于表示待分级文件对应的级别；分类器，是基于第二数据得到的。

可选的，获取模块301，用于获取标准分级样本，其中，标准分级样本用于实现词汇分级；

处理模块302，用于基于标准分级样本，分别对待分级文件和已分级文件进行处理，得到第一数据和第二数据。

可选的，处理模块302，用于基于标准分级样本，确定第三数据；其中，第三数据包括标准分级样本中每一级别词汇的集合；

基于第三数据，对待分级文件和已分级文件进行处理。

可选的，处理模块302，用于在标准分级样本中检索待检索词汇，确定第一级别信息；其中，待检索词汇，用于表示标准分级样本中的任一词汇或词汇组合；第一级别信息，表示待检索词汇首次出现位置所对应的标准分级文件的级别信息；首次出现位置，用于表示待检索词汇在标准分级样本中首次出现的位置；

处理模块302，还用于基于每一待检索词汇的第一级别信息，确定第三数据。

可选的，处理模块302，用于确定待检索词汇在标准分级样本中的检索范围；

处理模块302，还用于基于检索范围，在标准分级样本中检索待检索词汇，确定第一级别信息。

可选的，处理模块302，用于基于预设的词汇级别判断规则和标准分级样本，确定第二级别信息；其中，第二级别信息，用于表示待检索词汇的起始检索级别信息；

处理模块302，还用于基于第二级别信息，确定检索范围。

可选的，分类器，是基于以下步骤得到的：

基于第二数据，获取比例信息；其中，比例信息，用于表示第二数据相对于已分级文件中所有词汇数量的比例；

基于比例信息，训练初始分类器，得到分类器。

可选的，处理模块302，用于获取第二分级结果；其中，第二分级结果，用于表示与目标对象对应的级别信息；

处理模块302，还用于基于第二分级结果，获取推荐文件列表；其中，推荐文件列表，用于表示待分级文件中与第二分级结果对应的文件列表。

可选的，处理模块302，用于获取目标对象的级别测试结果；其中，级别测试结果，表示对目标对象进行级别测试得到的结果；

处理模块302，还用于基于级别测试结果，得到第二分级结果。

可选的，处理模块302，用于基于级别测试结果，确定第四数据；其中，第四数据，用于表示级别测试结果中每一级别的已识别词汇的数量信息；已识别词汇为在级别测试结果中目标对象能够正确识别的词汇；

处理模块302，还用于通过分类器对第四数据进行处理，得到第二分级结果。

实际应用中，获取模块301和处理模块302可以利用电子设备中的处理器实现，上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(Processor)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种数据处理方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种数据处理方法对应的计算机程序指令被一电子设备读取或被执行时，实现前述实施例的任意一种数据处理方法。

基于前述实施例相同的技术构思，参见图4，其示出了本公开实施例提供的一种电子设备4，可以包括：存储器401和处理器402；其中，

存储器401，用于存储计算机程序和数据；

处理器402，用于执行存储器中存储的计算机程序，以实现前述实施例的任意一种数据处理方法。

在实际应用中，上述存储器401可以是易失性存储器(Volatile Memory)，例如RAM；或者非易失性存储器(Non-Volatile memory)，例如只读存储器(Read Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-StateDrive，SSD)；或者上述种类的存储器的组合，并向处理器402提供指令和数据。

上述处理器402可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的增强现实云平台，用于实现上述处理器功能的电子器件还可以为其它，本公开实施例不作具体限定。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

需要说明的是，上述计算机可读存储介质可以是ROM、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所描述的方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本公开的优选实施例，并非因此限制本公开的专利范围，凡是利用本公开说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本公开的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取标准分级样本；其中，所述标准分级样本用于实现词汇分级；

3.根据权利要求2所述的方法，其特征在于，所述基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述标准分级样本，包括至少两个级别的标准分级文件；所述基于所述标准分级样本，确定第三数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述标准分级样本中检索待检索词汇，确定第一级别信息，包括：

确定所述待检索词汇在所述标准分级样本中的检索范围；

6.根据权利要求5所述的方法，其特征在于，所述确定所述待检索词汇在所述标准分级样本中的检索范围，包括：

基于所述第二级别信息，确定所述检索范围。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述分类器是基于以下步骤得到的：

基于所述比例信息，训练初始分类器，得到所述分类器。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

基于所述第二分级结果，获取推荐文件列表；其中，所述推荐文件列表，用于表示所述待分级文件中与所述第二分级结果对应的文件列表。

9.根据权利要求8所述的方法，其特征在于，所述获取第二分级结果，包括：

获取所述目标对象的级别测试结果；其中，所述级别测试结果，表示对所述目标对象进行词汇级别测试得到的结果；

基于所述级别测试结果，得到所述第二分级结果。

10.根据权利要求9所述的方法，其特征在于，所述基于所述级别测试结果，得到所述第二分级结果，包括：

11.一种数据处理装置，其特征在于，所述数据处理装置包括：获取模块和处理模块；其中：

所述处理模块，用于获取分类器；

12.一种数据处理设备，其特征在于，所述数据处理设备包括处理器和存储器；其中：

所述处理器，用于运行所述计算机程序时，执行权利要求1至10任一项所述的数据处理方法。

13.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的数据处理方法。