CN114996464B

CN114996464B - 一种利用有序信息的文本分级方法及装置

Info

Publication number: CN114996464B
Application number: CN202210845265.6A
Authority: CN
Inventors: 殷晓君; 宋国龙; 余江英; 林若; 马瑞祾; 王鸿滨
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-10-21
Anticipated expiration: 2042-07-19
Also published as: CN114996464A

Abstract

本发明涉及文本分级技术领域，特别是指一种利用有序信息的文本分级方法及装置。方法包括：根据预设的文本等级的数量，确定初始二分类模型的数量；根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本；根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型；将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率；根据每个二分类模型输出的二分类概率，得到待分级文本对应的文本等级。采用本发明，通过将一个多分类问题转化为多个二分类问题，有效利用了文本等级固有的有序性信息，提升了文本分级的准确率。

Description

一种利用有序信息的文本分级方法及装置

技术领域

本发明涉及文本分级技术领域，特别是指一种利用有序信息的文本分级方法及装置。

背景技术

文本分级是指将文本按照阅读难度进行难度分级。文本分级研究具有重要的理论和实践价值，文本分级研究是对文本语言特征的全面分析，其研究成果可以丰富语言学知识和阅读相关理论，特别是对分级阅读具有重要的意义，有利于促进全民阅读行为和习惯的养成，具有重要的社会价值。

当前文本分级的解决方案主要包括各类机器学习模型，如LR（LogisticRegression，逻辑回归模型）、SVM（support vector machines，支持向量机模型）、RandomForest等模型，也有基于Bert（Bidirectional Encoder Representations fromTransformer，基于 Transformer 的双向编码器表示模型）的深度学习模型。这其中涉及一个概念：变量。

变量包括无序变量和有序变量。无序变量，如“红、黄、蓝”，三者是没有顺序关系的。有序变量，如“低中高”，是有顺序关系的。

当前的文本分级模型都是将分级信息作为无序变量。而实际上，文本等级是有严格顺序关系的，如一级、二级、三级 ...。这种有序性明显对于利用模型进行文本分级的效果是非常有益的，可以提升文本分级的准确性。而现有技术一直没有考虑到文本等级的有序性信息，导致文本分级的准确率还有待提升。

发明内容

本发明实施例提供了一种利用有序信息的文本分级方法及装置。所述技术方案如下：

一方面，提供了一种利用有序信息的文本分级方法，该方法由电子设备实现，该方法包括：

根据预设的文本等级的数量，确定初始二分类模型的数量；

根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本；

根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型；

将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率；

根据每个二分类模型输出的二分类概率，得到所述待分级文本对应的文本等级。

可选地，所述根据预设的文本等级的数量，确定初始二分类模型的数量，包括：

根据预设的文本等级的数量n，确定初始二分类模型的数量为n-1。

可选地，所述预设的文本等级为1、2、3、……、n；每个所述初始样本包括样本数据以及样本真值，其中，所述样本数据为样本文本，所述样本真值为样本文本对应的文本等级；

所述根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本，包括：

对于第i个初始二分类模型，将样本真值在1至i范围内的初始样本确定为负样本，将样本真值在i+1至n范围内的初始样本确定为正样本，其中，i为小于或等于n-1的正整数。

可选地，所述训练完毕的多个二分类模型中的每个二分类模型包括第一分类以及第二分类，第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n。

可选地，所述将待分级文本分别输入到每个二分类模型中，得到每个二分类模型输出的二分类概率，包括：

将待分级文本分别输入到每个二分类模型中，分别得到每个二分类模型输出的待分级文本属于第一分类的概率

、以及待分级文本属于第二分类

的概率，其中，m表示二分类模型的次序。

可选地，所述根据每个二分类模型输出的二分类概率，得到所述待分级文本对应的文本等级，包括：

根据每个二分类模型输出的二分类概率，确定所述待分级文本属于每个文本等级的概率；

在所述待分级文本属于每个文本等级的概率中，确定最大概率，将所述最大概率对应的文本等级确定为所述待分级文本对应的文本等级。

可选地，所述根据每个二分类模型输出的二分类概率，确定所述待分级文本属于每个文本等级的概率，包括：

对于第k个文本等级：

当k=1时，将

确定为所述待分级文本属于第1个文本等级的概率；

当1<k<n时，将

的乘积确定为所述待分级文本属于第k个文本等级的概率；

当k=n时，将

确定为所述待分级文本属于第n个文本等级的概率。

另一方面，提供了一种利用有序信息的文本分级装置，该装置应用于利用有序信息的文本分级方法，该装置包括：

第一确定模块，用于根据预设的文本等级的数量，确定初始二分类模型的数量；

第二确定模块，用于根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本；

训练模块，用于根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型；

输入模块，用于将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率；

第三确定模块，用于根据每个二分类模型输出的二分类概率，得到所述待分级文本对应的文本等级。

可选地，所述第一确定模块，用于：

所述第二确定模块，用于：

可选地，所述输入模块，用于：

、以及待分级文本属于第二分类

的概率，其中，m表示二分类模型的次序。

可选地，所述第三确定模块，用于：

对于第k个文本等级：

当k=1时，将

确定为所述待分级文本属于第1个文本等级的概率；

当1<k<n时，将

的乘积确定为所述待分级文本属于第k个文本等级的概率；

当k=n时，将

确定为所述待分级文本属于第n个文本等级的概率。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述利用有序信息的文本分级方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述利用有序信息的文本分级方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，根据预设的文本等级的数量，确定初始二分类模型的数量；根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本；根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型；将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率；根据每个二分类模型输出的二分类概率，得到待分级文本对应的文本等级。这样，本发明利用了文本等级类别固有的有序性信息，提高了文本分级的准确率。而且，本发明不依赖特定模型，有效提升了各类具体模型在文本分级上的应用效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种利用有序信息的文本分级方法流程图；

图2是本发明实施例提供的一种

与

概率表达含义的示意图；

图3是本发明实施例提供的一种利用有序信息的文本分级装置框图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种利用有序信息的文本分级方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。在本发明实施例中，设定预设的文本等级为1、2、3、……、n，文本等级的数量为n，每个初始样本包括样本数据以及样本真值，其中，样本数据为样本文本，样本真值为样本文本对应的文本等级。如图1所示的利用有序信息的文本分级方法流程图，该方法的处理流程可以包括如下的步骤。

S11、根据预设的文本等级的数量，确定初始二分类模型的数量。

其中，预设的文本等级为用户人为划分的等级，在本发明实施例中，设定预设的文本等级为1、2、3、……、n，共n个等级。当然，预设的文本等级还可以设定为其它有次序的形式，如将文本等级设定为一、二、三、……，或者将文本等级设定为a、b、c、……，等等，本发明对此不作限定。

初始二分类模型可以是所有适用于分类的机器学习模型，例如，朴素贝叶斯模型、决策树模型、最近邻模型、逻辑回归模型、XGBoost(Extreme Gradient Boosting，梯度提升决策树)模型等，本发明对此不作限定。

一种可行的实施方式中，为利用类别的有序性信息，改变传统将文本分级作为一个普通多分类问题，将文本分级划分为多个二分类问题，即，根据文本等级设计多个初始二分类模型，通过样本对多个初始二分类模型进行训练后，分别通过多个训练完毕的二分类模型对待分级文本进行分类，最终得到待分级文本的文本等级。

在根据文本等级设计多个初始二分类模型时，设计方案有多种，其中一个可行的设计方案为：将第1个初始二分类模型设计为对文本等级1与文本等级2至n的分类，将第2个初始二分类模型设计为对文本等级1至2与文本等级3至n的分类，将第3个初始二分类模型设计为对文本等级1至3与文本等级4至n的分类……以此类推，将第i个初始二分类模型设计为对文本等级1至i与文本等级i+1至n的分类，最后，将第n-1个初始二分类模型设计为对文本等级1至n-1与文本等级n的分类，至此结束。

根据上述设计方案，根据预设的文本等级的数量n，可以确定初始二分类模型的数量为n-1。

S12、根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本。

一种可行的实施方式中，通过上述步骤确定每个初始二分类模型的设计方案后，根据每个初始二分类模型的设计方案，确定每个初始二分类模型的样本设计规则，也即，将初始样本划分为正样本以及负样本。

根据上述步骤101可知，对于第i个初始二分类模型，其可行的一种设计方案为：将第i个初始二分类模型设计为对文本等级1至i与文本等级i+1至n的分类，也就是说，第i个初始二分类模型用于判断文本是属于文本等级1至i的，还是属于文本等级i+1至n的。基于此种设计方法，需要将样本按照样本真值属于文本等级1至i或属于文本等级i+1至n进行划分，一边是正样本、一边是负样本。

基于此种设计方法可以确定一种可行的划分方式如下：对于第i个初始二分类模型，将样本真值在1至i范围内的初始样本确定为负样本，将样本真值在i+1至n范围内的初始样本确定为正样本，其中，i为小于或等于n-1的正整数。

确定划分方式后，按照上述划分方式分别确定正样本以及负样本，并将正样本中的样本真值修改为1，将负样本中的样本真值修改为0。

需要说明的是，在训练多个初始二分类模型时，可以使用同一批初始样本，也就是说，同一批初始样本需要根据不同设计方案的初始二分类模型，做出不同的正样本负样本划分方案，举例来说，某个初始样本的样本真值为4，即该初始样本的样本数据属于文本等级4，则对于该初始样本，在针对第3个初始二分类模型进行样本划分时，将其划分为正样本，而在针对第5个初始二分类模型进行样本划分时，将其划分为负样本。

S13、根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型。

一种可行的实施方式中，根据划分好的正样本以及负样本训练对应的初始二分类模型，训练的方案可以采用现有技术中常用的训练方法，本发明对此不作赘述。

训练完毕后，得到的多个二分类模型中的每个二分类模型包括第一分类（即负分类）以及第二分类（即正分类），第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n，符合每个二分类模型的设计方案。

S14、将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率。

一种可行的实施方式中，通过上述步骤得到训练完毕的多个二分类模型后，将待分级文本分别输入到每个二分类模型中，分别得到每个二分类模型输出的待分级文本属于第一分类的概率

、以及待分级文本属于第二分类

的概率，其中，m表示二分类模型的次序。举例来说，当m=i=3时，即第3个二分类模型输出两个概率，分别为

和

，

表示待分级文本属于第一分类的概率，具体地说是待分级文本属于文本等级1至3的概率，

表示待分级文本属于第二分类的概率，具体地说是待分级文本属于文本等级4至n的概率。

S15、根据每个二分类模型输出的二分类概率，得到待分级文本对应的文本等级。

一种可行的实施方式中，通过上述步骤得到每个二分类模型输出的两个概率后，通过得到的多个概率确定待分级文本对应的文本等级的处理可以如下述步骤S151-S152：

S151、根据每个二分类模型输出的二分类概率，确定待分级文本属于每个文本等级的概率。

一种可行的实施方式中，在确定待分级文本属于每个文本等级的概率的过程中，根据文本等级的不同次序，有不同的处理方法，设文本等级的次序为k，下面分别从k的三种情况进行说明，并辅以n=8为例进行说明：

举例说明，假设n=8，即文本等级设定为8个，分别为1、2、3、4、5、6、7、8，则按照上述步骤可以确定出n-1=8-1=7个二分类模型，这7个二分类模型的第一分类以及第二分类可以如下表1所示。

表1

（1）当k=1时，将

确定为待分级文本属于第1个文本等级的概率。

由上述表1可以看出，当k=1时，第1个二分类模型的第一分类的概率表示的就是待分级文本属于文本等级1的概率，因此，可以直接将

确定为待分级文本属于第1个文本等级的概率。

（2）当1<k<n时，将

的乘积确定为待分级文本属于第k个文本等级的概率。

由上述表1可以看出，当模型次序为k时，

表示待分级文本属于文本等级k至n 的概率，

表示待分级文本属于文本等级1至k的概率，由此可以看出，

与

表示的含义中有一个文本等级k是重叠的，如图2所示，因此，可以用

表示待分级文本属于文本等级k的概率。

（3）当k=n时，将

确定为待分级文本属于第n个文本等级的概率。

与第（1）种情况同理，由上述表1可以看出，当k=n时，第n-1个二分类模型的第二分类的概率表示的就是待分级文本属于文本等级n的概率，因此，可以直接将

确定为待分级文本属于第n个文本等级的概率。

S152、在待分级文本属于每个文本等级的概率中，确定最大概率，将最大概率对应的文本等级确定为待分级文本对应的文本等级。

一种可行的实施方式中，通过上述步骤确定待分级文本属于每个文本等级的概率后，可以对多个概率进行排序，确定出最大概率，最大概率对应的文本等级是待分级文本对应的文本等级的可能性最大，因此将最大概率对应的文本等级确定为待分级文本对应的文本等级。

本发明实施例中，根据预设的文本等级的数量，确定初始二分类模型的数量；根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本；根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型；将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率；根据每个二分类模型输出的二分类概率，得到待分级文本对应的文本等级。本发明利用了文本等级类别固有的有序性信息，提高了文本分级的准确率。而且，本发明不依赖特定模型，有效提升了各类具体模型在文本分级上的应用效果。

图3是根据一示例性实施例示出的一种利用有序信息的文本分级装置框图。参照图3，该装置包括：

第一确定模块310，用于根据预设的文本等级的数量，确定初始二分类模型的数量；

第二确定模块320，用于根据预设的文本等级以及初始样本，确定每个初始二分类模型对应的正样本以及负样本；

训练模块330，用于根据每个初始二分类模型对应的正样本数据以及负样本数据，训练对应的初始二分类模型，得到训练完毕的多个二分类模型；

输入模块340，用于将待分级文本分别输入到多个二分类模型中，得到每个二分类模型输出的二分类概率；

第三确定模块350，用于根据每个二分类模型输出的二分类概率，得到所述待分级文本对应的文本等级。

可选地，所述第一确定模块310，用于：

所述第二确定模块320，用于：

可选地，所述输入模块340，用于：

、以及待分级文本属于第二分类

的概率，其中，m表示二分类模型的次序。

可选地，所述第三确定模块350，用于：

对于第k个文本等级：

当k=1时，将

确定为所述待分级文本属于第1个文本等级的概率；

当1<k<n时，将

的乘积确定为所述待分级文本属于第k个文本等级的概率；

当k=n时，将

确定为所述待分级文本属于第n个文本等级的概率。

图4是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现上述利用有序信息的文本分级方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述利用有序信息的文本分级方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用有序信息的文本分级方法，其特征在于，所述方法包括：

根据预设的文本等级的数量，确定初始二分类模型的数量；

2.根据权利要求1所述的方法，其特征在于，所述根据预设的文本等级的数量，确定初始二分类模型的数量，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设的文本等级为1、2、3、……、n；每个所述初始样本包括样本数据以及样本真值，其中，所述样本数据为样本文本，所述样本真值为样本文本对应的文本等级；

4.根据权利要求3所述的方法，其特征在于，所述训练完毕的多个二分类模型中的每个二分类模型包括第一分类以及第二分类，第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n。

5.根据权利要求4所述的方法，其特征在于，所述将待分级文本分别输入到每个二分类模型中，得到每个二分类模型输出的二分类概率，包括：

、以及待分级文本属于第二分类

的概率，其中，m表示二分类模型的次序。

6.根据权利要求5所述的方法，其特征在于，所述根据每个二分类模型输出的二分类概率，得到所述待分级文本对应的文本等级，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据每个二分类模型输出的二分类概率，确定所述待分级文本属于每个文本等级的概率，包括：

对于第k个文本等级：

当k=1时，将

确定为所述待分级文本属于第1个文本等级的概率；

当1<k<n时，将

的乘积确定为所述待分级文本属于第k个文本等级的概率；

当k=n时，将

确定为所述待分级文本属于第n个文本等级的概率。

8.一种利用有序信息的文本分级装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述预设的文本等级为1、2、3、……、n；每个所述初始样本包括样本数据以及样本真值，其中，所述样本数据为样本文本，所述样本真值为样本文本对应的文本等级；

所述第二确定模块，用于：