CN114996464B - 一种利用有序信息的文本分级方法及装置 - Google Patents

一种利用有序信息的文本分级方法及装置 Download PDF

Info

Publication number
CN114996464B
CN114996464B CN202210845265.6A CN202210845265A CN114996464B CN 114996464 B CN114996464 B CN 114996464B CN 202210845265 A CN202210845265 A CN 202210845265A CN 114996464 B CN114996464 B CN 114996464B
Authority
CN
China
Prior art keywords
text
classification
initial
binary
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210845265.6A
Other languages
English (en)
Other versions
CN114996464A (zh
Inventor
殷晓君
宋国龙
余江英
林若
马瑞祾
王鸿滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202210845265.6A priority Critical patent/CN114996464B/zh
Publication of CN114996464A publication Critical patent/CN114996464A/zh
Application granted granted Critical
Publication of CN114996464B publication Critical patent/CN114996464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本分级技术领域,特别是指一种利用有序信息的文本分级方法及装置。方法包括:根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。采用本发明,通过将一个多分类问题转化为多个二分类问题,有效利用了文本等级固有的有序性信息,提升了文本分级的准确率。

Description

一种利用有序信息的文本分级方法及装置
技术领域
本发明涉及文本分级技术领域,特别是指一种利用有序信息的文本分级方法及装置。
背景技术
文本分级是指将文本按照阅读难度进行难度分级。文本分级研究具有重要的理论和实践价值,文本分级研究是对文本语言特征的全面分析,其研究成果可以丰富语言学知识和阅读相关理论,特别是对分级阅读具有重要的意义,有利于促进全民阅读行为和习惯的养成,具有重要的社会价值。
当前文本分级的解决方案主要包括各类机器学习模型,如LR(LogisticRegression,逻辑回归模型)、SVM(support vector machines,支持向量机模型)、RandomForest等模型,也有基于Bert(Bidirectional Encoder Representations fromTransformer,基于 Transformer 的双向编码器表示模型)的深度学习模型。这其中涉及一个概念:变量。
变量包括无序变量和有序变量。无序变量,如“红、黄、蓝”,三者是没有顺序关系的。有序变量,如“低 中 高”, 是有顺序关系的。
当前的文本分级模型都是将分级信息作为无序变量。而实际上,文本等级是有严格顺序关系的,如一级、二级、三级 ...。这种有序性明显对于利用模型进行文本分级的效果是非常有益的,可以提升文本分级的准确性。而现有技术一直没有考虑到文本等级的有序性信息,导致文本分级的准确率还有待提升。
发明内容
本发明实施例提供了一种利用有序信息的文本分级方法及装置。所述技术方案如下:
一方面,提供了一种利用有序信息的文本分级方法,该方法由电子设备实现,该方法包括:
根据预设的文本等级的数量,确定初始二分类模型的数量;
根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;
根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;
将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;
根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级。
可选地,所述根据预设的文本等级的数量,确定初始二分类模型的数量,包括:
根据预设的文本等级的数量n,确定初始二分类模型的数量为n-1。
可选地,所述预设的文本等级为1、2、3、……、n;每个所述初始样本包括样本数据以及样本真值,其中,所述样本数据为样本文本,所述样本真值为样本文本对应的文本等级;
所述根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本,包括:
对于第i个初始二分类模型,将样本真值在1至i范围内的初始样本确定为负样本,将样本真值在i+1至n范围内的初始样本确定为正样本,其中,i为小于或等于n-1的正整数。
可选地,所述训练完毕的多个二分类模型中的每个二分类模型包括第一分类以及第二分类,第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n。
可选地,所述将待分级文本分别输入到每个二分类模型中,得到每个二分类模型输出的二分类概率,包括:
将待分级文本分别输入到每个二分类模型中,分别得到每个二分类模型输出的待 分级文本属于第一分类的概率
Figure 962905DEST_PATH_IMAGE001
、以及待分级文本属于第二分类
Figure 69533DEST_PATH_IMAGE002
的概率,其中,m表示 二分类模型的次序。
可选地,所述根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级,包括:
根据每个二分类模型输出的二分类概率,确定所述待分级文本属于每个文本等级的概率;
在所述待分级文本属于每个文本等级的概率中,确定最大概率,将所述最大概率对应的文本等级确定为所述待分级文本对应的文本等级。
可选地,所述根据每个二分类模型输出的二分类概率,确定所述待分级文本属于每个文本等级的概率,包括:
对于第k个文本等级:
当k=1时,将
Figure 874284DEST_PATH_IMAGE003
确定为所述待分级文本属于第1个文本等级的概率;
当1<k<n时,将
Figure 126274DEST_PATH_IMAGE004
的乘积确定为所述待分级文本属于第k个文本等级的 概率;
当k=n时,将
Figure 104725DEST_PATH_IMAGE005
确定为所述待分级文本属于第n个文本等级的概率。
另一方面,提供了一种利用有序信息的文本分级装置,该装置应用于利用有序信息的文本分级方法,该装置包括:
第一确定模块,用于根据预设的文本等级的数量,确定初始二分类模型的数量;
第二确定模块,用于根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;
训练模块,用于根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;
输入模块,用于将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;
第三确定模块,用于根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级。
可选地,所述第一确定模块,用于:
根据预设的文本等级的数量n,确定初始二分类模型的数量为n-1。
可选地,所述预设的文本等级为1、2、3、……、n;每个所述初始样本包括样本数据以及样本真值,其中,所述样本数据为样本文本,所述样本真值为样本文本对应的文本等级;
所述第二确定模块,用于:
对于第i个初始二分类模型,将样本真值在1至i范围内的初始样本确定为负样本,将样本真值在i+1至n范围内的初始样本确定为正样本,其中,i为小于或等于n-1的正整数。
可选地,所述训练完毕的多个二分类模型中的每个二分类模型包括第一分类以及第二分类,第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n。
可选地,所述输入模块,用于:
将待分级文本分别输入到每个二分类模型中,分别得到每个二分类模型输出的待 分级文本属于第一分类的概率
Figure 733153DEST_PATH_IMAGE001
、以及待分级文本属于第二分类
Figure 877564DEST_PATH_IMAGE002
的概率,其中,m表示 二分类模型的次序。
可选地,所述第三确定模块,用于:
根据每个二分类模型输出的二分类概率,确定所述待分级文本属于每个文本等级的概率;
在所述待分级文本属于每个文本等级的概率中,确定最大概率,将所述最大概率对应的文本等级确定为所述待分级文本对应的文本等级。
可选地,所述第三确定模块,用于:
对于第k个文本等级:
当k=1时,将
Figure 847925DEST_PATH_IMAGE003
确定为所述待分级文本属于第1个文本等级的概率;
当1<k<n时,将
Figure 144300DEST_PATH_IMAGE004
的乘积确定为所述待分级文本属于第k个文本等级的 概率;
当k=n时,将
Figure 327151DEST_PATH_IMAGE005
确定为所述待分级文本属于第n个文本等级的概率。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述利用有序信息的文本分级方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述利用有序信息的文本分级方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。这样,本发明利用了文本等级类别固有的有序性信息,提高了文本分级的准确率。而且,本发明不依赖特定模型,有效提升了各类具体模型在文本分级上的应用效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种利用有序信息的文本分级方法流程图;
图2是本发明实施例提供的一种
Figure 14484DEST_PATH_IMAGE006
Figure 608277DEST_PATH_IMAGE007
概率表达含义的示意图;
图3是本发明实施例提供的一种利用有序信息的文本分级装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种利用有序信息的文本分级方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。在本发明实施例中,设定预设的文本等级为1、2、3、……、n,文本等级的数量为n,每个初始样本包括样本数据以及样本真值,其中,样本数据为样本文本,样本真值为样本文本对应的文本等级。如图1所示的利用有序信息的文本分级方法流程图,该方法的处理流程可以包括如下的步骤。
S11、根据预设的文本等级的数量,确定初始二分类模型的数量。
其中,预设的文本等级为用户人为划分的等级,在本发明实施例中,设定预设的文本等级为1、2、3、……、n,共n个等级。当然,预设的文本等级还可以设定为其它有次序的形式,如将文本等级设定为一、二、三、……,或者将文本等级设定为a、b、c、……,等等,本发明对此不作限定。
初始二分类模型可以是所有适用于分类的机器学习模型,例如,朴素贝叶斯模型、决策树模型、最近邻模型、逻辑回归模型、XGBoost(Extreme Gradient Boosting,梯度提升决策树)模型等,本发明对此不作限定。
一种可行的实施方式中,为利用类别的有序性信息,改变传统将文本分级作为一个普通多分类问题,将文本分级划分为多个二分类问题,即,根据文本等级设计多个初始二分类模型,通过样本对多个初始二分类模型进行训练后,分别通过多个训练完毕的二分类模型对待分级文本进行分类,最终得到待分级文本的文本等级。
在根据文本等级设计多个初始二分类模型时,设计方案有多种,其中一个可行的设计方案为:将第1个初始二分类模型设计为对文本等级1与文本等级2至n的分类,将第2个初始二分类模型设计为对文本等级1至2与文本等级3至n的分类,将第3个初始二分类模型设计为对文本等级1至3与文本等级4至n的分类……以此类推,将第i个初始二分类模型设计为对文本等级1至i与文本等级i+1至n的分类,最后,将第n-1个初始二分类模型设计为对文本等级1至n-1与文本等级n的分类,至此结束。
根据上述设计方案,根据预设的文本等级的数量n,可以确定初始二分类模型的数量为n-1。
S12、根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本。
一种可行的实施方式中,通过上述步骤确定每个初始二分类模型的设计方案后,根据每个初始二分类模型的设计方案,确定每个初始二分类模型的样本设计规则,也即,将初始样本划分为正样本以及负样本。
根据上述步骤101可知,对于第i个初始二分类模型,其可行的一种设计方案为:将第i个初始二分类模型设计为对文本等级1至i与文本等级i+1至n的分类,也就是说,第i个初始二分类模型用于判断文本是属于文本等级1至i的,还是属于文本等级i+1至n的。基于此种设计方法,需要将样本按照样本真值属于文本等级1至i或属于文本等级i+1至n进行划分,一边是正样本、一边是负样本。
基于此种设计方法可以确定一种可行的划分方式如下:对于第i个初始二分类模型,将样本真值在1至i范围内的初始样本确定为负样本,将样本真值在i+1至n范围内的初始样本确定为正样本,其中,i为小于或等于n-1的正整数。
确定划分方式后,按照上述划分方式分别确定正样本以及负样本,并将正样本中的样本真值修改为1,将负样本中的样本真值修改为0。
需要说明的是,在训练多个初始二分类模型时,可以使用同一批初始样本,也就是说,同一批初始样本需要根据不同设计方案的初始二分类模型,做出不同的正样本负样本划分方案,举例来说,某个初始样本的样本真值为4,即该初始样本的样本数据属于文本等级4,则对于该初始样本,在针对第3个初始二分类模型进行样本划分时,将其划分为正样本,而在针对第5个初始二分类模型进行样本划分时,将其划分为负样本。
S13、根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型。
一种可行的实施方式中,根据划分好的正样本以及负样本训练对应的初始二分类模型,训练的方案可以采用现有技术中常用的训练方法,本发明对此不作赘述。
训练完毕后,得到的多个二分类模型中的每个二分类模型包括第一分类(即负分类)以及第二分类(即正分类),第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n,符合每个二分类模型的设计方案。
S14、将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率。
一种可行的实施方式中,通过上述步骤得到训练完毕的多个二分类模型后,将待 分级文本分别输入到每个二分类模型中,分别得到每个二分类模型输出的待分级文本属于 第一分类的概率
Figure 266048DEST_PATH_IMAGE001
、以及待分级文本属于第二分类
Figure 236278DEST_PATH_IMAGE002
的概率,其中,m表示二分类模型的 次序。举例来说,当m=i=3时,即第3个二分类模型输出两个概率,分别为
Figure 43697DEST_PATH_IMAGE008
Figure 824702DEST_PATH_IMAGE009
Figure 717572DEST_PATH_IMAGE008
表示 待分级文本属于第一分类的概率,具体地说是待分级文本属于文本等级1至3的概率,
Figure 475181DEST_PATH_IMAGE010
表 示待分级文本属于第二分类的概率,具体地说是待分级文本属于文本等级4至n的概率。
S15、根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。
一种可行的实施方式中,通过上述步骤得到每个二分类模型输出的两个概率后,通过得到的多个概率确定待分级文本对应的文本等级的处理可以如下述步骤S151-S152:
S151、根据每个二分类模型输出的二分类概率,确定待分级文本属于每个文本等级的概率。
一种可行的实施方式中,在确定待分级文本属于每个文本等级的概率的过程中,根据文本等级的不同次序,有不同的处理方法,设文本等级的次序为k,下面分别从k的三种情况进行说明,并辅以n=8为例进行说明:
举例说明,假设n=8,即文本等级设定为8个,分别为1、2、3、4、5、6、7、8,则按照上述步骤可以确定出n-1=8-1=7个二分类模型,这7个二分类模型的第一分类以及第二分类可以如下表1所示。
表1
Figure 137106DEST_PATH_IMAGE011
(1)当k=1时,将
Figure 89013DEST_PATH_IMAGE003
确定为待分级文本属于第1个文本等级的概率。
由上述表1可以看出,当k=1时,第1个二分类模型的第一分类的概率表示的就是待 分级文本属于文本等级1的概率,因此,可以直接将
Figure 469179DEST_PATH_IMAGE003
确定为待分级文本属于第1个文本等 级的概率。
(2)当1<k<n时,将
Figure 515632DEST_PATH_IMAGE004
的乘积确定为待分级文本属于第k个文本等级的概 率。
由上述表1可以看出,当模型次序为k时,
Figure 543981DEST_PATH_IMAGE006
表示待分级文本属于文本等级k至n 的概率,
Figure 650478DEST_PATH_IMAGE007
表示待分级文本属于文本等级1至k的概率,由此可以看出,
Figure 517939DEST_PATH_IMAGE012
Figure 384395DEST_PATH_IMAGE007
表示的 含义中有一个文本等级k是重叠的,如图2所示,因此,可以用
Figure 801339DEST_PATH_IMAGE004
表示待分级文本 属于文本等级k的概率。
(3)当k=n时,将
Figure 609895DEST_PATH_IMAGE013
确定为待分级文本属于第n个文本等级的概率。
与第(1)种情况同理,由上述表1可以看出,当k=n时,第n-1个二分类模型的第二分 类的概率表示的就是待分级文本属于文本等级n的概率,因此,可以直接将
Figure 449806DEST_PATH_IMAGE013
确定为待 分级文本属于第n个文本等级的概率。
S152、在待分级文本属于每个文本等级的概率中,确定最大概率,将最大概率对应的文本等级确定为待分级文本对应的文本等级。
一种可行的实施方式中,通过上述步骤确定待分级文本属于每个文本等级的概率后,可以对多个概率进行排序,确定出最大概率,最大概率对应的文本等级是待分级文本对应的文本等级的可能性最大,因此将最大概率对应的文本等级确定为待分级文本对应的文本等级。
本发明实施例中,根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。本发明利用了文本等级类别固有的有序性信息,提高了文本分级的准确率。而且,本发明不依赖特定模型,有效提升了各类具体模型在文本分级上的应用效果。
图3是根据一示例性实施例示出的一种利用有序信息的文本分级装置框图。参照图3,该装置包括:
第一确定模块310,用于根据预设的文本等级的数量,确定初始二分类模型的数量;
第二确定模块320,用于根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;
训练模块330,用于根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;
输入模块340,用于将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;
第三确定模块350,用于根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级。
可选地,所述第一确定模块310,用于:
根据预设的文本等级的数量n,确定初始二分类模型的数量为n-1。
可选地,所述预设的文本等级为1、2、3、……、n;每个所述初始样本包括样本数据以及样本真值,其中,所述样本数据为样本文本,所述样本真值为样本文本对应的文本等级;
所述第二确定模块320,用于:
对于第i个初始二分类模型,将样本真值在1至i范围内的初始样本确定为负样本,将样本真值在i+1至n范围内的初始样本确定为正样本,其中,i为小于或等于n-1的正整数。
可选地,所述训练完毕的多个二分类模型中的每个二分类模型包括第一分类以及第二分类,第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n。
可选地,所述输入模块340,用于:
将待分级文本分别输入到每个二分类模型中,分别得到每个二分类模型输出的待 分级文本属于第一分类的概率
Figure 103642DEST_PATH_IMAGE001
、以及待分级文本属于第二分类
Figure 594666DEST_PATH_IMAGE002
的概率,其中,m表示 二分类模型的次序。
可选地,所述第三确定模块350,用于:
根据每个二分类模型输出的二分类概率,确定所述待分级文本属于每个文本等级的概率;
在所述待分级文本属于每个文本等级的概率中,确定最大概率,将所述最大概率对应的文本等级确定为所述待分级文本对应的文本等级。
可选地,所述第三确定模块350,用于:
对于第k个文本等级:
当k=1时,将
Figure 295162DEST_PATH_IMAGE003
确定为所述待分级文本属于第1个文本等级的概率;
当1<k<n时,将
Figure 137216DEST_PATH_IMAGE004
的乘积确定为所述待分级文本属于第k个文本等级的 概率;
当k=n时,将
Figure 329163DEST_PATH_IMAGE005
确定为所述待分级文本属于第n个文本等级的概率。
本发明实施例中,根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。这样,本发明利用了文本等级类别固有的有序性信息,提高了文本分级的准确率。而且,本发明不依赖特定模型,有效提升了各类具体模型在文本分级上的应用效果。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述利用有序信息的文本分级方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述利用有序信息的文本分级方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种利用有序信息的文本分级方法,其特征在于,所述方法包括:
根据预设的文本等级的数量,确定初始二分类模型的数量;
根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;
根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;
将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;
根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的文本等级的数量,确定初始二分类模型的数量,包括:
根据预设的文本等级的数量n,确定初始二分类模型的数量为n-1。
3.根据权利要求2所述的方法,其特征在于,所述预设的文本等级为1、2、3、……、n;每个所述初始样本包括样本数据以及样本真值,其中,所述样本数据为样本文本,所述样本真值为样本文本对应的文本等级;
所述根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本,包括:
对于第i个初始二分类模型,将样本真值在1至i范围内的初始样本确定为负样本,将样本真值在i+1至n范围内的初始样本确定为正样本,其中,i为小于或等于n-1的正整数。
4.根据权利要求3所述的方法,其特征在于,所述训练完毕的多个二分类模型中的每个二分类模型包括第一分类以及第二分类,第i个二分类模型中的第一分类为文本等级1至i、第二分类为文本等级i+1至n。
5.根据权利要求4所述的方法,其特征在于,所述将待分级文本分别输入到每个二分类模型中,得到每个二分类模型输出的二分类概率,包括:
将待分级文本分别输入到每个二分类模型中,分别得到每个二分类模型输出的待分级 文本属于第一分类的概率
Figure DEST_PATH_IMAGE001
、以及待分级文本属于第二分类
Figure DEST_PATH_IMAGE002
的概率,其中,m表示二分 类模型的次序。
6.根据权利要求5所述的方法,其特征在于,所述根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级,包括:
根据每个二分类模型输出的二分类概率,确定所述待分级文本属于每个文本等级的概率;
在所述待分级文本属于每个文本等级的概率中,确定最大概率,将所述最大概率对应的文本等级确定为所述待分级文本对应的文本等级。
7.根据权利要求6所述的方法,其特征在于,所述根据每个二分类模型输出的二分类概率,确定所述待分级文本属于每个文本等级的概率,包括:
对于第k个文本等级:
当k=1时,将
Figure DEST_PATH_IMAGE003
确定为所述待分级文本属于第1个文本等级的概率;
当1<k<n时,将
Figure DEST_PATH_IMAGE004
的乘积确定为所述待分级文本属于第k个文本等级的概率;
当k=n时,将
Figure DEST_PATH_IMAGE005
确定为所述待分级文本属于第n个文本等级的概率。
8.一种利用有序信息的文本分级装置,其特征在于,所述装置包括:
第一确定模块,用于根据预设的文本等级的数量,确定初始二分类模型的数量;
第二确定模块,用于根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;
训练模块,用于根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;
输入模块,用于将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;
第三确定模块,用于根据每个二分类模型输出的二分类概率,得到所述待分级文本对应的文本等级。
9.根据权利要求8所述的装置,其特征在于,所述第一确定模块,用于:
根据预设的文本等级的数量n,确定初始二分类模型的数量为n-1。
10.根据权利要求9所述的装置,其特征在于,所述预设的文本等级为1、2、3、……、n;每个所述初始样本包括样本数据以及样本真值,其中,所述样本数据为样本文本,所述样本真值为样本文本对应的文本等级;
所述第二确定模块,用于:
对于第i个初始二分类模型,将样本真值在1至i范围内的初始样本确定为负样本,将样本真值在i+1至n范围内的初始样本确定为正样本,其中,i为小于或等于n-1的正整数。
CN202210845265.6A 2022-07-19 2022-07-19 一种利用有序信息的文本分级方法及装置 Active CN114996464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210845265.6A CN114996464B (zh) 2022-07-19 2022-07-19 一种利用有序信息的文本分级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210845265.6A CN114996464B (zh) 2022-07-19 2022-07-19 一种利用有序信息的文本分级方法及装置

Publications (2)

Publication Number Publication Date
CN114996464A CN114996464A (zh) 2022-09-02
CN114996464B true CN114996464B (zh) 2022-10-21

Family

ID=83021740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210845265.6A Active CN114996464B (zh) 2022-07-19 2022-07-19 一种利用有序信息的文本分级方法及装置

Country Status (1)

Country Link
CN (1) CN114996464B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374252B (zh) * 2022-10-21 2022-12-23 北京语言大学 一种基于原生Bert架构的文本分级方法及装置
CN115600575B (zh) * 2022-12-01 2023-03-14 北京语言大学 一种中文文本智能分级改编方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948730A (zh) * 2019-03-29 2019-06-28 中诚信征信有限公司 一种数据分类方法、装置、电子设备及存储介质
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN112182229A (zh) * 2020-11-05 2021-01-05 江西高创保安服务技术有限公司 一种文本分类模型构建方法、文本分类方法及装置
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112948575A (zh) * 2019-12-11 2021-06-11 京东数字科技控股有限公司 文本数据处理方法、装置和计算机可读存储介质
CN112966102A (zh) * 2021-02-10 2021-06-15 万翼科技有限公司 分类模型构建及文本语句分类方法、设备及存储介质
CN114462465A (zh) * 2021-09-30 2022-05-10 马上消费金融股份有限公司 一种分类模型的训练方法、质检预测方法及对应装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339306B (zh) * 2018-12-18 2023-05-12 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948730A (zh) * 2019-03-29 2019-06-28 中诚信征信有限公司 一种数据分类方法、装置、电子设备及存储介质
CN112948575A (zh) * 2019-12-11 2021-06-11 京东数字科技控股有限公司 文本数据处理方法、装置和计算机可读存储介质
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN112182229A (zh) * 2020-11-05 2021-01-05 江西高创保安服务技术有限公司 一种文本分类模型构建方法、文本分类方法及装置
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112966102A (zh) * 2021-02-10 2021-06-15 万翼科技有限公司 分类模型构建及文本语句分类方法、设备及存储介质
CN114462465A (zh) * 2021-09-30 2022-05-10 马上消费金融股份有限公司 一种分类模型的训练方法、质检预测方法及对应装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汉语国际教育汉语文本分级及难度测查对比研究;王鸿滨;《云南师范大学学报》;20201130;第18卷(第6期);第2-4页 *

Also Published As

Publication number Publication date
CN114996464A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
EP3227836B1 (en) Active machine learning
CN114996464B (zh) 一种利用有序信息的文本分级方法及装置
Penha et al. Curriculum learning strategies for IR: An empirical study on conversation response ranking
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110795525B (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
US20220230089A1 (en) Classifier assistance using domain-trained embedding
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CN108733644A (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
Budhiraja et al. A supervised learning approach for heading detection
US10754904B2 (en) Accuracy determination for media
Dobson Interpretable outputs: criteria for machine learning in the humanities
Wei et al. Online education recommendation model based on user behavior data analysis
He et al. Sentiment classification technology based on Markov logic networks
CN111767399B (zh) 一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
Wang et al. Enhancing Implicit Sentiment Learning via the Incorporation of Part-of-Speech for Aspect-Based Sentiment Analysis
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
US11997056B2 (en) Language model with external knowledge base
Kumar et al. Transformer-based Models for Language Identification: A Comparative Study
US20240012881A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium
US20240013057A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant