CN112100377B - 文本分类方法、装置、计算机设备和存储介质 - Google Patents

文本分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112100377B
CN112100377B CN202010963338.2A CN202010963338A CN112100377B CN 112100377 B CN112100377 B CN 112100377B CN 202010963338 A CN202010963338 A CN 202010963338A CN 112100377 B CN112100377 B CN 112100377B
Authority
CN
China
Prior art keywords
text
classification
classified
text classification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010963338.2A
Other languages
English (en)
Other versions
CN112100377A (zh
Inventor
赵文
张雨豪
张开旭
刘洪�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010963338.2A priority Critical patent/CN112100377B/zh
Publication of CN112100377A publication Critical patent/CN112100377A/zh
Application granted granted Critical
Publication of CN112100377B publication Critical patent/CN112100377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能中的自然语言处理技术领域,提供了一种文本分类方法、装置、计算机设备和存储介质。所述方法包括:获取待分类文本;将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本;当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。采用本方法能够达到提升文本分类效率的目的,同时也保证了分类准确度。

Description

文本分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了自然语言处理技术,在自然语言处理技术中包括文本分类技术,文本分类技术自大规模预训练语言模型出现以来,任务的精度越来越高,语言模型对文本的理解能力越来越强,但相应的算法的复杂度也越来越高,因此,需要提升预训练语言模型的效率。
传统技术中,在提升预训练语言模型的效率时常用的方法包括模型蒸馏等。模型蒸馏是用语言模型的分类结果和简单模型(如Fast Text等)的分类结果去对比,找到它们之间的差距,并且利用这个差距使简单模型的效果尽量逼近语言模型。
然而,传统方法主要是通过删减掉部分运算过程来实现对模型本身运算过程加速,对于一些复杂度高的待分类文本,存在分类不准确且分类效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文本分类效率和准确度的文本分类方法、装置、计算机设备和存储介质。
一种文本分类方法,所述方法包括:
获取待分类文本;
将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;
根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本;
当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
一种文本分类装置,所述装置包括:
获取模块,用于获取待分类文本;
文本分类模块,用于将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;
文本复杂度分类模块,用于根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本;
第一处理模块,用于当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
第二处理模块,用于当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类文本;
将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;
根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本;
当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类文本;
将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;
根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本;
当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
上述文本分类方法、装置、计算机设备和存储介质,通过将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果,根据第一文本分类结果来判断待分类文本的复杂度,将复杂度高的待分类文本划分给分类精度导向的第二文本分类模型来处理,得到目标文本分类结果,对复杂度低的待分类文本,直接根据第一文本分类结果来确定目标文本分类结果,从而让分类精度导向的第二文本分类模型只计算复杂度高的待分类文本,达到提升文本分类效率的目的,同时也保证了分类准确度。
附图说明
图1为一个实施例中文本分类方法的流程示意图;
图2为一个实施例中文本分类方法的应用场景图;
图3为另一个实施例中文本分类方法的流程示意图;
图4为一个实施例中文本分类装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
本申请实施例提供的方案涉及人工智能的自然语言处理技术,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本分类方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102:获取待分类文本。
其中,待分类文本是指尚未分类的文本。比如,待分类文本具体可以是待分类文档。又比如,待分类文本具体可以是待分类店铺名。
具体的,在进行文本分类时,服务器会先获取到待分类文本。服务器获取待分类文本的方式可以为从预先已存储待分类文本的数据库中获取,也可以为直接从用户终端获取,当用户需要进行文本分类时,可以通过用户终端将待分类文本传输至服务器。
步骤104:将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果。
其中,分类速度导向的第一文本分类模型是指分类速度快的文本分类模型。比如,分类速度导向的第一文本分类模型具体可以是Fast Text(快速文本分类)。又比如,分类速度导向的第一文本分类模型具体可以是Text CNN(文本卷积)。第一文本分类结果是指第一文本分类模型针对待分类文本输出的分类结果。比如,第一文本分类结果具体可以是用于表征待分类文本归属于各文本类别的类别值,进一步的,类别值具体可以是logits值。
具体的,服务器会对待分类文本进行预处理,将预处理后的待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果。
举例说明,第一文本分类模型具体可以是Fast Text。Fast Text由输入层、隐藏层和输出层构成,其中,输入层的输入是文本中的n-gram向量。服务器在将待分类文本输入Fast Text前,需要对待分类文本进行预处理,对待分类文本进行n-gram分词,得到与待分类文本对应的n-gram向量。
步骤106:根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本。
其中,待分类文本的文本类型是指待分类文本的复杂度类型,包括低复杂度文本和高复杂度文本。低复杂度文本是指文本的复杂度低,通过分类速度导向的第一文本分类模型对其分类,就可以得到满意的分类结果。高复杂度文本是指文本的复杂度高,通过分类速度导向的第一文本分类模型对其分类,无法得到满意的分类结果。分类结果是否满意可通过概率分布信息熵确定,概率分布信息熵可根据第一文本分类结果计算得到,概率分布信息熵可用于评估当前概率分布是否已经足够明确表明待分类文本的分类,即评估第一文本分类结果的不确定程度。当概率分布信息熵的熵值越大,该结果越不确定,说明通过分类速度导向的第一文本分类模型无法得到满意的分类结果,对应的待分类文本应该被归为高复杂度文本。
具体的,服务器会根据第一文本分类结果计算概率分布信息熵,比对概率分布信息熵和预设信息熵阈值,当概率分布信息熵大于信息熵阈值时,确定待分类文本的文本类型为高复杂度文本,当概率分布信息熵小于信息熵阈值时,确定待分类文本的文本类型为低复杂度文本。其中,预设信息熵阈值是指预先设置的信息熵阈值,用于与概率分布信息熵进行比对以评估第一文本分类结果的不确定程度,可按照需要自行设置。
步骤108:当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果。
其中,目标文本分类结果是指最终确定的待分类文本的文本分类结果。比如,当待分类文本为待分类文档时,目标文本分类结果具体可以是指文档类别。又比如,当待分类文本为待分类店铺名时,目标文本分类结果具体可以是指店铺对应的行业类别,如超市、餐厅等。
具体的,当文本类型为低复杂度文本时,表示通过分类速度导向的第一文本分类模型对其分类,就可以得到满意的分类结果,服务器会将第一文本分类结果作为目标文本分类结果。
步骤110:当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
其中,分类精度导向的第二文本分类模型是指分类精度高的文本分类模型,具体可以为预训练语言模型。比如,分类精度导向的第二文本分类模型具体可以是BERT(Bidirectional Encoder Representation from Transformers,双向Transformer的编码器)。又比如,分类精度导向的第二文本分类模型具体可以是RoBERTa。再比如,分类精度导向的第二文本分类模型具体可以是ELECTRA。第二文本分类结果是指第二文本分类模型针对待分类文本输出的分类结果。比如,第二文本分类结果具体可以是用于表征待分类文本归属于各文本类别的概率。
具体的,当文本类型为高复杂度文本时,表示通过分类速度导向的第一文本分类模型对其分类,无法得到满意的分类结果,服务器会再次对待分类文本进行预处理,将预处理后的待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,再根据第二文本分类结果中待分类文本归属于各文本类别的概率,确定目标文本分类结果。其中,根据第二文本分类结果中待分类文本归属于各文本类别的概率,确定目标文本分类结果的方式可以为:对待分类文本归属于各文本类别的概率进行排序,根据排序结果确定概率最大的文本类别,将概率最大的文本类别作为目标文本分类结果。
上述文本分类方法,通过将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果,根据第一文本分类结果来判断待分类文本的复杂度,将复杂度高的待分类文本划分给分类精度导向的第二文本分类模型来处理,得到目标文本分类结果,对复杂度低的待分类文本,直接根据第一文本分类结果来确定目标文本分类结果,从而让分类精度导向的第二文本分类模型只计算复杂度高的待分类文本,达到提升文本分类效率的目的,同时也保证了分类准确度。
在一个实施例中,在将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果之前,还包括:
获取携带类别标签的已分类样本;
将携带类别标签的已分类样本输入初始分类速度导向的文本分类模型,对初始分类速度导向的文本分类模型进行有监督训练,得到已训练的分类速度导向的第一文本分类模型。
其中,类别标签用于表征文本类别,不同文本类别所对应的类别标签不同。比如,类别标签具体可以是用于表征文本类别的字符串。已分类样本是指已经完成分类的文本样本。比如,已分类样本具体可以是指文本词语集合,文本词语集合通过对文本进行n-gram分词得到。初始分类速度导向的文本分类模型是指尚未训练的文本分类模型。
具体的,服务器会获取携带类别标签的已分类样本,将携带类别标签的已分类样本输入初始分类速度导向的文本分类模型,以类别标签为有监督学习标签,对初始分类速度导向的文本分类模型进行有监督训练,得到分类速度导向的第一文本分类模型。
本实施例中,通过根据携带类别标签的已分类样本对初始分类速度导向的文本分类模型进行有监督训练,得到已训练的分类速度导向的第一文本分类模型,能够实现对分类速度导向的第一文本分类模型的获取。
在一个实施例中,根据第一文本分类结果,确定待分类文本的文本类型包括:
根据第一文本分类结果,计算待分类文本的概率分布信息熵;
根据概率分布信息熵,确定待分类文本的文本类型。
其中,概率分布信息熵是指根据待分类文本的概率分布计算得到的信息熵,概率分布信息熵可用于评估当前概率分布是否已经足够明确表明待分类文本的分类,即评估第一文本分类结果的不确定程度。当概率分布信息熵的熵值越大,该结果越不确定,说明通过分类速度导向的第一文本分类模型无法得到满意的分类结果,对应的待分类文本应该被归为高复杂度文本。
具体的,服务器会根据第一文本分类结果先计算待分类文本的概率分布,再根据待分类文本的概率分布计算待分类文本的概率分布信息熵。
本实施例中,通过根据第一文本分类结果,计算待分类文本的概率分布信息熵,根据概率分布信息熵,确定待分类文本的文本类型,能够实现对待分类文本的文本类型的确定。
在一个实施例中,根据第一文本分类结果,计算待分类文本的概率分布信息熵包括:
根据第一文本分类结果,计算待分类文本的概率分布;
根据概率分布计算概率分布信息熵。
其中,待分类文本的概率分布是指待分类文本归属于各文本类别的概率的分布情况。
具体的,服务器会先获取文本类别数,根据文本类别数和预设类别阈值,确定在计算待分类文本的概率分布时所需要用到的文本类别数量,再根据所需要用到的文本类别数量从第一文本分类结果中获取在计算待分类文本的概率分布时所需要用到的待分类文本归属于各文本类别的类别值,根据该所需要用到的待分类文本归属于各文本类别的类别值,计算待分类文本的概率分布,再根据概率分布、文本类别数以及信息熵计算公式,计算概率分布信息熵。
进一步的,服务器会比对文本类别数和预设类别阈值,当文本类别数小于预设类别阈值时,会确定在计算待分类文本的概率分布时所需要用到的文本类别数量为所有的文本类别数量,当文本类别数大于预设类别阈值时,会确定在计算待分类文本的概率分布时所需要用到的文本类别数量为预设筛选阈值个文本类别数量。待分类文本归属于各文本类别的概率的计算公式具体可以为: 其中,N为文本类别数,a(i)为待分类文本归属于各文本类别的类别值(具体可以为logits值),概率分布信息熵的计算公式具体可以为:/>
本实施例中,通过根据第一文本分类结果计算待分类文本的概率分布,根据概率分布计算概率分布信息熵,能够实现对概率分布信息熵的获取。
在一个实施例中,将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果之前,还包括:
获取文本类别数;
根据第一文本分类结果,计算待分类文本的概率分布包括:
当文本类别数小于预设类别阈值时,根据第一文本分类结果中待分类文本归属于各文本类别的logits值,计算待分类文本归属于各文本类别的概率,根据各文本类别的概率得到待分类文本的概率分布;
当文本类别数大于预设类别阈值时,对第一文本分类结果中待分类文本归属于各文本类别的logits值进行排序,根据排序结果计算所述待分类文本的概率分布。
其中,文本类别数是指文本类别数量。比如,当待分类文本是待分派店铺名时,文本类别数具体可以是指行业类别数量。预设类别阈值是指预先设定的分类类别阈值,可按照需要自行设置。比如,预设类别阈值具体可以是50、100等。
具体的,服务器会先获取文本类别数,比对文本类别数和预设类别阈值,当文本类别数小于预设类别阈值时,根据第一文本分类结果中待分类文本归属于各文本类别的logits值以及待分类文本归属于各文本类别的概率的计算公式,分别计算待分类文本归属于各文本类别的概率,根据各文本类别的概率得到待分类文本的概率分布,当文本类别数大于预设类别阈值时,对第一文本分类结果中待分类文本归属于各文本类别的logits值进行排序,根据排序结果计算待分类文本的概率分布。
本实施例中,通过比对文本类别数和预设类别阈值,根据比对结果采用不同的方式得到待分类文本的概率分布,能够实现对待分类文本的概率分布的获取。
在一个实施例中,根据排序结果计算待分类文本的概率分布包括:
根据排序结果和预设筛选阈值,从各文本类别的logits值中筛选出目标文本类别的logits值;
根据目标文本类别的logits值,计算待分类文本归属于各目标文本类别的概率,根据归属于各目标文本类别的概率,得到待分类文本的概率分布。
其中,预设筛选阈值用于表征当文本类别数大于预设类别阈值时,在计算待分类文本的概率分布时所需要用到的文本类别数量。
具体的,服务器会根据排序结果和预设筛选阈值(假设为M),从各文本类别的logits值中筛选出前M个文本类别的logits值,作为目标文本类别的logits值,根据目标文本类别的logits值以及待分类文本归属于各文本类别的概率的计算公式,分别计算待分类文本归属于各目标文本类别的概率,根据各目标文本类别的概率,得到待分类文本的概率分布。优选的,可以选择前5个或者前3个logits值,即M可以为5或者3。这样处理的好处是,在多分类场景中,当文本类别数很大时,待分类文本的概率分布是接近均匀分布的,这样对于每个待分类文本来说,得到的概率分布信息熵的熵值都会偏大,这时大多数待分类文本都会被划分为高复杂度文本,在这种情况下,本申请的技术方案的加速效果会变得不明显,为了使本申请的技术方案更能适用于更广泛的分类场景,在文本类别数很大时(比如为100),可以通过先对各文本类别的logits值进行排序,从中选取预设筛选阈值个logits值,去计算概率分布和概率分布信息熵,这样能够保证在文本类别数很大的情况下,把真正需要复杂计算的待分类文本划分出来。
本实施例中,通过根据排序结果和预设筛选阈值,从各文本类别的logits值中筛选出目标文本类别的logits值,根据目标文本类别的logits值,计算待分类文本归属于各目标文本类别的概率,根据各目标文本类别的概率,得到待分类文本的概率分布,能够实现对待分类文本的概率分布的获取。
在一个实施例中,在将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果之前,还包括:
获取未携带类别标签的第一样本语料,将第一样本语料输入初始分类精度导向的文本分类模型,对初始分类精度导向的文本分类模型进行无监督训练,得到无监督训练后的文本分类模型;
获取携带类别标签的第二样本语料,将第二样本语料输入无监督训练后的文本分类模型,对无监督训练后的文本分类模型进行有监督训练,得到已训练的分类精度导向的第二文本分类模型。
其中,第一样本语料是指不携带类别标签的语料。比如,第一样本语料具体可以是指不携带类别标签的文档。又比如,第一样本语料具体可以是指不携带类别标签的长短句集合。通过将第一样本语料输入初始分类精度导向的文本分类模型,对初始分类精度导向的文本分类模型进行无监督训练,能够增强文本分类模型的语言理解能力。第二样本语料是指携带类别标签的语料。比如,第二样本语料具体可以是指携带类别标签的文档。又比如,第二样本语料具体可以是指携带类别标签的长短句集合。通过将第二样本语料输入无监督训练后的文本分类模型,对无监督训练后的文本分类模型进行有监督训练,能够提高文本分类模型的分类准确度。初始分类精度导向的文本分类模型具体可以是BERT、RoBERTa、ELECTRA等预训练语言模型。
具体的,服务器会先获取第一样本语料,将第一样本语料输入初始分类精度导向的文本分类模型,对初始分类精度导向的文本分类模型进行无监督训练,能够增强文本分类模型的语言理解能力,得到无监督训练后的文本分类模型,再获取携带类别标签的第二样本语料,将第二样本语料输入无监督训练后的文本分类模型,对无监督训练后的文本分类模型进行有监督训练,提高文本分类模型的分类准确度,得到已训练的分类精度导向的第二文本分类模型。
本实施例中,通过先利用第一样本语料对初始分类精度导向的文本分类模型进行无监督训练,能够增强文本分类模型的语言理解能力,得到无监督训练后的文本分类模型,再利用第二样本语料对无监督训练后的文本分类模型进行有监督训练,能够提高文本分类模型的分类准确度,得到已训练的分类精度导向的第二文本分类模型。
本申请还提供一种应用场景,该应用场景应用上述的文本分类方法。具体地,该文本分类方法在该应用场景的应用如下:
服务器获取待分类店铺名称(即待分类文本),将待分类店铺名称输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果,根据第一文本分类结果,确定待分类店铺名称的文本类型,文本类型包括低复杂度文本和高复杂度文本,当文本类型为低复杂度文本时,根据第一文本分类结果得到待分类店铺名称归属的行业类别,当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到待分类店铺名称归属的行业类别。
本申请还提供一种应用场景,如图2所示,该应用场景应用上述文本分类方法。具体地,该文本分类方法在该应用场景的应用如下:
服务器获取样本(即待分类文本),将样本输入简单模型(即已训练的分类速度导向的第一文本分类模型),得到简单样本分类结果(即第一文本分类结果),根据简单样本分类结果,确定样本的样本类型(即文本类型),样本类型包括简单样本(即低复杂度文本)和复杂样本(即高复杂度文本),当样本类型为简单样本时,将简单样本分类结果作为目标样本分类结果,当样本类型为复杂样本时,将样本输入复杂模型(即已训练的分类精度导向的第二文本分类模型),得到复杂样本分类结果(即第二文本分类结果),将复杂样本分类结果作为目标样本分类结果。
如图3所示,通过一个实施例来说明本申请的文本分类方法,该文本分类方法具体包括以下步骤:
步骤302,获取待分类文本;
步骤304,获取携带类别标签的已分类样本;
步骤306,将携带类别标签的已分类样本输入初始分类速度导向的文本分类模型,对初始分类速度导向的文本分类模型进行有监督训练,得到已训练的分类速度导向的第一文本分类模型;
步骤308,获取文本类别数;
步骤310,将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果,并判断文本类别数是否小于预设类别阈值,当判断结果为是时,跳转至步骤312,当判断结果为否时,跳转至步骤314;
步骤312,根据第一文本分类结果中待分类文本归属于各文本类别的logits值,计算待分类文本归属于各文本类别的概率,根据各文本类别的概率得到待分类文本的概率分布;
步骤314,对第一文本分类结果中待分类文本归属于各文本类别的logits值进行排序,根据排序结果和预设筛选阈值,从各文本类别的logits值中筛选出目标文本类别的logits值;
步骤316,根据目标文本类别的logits值,计算待分类文本归属于各目标文本类别的概率,根据归属于各目标文本类别的概率,得到待分类文本的概率分布;
步骤318,根据概率分布计算概率分布信息熵;
步骤320,比对概率分布信息熵和预设信息熵阈值,判断概率分布信息熵是否小于信息熵阈值,当判断结果为是时,跳转至322,当判断结果为否时,跳转至326;
步骤322,确定待分类文本的文本类型为低复杂度文本;
步骤324,根据第一文本分类结果得到目标文本分类结果;
步骤326,确定待分类文本的文本类型为高复杂度文本;
步骤328,获取未携带类别标签的第一样本语料,将第一样本语料输入初始分类精度导向的文本分类模型,对初始分类精度导向的文本分类模型进行无监督训练,得到无监督训练后的文本分类模型;
步骤330,获取携带类别标签的第二样本语料,将第二样本语料输入无监督训练后的文本分类模型,对无监督训练后的文本分类模型进行有监督训练,得到已训练的分类精度导向的第二文本分类模型;
步骤332,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
应该理解的是,虽然图1和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种文本分类装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块402、文本分类模块404、文本复杂度分类模块406、第一处理模块408和第二处理模块410,其中:
获取模块402,用于获取待分类文本;
文本分类模块404,用于将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;
文本复杂度分类模块406,用于根据第一文本分类结果,确定待分类文本的文本类型,文本类型包括低复杂度文本和高复杂度文本;
第一处理模块408,用于当文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
第二处理模块410,用于当文本类型为高复杂度文本时,将待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
上述文本分类装置,通过将待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果,根据第一文本分类结果来判断待分类文本的复杂度,将复杂度高的待分类文本划分给分类精度导向的第二文本分类模型来处理,得到目标文本分类结果,对复杂度低的待分类文本,直接根据第一文本分类结果来确定目标文本分类结果,从而让分类精度导向的第二文本分类模型只计算复杂度高的待分类文本,达到提升文本分类效率的目的,同时也保证了分类准确度。
在一个实施例中,文本分类装置还包括第一模型训练模块,第一模型训练模块用于获取携带类别标签的已分类样本,将携带类别标签的已分类样本输入初始分类速度导向的文本分类模型,对初始分类速度导向的文本分类模型进行有监督训练,得到已训练的分类速度导向的第一文本分类模型。
在一个实施例中,文本分类模块还用于根据第一文本分类结果,计算待分类文本的概率分布信息熵,根据概率分布信息熵,确定待分类文本的文本类型。
在一个实施例中,文本分类模块还用于根据第一文本分类结果,计算待分类文本的概率分布,根据概率分布计算概率分布信息熵。
在一个实施例中,文本分类模块还用于获取文本类别数,当文本类别数小于预设类别阈值时,根据第一文本分类结果中待分类文本归属于各文本类别的logits值,计算待分类文本归属于各文本类别的概率,根据各文本类别的概率得到待分类文本的概率分布,当文本类别数大于预设类别阈值时,对第一文本分类结果中待分类文本归属于各文本类别的logits值进行排序,根据排序结果计算所述待分类文本的概率分布。
在一个实施例中,文本分类模块还用于根据排序结果和预设筛选阈值,从各文本类别的logits值中筛选出目标文本类别的logits值,根据目标文本类别的logits值,计算待分类文本归属于各目标文本类别的概率,根据归属于各目标文本类别的概率,得到待分类文本的概率分布。
在一个实施例中,文本分类装置还包括第二模型训练模块,第二模型训练模块用于获取未携带类别标签的第一样本语料,将第一样本语料输入初始分类精度导向的文本分类模型,对初始分类精度导向的文本分类模型进行无监督训练,得到无监督训练后的文本分类模型,获取携带类别标签的第二样本语料,将第二样本语料输入无监督训练后的文本分类模型,对无监督训练后的文本分类模型进行有监督训练,得到已训练的分类精度导向的第二文本分类模型。
关于文本分类装置的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分类文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本;
将所述待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;所述第一文本分类模型通过将携带类别标签的已分类样本输入初始分类速度导向的文本分类模型进行有监督训练得到;
根据所述第一文本分类结果,确定待分类文本的文本类型,所述文本类型包括低复杂度文本和高复杂度文本;
当所述文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
当所述文本类型为高复杂度文本时,将所述待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果;
其中,所述第二文本分类模型通过以下方式训练得到:
获取未携带类别标签的第一样本语料,将所述第一样本语料输入初始分类精度导向的文本分类模型,对所述初始分类精度导向的文本分类模型进行无监督训练,得到无监督训练后的文本分类模型;
获取携带类别标签的第二样本语料,将所述第二样本语料输入所述无监督训练后的文本分类模型,对所述无监督训练后的文本分类模型进行有监督训练,得到已训练的分类精度导向的第二文本分类模型。
2.根据权利要求1所述的方法,其特征在于,在所述将所述待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果之前,还包括:
获取携带类别标签的已分类样本;
将所述携带类别标签的已分类样本输入初始分类速度导向的文本分类模型,对所述初始分类速度导向的文本分类模型进行有监督训练,得到已训练的分类速度导向的第一文本分类模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本分类结果,确定待分类文本的文本类型包括:
根据所述第一文本分类结果,计算所述待分类文本的概率分布信息熵;
根据所述概率分布信息熵,确定待分类文本的文本类型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一文本分类结果,计算所述待分类文本的概率分布信息熵包括:
根据所述第一文本分类结果,计算所述待分类文本的概率分布;
根据所述概率分布计算概率分布信息熵。
5.根据权利要求4所述的方法,其特征在于,所述将所述待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果之前,还包括:
获取文本类别数;
所述根据所述第一文本分类结果,计算所述待分类文本的概率分布包括:
当所述文本类别数小于预设类别阈值时,根据所述第一文本分类结果中待分类文本归属于各文本类别的logits值,计算所述待分类文本归属于各文本类别的概率,根据所述各文本类别的概率得到待分类文本的概率分布;
当所述文本类别数大于预设类别阈值时,对所述第一文本分类结果中待分类文本归属于各文本类别的logits值进行排序,根据排序结果计算所述待分类文本的概率分布。
6.根据权利要求5所述的方法,其特征在于,所述根据排序结果计算所述待分类文本的概率分布包括:
根据排序结果和预设筛选阈值,从所述各文本类别的logits值中筛选出目标文本类别的logits值;
根据目标文本类别的logits值,计算所述待分类文本归属于各目标文本类别的概率;
根据所述归属于各目标文本类别的概率,得到所述待分类文本的概率分布。
7.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本;
文本分类模块,用于将所述待分类文本输入已训练的分类速度导向的第一文本分类模型,得到第一文本分类结果;所述第一文本分类模型通过将携带类别标签的已分类样本输入初始分类速度导向的文本分类模型进行有监督训练得到;
文本复杂度分类模块,用于根据所述第一文本分类结果,确定待分类文本的文本类型,所述文本类型包括低复杂度文本和高复杂度文本;
第一处理模块,用于当所述文本类型为低复杂度文本时,根据第一文本分类结果得到目标文本分类结果;
第二模型训练模块,用于获取未携带类别标签的第一样本语料,将所述第一样本语料输入初始分类精度导向的文本分类模型,对所述初始分类精度导向的文本分类模型进行无监督训练,得到无监督训练后的文本分类模型,获取携带类别标签的第二样本语料,将所述第二样本语料输入所述无监督训练后的文本分类模型,对所述无监督训练后的文本分类模型进行有监督训练,得到已训练的分类精度导向的第二文本分类模型;
第二处理模块,用于当所述文本类型为高复杂度文本时,将所述待分类文本输入已训练的分类精度导向的第二文本分类模型,得到第二文本分类结果,根据第二文本分类结果得到目标文本分类结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括第一模型训练模块,所述第一模型训练模块用于获取携带类别标签的已分类样本,将所述携带类别标签的已分类样本输入初始分类速度导向的文本分类模型,对所述初始分类速度导向的文本分类模型进行有监督训练,得到已训练的分类速度导向的第一文本分类模型。
9.根据权利要求7所述的装置,其特征在于,所述文本分类模块还用于根据所述第一文本分类结果,计算所述待分类文本的概率分布信息熵,根据所述概率分布信息熵,确定待分类文本的文本类型。
10.根据权利要求9所述的装置,其特征在于,所述文本分类模块还用于根据所述第一文本分类结果,计算所述待分类文本的概率分布,根据所述概率分布计算概率分布信息熵。
11.根据权利要求10所述的装置,其特征在于,所述文本分类模块还用于获取文本类别数,当所述文本类别数小于预设类别阈值时,根据所述第一文本分类结果中待分类文本归属于各文本类别的logits值,计算所述待分类文本归属于各文本类别的概率,根据所述各文本类别的概率得到待分类文本的概率分布,当所述文本类别数大于预设类别阈值时,对所述第一文本分类结果中待分类文本归属于各文本类别的logits值进行排序,根据排序结果计算所述待分类文本的概率分布。
12.根据权利要求11所述的装置,其特征在于,所述文本分类模块还用于根据排序结果和预设筛选阈值,从所述各文本类别的logits值中筛选出目标文本类别的logits值,根据目标文本类别的logits值,计算所述待分类文本归属于各目标文本类别的概率,根据所述归属于各目标文本类别的概率,得到所述待分类文本的概率分布。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010963338.2A 2020-09-14 2020-09-14 文本分类方法、装置、计算机设备和存储介质 Active CN112100377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010963338.2A CN112100377B (zh) 2020-09-14 2020-09-14 文本分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010963338.2A CN112100377B (zh) 2020-09-14 2020-09-14 文本分类方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112100377A CN112100377A (zh) 2020-12-18
CN112100377B true CN112100377B (zh) 2024-03-29

Family

ID=73751590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010963338.2A Active CN112100377B (zh) 2020-09-14 2020-09-14 文本分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112100377B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862021B (zh) * 2021-04-25 2021-08-31 腾讯科技(深圳)有限公司 一种内容标注方法和相关装置
CN114238583B (zh) * 2021-12-21 2024-01-02 华润数字科技有限公司 自然语言处理方法、装置、计算机设备及存储介质
CN115129861B (zh) * 2022-04-08 2024-04-12 腾讯科技(深圳)有限公司 文本分类方法、装置和存储介质及电子设备
CN116304058B (zh) * 2023-04-27 2023-08-08 云账户技术(天津)有限公司 企业负面信息的识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109492093A (zh) * 2018-09-30 2019-03-19 平安科技(深圳)有限公司 基于高斯混合模型和em算法的文本分类方法及电子装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7165068B2 (en) * 2002-06-12 2007-01-16 Zycus Infotech Pvt Ltd. System and method for electronic catalog classification using a hybrid of rule based and statistical method
US9342794B2 (en) * 2013-03-15 2016-05-17 Bazaarvoice, Inc. Non-linear classification of text samples

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109492093A (zh) * 2018-09-30 2019-03-19 平安科技(深圳)有限公司 基于高斯混合模型和em算法的文本分类方法及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于优化样本分布抽样集成学习的半监督文本分类方法研究;徐禹洪;黄沛杰;;中文信息学报(第06期);全文 *

Also Published As

Publication number Publication date
CN112100377A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
US20220129621A1 (en) Bert-based machine-learning tool for predicting emotional response to text
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111159412B (zh) 分类方法、装置、电子设备及可读存储介质
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113672931B (zh) 一种基于预训练的软件漏洞自动检测方法及装置
CN113849648B (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN118113855B (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN111078546A (zh) 一种表达页面特征的方法和电子设备
US20230121404A1 (en) Searching for normalization-activation layer architectures
CN112711944B (zh) 一种分词方法、系统、分词器生成方法及系统
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN116975275A (zh) 多语种文本分类模型训练方法、装置和计算机设备
CN115309854A (zh) 对抗样本生成方法、装置和计算机设备
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
CN114416970B (zh) 带角色的文本分类模型以及对话文本分类方法及装置
CN116340481B (zh) 自动回复提问的方法及装置、计算机可读存储介质、终端
Jayasinghe et al. Deep learning textual entailment system for sinhala language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant