CN113919361A - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN113919361A
CN113919361A CN202111067341.7A CN202111067341A CN113919361A CN 113919361 A CN113919361 A CN 113919361A CN 202111067341 A CN202111067341 A CN 202111067341A CN 113919361 A CN113919361 A CN 113919361A
Authority
CN
China
Prior art keywords
text
category
target
initial
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111067341.7A
Other languages
English (en)
Other versions
CN113919361B (zh
Inventor
车进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Juhaokan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juhaokan Technology Co Ltd filed Critical Juhaokan Technology Co Ltd
Priority to CN202111067341.7A priority Critical patent/CN113919361B/zh
Publication of CN113919361A publication Critical patent/CN113919361A/zh
Application granted granted Critical
Publication of CN113919361B publication Critical patent/CN113919361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种文本分类方法和装置,用以提高文本分类准确度。其中,方法包括:根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息;根据样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果,不同异构神经网络子模型的模型结构不同;基于输出结果以及目标类别区分信息,对初始文本分类模型进行超参数优化,获得目标文本分类模型;基于目标文本分类模型以及目标类别区分信息对待检测文本进行分类,获得目标分类结果。本申请将类别区分信息和异构神经网络子模型集成,对文本进行分类,提高分类准确性。

Description

一种文本分类方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种文本分类方法和装置。
背景技术
随着新兴技术人工智能的飞速发展,现已遍布生活的各个方面,在人工智能被广泛工业化应用之前,大量人工制定的规则参与到了智能化的各个环节。因此,在一个产品高度智能化,由人工智能模型独立完成之前,往往需要先验的由人工进行模型参数调优,通过人工干预以达到验证模型效果以及优化深度学习模型,以实现接近预期效果的目的。
相关技术中,在人工进行参数调优的过程中,需要耗费大量的人工去验证各种参数组合的优劣,导致最后模型的效果具有一定随机性。并且,深度学习模型受模型复杂度和资源限制,无法支撑超长文本的训练与推断,模型结果很难解释,并且很难进行有效干预,导致文本分类准确度较低。
发明内容
本申请实施例提供一种文本分类方法和装置,用以提高文本分类准确度。
第一方面,本申请实施例提供的一种文本分类方法,包括:
根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,所述目标类别区分信息表示用于区分每个文本类别语义的信息,所述类别标签用于表征所述样本文本的真实文本类别;以及
根据所述样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果,不同的异构神经网络子模型的模型结构不同;
基于所述输出结果,以及所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得目标文本分类模型;
基于所述目标文本分类模型以及所述目标类别区分信息,对待检测文本进行分类,获得目标分类结果。
一种可选的实施方式为,所述根据所述样本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,包括:
对训练样本数据集进行有放回抽样,获得多个子样本数据集,每个子样本数据集包括用于训练所述初始文本分类模型中的一个异构神经网络子模型的多个样本文本;
分别基于各个子样本数据集,对相应的异构神经网络子模型进行训练。
一种可选的实施方式为,所述基于所述目标文本分类模型以及所述目标类别区分信息,对待检测文本进行分类,获得目标分类结果,包括:
分别基于所述目标文本分类模型中的各个异构神经网络子模型,对所述待检测文本进行分类,获得所述各个异构神经网络子模型的初始分类结果,所述初始分类结果包括所述待检测文本针对各个文本类别的预测得分;
基于各个初始分类结果和所述目标类别区分信息,对所述初始分类结果进行分类校正,获得所述待检测文本的目标分类结果。
一种可选的实施方式为,所述基于各个初始分类结果和所述目标类别区分信息,对所述初始分类结果进行分类校正,获得所述待检测文本的目标分类结果,包括:
针对任意一个文本类别,通过如下操作确定所述待检测文本是否属于所述任意一个文本类别:
基于所述各个异构神经网络子模型对所述文本类别的预测得分,确定所述待检测文本针对所述文本类别的第一加权得分;
若所述第一加权得分大于预设的权重和阈值与规则搜索阈值的比值,则确定乘积参数是否大于所述权重和阈值,其中,所述权重和阈值表示所述各个异构神经网络对所述文本类别的权重阈值之和,所述乘积参数表示所述目标分类信息在所述待预测文本中的出现次数与预设的次数截断值之差,与所述第一加权得分之间的乘积;
若所述乘积参数大于所述权重和阈值,则确定所述待检测文本属于所述文本类别。
一种可选的实施方式为,所述方法还包括:
若所述乘积参数不大于所述权重和阈值,且所述目标分类信息在所述待预测文本中的出现次数小于正则项阈值,则将所述第一加权得分与惩罚项取值的乘积作为第二加权得分,所述正则项阈值表示超过此阈值则对所述第一加权得分进行惩罚,所述惩罚项取值表示令所述第一加权得分减少的取值;
若所述第二加权得分大于所述权重和阈值,则确定所述待检测文本属于所述文本类别;
若所述第二加权得分不大于所述权重和阈值,则确定所述待检测文本不属于所述文本类别。
一种可选的实施方式为,所述方法还包括:
若所述乘积参数不大于所述权重和阈值,且所述目标分类信息在所述待预测文本中的出现次数不小于所述正则项阈值,则将所述预测得分中的最大值与单个异构神经网络子模型对应的预测得分阈值进行比较;
若所述预测得分中的最大值大于所述预测得分阈值,则确定所述待检测文本属于所述文本类别;
若所述预测得分中的最大值不大于所述预测得分阈值,则确定所述待检测文本不属于所述文本类别。
一种可选的实施方式为,所述方法还包括:
若所述第一加权得分不大于预设的权重和阈值与规则搜索阈值的比值,则确定所述待检测文本不属于所述文本类别。
一种可选的实施方式为,所述基于所述输出结果,以及所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得目标文本分类模型,包括:
基于所述各个异构神经网络子模型的输出结果和所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得中间超参数组;
根据各个中间超参数组针对所述目标分类结果的准确度,从所述各个中间超参数组中选择目标超参数组对所述初始文本分类模型进行超参数配置,获得所述目标文本分类模型。
一种可选的实施方式为,所述根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,包括:
基于逆文本频率指数规则对样本文本进行词语重要度提取,获得所述初始类别区分信息;
分别将所述初始类别区分信息与所述样本文本对应的类别标签进行匹配,获得各个初始类别区分信息与所述样本文本对应的类别标签的匹配度;
基于所述匹配度确定所述匹配度低于预设阈值的初始类别区分信息,以及不包括在初始类别区分信息中的预设类别区分信息,对所述初始类别区分信息进行调整,获得所述目标类别区分信息。
第二方面,本申请实施例提供的一种文本分类装置,包括:
校正单元,用于根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,所述目标类别区分信息表示用于区分每个文本类别语义的信息,所述类别标签用于表征所述样本文本的真实文本类别;
训练单元,用于根据所述样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果,不同的异构神经网络子模型的模型结构不同;
优化单元,用于基于所述输出结果,以及所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得目标文本分类模型;
分类单元,用于基于所述目标文本分类模型以及所述目标类别区分信息,对待检测文本进行分类,获得目标分类结果。
可选的,所述训练单元具体用于:
对训练样本数据集进行有放回抽样,获得多个子样本数据集,每个子样本数据集包括用于训练所述初始文本分类模型中的一个异构神经网络子模型的多个样本文本;
分别基于各个子样本数据集,对相应的异构神经网络子模型进行训练。
可选的,所述分类单元具体用于:
分别基于所述目标文本分类模型中的各个异构神经网络子模型,对所述待检测文本进行分类,获得所述各个异构神经网络子模型的初始分类结果,所述初始分类结果包括所述待检测文本针对各个文本类别的预测得分;
基于各个初始分类结果和所述目标类别区分信息,对所述初始分类结果进行分类校正,获得所述待检测文本的目标分类结果。
可选的,所述分类单元还用于:
针对任意一个文本类别,通过如下操作确定所述待检测文本是否属于所述任意一个文本类别:
基于所述各个异构神经网络子模型对所述文本类别的预测得分,确定所述待检测文本针对所述文本类别的第一加权得分;
若所述第一加权得分大于预设的权重和阈值与规则搜索阈值的比值,则确定乘积参数是否大于所述权重和阈值,其中,所述权重和阈值表示所述各个异构神经网络对所述文本类别的权重阈值之和,所述乘积参数表示所述目标分类信息在所述待预测文本中的出现次数与预设的次数截断值之差,与所述第一加权得分之间的乘积;
若所述乘积参数大于所述权重和阈值,则确定所述待检测文本属于所述文本类别。
可选的,所述分类单元还用于:
若所述乘积参数不大于所述权重和阈值,且所述目标分类信息在所述待预测文本中的出现次数小于正则项阈值,则将所述第一加权得分与惩罚项取值的乘积作为第二加权得分,所述正则项阈值表示超过此阈值则对所述第一加权得分进行惩罚,所述惩罚项取值表示令所述第一加权得分减少的取值;
若所述第二加权得分大于所述权重和阈值,则确定所述待检测文本属于所述文本类别;
若所述第二加权得分不大于所述权重和阈值,则确定所述待检测文本不属于所述文本类别。
可选的,所述分类单元还用于:
若所述乘积参数不大于所述权重和阈值,且所述目标分类信息在所述待预测文本中的出现次数不小于所述正则项阈值,则将所述预测得分中的最大值与单个异构神经网络子模型对应的预测得分阈值进行比较;
若所述预测得分中的最大值大于所述预测得分阈值,则确定所述待检测文本属于所述文本类别;
若所述预测得分中的最大值不大于所述预测得分阈值,则确定所述待检测文本不属于所述文本类别。
可选的,所述分类单元还用于:
若所述第一加权得分不大于预设的权重和阈值与规则搜索阈值的比值,则确定所述待检测文本不属于所述文本类别。
可选的,所述优化单元具体用于:
基于所述各个异构神经网络子模型的输出结果和所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得中间超参数组;
根据各个中间超参数组针对所述目标分类结果的准确度,从所述各个中间超参数组中选择目标超参数组对所述初始文本分类模型进行超参数配置,获得所述目标文本分类模型。
可选的,所述校正单元具体用于:
基于逆文本频率指数规则对样本文本进行词语重要度提取,获得所述初始类别区分信息;
分别将所述初始类别区分信息与所述样本文本对应的类别标签进行匹配,获得各个初始类别区分信息与所述样本文本对应的类别标签的匹配度;
基于所述匹配度确定所述匹配度低于预设阈值的初始类别区分信息,以及不包括在初始类别区分信息中的预设类别区分信息,对所述初始类别区分信息进行调整,获得所述目标类别区分信息。
第三方面,本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述一种文本分类方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述存储介质在电子设备上运行时,所述程序代码用于使所述电子设备执行上述一种文本分类方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一种文本分类方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种文本分类方法和装置。由于本申请实施例通过目标类别区分信息形成区分每个文本类别语义的规则,将规则和训练好的异构神经网络子模型相结合,获得目标文本分类模型,对待检测文本进行分类,提高了模型效果,使模型结果具有可解释性,并更加可控,有效提高文本分类的分类性能,提高文本分类的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种应用场景的一个可选的示意图;
图2为本申请实施例中的一种文本分类方法的流程示意图;
图3为本申请实施例提供的一种文本分类方法的整体流程图;
图4为本申请实施例中的一种提取类别支撑信息的方法的流程图;
图5为本申请实施例中的一种目标文本分类模型的结构图;
图6为本申请实施例中的一种文本分类装置的组成结构示意图;
图7为应用本申请实施例的一种电子设备的一个硬件组成结构示意图;
图8为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
1、本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
2、本申请实施例中术语“异构神经网络”是指模型结构不同的神经网络,其中,神经网络指一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,它的主要任务是根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型,设计相应的学习算法,模拟人脑的某种智能活动,然后在技术上实现出来用以解决实际问题。本申请实施例中的神经网络是用来进行敏感信息分类的。
3、本申请实施例中术语“逆文本频率指数”是一个词语普遍重要性的度量,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本申请实施例使用逆文本频率指数来进行初始类别区分信息的提取。
4、本申请实施例中术语“贝叶斯优化”是指通过贝叶斯公式对本申请中的初始文本分类模型进行超参数优化,贝叶斯优化建立在整个概率论与统计学科的基础上,在贝叶斯优化的过程中,首先需要先验的给定系统中每个参数的分布,然后对系统进行不断测试,得到目前参数下系统的得分,然后以此对每个参数进行调整,每一次参数调整都会参考之前参数和得分,最后通过大量测试,得到最优的参数组合。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。终端设备110与服务器120之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备110为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、车载终端等具有一定计算能力并且运行有即时通信类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器120连接,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,初始文本分类模型和目标文本分类模型可以部署于终端设备110上进行训练,也可以部署于服务器120上进行训练。服务器120中可存储有大量训练样本,包含至少一组样本文本,用于训练初始文本分类模型和目标文本分类模型。
可选的,在基于本申请实施例中的训练方法训练得到目标文本分类模型之后,可直接将训练好的目标文本分类模型部署于服务器120或终端设备110上。一般情况下都是直接将目标文本分类模型部署于服务器120上,在本申请实施例中,目标文本分类模型常用于对文本进行分类。
需要说明的是,本申请实施例提供的训练初始文本分类模型和目标文本分类模型的文本分类的方法可以应用于各种包含有文本分类任务的应用场景下,在不同场景下所使用的训练样本不同,在此不做一一列举。
另外,需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的文本分类方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
本申请实施例中的文本分类方法可以由服务器或终端设备单独执行,也可以由服务器和终端设备共同执行。在下文中,主要是以服务器单独执行为例进行举例说明的。
参阅图2所示,为本申请实施例提供的一种文本分类方法的实施流程图,执行主体为服务器,该方法的具体实施流程如下:
S21:根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息;
其中,目标类别区分信息是通过对初始类别区分信息进行校正所得到的,这两种类别区分信息都属于类别区分信息。在本申请实施例中,类别区分信息表示用于区分每个文本类别语义的信息,即初始类别区分信息和目标类别区分信息都表示用于区分每个文本类别语义的信息,也可称作类别支撑信息,可以是类别支撑词、类别支撑句等;类别标签用于表征样本文本的真实文本类别。
比如,对于恐怖这个类型的文本来说,其目标类别区分信息可能包括:僵尸、鬼、吓人等词语,对于悬疑这个类型的文本来说,其目标类别区分信息可能包括:推理、烧脑等词语。可以看到,正是由于有这些类别区分信息的存在,才使得每个类型的文本明显区别于另外的类型,或者说是由这些词或者句支撑起了整个类型的语义和特征,或许单一类别区分信息出现并不能表示该文本就是属于对应类别,但是多个类别区分信息同时出现,会提升该类型判别的概率。
再比如,一个样本文本属于恐怖类型的文本,那么其类别标签就是恐怖,一个样本文本属于悬疑类型的文本,其类别标签就是悬疑。
S22:根据样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果;
其中,不同的异构神经网络子模型的模型结构不同。
S23:基于输出结果,以及目标类别区分信息,对初始文本分类模型进行超参数优化,获得目标文本分类模型;
S24:基于目标文本分类模型以及目标类别区分信息,对待检测文本进行分类,获得目标分类结果。
在本申请实施例中,待检测文本对应的目标分类结果包括用于表征待检测文本的文本类别的至少一个类别标签。
比如,待检测文本经过目标文本分类模型进行分类后,获得的目标分类结果可以是悬疑,表示待检测文本属于悬疑类型的文本,再比如,获得的目标分类结果可以是悬疑和恐怖,表示待检测文本既属于悬疑类型的文本也属于恐怖类型的文本。
在上述实施方式中,通过目标类别区分信息形成区分每个文本类别语义的规则,将规则和训练好的异构神经网络子模型相结合,获得目标文本分类模型,对待检测文本进行分类,提高了模型效果,使模型结果具有可解释性,并更加可控,有效提高文本分类的分类性能,提高文本分类的准确性。
参阅图3,其为本申请实施例提供的一种文本分类方法的整体流程图,具体实施步骤如下:
步骤1:使用标注数据(即带类别标签的样本文本)训练多个异构神经网络子模型;
步骤2:使用idf(逆文本频率指数)对标注数据进行初始类别支撑信息提取;
步骤3:对初始类别区分信息进行修正和补充,获得目标类别区分信息;步骤4:基于训练好的异构神经网络子模型和目标类别区分信息集成目标文本分类模型。
下面结合图3,具体介绍本申请的主要思想,即为规则与神经网络模型结合的思想,在本申请中,首先输入标注数据,训练多个异构神经网络子模型,同时对标注数据进行分析,生成初始类别区分信息,然后对这些类别区分信息进行审核,去除错误归类的类别区分信息,添加没有被识别的类别区分信息,生成目标类别区分信息,目标类别区分信息即为用于区分每个文本类别语义的人工规则,将多模型与类别区分信息进行融合,生成目标文本分类模型,并进行超参数优化,最终输出规则与多模型融合的最佳组合参数。
下面分别对本申请实施例中的异构神经网络子模型的训练过程,以及人工规则的生成过程进行详细介绍:
一方面,可以基于如下方式对异构神经网络子模型进行训练:
在一种可选的实施方式中,可以通过以下方式对初始文本分类模型中的多个异构神经网络子模型分别进行训练:
对训练样本数据集进行有放回抽样,获得多个子样本数据集,每个子样本数据集包括用于训练初始文本分类模型中的一个异构神经网络子模型的多个样本文本,然后分别基于各个子样本数据集,对相应的异构神经网络子模型进行训练。
具体的,本申请使用有放回抽样方法,从训练样本数据集中进行采样,得到多个分布相同的子样本数据集,并且按照9:1的比例将每个子样本数据集划分为训练集和测试集,然后基于各个子样本数据集,对相应的异构神经网络子模型进行训练。
比如,将训练样本数据集记作D,训练的异构神经网络子模型的个数为n,采用有放回抽样的方法,从数据集D中进行采样,将数据集D划分为n个分布相同的子数据集(即本申请中的子样本数据集)D1、D2、……Dn,每个子数据集中有m条标注数据(即本申请中带类别标签的样本文本),并且按照9:1的比例,将每个子数据集划分为训练集Dtrain和测试集Dtest
在异构神经网络子模型的训练阶段,由于不同的异构模型的最优超参数存在巨大差异,为了使每个子模型都能够最终收敛,并达到最优效果,可以采用如下两个方式:
方式一:Early Stopping(早停法):模型训练过程中,如果测试集的micro_f1(微观均衡平均数)值连续三次评估(可以设置为每500个训练步骤评估一次),都没有超过此前最优值,或者测试集的损失函数连续两次评估都没有再降低,则停止训练过程。
其中,micro_f1值是多分类任务中的评价指标,用于判断神经网络模型输出效果。
方式二:贝叶斯优化:通过贝叶斯优化对每个异构神经网络子模型的学习率以及优化器的选择进行优化。
通过上述方式,可以获得训练好的多个异构神经网络子模型。
另一方面,基于以下方式生成本申请中的人工规则:
在一种可选的实施方式中,可以通过以下方式获得目标类别区分信息:
首先,基于逆文本频率指数规则对样本文本进行词语重要度提取,获得初始类别区分信息;进而,分别将初始类别区分信息与样本文本对应的类别标签进行匹配,获得各个初始类别区分信息与样本文本对应的类别标签的匹配度;最后,基于匹配度确定匹配度低于预设阈值的初始类别区分信息,以及不包括在初始类别区分信息中的预设类别区分信息,对初始类别区分信息进行调整,获得目标类别区分信息。
具体的,本申请实施例采用逆文本频率指数的规则提取初始类别支撑信息,参阅图4,其为本申请实施例中的一种提取类别支撑信息的方法的流程图,包括以下步骤:
S41:对每条样本文本进行分词/分句处理;
S42:去除标点,停用词和数字,并且去除标点,停用词和数字占比50%以上的句子;
其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理样本文本之前或之后会自动过滤掉某些字或词。
S43:统计每个文本类别中每个词/句出现的频率tfclass,word,以及每个词/句在所有样本文本中总共出现的频率tfword,剔除掉tfword<100的词/句;
S44:计算每个文本类别中每个词的idf;
其中,计算idf的公式为:
Figure BDA0003258980720000101
S45:将idf大于预设阈值的词/句作为初始类别区分信息。
其中,每个文本类别中idf越大的词/句,即为在该文本类别中经常出现,但是在其他类别中很少出现的词/句,也就是越能表示该类型文本的词/句,将idf大于预设阈值的词/句作为初始类别区分信息。
具体地,获得初始类别区分信息之后,分别将初始类别区分信息与样本文本对应的类别标签进行匹配,获得各个初始类别区分信息与样本文本对应的类别标签的匹配度。
例如,初始类别区分信息与对应的类别标签的匹配度可以是0到1之间,设置匹配度低于0.7的类别区分信息为错误归类或是区分语义能力弱的词/句,将这样的词/句从初始类别区分信息中删除,同时将匹配度高于0.7但没有被作为初始类别区分信息的词/句加入初始类别区分信息中,经过上述方式,就可以得到目标类别区分信息。
在一种可选的实施方式中,在获取到目标类别区分信息之后,可以基于以下方式对待检测文本进行分类:
分别基于目标文本分类模型中的各个异构神经网络子模型,对待检测文本进行分类,获得各个异构神经网络子模型的初始分类结果,初始分类结果包括待检测文本针对各个文本类别的预测得分,基于各个初始分类结果和目标类别区分信息,对初始分类结果进行分类校正,获得待检测文本的目标分类结果。
具体的,目标文本分类模型中的各个异构神经网络子模型对待检测文本进行分类,获得包括待检测文本针对各个文本类别的预测得分的初始分类结果,然后基于初始分类结果和目标类别区分信息,对初始分类结果进行校正,获得目标分类结果。
与传统的工业级方法相比,传统的工业级方法通常在一个系统中同时存在人工规则和神经网络模型两种方法,它们高度耦合,而又极其割裂,并没有得到有效融合。
本申请引入了异构神经网络模型,提升模型容量的同时进一步增加模型的效果,同时启发式的生成类别区分信息缓解人工规则制定的难度和耗时,最后为了将异构模型和人工规则更科学的融合,设计了一套集成系统将异构模型和人工规则结合起来。为了优化该系统以达到更有效的融合,本申请引入了贝叶斯优化对该系统进行优化,贝叶斯优化建立在整个概率论与统计学科的基础上,在贝叶斯优化的过程中,首先需要先验的给定系统中每个参数的分布,然后对系统进行不断测试,得到目前参数下系统的得分,然后以此对每个参数进行调整,每一次参数调整都会参考之前参数和得分,最后通过大量测试,得到最优的参数组合。对于有多个参数的系统,如果我们进行随机的参数尝试,想要得到最优的参数组合往往需要极其多的时间,得到的系统往往也离最优组合相差甚远。
本申请将人工规则和异构神经网络模型之间的联系逐一拆解,提出了一利系统集成方案,集成过程如下文所示。
参阅图5,其为本申请实施例中的一种目标文本分类模型的结构图,下面结合图5对本申请中的目标文本分类模型进行介绍。
步骤1:输入待检测文本,经过n个异构神经网络子模型的预测,得到预测结果preds=[pred1,pred2,……,predn],即为本申请中的初始分类结果。
在一种可选的实施方式中,针对任意一个文本类别,通过如下操作确定待检测文本是否属于任意一个文本类别:
基于各个异构神经网络子模型对文本类别的预测得分,确定待检测文本针对文本类别的第一加权得分;
若第一加权得分大于预设的权重和阈值与规则搜索阈值的比值,则确定乘积参数是否大于权重和阈值,其中,权重和阈值表示各个异构神经网络对文本类别的权重阈值之和,乘积参数表示目标分类信息在待预测文本中的出现次数与预设的次数截断值之差,与第一加权得分之间的乘积;
若乘积参数大于权重和阈值,则确定待检测文本属于文本类别。
步骤2:对于文本类别j,可以得到n个模型对于待检测文本针对该文本类别的第一加权得分
Figure BDA0003258980720000116
Figure BDA0003258980720000111
其中,
Figure BDA0003258980720000112
表示第i个模型对于第j个类别的权重,不同模型对于同一个文本类别的权重不同,设置为先验分布满足平均值和标准差分别为1,0.5的正态分布,
Figure BDA0003258980720000113
表示第i个模型对于第j个类别的预测得分。
获得第一加权得分后,可以通过如下公式,判断第一加权得分是否大于预设的权重和阈值与规则搜索阈值的比值:
Figure BDA0003258980720000114
其中,sumthreshold表示预设的权重和阈值,可以设置为先验分布满足平均值和标准差分别为n*0.5,0.2的正态分布,divbase表示规则搜索阈值,可以设置为先验分布满足平均值和标准差分别为10,5的正态分布。
若第一加权得分大于预设的权重和阈值与规则搜索阈值的比值,则通过如下公式判断乘积参数是否大于权重和阈值:
Figure BDA0003258980720000115
其中,
Figure BDA0003258980720000121
表示乘积参数,count表示目标类别区分信息在待预测文本中出现的次数和,b表示次数截断值,可以设置为先验分布满足[0,3]的正态分布。
若乘积参数大于权重和阈值,则确定待检测文本属于文本类别j。
在一种可选的实施方式中,若第一加权得分不大于预设的权重和阈值与规则搜索阈值的比值,则确定待检测文本不属于该文本类别。
也就是,若第一加权得分不大于预设的权重和阈值与规则搜索阈值的比值,则确定待检测文本不属于文本类别j。
在一种可选的实施方式中,若乘积参数不大于权重和阈值,且目标分类信息在待预测文本中的出现次数小于正则项阈值,则将第一加权得分与惩罚项取值的乘积作为第二加权得分,正则项阈值表示超过此阈值则对第一加权得分进行惩罚,惩罚项取值表示令第一加权得分减少的取值,若第二加权得分大于权重和阈值,则确定待检测文本属于该文本类别,若第二加权得分不大于权重和阈值,则确定待检测文本不属于该文本类别。
步骤3:若乘积参数不大于权重和阈值,则通过如下公式,判断目标分类信息在待预测文本中的出现次数小于正则项阈值:
count<regnum
其中,regnum表示正则项阈值,可以设置为先验分布满足平均值和标准差分别为0,3的正态分布。
若目标分类信息在待预测文本中的出现次数小于正则项阈值,则需要对异构神经网络子模型输出的第一加权得分
Figure BDA0003258980720000122
进行惩罚:
Figure BDA0003258980720000123
其中,
Figure BDA0003258980720000124
表示对
Figure BDA0003258980720000125
进行惩罚后的第二加权得分,reg表示惩罚项取值,可以设置为先验分布满足[0.95,0.999]区间的平均分布。
获得第二加权得分后,将其与权重和阈值进行比较,若
Figure BDA0003258980720000126
成立,则待检测文本属于文本类别j,否则,待检测文本不属于类别j。
在一种可选的实施方式中,若乘积参数不大于权重和阈值,且目标分类信息在待预测文本中的出现次数不小于正则项阈值,则将预测得分中的最大值与单个异构神经网络子模型对应的预测得分阈值进行比较,若预测得分中的最大值大于预测得分阈值,则确定待检测文本属于文本类别,若预测得分中的最大值不大于预测得分阈值,则确定待检测文本不属于文本类别。
步骤4:若目标分类信息在待预测文本中的出现次数不小于正则项阈值,则将预测得分中的最大值与预测得分阈值进行比较:
max(preds)>highthreshold
其中,max(preds)表示预测得分中的最大值,highthreshold表示预测得分阈值,可以设置为先验分布满足平均值和标准差分别为1,0.1的正态分布,如果highthreshold>1,则停用这条规则。
若预测得分中的最大值大于预测得分阈值,则确定待检测文本属于文本类别j,否则,待检测文本不属于类别j。
在一种可选的实施方式中,通过如下方式对初始文本分类模型进行超参数优化:
基于各个异构神经网络子模型的输出结果和目标类别区分信息,对初始文本分类模型进行超参数优化,获得中间超参数组,根据各个中间超参数组针对目标分类结果的准确度,从各个中间超参数组中选择目标超参数组对初始文本分类模型进行超参数配置,获得目标文本分类模型。
具体的,可以通过贝叶斯优化算法对上述超参数
Figure BDA0003258980720000131
sumthreshold、divbase、b、regnum、reg、highthreshold进行优化,并且根据不同的超参数组对于文本分类的准确度,对每个超参数进行调整,最后获得最优超参数组,将其配置到初始文本分类模型上,获得目标文本分类模型。
在上述实施方式中,本申请通过将人工规则和模型集成,有效融合了人工规则和模型的优势,使得多个模型协调能够发挥更大的作用,通过融入人工规则,使得模型的输出结果更加具有可解释性,在模型结果出错时,可以进行有效的人工干预,使模型结果更具可解释性,并且在系统优化的过程中引入贝叶斯优化,无需耗费大量人工去验证各种参数组合的优劣,能够得到最优的参数组合,提高了输出效果。
基于相同的发明构思,本申请实施例还提供一种文本分类装置的结构示意图。如图6所示,其为文本分类装置600的结构示意图,可以包括:
校正单元601,用于根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,目标类别区分信息表示用于区分每个文本类别语义的信息,类别标签用于表征样本文本的真实文本类别;
训练单元602,用于根据样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果,不同的异构神经网络子模型的模型结构不同;
优化单元603,用于基于输出结果,以及目标类别区分信息,对初始文本分类模型进行超参数优化,获得目标文本分类模型;
分类单元604,用于基于目标文本分类模型以及目标类别区分信息,对待检测文本进行分类,获得目标分类结果。
在上述实施方式中,通过将能够区分每个类别语义的目标类别区分信息,和训练好的异构神经网络子模型集成,对初始文本分类模型进行超参数优化,获得目标文本分类模型,通过目标分类模型对待检测文本进行分类,可以有效提高文本分类的分类性能,提高文本分类的准确性。
可选的,训练单元602具体用于:
对训练样本数据集进行有放回抽样,获得多个子样本数据集,每个子样本数据集包括用于训练初始文本分类模型中的一个异构神经网络子模型的多个样本文本;
分别基于各个子样本数据集,对相应的异构神经网络子模型进行训练。
可选的,分类单元604具体用于:
分别基于目标文本分类模型中的各个异构神经网络子模型,对待检测文本进行分类,获得各个异构神经网络子模型的初始分类结果,初始分类结果包括待检测文本针对各个文本类别的预测得分;
基于各个初始分类结果和目标类别区分信息,对初始分类结果进行分类校正,获得待检测文本的目标分类结果。
可选的,分类单元604还用于:
针对任意一个文本类别,通过如下操作确定待检测文本是否属于任意一个文本类别:
基于各个异构神经网络子模型对文本类别的预测得分,确定待检测文本针对文本类别的第一加权得分;
若第一加权得分大于预设的权重和阈值与规则搜索阈值的比值,则确定乘积参数是否大于权重和阈值,其中,权重和阈值表示各个异构神经网络对文本类别的权重阈值之和,乘积参数表示目标分类信息在待预测文本中的出现次数与预设的次数截断值之差,与第一加权得分之间的乘积;
若乘积参数大于权重和阈值,则确定待检测文本属于文本类别。
可选的,分类单元604还用于:
若乘积参数不大于权重和阈值,且目标分类信息在待预测文本中的出现次数小于正则项阈值,则将第一加权得分与惩罚项取值的乘积作为第二加权得分,正则项阈值表示超过此阈值则对第一加权得分进行惩罚,惩罚项取值表示令第一加权得分减少的取值;
若第二加权得分大于权重和阈值,则确定待检测文本属于文本类别;
若第二加权得分不大于权重和阈值,则确定待检测文本不属于文本类别。
可选的,分类单元604还用于:
若乘积参数不大于权重和阈值,且目标分类信息在待预测文本中的出现次数不小于正则项阈值,则将预测得分中的最大值与单个异构神经网络子模型对应的预测得分阈值进行比较;
若预测得分中的最大值大于预测得分阈值,则确定待检测文本属于文本类别;
若预测得分中的最大值不大于预测得分阈值,则确定待检测文本不属于文本类别。
可选的,分类单元604还用于:
若第一加权得分不大于预设的权重和阈值与规则搜索阈值的比值,则确定待检测文本不属于文本类别。
可选的,优化单元603具体用于:
基于各个异构神经网络子模型的输出结果和目标类别区分信息,对初始文本分类模型进行超参数优化,获得中间超参数组;
根据各个中间超参数组针对目标分类结果的准确度,从各个中间超参数组中选择目标超参数组对初始文本分类模型进行超参数配置,获得目标文本分类模型。
可选的,校正单元601具体用于:
基于逆文本频率指数规则对样本文本进行词语重要度提取,获得初始类别区分信息;
分别将初始类别区分信息与样本文本对应的类别标签进行匹配,获得各个初始类别区分信息与样本文本对应的类别标签的匹配度;
基于匹配度确定匹配度低于预设阈值的初始类别区分信息,以及不包括在初始类别区分信息中的预设类别区分信息,对初始类别区分信息进行调整,获得目标类别区分信息。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的文本方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的用于文本分类的装置。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的文本分类装置可以至少包括处理器和存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书中描述的根据本申请各种示例性实施方式的文本分类方法中的步骤。例如,所述处理器可以执行如图2中所示的步骤。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图7所示,包括存储器701,通讯模块703以及一个或多个处理器702。
存储器701,用于存储处理器702执行的计算机程序。存储器701可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器701可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器701也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器701可以是上述存储器的组合。
处理器702,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器702,用于调用存储器701中存储的计算机程序时实现上述文本分类方法。
通讯模块703用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器701、通讯模块703和处理器702之间的具体连接介质。本申请实施例在图7中以存储器701和处理器702之间通过总线704连接,总线704在图7中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器701中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文本分类方法。处理器702用于执行上述的文本分类方法,如图2中所示的步骤。
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图8所示,包括:通信组件810、存储器820、显示单元830、摄像头840、传感器850、音频电路860、蓝牙模块870、处理器880等部件。
通信组件810用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器820可用于存储软件程序及数据。处理器880通过运行存储在存储器820的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器820存储有使得终端设备110能运行的操作系统。本申请中存储器820可以存储操作系统及各种应用程序,还可以存储执行本申请实施例文本分类方法的代码。
显示单元830还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元830可以包括设置在终端设备110正面的显示屏832。其中,显示屏832可以采用液晶显示器、发光二极管等形式来配置。显示单元830可以用于显示本申请实施例中的多媒体信息推荐相关的界面等等。
显示单元830还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元830可以包括设置在终端设备110正面的触摸屏831,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触摸屏831可以覆盖在显示屏832之上,也可以将触摸屏831与显示屏832集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元830可以显示应用程序以及对应的操作步骤。
摄像头840可用于捕获静态图像,用户可以将摄像头840拍摄的图像通过视频客户端上传评论。摄像头840可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器880转换成数字图像信号。
终端设备还可以包括至少一种传感器850,比如加速度传感器851、距离传感器852、指纹传感器853、温度传感器854。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路860、扬声器861、传声器862可提供用户与终端设备110之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出至通信组件810以发送给比如另一终端设备110,或者将音频数据输出至存储器820以便进一步处理。
蓝牙模块870用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块870与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器880是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器820内的软件程序,以及调用存储在存储器820内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器880可包括一个或多个处理单元;处理器880还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器880中。本申请中处理器880可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的文本分类方法。另外,处理器880与显示单元830耦接。
在一些可能的实施方式中,本申请提供的文本分类方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本分类方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的文本分类的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本分类方法,其特征在于,该方法包括:
根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,所述目标类别区分信息表示用于区分每个文本类别语义的信息,所述类别标签用于表征所述样本文本的真实文本类别;以及
根据所述样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果,不同的异构神经网络子模型的模型结构不同;
基于所述输出结果,以及所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得目标文本分类模型;
基于所述目标文本分类模型以及所述目标类别区分信息,对待检测文本进行分类,获得目标分类结果。
2.如权利要求1所述的方法,其特征在于,所述根据所述样本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,包括:
对训练样本数据集进行有放回抽样,获得多个子样本数据集,每个子样本数据集包括用于训练所述初始文本分类模型中的一个异构神经网络子模型的多个样本文本;
分别基于各个子样本数据集,对相应的异构神经网络子模型进行训练。
3.如权利要求1所述的方法,其特征在于,所述基于所述目标文本分类模型以及所述目标类别区分信息,对待检测文本进行分类,获得目标分类结果,包括:
分别基于所述目标文本分类模型中的各个异构神经网络子模型,对所述待检测文本进行分类,获得所述各个异构神经网络子模型的初始分类结果,所述初始分类结果包括所述待检测文本针对各个文本类别的预测得分;
基于各个初始分类结果和所述目标类别区分信息,对所述初始分类结果进行分类校正,获得所述待检测文本的目标分类结果。
4.如权利要求3所述的方法,其特征在于,所述基于各个初始分类结果和所述目标类别区分信息,对所述初始分类结果进行分类校正,获得所述待检测文本的目标分类结果,包括:
针对任意一个文本类别,通过如下操作确定所述待检测文本是否属于所述任意一个文本类别:
基于所述各个异构神经网络子模型对所述文本类别的预测得分,确定所述待检测文本针对所述文本类别的第一加权得分;
若所述第一加权得分大于预设的权重和阈值与规则搜索阈值的比值,则确定乘积参数是否大于所述权重和阈值,其中,所述权重和阈值表示所述各个异构神经网络对所述文本类别的权重阈值之和,所述乘积参数表示所述目标分类信息在所述待预测文本中的出现次数与预设的次数截断值之差,与所述第一加权得分之间的乘积;
若所述乘积参数大于所述权重和阈值,则确定所述待检测文本属于所述文本类别。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
若所述乘积参数不大于所述权重和阈值,且所述目标分类信息在所述待预测文本中的出现次数小于正则项阈值,则将所述第一加权得分与惩罚项取值的乘积作为第二加权得分,所述正则项阈值表示超过此阈值则对所述第一加权得分进行惩罚,所述惩罚项取值表示令所述第一加权得分减少的取值;
若所述第二加权得分大于所述权重和阈值,则确定所述待检测文本属于所述文本类别;
若所述第二加权得分不大于所述权重和阈值,则确定所述待检测文本不属于所述文本类别。
6.如权利要求4所述的方法,其特征在于,所述方法还包括:
若所述乘积参数不大于所述权重和阈值,且所述目标分类信息在所述待预测文本中的出现次数不小于所述正则项阈值,则将所述预测得分中的最大值与单个异构神经网络子模型对应的预测得分阈值进行比较;
若所述预测得分中的最大值大于所述预测得分阈值,则确定所述待检测文本属于所述文本类别;
若所述预测得分中的最大值不大于所述预测得分阈值,则确定所述待检测文本不属于所述文本类别。
7.如权利要求4所述的方法,其特征在于,所述方法还包括:
若所述第一加权得分不大于预设的权重和阈值与规则搜索阈值的比值,则确定所述待检测文本不属于所述文本类别。
8.如权利要求1所述的方法,其特征在于,所述基于所述输出结果,以及所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得目标文本分类模型,包括:
基于所述各个异构神经网络子模型的输出结果和所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得中间超参数组;
根据各个中间超参数组针对所述目标分类结果的准确度,从所述各个中间超参数组中选择目标超参数组对所述初始文本分类模型进行超参数配置,获得所述目标文本分类模型。
9.如权利要求1~8任一项所述的方法,其特征在于,所述根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,包括:
基于逆文本频率指数规则对样本文本进行词语重要度提取,获得所述初始类别区分信息;
分别将所述初始类别区分信息与所述样本文本对应的类别标签进行匹配,获得各个初始类别区分信息与所述样本文本对应的类别标签的匹配度;
基于所述匹配度确定所述匹配度低于预设阈值的初始类别区分信息,以及不包括在初始类别区分信息中的预设类别区分信息,对所述初始类别区分信息进行调整,获得所述目标类别区分信息。
10.一种文本分类装置,其特征在于,所述装置包括:
校正单元,用于根据样本文本对应的类别标签,对基于词语重要度提取的样本文本中的初始类别区分信息进行校正,获得目标类别区分信息,所述目标类别区分信息表示用于区分每个文本类别语义的信息,所述类别标签用于表征所述样本文本的真实文本类别;
训练单元,用于根据所述样本文本对初始文本分类模型中的多个异构神经网络子模型分别进行训练,获得输出结果,不同的异构神经网络子模型的模型结构不同;
优化单元,用于基于所述输出结果,以及所述目标类别区分信息,对所述初始文本分类模型进行超参数优化,获得目标文本分类模型;
分类单元,用于基于所述目标文本分类模型以及所述目标类别区分信息,对待检测文本进行分类,获得目标分类结果。
CN202111067341.7A 2021-09-13 2021-09-13 一种文本分类方法和装置 Active CN113919361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111067341.7A CN113919361B (zh) 2021-09-13 2021-09-13 一种文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111067341.7A CN113919361B (zh) 2021-09-13 2021-09-13 一种文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN113919361A true CN113919361A (zh) 2022-01-11
CN113919361B CN113919361B (zh) 2024-07-16

Family

ID=79234731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111067341.7A Active CN113919361B (zh) 2021-09-13 2021-09-13 一种文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN113919361B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409991A (zh) * 2022-11-02 2022-11-29 苏州魔视智能科技有限公司 目标识别方法、装置、电子设备和存储介质
CN116660389A (zh) * 2023-07-21 2023-08-29 山东大禹水务建设集团有限公司 一种基于人工智能的河道底泥探测及修复系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN110362677A (zh) * 2019-05-31 2019-10-22 平安科技(深圳)有限公司 文本数据类别的识别方法及装置、存储介质、计算机设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN111090719A (zh) * 2019-10-11 2020-05-01 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN112069310A (zh) * 2020-06-18 2020-12-11 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
CN112989035A (zh) * 2020-12-22 2021-06-18 平安普惠企业管理有限公司 基于文本分类识别用户意图的方法、装置及存储介质
CA3068891A1 (en) * 2020-01-17 2021-07-17 Element Ai Inc. Method and system for generating a vector representation of an image
WO2021169364A1 (zh) * 2020-09-23 2021-09-02 平安科技(深圳)有限公司 分析语义情感的方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN110362677A (zh) * 2019-05-31 2019-10-22 平安科技(深圳)有限公司 文本数据类别的识别方法及装置、存储介质、计算机设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN111090719A (zh) * 2019-10-11 2020-05-01 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CA3068891A1 (en) * 2020-01-17 2021-07-17 Element Ai Inc. Method and system for generating a vector representation of an image
CN112069310A (zh) * 2020-06-18 2020-12-11 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
WO2021169364A1 (zh) * 2020-09-23 2021-09-02 平安科技(深圳)有限公司 分析语义情感的方法、装置、设备及存储介质
CN112989035A (zh) * 2020-12-22 2021-06-18 平安普惠企业管理有限公司 基于文本分类识别用户意图的方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯雪亮;李新;陈远平;: "基于多神经网络混合的短文本分类模型", 计算机系统应用, no. 10, 13 October 2020 (2020-10-13) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409991A (zh) * 2022-11-02 2022-11-29 苏州魔视智能科技有限公司 目标识别方法、装置、电子设备和存储介质
CN116660389A (zh) * 2023-07-21 2023-08-29 山东大禹水务建设集团有限公司 一种基于人工智能的河道底泥探测及修复系统
CN116660389B (zh) * 2023-07-21 2023-10-13 山东大禹水务建设集团有限公司 一种基于人工智能的河道底泥探测及修复系统

Also Published As

Publication number Publication date
CN113919361B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
JP6838376B2 (ja) 製品関連情報を送信する方法、プログラム、及びサーバ装置。
JP6799081B2 (ja) ユーザ興味の識別方法、装置およびコンピュータ読み取り可能な記憶媒体
GB2547068B (en) Semantic natural language vector space
US20170200066A1 (en) Semantic Natural Language Vector Space
JP2019535047A (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN109933782B (zh) 用户情绪预测方法和装置
CN113868497A (zh) 一种数据分类方法、装置和存储介质
US11182447B2 (en) Customized display of emotionally filtered social media content
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
KR102020551B1 (ko) 모바일 컨텍스트 정보 기반의 음식점 추천방법 및 그를 위한 장치
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113919361B (zh) 一种文本分类方法和装置
US20230104757A1 (en) Techniques for input classification and response using generative neural networks
CN115114395A (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
CN111433786A (zh) 计算设备和计算设备的信息输入方法
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN116956015A (zh) 一种数据筛选方法、装置、设备及存储介质
CN115129975B (zh) 推荐模型训练方法、推荐方法、装置、设备及存储介质
Ali et al. Big social data as a service (BSDaaS): a service composition framework for social media analysis
CN116204709A (zh) 一种数据处理方法及相关装置
CN114328884A (zh) 一种图文去重方法及装置
CN114492750A (zh) 反馈信息预估模型的训练方法、装置、设备和介质
CN115545738A (zh) 一种推荐方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant