CN115861606A - 一种针对长尾分布文档的分类方法、装置及存储介质 - Google Patents

一种针对长尾分布文档的分类方法、装置及存储介质 Download PDF

Info

Publication number
CN115861606A
CN115861606A CN202210501541.7A CN202210501541A CN115861606A CN 115861606 A CN115861606 A CN 115861606A CN 202210501541 A CN202210501541 A CN 202210501541A CN 115861606 A CN115861606 A CN 115861606A
Authority
CN
China
Prior art keywords
classification
label
long
labels
long document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210501541.7A
Other languages
English (en)
Other versions
CN115861606B (zh
Inventor
段兴涛
赵国庆
周长安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN202210501541.7A priority Critical patent/CN115861606B/zh
Publication of CN115861606A publication Critical patent/CN115861606A/zh
Application granted granted Critical
Publication of CN115861606B publication Critical patent/CN115861606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种针对长尾分布文档的分类方法、装置及存储介质,其中该方法,包括:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N‑1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。

Description

一种针对长尾分布文档的分类方法、装置及存储介质
技术领域
本申请涉及信息分类技术领域,特别是涉及一种针对长尾分布文档的分类方法、装置及存储介质。
背景技术
众所周知,目前自然语言处理任务包含自然语言理解和自然语言生成两个任务。而文本分类属于自然语言理解一个分支,技术也相当成熟,但主要是在短文本方面。文本分类又可以划分为多标签分类和单标签分类,在单标签分类中包含多分类和二分类任务,本专利主要讨论长文档多分类任务技术以及相关背景。在我们日常研发中,获取到的数据都有长尾分布特点,标签样本对应不均衡、样本数量差距极大。
针对上述的现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明的实施例提供了一种针对长尾分布文档的分类方法、装置及存储介质,以至少解决现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
根据本发明实施例的一个方面,提供了一种针对长尾分布文档的分类方法,包括:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集,并对所述语料集进行预处理;对预处理后的语料集中的各个句子进行词切分,得到词集合;统计词集合中各个词的词频以及词与标签的共现词频;采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集;基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;将各个标签对应的样本数量与预设的样本阈值进行比较;将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;按照簇的个数,将多簇标签分成与N份,得到N份数据集;采用N-1份数据集训练N-1个机器学习模型,生成N-1个经过语料训练得到的分类模型;对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,包括:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
可选地,基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果,包括:确定所述多个预测标签中各类标签的数量;当各类标签中数量最大的标签对应的数值大于预设阈值时,将数量最大的标签确定为所述长文档的分类结果;当各类标签中数量最大的标签对应的数值不大于预设阈值时,将采用统计规则生成的分类模型输出的预测标签确定为所述长文档的分类结果。可选地,经过语料训练得到的分类模型为LightGBM模型。
根据本发明实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本发明实施例的另一个方面,还提供了一种针对长尾分布文档的分类装置,包括:获取模块,用于获取长文档,其中所述长文档具有长尾分布特点;预测模块,用于利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;分类模块,用于基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
可选地,预测模块,具体用于:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
根据本发明实施例的另一个方面,还提供了一种针对长尾分布文档的分类装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
在本发明实施例中,首先获取长文档,其中所述长文档具有长尾分布特点。然后利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签。其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练。最后基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。本发明针对长文档特征不好提取这一缺陷,预先构建了专业的关键词库,提高了分词的精确度,使得提取的特征基于关键词。本发明针对标签类别不平衡处理存在长尾分布这一缺陷,通过对各种标签进行更细粒度的分析,并开发了多个分类模型,通过多个分类模型针对不同样本数量的标签进行预测。从而解决了现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是用于实现根据本发明实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本发明实施例1的第一个方面所述的针对长尾分布文档的分类方法的流程示意图;
图3是根据本发明实施例1所述的针对长尾分布文档的分类方法的整体示意图;
图4是根据本发明实施例2所述的针对长尾分布文档的分类装置的示意图;以及
图5是根据本发明实施例3所述的针对长尾分布文档的分类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
长尾分布(Long Tail Distribution):少数几个类别却有大量样本,而大部分类别都只有少量样本的数据分布情况。
文本分类(Text Classification):用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。
关键词提取(Keyword Extraction):关键词提取是把文本中包含的信息进行结构化处理,并将提取的信息以统一形式集成在一起。
长文档(Long Document):本申请认定文本长度大于等于700字是长文本,反之则为短文本。
集成学习(Ensamble Learning):集成学习是组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到错误的预测,其他的弱分类器也可以将错误的信息纠正回来。
关联分析(Correlation Analysis):是研究现象间是否存在某种依存关系,并具体对具有依存关系的现象进一步探讨其相关程度及相关方向,是研究随机变量间相关关系的一种统计方法。
实施例1
根据本实施例,提供了一种针对长尾分布文档的分类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现针对长尾分布文档的分类方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本发明实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本发明实施例中的针对长尾分布文档的分类方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的针对长尾分布文档的分类方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种针对长尾分布文档的分类方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:获取长文档,其中所述长文档具有长尾分布特点。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集,并对所述语料集进行预处理;对预处理后的语料集中的各个句子进行词切分,得到词集合;统计词集合中各个词的词频以及词与标签的共现词频;采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。
在本发明实施例中,在模型预测之前,需要依赖于经过语料生成的关键词库和经过语料训练得到的N个模型。由于文件类数据文本长度过长,本发明没有选择基于深度学习的文本抽取模型,原因有三点:1)需要标注耗费大量的人工;2)需要GPU等硬件支持;3)当前的深度学习模型不适用于长文本。因此,本发明的关键词生成策略采用了关联规则方式。
在获取到语料集之后,先对语料进行预处理,去除特殊符号。然后使用n-gram切分句子、切分粒度为1-4个汉字,然后对n-gram的词统计词频、以及统计词与标签的共现词频,然后计算关联规则中的支持度、置信度、提升度三个指标,最后根据适当阈值(根据业务定制,为超参数)对词集合进行词过滤,得到关键词库。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集;基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;将各个标签对应的样本数量与预设的样本阈值进行比较;将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;按照簇的个数,将多簇标签分成N份,得到N份数据集;采用N-1份数据集训练N-1个机器学习模型,生成N-1个经过语料训练得到的分类模型;对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。
在本发明实施例中,如图3所示,N例如但不限于为3,3个分类模型的生成步骤包括:1)获取到语料后,需要统计各种标签下对应的样本数量,然后按照标签对应的样本数量对各种标签进行倒序排列。2)提前制定阈值(可根据真实数据自定义,例如但不限于定义阈值为30,表示各个标签下的样本差最大值),然后遍历所有标签,如果标签对应的样本数量差值小于等于提前预定的阈值,把这俩标签归为一簇,大于提前制定的阈值当做另一簇,最终遍历完所有的标签。3)统计每一簇的样本数量,再按照样本数量进行倒序排列。4)按照簇的个数,分别分成三份,前两份训练两个模型(每个模型选LightGBM,集成学习增强学习效果,防止过拟合),最后一份数据采用统计规则生成,不进行训练。
S204:利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成,不进行训练。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,包括:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
在本发明实施例中,利用预先生成的关键词库和N个分类模型进行预测的过程包括以下步骤:1)读取数据(长文档)、加载生成的关键词库,以及三份数据集的标签。2)对读取的数据,进行预处理,例如但不限于使用python内置模块re去除汉字以外的特殊符号。3)利用jieba加载关键词库,然后对长文档进行切分。4)特征工程提取,例如但不限于使用TF-IDF逆文档频率进行句向量转化。5)加载两个lightgbm模型和关联规则下生成的标签1下对应的关键词label_keyword map。两个lightgbm模型分别命名为l1、l2。分别进行预测标签。label_keyword预测标签方法为遍历所有标签,拿到标签1下的关键词去和jieba分词之后的关键词取交集,如果交集非空(说明这份文件的标签为标签1,跳出循环,如果不是查看下一个标签)。
S206:基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
可选地,基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果,包括:确定所述多个预测标签中各类标签的数量;当各类标签中数量最大的标签对应的数值大于预设阈值时,将数量最大的标签确定为所述长文档的分类结果;当各类标签中数量最大的标签对应的数值不大于预设阈值时,将采用统计规则生成的分类模型输出的预测标签确定为所述长文档的分类结果。
可选地,经过语料训练得到的分类模型为LightGBM模型。
在本发明实施例中,如图3所示,例如名称为l1的lightgbm模型得到的标签为label_l1,名称为l2的lightgbm模型得到的标签为label_l2,规则得到的标签为label_l3,然后对各个标签构造字典label_dict,key为标签名,value为三种策略预测得到的该标签的数量。然后遍历label_dict,返回value最大的值对应的标签。如果value最大值不大于预设阈值(例如但不限于为1)时,则返回使用规则生成的标签,即将采用统计规则生成的分类模型输出的预测标签确定为长文档的分类结果。
本发明在长文档特征不好提取这方面,开发了领域内的关键词库,提高了分词的精确度,使得提取的特征基于关键词。针对于标签类别不平衡处理问题,本发明对各种标签进行更细粒度的分析,开发多个分类模型,用于针对不同样本数量的标签进行预测。针对监管文件数量过少,模型容易过拟合这一特点,本发明使用集成学习的方法来防止模型过拟合。在最终的验证集上,本发明分别作了对比实验,得到本发明相对于现有技术,F1得分提高5%,召回率得分提高3%,精准率得分提高6%。
从而,本发明提出的针对长尾分布文档的分类方法,首先获取长文档,其中所述长文档具有长尾分布特点。然后利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签。其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成,不进行训练。最后基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。本发明针对长文档特征不好提取这一缺陷,预先构建了专业的关键词库,提高了分词的精确度,使得提取的特征基于关键词。本发明针对标签类别不平衡处理存在长尾分布这一缺陷,通过对各种标签进行更细粒度的分析,并开发了多个分类模型,通过多个分类模型针对不同样本数量的标签进行预测。解决了现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4示出了根据本实施例所述的针对长尾分布文档的分类装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:获取模块410,用于获取长文档,其中所述长文档具有长尾分布特点;预测模块420,用于利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练;分类模块430,用于基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
可选地,装置400还包括关键词库生成模块,用于:获取语料集,并对所述语料集进行预处理;对预处理后的语料集中的各个句子进行词切分,得到词集合;统计词集合中各个词的词频以及词与标签的共现词频;采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。
可选地,装置400还包括分类模型生成模块,用于:获取语料集;基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;将各个标签对应的样本数量与预设的样本阈值进行比较;将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;按照簇的个数,将多簇标签分成与N份,得到N份数据集;采用N-1份数据集训练N-1个机器学习模型,生成N-1个经过语料训练得到的分类模型;对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。
可选地,预测模块420,具体用于:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
可选地,分类模块430,具体用于:确定所述多个预测标签中各类标签的数量;当各类标签中数量最大的标签对应的数值大于预设阈值时,将数量最大的标签确定为所述长文档的分类结果;当各类标签中数量最大的标签对应的数值不大于预设阈值时,将采用统计规则生成的分类模型输出的预测标签确定为所述长文档的分类结果。可选地,经过语料训练得到的分类模型为LightGBM模型。
从而根据本实施例,首先获取长文档,其中所述长文档具有长尾分布特点。然后利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签。其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练。最后基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。本发明针对长文档特征不好提取这一缺陷,预先构建了专业的关键词库,提高了分词的精确度,使得提取的特征基于关键词。本发明针对标签类别不平衡处理存在长尾分布这一缺陷,通过对各种标签进行更细粒度的分析,并开发了多个分类模型,通过多个分类模型针对不同样本数量的标签进行预测。解决了现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
实施例3
图5示出了根据本实施例所述的针对长尾分布文档的分类装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集,并对所述语料集进行预处理;对预处理后的语料集中的各个句子进行词切分,得到词集合;统计词集合中各个词的词频以及词与标签的共现词频;采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集;基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;将各个标签对应的样本数量与预设的样本阈值进行比较;将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;按照簇的个数,将多簇标签分成与N份,得到N份数据集;采用N-1份数据集训练N-1个机器学习模型,生成N-1个经过语料训练得到的分类模型;对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。
可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,包括:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
可选地,基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果,包括:确定所述多个预测标签中各类标签的数量;当各类标签中数量最大的标签对应的数值大于预设阈值时,将数量最大的标签确定为所述长文档的分类结果;当各类标签中数量最大的标签对应的数值不大于预设阈值时,将采用统计规则生成的分类模型输出的预测标签确定为所述长文档的分类结果。可选地,经过语料训练得到的分类模型为LightGBM模型。
从而根据本实施例,首先获取长文档,其中所述长文档具有长尾分布特点。然后利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签。其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练。最后基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。本发明针对长文档特征不好提取这一缺陷,预先构建了专业的关键词库,提高了分词的精确度,使得提取的特征基于关键词。本发明针对标签类别不平衡处理存在长尾分布这一缺陷,通过对各种标签进行更细粒度的分析,并开发了多个分类模型,通过多个分类模型针对不同样本数量的标签进行预测。解决了现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种针对长尾分布文档的分类方法,其特征在于,包括:
获取长文档,其中所述长文档具有长尾分布特点;
利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;
基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
2.根据权利要求1所述的方法,其特征在于,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:
获取语料集,并对所述语料集进行预处理;
对预处理后的语料集中的各个句子进行词切分,得到词集合;
统计词集合中各个词的词频以及词与标签的共现词频;
采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;
根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。
3.根据权利要求1所述的方法,其特征在于,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:
获取语料集;
基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;
将各个标签对应的样本数量与预设的样本阈值进行比较;
将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;
统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;
按照簇的个数,将多簇标签分成与N份,得到N份数据集;
采用N-1份数据集训练N-1个机器学习模型,生成N-1个经过语料训练得到的分类模型;
对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。
4.根据权利要求1所述的方法,其特征在于,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,包括:
加载关键词库,基于关键词库对所述长文档进行词切分;
基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;
将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;
将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
5.根据权利要求1所述的方法,其特征在于,基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果,包括:
确定所述多个预测标签中各类标签的数量;
当各类标签中数量最大的标签对应的数值大于预设阈值时,将数量最大的标签确定为所述长文档的分类结果;
当各类标签中数量最大的标签对应的数值不大于预设阈值时,将采用统计规则生成的分类模型输出的预测标签确定为所述长文档的分类结果。
6.根据权利要求1所述的方法,其特征在于,经过语料训练得到的分类模型为LightGBM模型。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。
8.一种针对长尾分布文档的分类装置,其特征在于,包括:
获取模块,用于获取长文档,其中所述长文档具有长尾分布特点;
预测模块,用于利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;
分类模块,用于基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
9.根据权利要求8所述的分类装置,其特征在于,预测模块,具体用于:
加载关键词库,基于关键词库对所述长文档进行词切分;
基于词切分的结果,使用词频-逆文档频率,对所述长文档进行句向量转化;
将转化得到的句向量输入N-1个经过语料训练得到的分类模型,输出N-1个预测标签;
将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
10.一种针对长尾分布文档的分类装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取长文档,其中所述长文档具有长尾分布特点;
利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N-1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;
基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
CN202210501541.7A 2022-05-09 2022-05-09 一种针对长尾分布文档的分类方法、装置及存储介质 Active CN115861606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210501541.7A CN115861606B (zh) 2022-05-09 2022-05-09 一种针对长尾分布文档的分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210501541.7A CN115861606B (zh) 2022-05-09 2022-05-09 一种针对长尾分布文档的分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115861606A true CN115861606A (zh) 2023-03-28
CN115861606B CN115861606B (zh) 2023-09-08

Family

ID=85660078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210501541.7A Active CN115861606B (zh) 2022-05-09 2022-05-09 一种针对长尾分布文档的分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115861606B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708330A (zh) * 2023-12-20 2024-03-15 北京健康有益科技有限公司 不平衡小样本下多层级标签分类判别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、系统、介质及电子器件
CN113011533A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN113515629A (zh) * 2021-06-02 2021-10-19 中国神华国际工程有限公司 一种文档分类方法、装置、计算机设备及存储介质
US20220138423A1 (en) * 2020-11-02 2022-05-05 Chengdu Wang'an Technology Development Co., Ltd. Deep learning based text classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置
US20220138423A1 (en) * 2020-11-02 2022-05-05 Chengdu Wang'an Technology Development Co., Ltd. Deep learning based text classification
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、系统、介质及电子器件
CN113011533A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN113515629A (zh) * 2021-06-02 2021-10-19 中国神华国际工程有限公司 一种文档分类方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏玉龙 等: "基于关键词的文本向量化与分类算法研究", 贵州大学学报(自然科学版), no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708330A (zh) * 2023-12-20 2024-03-15 北京健康有益科技有限公司 不平衡小样本下多层级标签分类判别方法及装置
CN117708330B (zh) * 2023-12-20 2024-09-10 北京健康有益科技有限公司 不平衡小样本下多层级标签分类判别方法及装置

Also Published As

Publication number Publication date
CN115861606B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN111694946A (zh) 文本关键词可视化显示方法、装置及计算机设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN111552767A (zh) 搜索方法、搜索装置以及计算机设备
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN115455151A (zh) 一种ai情绪可视化识别方法、系统及云平台
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN117787290A (zh) 基于知识图谱的绘图提示方法和装置
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
Veera Prathap Reddy et al. NERSE: named entity recognition in software engineering as a service
CN111625655A (zh) 基于知识图谱的归并以及分类方法、装置以及存储介质
CN115859973A (zh) 文本特征提取方法、装置、非易失性存储介质及电子设备
CN110750643A (zh) 上市公司非定期公告的分类方法、装置及存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN117933260A (zh) 一种文本质量分析方法、装置、设备及存储介质
CN113204710A (zh) 一种舆情分析方法、装置、终端设备及存储介质
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN110765771A (zh) 用于确定广告语句的方法及装置
CN111694962A (zh) 数据处理方法和装置
CN112749150A (zh) 一种错误标注数据的识别方法、装置和介质
CN112445907A (zh) 文本情感分类方法、装置、设备、及存储介质
CN111695922A (zh) 潜在用户确定方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant