CN114090779A - 篇章级文本的层级多标签分类方法、系统、设备及介质 - Google Patents

篇章级文本的层级多标签分类方法、系统、设备及介质 Download PDF

Info

Publication number
CN114090779A
CN114090779A CN202210024684.3A CN202210024684A CN114090779A CN 114090779 A CN114090779 A CN 114090779A CN 202210024684 A CN202210024684 A CN 202210024684A CN 114090779 A CN114090779 A CN 114090779A
Authority
CN
China
Prior art keywords
title
content
text
item set
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210024684.3A
Other languages
English (en)
Other versions
CN114090779B (zh
Inventor
李芳芳
崔玉峰
张健
龙军
陈先来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Technology Co ltd
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210024684.3A priority Critical patent/CN114090779B/zh
Publication of CN114090779A publication Critical patent/CN114090779A/zh
Application granted granted Critical
Publication of CN114090779B publication Critical patent/CN114090779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明中提供了一种篇章级文本的层级多标签分类方法、系统、设备及介质,属于数据处理技术领域,具体包括:得到有监督文本数据集;得到标题特征项集和内容特征项集;对标题特征项集和内容特征项集中的每个特征项进行向量化;将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;将标题特征项集输入标题分类模型,得到一级预测结果;根据层级标签体系,将内容特征项集根据一级预测结果输入与其对应的内容分类模型,得到二级预测结果。通过本发明的方案,实现了捕捉分类的层级信息,提高了分类的适应性和精度。

Description

篇章级文本的层级多标签分类方法、系统、设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种篇章级文本的层级多标签分类方法、系统、设备及介质。
背景技术
目前,在数据爆炸的互联网信息时代,智能移动设备的广泛普及和人们对新闻热点的关注度的上升催发了大量的新闻媒体网站、公众号,由此产生了海量的新闻类数据。这些数据大多是包含标题和内容的、长度偏长的篇章类文本的形式,是典型的新闻类文本,其标题精简且要点突出,其内容覆盖全面但特征相对不明显。因此,如何对篇章类文本进行高效的自动化分类,从而为文章的快速推送、快速捕捉文章要点等进一步的应用打下基础,已经成为自然语言处理领域的研究热点。
文本分类是NLP应用领域中最常见也最重要的任务类型,其难点在于长文本、按粒度层级化、多标签三个方面。现在的文本分类方法基本都使用深度学习方法,通过训练层数很深的神经网络模型来强力捕捉文本特征,从而解决上述难点并获得较高的准确度。但深度学习方法有着昂贵的计算代价,无论是模型训练还是使用模型进行分类预测都将造成计算资源和时间的巨大开销,在许多对时间性能、硬件成本有严格要求的实际工业场景中往往不能适用,因此如何在文本分类任务中协调好准确性与效率、针对不同粒度的分类类别构建起层级分类的流程十分复杂和困难,需要多个方面的共同协作整合才能达到工业级应用的要求。而现有的篇章级文本分类方法仅在词级别应用注意力机制,忽略了更高级别的注意力,无法有效捕捉到分类的层级信息。
可见,亟需一种分类粒度更细、适应性更强的篇章级文本的层级多标签分类方法。
发明内容
有鉴于此,本发明提供一种篇章级文本的层级多标签分类方法、装置、设备及介质,至少部分解决现有技术中存在捕捉分类的层级信息较差的问题。
第一方面,本发明提供了一种篇章级文本的层级多标签分类方法,包括:
获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;
分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;
利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;
将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;
将所述标题特征项集输入所述标题分类模型,得到一级预测结果;
根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
根据本发明的一种具体实现方式,所述获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集的步骤,包括:
按所述层级标签体系将所述篇章类文本数据集中每个数据标注所属一级标签;
根据每个所述数据对应的一级标签和所述层级标签体系,将每个所述数据标注所属二级标签;
根据每个所述数据及其对应的一级标签和二级标签形成所述监督文本数据集。
根据本发明的一种具体实现方式,所述分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集的步骤,包括:
对所述标题文本进行分词操作后进行去除停用词操作和词性过滤操作,得到所述标题特征项集;
对所述内容文本进行分句操作后进行所述分词操作,并进行所述去除停用词操作和所述词性过滤操作,得到所述内容特征项集。
根据本发明的一种具体实现方式,所述将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型的步骤,包括:
冻结所述词向量模型的向量化层参数,并采用随机失活策略和代价函数将所述向量化后的标题特征项集合训练所述长短时记忆神经网络,得到所述标题分类模型。
根据本发明的一种具体实现方式,所述将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型的步骤,包括:
冻结所述词向量模型的向量化层参数,并采用所述随机失活策略将所述向量化后的内容特征项集合训练分级注意力网络,得到所述内容分类模型。
根据本发明的一种具体实现方式,所述根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果的步骤之后,所述方法还包括:
根据所述层级标签体系对所述一级预测结果和所述二级预测结果进行汇总,得到层级分类结果。
第二方面,本发明提供了一种篇章级文本的层级多标签分类系统,包括:
标注模块,用于获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;
预处理模块,用于分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;
转换模块,用于利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;
训练模块,用于将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;
第一预测模块,用于将所述标题特征项集输入所述标题分类模型,得到一级预测结果;
第二预测模块,用于根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
第三方面,本发明还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的篇章级文本的层级多标签分类方法。
第四方面,本发明还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的篇章级文本的层级多标签分类方法。
第五方面,本发明还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的篇章级文本的层级多标签分类方法。
本发明中的篇章级文本的层级多标签分类方案,包括:获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;将所述标题特征项集输入所述标题分类模型,得到一级预测结果;根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
本发明的有益效果为:通过本发明的方案,借助预训练词向量模型进行初步词义表征,利用标题文本的文本长度短、要点特征突出的优势,使用标题文本训练分类粒度较粗的标题分类模型,出于内容文本的文本长度长、深层特征关系复杂的难点考虑,训练引入层次化注意力机制的分级注意力网络模型进行分类粒度较细的内容分类,实现了捕捉分类的层级信息,提高了分类的适应性和精度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种篇章级文本的层级多标签分类方法的流程示意图;
图2为本发明提供的一种篇章级文本的层级多标签分类方法涉及的层级标签体系示意图;
图3为本发明提供的一种篇章级文本的层级多标签分类方法涉及的模型训练过程示意图;
图4为本发明提供的一种篇章级文本的层级多标签分类方法涉及的分级注意力网络的结构示意图;
图5为本发明提供的一种篇章级文本的层级多标签分类方法涉及的文本分类过程示意图;
图6为本发明提供的一种篇章级文本的层级多标签分类系统的结构示意图;
图7为本发明提供的电子设备示意图。
具体实施方式
下面结合附图对本发明进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本发明提供一种篇章级文本的层级多标签分类方法,所述方法可以应用于互联网信息处理场景的长文本层级分类过程。
参见图1,为本发明提供的一种篇章级文本的层级多标签分类方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
S101,获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;
进一步的,步骤S101所述的,获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,包括:
按所述层级标签体系将所述篇章类文本数据集中每个数据标注一级标签;
根据每个所述数据对应的一级标签和所述层级标签体系,将每个所述数据标注二级标签;
根据每个所述数据及其对应的一级标签和二级标签形成所述监督文本数据集。
例如,所述篇章类文本数据集可以来源于从各大新闻网站、微信公众号搜集的新闻热点数据,包括生态环保、交通运输、自然资源和灾害事故和4个大类的数据,共约25000条数据,然后按照图2所示的层级标签体系对篇章类文本数据集进行层级多标签标注,给数据打上其符合的一个或多个一级或二级标签,当有多个符合的一级标签时需要同时标注上,当有多个符合的二级标签时需要同时标注上,然后根据每个所述数据及其对应的一级标签和二级标签形成所述监督文本数据集。
S102,分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;
可选的,步骤S102所述的,分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集,包括:
对所述标题文本进行分词操作后进行去除停用词操作和词性过滤操作,得到所述标题特征项集;
对所述内容文本进行分句操作后进行所述分词操作,并进行所述去除停用词操作和所述词性过滤操作,得到所述内容特征项集。
具体实施时,对标题文本,可以使用jieba分词工具进行分词处理,将标题文本切分成词的序列,之后按照哈工大停用词表对词序列中的词进行筛选,将在停用词表中的词删除过滤掉,最后根据jieba工具在分词时一并标注的词性与自定义的保留词性表进行对比,将词性不在保留词性表中的词删除过滤掉,得到所述标题特征项集。对内容文本,可以使用正则匹配进行分句处理,将篇章文本划分为完整的句子的集合。之后针对每个完整的句子,再进行与子步骤A类似的分词、去除停用词、词性过滤预处理操作,得到所述内容特征项集。
S103,利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;
例如,可以下载在搜狗开源新闻语料上训练好的词向量模型sgns.sogounews.bigram-char,然后使用所述词向量模型参数值初始化一级分类模型和二级分类模型的嵌入层参数,并冻结嵌入层参数使其在训练过程中不改变,如此经过预处理的文本输入模型后经过嵌入层就被转化成向量。则可以利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化。
S104,将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;
可选的,步骤S104所述的,将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,包括:
冻结所述词向量模型的向量化层参数,并采用随机失活策略和代价函数将所述向量化后的标题特征项集合训练所述长短时记忆神经网络,得到所述标题分类模型。
可选的,步骤S104所述的,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型,包括:
冻结所述词向量模型的向量化层参数,并采用所述随机失活策略将所述向量化后的内容特征项集合训练分级注意力网络,得到所述内容分类模型。
具体实施时,如图3所示,所述标题分类模型可以以双层双向LSTM为主要架构,冻结步骤三所述的向量化层参数,在向量化层后加入随机失活层以减轻训练时的过拟合问题,使最终训练模型泛化能力更强。由于各标签样本数目不平均会影响训练效果,因此使用focal loss代价函数为训练样本赋予不同的权重,减轻因不同标签的样本数目不平均造成的影响。
所述内容分类模型可以使用具有层次化注意力机制的HAN模型架构,其网络架构如图4所示,先在词级别应用自注意力机制,将词通过注意力聚合成句向量,再在句级别应用注意力机制,将句向量用注意力聚合成篇章向量。由于各标签样本数目不平均会影响训练效果,因此使用focal loss代价函数为训练样本赋予不同的权重,减轻因不同标签的样本数目不平均造成的影响。进一步的,还可以使用TensorBoard可视化工具在调整超参数时训练曲线,确定最佳超参数取值,保存最佳模型参数。
当训练好所述标题分类模型和所述内容分类模型后,也可以直接将采集到的篇章级文本分别输入两个不同的模型进行分类,具体流程如图5所示。
S105,将所述标题特征项集输入所述标题分类模型,得到一级预测结果;
例如,将所述标题特征项集输入所述标题分类模型进行一级分类,然后将模型输出向量按0.5的阈值转化为所述一级预测结果。
S106,根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
例如,可以将所述内容特征项集与一级分类结果相对应的内容分类模型,进行二级分类,然后将模型输出向量按0.5的阈值转化为结果标签作为所述二级预测结果。
本实施例提供的篇章级文本的层级多标签分类方法,优势体现如下:
第一,所述篇章级文本的层级多标签分类方法充分利用标题和内容两部分各自的特点,分别用标题文本和内容文本进行一级分类和二级分类,从而保证既快速又准确。其原因在于:标题文本长度短并且类别特征明显,使用简单的双层双向LSTM模型可以快速进行一级分类并得到准确度较高的一级分类结果;内容文本包含的深层特征关系复杂,使用引入层次化注意力机制的HAN模型可以有效捕捉词与词之间、句与句之间复杂的语法、语义关系,从而在细粒度的二级分类中达到较高的准确度。
第二,所述篇章级文本的层级多标签分类方法使用的HAN模型层数很浅,利用层次化注意力机制有效捕捉复杂特征,一方面相对其它深度学习方法而言,本发明的计算开销非常小;另一方面相对传统机器学习方法而言,本发明的只能程度、准确度更高。
第三,所述篇章级文本的层级多标签分类方法综合长文本、层级分类、多标签分类三个难点提供解决方案,进而可以轻易拆解为三者中任何一个任务的解决方案。另外,本发明的层级分类方式为层级分类提供标准的解决方式,据此可以简单的应用到包含更多层级的文本分类任务中。
本实施例提供的篇章级文本的层级多标签分类方法,通过借助预训练词向量模型进行初步词义表征,利用标题文本的文本长度短、要点特征突出的优势,使用标题文本训练分类粒度较粗的标题分类模型,出于内容文本的文本长度长、深层特征关系复杂的难点考虑,训练引入层次化注意力机制的分级注意力网络模型进行分类粒度较细的内容分类,实现了捕捉分类的层级信息,提高了分类的适应性和精度。
在上述实施例的基础上,步骤S106所述的,根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果之后,所述方法还包括:
根据所述层级标签体系对所述一级预测结果和所述二级预测结果进行汇总,得到层级分类总结果。
具体实施时,在得到所述以及标签预测结果和所述二级预测结果后,可以根据所述层级标签体系对所述一级预测结果和所述二级预测结果进行汇总,得到所述层级分类总结果。当然,还可以计算jaccard系数作为评估多标签分类准确性指标:
Figure 900337DEST_PATH_IMAGE001
其中A为模型预测得出的标签集合,B为标注的真实标签集合。
与上面的方法实施例相对应,参见图6,本发明还提供了一种篇章级文本的层级多标签分类系统60,包括:
标注模块601,用于获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;
预处理模块602,用于分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;
转换模块603,用于利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;
训练模块604,用于将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;
第一预测模块605,用于将所述标题特征项集输入所述标题分类模型,得到一级预测结果;
第二预测模块606,用于根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
图6所示系统可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
参见图7,本发明还提供了一种电子设备70,该电子设备包括:至少一个处理器以及与该至少一个处理器通信连接的存储器。其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述方法实施例中的篇章级文本的层级多标签分类方法。
本发明还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中的篇章级文本的层级多标签分类方法。
本发明还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述方法实施例中的篇章级文本的层级多标签分类方法。
下面参考图7,其示出了适于用来实现本发明的电子设备70的结构示意图。本发明中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本发明的功能和使用范围带来任何限制。
如图7所示,电子设备70可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备70操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备70与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备70,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本发明的方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种篇章级文本的层级多标签分类方法,其特征在于,包括:
获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;
分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;
利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;
将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;
将所述标题特征项集输入所述标题分类模型,得到一级预测结果;
根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集的步骤,包括:
按所述层级标签体系将所述篇章类文本数据集中每个数据标注所属一级标签;
根据每个所述数据对应的一级标签和所述层级标签体系,将每个所述数据标注所属二级标签;
根据每个所述数据及其对应的一级标签和二级标签形成所述监督文本数据集。
3.根据权利要求1所述的方法,其特征在于,所述分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集的步骤,包括:
对所述标题文本进行分词操作后进行去除停用词操作和词性过滤操作,得到所述标题特征项集;
对所述内容文本进行分句操作后进行所述分词操作,并进行所述去除停用词操作和所述词性过滤操作,得到所述内容特征项集。
4.根据权利要求1所述的方法,其特征在于,所述将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型的步骤,包括:
冻结所述词向量模型的向量化层参数,并采用随机失活策略和代价函数将所述向量化后的标题特征项集合训练所述长短时记忆神经网络,得到所述标题分类模型。
5.根据权利要求1所述的方法,其特征在于,所述将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型的步骤,包括:
冻结所述词向量模型的向量化层参数,并采用所述随机失活策略将所述向量化后的内容特征项集合训练分级注意力网络,得到所述内容分类模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果的步骤之后,所述方法还包括:
根据所述层级标签体系对所述一级预测结果和所述二级预测结果进行汇总,得到层级分类结果。
7.一种篇章级文本的层级多标签分类系统,其特征在于,包括:
标注模块,用于获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;
预处理模块,用于分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;
转换模块,用于利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;
训练模块,用于将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;
第一预测模块,用于将所述标题特征项集输入所述标题分类模型,得到一级预测结果;
第二预测模块,用于根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述权利要求1-6中任一项所述的篇章级文本的层级多标签分类方法。
9.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述权利要求1-6中任一项所述的篇章级文本的层级多标签分类方法。
CN202210024684.3A 2022-01-11 2022-01-11 篇章级文本的层级多标签分类方法、系统、设备及介质 Active CN114090779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210024684.3A CN114090779B (zh) 2022-01-11 2022-01-11 篇章级文本的层级多标签分类方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210024684.3A CN114090779B (zh) 2022-01-11 2022-01-11 篇章级文本的层级多标签分类方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN114090779A true CN114090779A (zh) 2022-02-25
CN114090779B CN114090779B (zh) 2022-04-22

Family

ID=80308615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210024684.3A Active CN114090779B (zh) 2022-01-11 2022-01-11 篇章级文本的层级多标签分类方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN114090779B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357990A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 文本数据标注方法、装置、电子设备和存储介质
CN115952292A (zh) * 2023-03-14 2023-04-11 中国医学科学院医学信息研究所 多标签分类方法、装置及计算机可读介质
CN117371433A (zh) * 2023-11-09 2024-01-09 北京邮电大学 一种标题预测模型的处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
WO2018061174A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム 電子書籍作成システム、電子書籍作成法及びプログラム
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN113821634A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 内容分类方法、装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
WO2018061174A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム 電子書籍作成システム、電子書籍作成法及びプログラム
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN113821634A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 内容分类方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISURU GUNASEKARA等: "A Review of Standard Text Classification Practices for Multi-label Toxicity Identification of Online Content", 《PROCEEDINGS OF THE SECOND WORKSHOP ON ABUSIVE LANGUAGE ONLINE (ALW2)》 *
段丹丹: "文本分类中特征降维方法的研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357990A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 文本数据标注方法、装置、电子设备和存储介质
CN114357990B (zh) * 2022-03-18 2022-05-31 北京创新乐知网络技术有限公司 文本数据标注方法、装置、电子设备和存储介质
CN115952292A (zh) * 2023-03-14 2023-04-11 中国医学科学院医学信息研究所 多标签分类方法、装置及计算机可读介质
CN117371433A (zh) * 2023-11-09 2024-01-09 北京邮电大学 一种标题预测模型的处理方法和装置

Also Published As

Publication number Publication date
CN114090779B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN114090779B (zh) 篇章级文本的层级多标签分类方法、系统、设备及介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN111177393B (zh) 一种知识图谱的构建方法、装置、电子设备及存储介质
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
EP4137961A1 (en) Method and apparatus for executing automatic machine learning process, and device
CN112052333B (zh) 文本分类方法及装置、存储介质和电子设备
CN110633423B (zh) 目标账号识别方法、装置、设备及存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN113033682B (zh) 视频分类方法、装置、可读介质、电子设备
Dashtipour et al. An ensemble based classification approach for persian sentiment analysis
CN113919320A (zh) 异构图神经网络的早期谣言检测方法、系统及设备
CN111460288B (zh) 用于检测新闻事件的方法和装置
CN114462425B (zh) 社交媒体文本处理方法、装置、设备及存储介质
CN111414471B (zh) 用于输出信息的方法和装置
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113033707B (zh) 视频分类方法、装置、可读介质及电子设备
US20230315990A1 (en) Text detection method and apparatus, electronic device, and storage medium
US11437038B2 (en) Recognition and restructuring of previously presented materials
CN110889717A (zh) 文本中的广告内容过滤方法、装置、电子设备及存储介质
CN113111167B (zh) 基于深度学习模型的接处警文本车辆型号提取方法和装置
CN111382262A (zh) 用于输出信息的方法和装置
CN113111181B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN112632962B (zh) 人机交互系统中实现自然语言理解方法和装置
CN114490946A (zh) 基于Xlnet模型的类案检索方法、系统及设备
CN113919323B (zh) 识别引导式话题语句的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: Room 301ab, No. 10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Shanghai, 201203

Patentee after: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Yuelu District City, Hunan province 410000 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Hierarchical multi-label classification method, system, equipment and media for text-level text

Effective date of registration: 20230215

Granted publication date: 20220422

Pledgee: Shanghai Rural Commercial Bank Co.,Ltd. Pudong branch

Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023310000031

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204

Patentee after: Shanghai Mido Technology Co.,Ltd.

Address before: Room 301ab, No. 10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Shanghai, 201203

Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20220422

Pledgee: Shanghai Rural Commercial Bank Co.,Ltd. Pudong branch

Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023310000031