CN113064995A - 一种基于图深度学习的文本多标签分类方法和系统 - Google Patents

一种基于图深度学习的文本多标签分类方法和系统 Download PDF

Info

Publication number
CN113064995A
CN113064995A CN202110352008.4A CN202110352008A CN113064995A CN 113064995 A CN113064995 A CN 113064995A CN 202110352008 A CN202110352008 A CN 202110352008A CN 113064995 A CN113064995 A CN 113064995A
Authority
CN
China
Prior art keywords
text
label
graph
vectorization
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110352008.4A
Other languages
English (en)
Inventor
鲁继东
林越峰
苗仲辰
王晨宇
倪梦珺
江航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Financial Futures Information Technology Co ltd
Original Assignee
Shanghai Financial Futures Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Financial Futures Information Technology Co ltd filed Critical Shanghai Financial Futures Information Technology Co ltd
Priority to CN202110352008.4A priority Critical patent/CN113064995A/zh
Publication of CN113064995A publication Critical patent/CN113064995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了基于图深度学习的文本多标签分类方法和系统,在金融领域少标注样本且标签间存在业务关联的前提下,依靠基于图深度学习的文本分类方法,自动化解决文本多标签分裂问题。其技术方案为:对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量;对文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取结果;在文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果;在融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。

Description

一种基于图深度学习的文本多标签分类方法和系统
技术领域
本发明涉及一种文本多标签分类技术,具体涉及基于图深度学习模型来实现的文本多标签分类方法和系统。
背景技术
近年来,随着互联网飞速发展,包括微博、微信等社交网络的兴起,使得信息能够迅速的扩散,信息量呈现爆炸式增长,尤其在金融领域,专业术语多,信息门户广,导致监管人员快速检索文本信息带来了不小的麻烦。因此人们迫切需要一种面向金融领域的文本多标签分类方法,帮助人们从海量的金融新闻信息中迅速发现有价值的信息,给新闻打上多个合适的业务标签,对机器学习领域来说这个问题抽象定义为一个文本多标签分类问题。
一般来说,要解决这个问题,需要耗费大量具体较高专业程度的人员对金融文本进行标注,这使得金融语料的标注代价昂贵,且效率低下,无法满足对实时性要求高的业务场景。如何在仅提供少量标注样本的情况下,且标注样本比例严重不均衡的前提下,实现自动化文本多标签分类,成为目前业界迫在眉睫的问题。
目前,市场上没有一款产品可以在金融领域少标注样本且标签间存在业务关联的前提下自动化的解决文本多标签分裂问题。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种基于图深度学习的文本多标签分类方法和系统,可以在金融领域少标注样本且标签间存在业务关联的前提下,依靠基于图深度学习的文本分类方法,自动化的解决文本多标签分裂问题。
本发明的技术方案为:本发明揭示了一种基于图深度学习的文本多标签分类方法,方法包括:
步骤1:对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量;
步骤2:对于步骤1处理得到的文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取的结果;
步骤3:在步骤2所得到的文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果;
步骤4:在步骤3得到的融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。
根据本发明的基于图深度学习的文本多标签分类方法的一实施例,步骤1中的文本向量化的处理是以上下文语义嵌入表示来实现。
根据本发明的基于图深度学习的文本多标签分类方法的一实施例,步骤2中采用多头注意力进行文本特征提取。
根据本发明的基于图深度学习的文本多标签分类方法的一实施例,步骤3中通过门控图神经网络根据标签之间的统计关系进行特征交互,既在模型中显式地融入标签之间的关联,又自适应地捕捉更丰富的相关文本特征。
根据本发明的基于图深度学习的文本多标签分类方法的一实施例,步骤4中,采用非对称损失函数处理正负样本的非均衡分布,其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。
本发明还揭示了一种基于图深度学习的文本多标签分类系统,系统包括:
文本向量化模块,对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量;
文本特征提取模块,连接文本向量化模块,对文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取的结果;
图语义交互模块,连接文本特征提取模块,在文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果;
标签概率获取模块,连接图语义交互模块,在融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。
根据本发明的基于图深度学习的文本多标签分类系统的一实施例,文本向量化模块的处理是以上下文语义嵌入表示来实现。
根据本发明的基于图深度学习的文本多标签分类系统的一实施例,文本特征提取模块采用多头注意力进行文本特征提取。
根据本发明的基于图深度学习的文本多标签分类系统的一实施例,图语义交互模块通过门控图神经网络根据标签之间的统计关系进行特征交互,既在模型中显式地融入标签之间的关联,又自适应地捕捉更丰富的相关文本特征。
根据本发明的基于图深度学习的文本多标签分类系统的一实施例,标签概率获取模块采用非对称损失函数处理正负样本的非均衡分布,其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。
本发明对比现有技术有如下的有益效果:本发明基于图深度学习模型,在此基础上引入了两方面的技术创新:一是利用门控神经网络建模标签之间的关系,二是利用非对称损失函数应对二元关联中正负样本不均衡现象。这两方面的结合可以大大提升模型在缺乏标签数据,且不依赖人为指定标签层级结构及丰富语义信息等先验知识的前提下,显式建模标签之间的复杂依赖关系,提升文本多标签分类效果。具体而言,本发明的创新点包括:
1、本发明首次采用基于双向门控循环网络和注意力机制对新闻文本进行特征表示,相比已有向量化方法,提取了上下文信息并融入了不同角度的语言角度。
2、本发明采用非对称损失函数应对二元关联中正负样本不均衡现象,解决了现实中常见的标注样本不均衡的问题,显著提升了分类效果。
3、同已有标签分类算法相比,本发明不需要预先定义标签层级结构及标签语义信息,可自动挖掘标签之间的隐含语义关系,显示的建模标签之间的复杂依赖关系,提升新闻多标签分类准确性,适用于依赖专业领域人员获取标签信息数据的金融领域。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的基于图深度学习的文本多标签分类方法的一实施例的流程图。
图2示出了本发明的基于图深度学习的文本多标签分类系统的一实施例的原理图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的基于图深度学习的文本多标签分类方法的一实施例的流程。请参见图1,本实施例的方法的实施步骤详述如下。
在具体描述处理过程之前,先将重要符号及其含义列表如下。
Figure BDA0003002398720000041
步骤1:对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量。
在本实施例中,文本向量化的处理是以上下文语义嵌入表示来实现。对于原始采集的一段新闻文本,步骤1的具体处理如下:
(1)使用中文分词工具jieba进行分词,得到字符序列[w1,w2,…,wm];
(2)使用word2vec工具进行嵌入表示学习,得到融合上下文信息的语义嵌入向量序列
Figure BDA0003002398720000051
(记为H),其中
Figure BDA0003002398720000052
为字符wi的嵌入表示,dinit为初始嵌入表示的维度,R表示实数域;
(3)为了在嵌入表示中融入上下文信息,进一步使用双向门控循环网络(包括正向门控循环网络
Figure BDA0003002398720000053
和反向门控循环网络
Figure BDA0003002398720000054
)对向量序列H进行编码:
Figure BDA0003002398720000055
Figure BDA0003002398720000056
其中,每个前向隐藏状态
Figure BDA0003002398720000057
和后项隐藏状态
Figure BDA0003002398720000058
被拼接起来,得到一系列文本的上下文语义嵌入表示
Figure BDA0003002398720000059
其中
Figure BDA00030023987200000510
为融入上下文信息的嵌入表示,符号||表示拼接操作。
步骤2:对于步骤1处理得到的文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取的结果。
在本步骤中,由于文本中常常包含大量冗余信息且每个标签同文本不同角度的特征有关,本发明使用多头注意力{q1,q2,..qL}(其中,qi为注意力头,L为最大注意力头数)进行特征提取。本文将
Figure BDA00030023987200000511
设置为可训练的一维向量,其中dc为融入上下文信息的嵌入表示维度,R为实数域。具体来说,
Figure BDA00030023987200000512
Figure BDA00030023987200000513
其中αij代表文本中第j个字符同标签i的相关程度,
Figure BDA0003002398720000061
代表同标签i相关的文本向量表示(由第i个注意力头提取到的特征)。最终可以得到文本的向量表示
Figure BDA0003002398720000062
上式中,m为最大文本向量化长度。
步骤3:在步骤2所得到的文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的处理结果。
现有工作大都只通过单个注意力头提取到的特征
Figure BDA0003002398720000063
判断文本是否与标签i有关,但是单头注意力qi也许无法完全捕捉同标签i有关的信息,且这种做法忽略了标签之间的关系。本发明通过门控图神经网络根据标签之间的统计关系进行特征交互。这不仅可以在模型中显式地融入标签之间的关联,此外门控机制可以自适应地捕捉到更丰富的相关文本特征。
步骤3的具体处理如下。
本实施例的整个算法模型首先根据训练集构建标签统计关联图G,图G为有向带权图,其中节点集V由数据集中的所有标签组成,边权adjij被定义为标签i,j之间的条件概率,条件概率通过训练数据集估算得到,即
adjij=p(j|i)
Figure BDA0003002398720000064
其中I为指示函数(指示函数是集合论中的公知函数,定义在某集合X上的函数,表示其中有哪些元素属于某一子集A)。给定图G,模型使用门控图神经网络进行特征交互。图G上节点的初始向量表示被设置为注意力层提取得到的特征,即
Figure BDA0003002398720000065
其中
Figure BDA0003002398720000066
为图上节点i在第t层的特征表示,N表示自然数域,yk表示整数域。
模型首先通过图G上的信息流动从邻节点聚合信息,
Figure BDA0003002398720000067
上式中,
Figure BDA0003002398720000068
表示聚合信息。
然而,从邻节点聚合到的信息可能存在噪声,模型使用门控机制自适应选择有效信息:
Figure BDA0003002398720000071
Figure BDA0003002398720000072
Figure BDA0003002398720000073
Figure BDA0003002398720000074
其中σ代表Sigmoid函数,*代表Hadamard乘积,其中
Figure BDA0003002398720000075
Figure BDA0003002398720000076
表示更新门和重置门,
Figure BDA0003002398720000077
表示当前状态下每个词的输入向量,Wra,Wrv,Wza,Wzv,Wnv,Wna表示可训练权重,br,bz,bnv,bna表示偏置参数,
Figure BDA0003002398720000078
表示经过非线性映射函数,即使用激活函数tanh独立应用于
Figure BDA0003002398720000079
Figure BDA00030023987200000710
重复上述步骤K次,得到语义交互后的文本向量表示
Figure BDA00030023987200000711
为了防止深层图神经网络带来的过平滑现象,模型进一步加入了残差连接,语义交互层最终得到文本表示
Figure BDA00030023987200000712
其中
Figure BDA00030023987200000713
定义如下,
Figure BDA00030023987200000714
其中||代表拼接操作,最终对于每个类别,模型训练一个二分类器,
Figure BDA00030023987200000715
其中
Figure BDA00030023987200000716
为标签i的预测输出概率,σ代表Sigmoid函数,Wpi,bpi是对应的二分类器可训练参数权重和偏置。
通过基于标签间的隐含关系通过构建语义交互层,可自动挖掘标签之间的隐含语义关系,显示的建模标签之间的复杂依赖关系,无需预先定义标签层级结构及标签语义信息。
步骤4:在步骤3得到的融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。
由于大部分标签只在少数样本中出现,采用二元关联解决多标签分类会导致二分类问题中正负样本的严重失衡。本发明采用非对称损失函数(Asymmetric loss,ASL)处理非均衡分布。非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。预测概率
Figure BDA00030023987200000717
同真实概率pi之间的非对称损失函数计算如下,
Figure BDA00030023987200000718
Figure BDA0003002398720000081
Figure BDA0003002398720000082
Figure BDA0003002398720000083
其中L+和L-分别代表样本作为正类和负类时带来的损失,上式中,pi表示预测概率,
Figure BDA0003002398720000084
表示真实概率,γ表示权重衰减因子,m表示置信度阈值。权重衰减因子γ用于为易分负样本的损失赋予更小的权重,置信度阈值m用于忽略预测置信度较高负样本带来
Figure BDA0003002398720000085
的损失。上述两个参数可以减少负样本在损失中的占比,使模型能关注到正样本产生的优化信息。
图2示出了本发明的基于图深度学习的文本多标签分类系统的一实施例的原理。请参见图2,本实施例的系统包括:文本向量化模块、文本特征提取模块、图语义交互模块、标签概率获取模块。
文本向量化模块的输出端连接文本特征提取模块,文本特征提取模块的输出端连接图语义交互模块,图语义交互模块的输出端连接标签概率获取模块。
文本向量化模块,对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量。文本向量化模块的处理是以上下文语义嵌入表示来实现。
文本向量化模块的具体处理如下:
(4)使用中文分词工具jieba进行分词,得到字符序列[w1,w2,…,wm];
(5)使用word2vec工具进行嵌入表示学习,得到融合上下文信息的语义嵌入向量序列
Figure BDA0003002398720000086
(记为H),其中
Figure BDA0003002398720000087
为字符wi的嵌入表示,dinit为初始嵌入表示的维度,R表示实数域;
(6)为了在嵌入表示中融入上下文信息,进一步使用双向门控循环网络(包括正向门控循环网络
Figure BDA0003002398720000088
和反向门控循环网络
Figure BDA0003002398720000089
)对向量序列H进行编码:
Figure BDA00030023987200000810
Figure BDA00030023987200000811
其中,每个前向隐藏状态
Figure BDA0003002398720000091
和后项隐藏状态
Figure BDA0003002398720000092
被拼接起来,得到一系列文本的上下文语义嵌入表示
Figure BDA0003002398720000093
其中
Figure BDA0003002398720000094
为融入上下文信息的嵌入表示,符号||表示拼接操作。
文本特征提取模块,对文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取的结果。文本特征提取模块采用多头注意力进行文本特征提取。
由于文本中常常包含大量冗余信息且每个标签同文本不同角度的特征有关,本发明使用多头注意力{q1,q2,..qL}(其中,qi为注意力头,L为最大注意力头数)进行特征提取。本文将
Figure BDA0003002398720000095
设置为可训练的一维向量,其中dc为融入上下文信息的嵌入表示维度,R为实数域。具体来说,
Figure BDA0003002398720000096
Figure BDA0003002398720000097
其中αij代表文本中第j个字符同标签i的相关程度,
Figure BDA0003002398720000098
代表同标签i相关的文本向量表示(由第i个注意力头提取到的特征)。最终可以得到文本的向量表示
Figure BDA0003002398720000099
上式中,m为最大文本向量化长度。
图语义交互模块,在文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果。图语义交互模块通过门控图神经网络根据标签之间的统计关系进行特征交互,既在模型中显式地融入标签之间的关联,又自适应地捕捉更丰富的相关文本特征。
图语义交互模块配置的具体处理如下。
本实施例的整个算法模型首先根据训练集构建标签统计关联图G,图G为有向带权图,其中节点集V由数据集中的所有标签组成,边权adjij被定义为标签i,j之间的条件概率,条件概率通过训练数据集估算得到,即
adjij=p(j|i)
Figure BDA0003002398720000101
其中I为指示函数(指示函数是集合论中的公知函数,定义在某集合X上的函数,表示其中有哪些元素属于某一子集A)。给定图G,模型使用门控图神经网络进行特征交互。图G上节点的初始向量表示被设置为注意力层提取得到的特征,即
Figure BDA0003002398720000102
其中
Figure BDA0003002398720000103
为图上节点i在第t层的特征表示,N表示自然数域,yk表示整数域。
模型首先通过图G上的信息流动从邻节点聚合信息,
Figure BDA0003002398720000104
上式中,
Figure BDA0003002398720000105
表示聚合信息。
然而,从邻节点聚合到的信息可能存在噪声,模型使用门控机制自适应选择有效信息:
Figure BDA0003002398720000106
Figure BDA0003002398720000107
Figure BDA0003002398720000108
Figure BDA0003002398720000109
其中σ代表Sigmoid函数,*代表Hadamard乘积,其中
Figure BDA00030023987200001010
Figure BDA00030023987200001011
表示更新门和重置门,
Figure BDA00030023987200001012
表示当前状态下每个词的输入向量,Wra,Wrv,Wza,Wzv,Wnv,Wna表示可训练权重,br,bz,bnv,bna表示偏置参数,
Figure BDA00030023987200001013
表示经过非线性映射函数,即使用激活函数tanh独立应用于
Figure BDA00030023987200001014
Figure BDA00030023987200001015
重复上述步骤K次,得到语义交互后的文本向量表示
Figure BDA00030023987200001016
为了防止深层图神经网络带来的过平滑现象,模型进一步加入了残差连接,语义交互层最终得到文本表示
Figure BDA00030023987200001017
其中
Figure BDA00030023987200001018
定义如下,
Figure BDA00030023987200001019
其中||代表拼接操作,最终对于每个类别,模型训练一个二分类器,
Figure BDA00030023987200001020
其中
Figure BDA00030023987200001021
为标签i的预测输出概率,σ代表Sigmoid函数,Wpi,bpi是对应的二分类器可训练参数权重和偏置。
通过基于标签间的隐含关系通过构建语义交互层,可自动挖掘标签之间的隐含语义关系,显示的建模标签之间的复杂依赖关系,无需预先定义标签层级结构及标签语义信息。
标签概率获取模块,在融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。标签概率获取模块采用非对称损失函数处理正负样本的非均衡分布,其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。
由于大部分标签只在少数样本中出现,采用二元关联解决多标签分类会导致二分类问题中正负样本的严重失衡。本发明采用非对称损失函数(Asymmetric loss,ASL)处理非均衡分布。非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。预测概率
Figure BDA0003002398720000111
同真实概率pi之间的非对称损失函数计算如下,
Figure BDA0003002398720000112
Figure BDA0003002398720000113
Figure BDA0003002398720000114
Figure BDA0003002398720000115
其中L+和L-分别代表样本作为正类和负类时带来的损失,上式中,pi表示预测概率,
Figure BDA0003002398720000116
表示真实概率,γ表示权重衰减因子,m表示置信度阈值。权重衰减因子γ用于为易分负样本的损失赋予更小的权重,置信度阈值m用于忽略预测置信度较高负样本带来
Figure BDA0003002398720000117
的损失。上述两个参数可以减少负样本在损失中的占比,使模型能关注到正样本产生的优化信息。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (10)

1.一种基于图深度学习的文本多标签分类方法,其特征在于,方法包括:
步骤1:对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量;
步骤2:对于步骤1处理得到的文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取的结果;
步骤3:在步骤2所得到的文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果;
步骤4:在步骤3得到的融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。
2.根据权利要求1所述的基于图深度学习的文本多标签分类方法,其特征在于,步骤1中的文本向量化的处理是以上下文语义嵌入表示来实现。
3.根据权利要求1所述的基于图深度学习的文本多标签分类方法,其特征在于,步骤2中采用多头注意力进行文本特征提取。
4.根据权利要求1所述的基于图深度学习的文本多标签分类方法,其特征在于,步骤3中通过门控图神经网络根据标签之间的统计关系进行特征交互,既在模型中显式地融入标签之间的关联,又自适应地捕捉更丰富的相关文本特征。
5.根据权利要求1所述的基于图深度学习的文本多标签分类方法,其特征在于,步骤4中,采用非对称损失函数处理正负样本的非均衡分布,其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。
6.一种基于图深度学习的文本多标签分类系统,其特征在于,系统包括:
文本向量化模块,对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量;
文本特征提取模块,连接文本向量化模块,对文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取的结果;
图语义交互模块,连接文本特征提取模块,在文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果;
标签概率获取模块,连接图语义交互模块,在融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本每个标签的输出概率。
7.根据权利要求6所述的基于图深度学习的文本多标签分类系统,其特征在于,文本向量化模块的处理是以上下文语义嵌入表示来实现。
8.根据权利要求6所述的基于图深度学习的文本多标签分类系统,其特征在于,文本特征提取模块采用多头注意力进行文本特征提取。
9.根据权利要求6所述的基于图深度学习的文本多标签分类系统,其特征在于,图语义交互模块通过门控图神经网络根据标签之间的统计关系进行特征交互,既在模型中显式地融入标签之间的关联,又自适应地捕捉更丰富的相关文本特征。
10.根据权利要求6所述的基于图深度学习的文本多标签分类系统,其特征在于,标签概率获取模块采用非对称损失函数处理正负样本的非均衡分布,其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。
CN202110352008.4A 2021-03-31 2021-03-31 一种基于图深度学习的文本多标签分类方法和系统 Pending CN113064995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110352008.4A CN113064995A (zh) 2021-03-31 2021-03-31 一种基于图深度学习的文本多标签分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110352008.4A CN113064995A (zh) 2021-03-31 2021-03-31 一种基于图深度学习的文本多标签分类方法和系统

Publications (1)

Publication Number Publication Date
CN113064995A true CN113064995A (zh) 2021-07-02

Family

ID=76565214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110352008.4A Pending CN113064995A (zh) 2021-03-31 2021-03-31 一种基于图深度学习的文本多标签分类方法和系统

Country Status (1)

Country Link
CN (1) CN113064995A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641821A (zh) * 2021-08-11 2021-11-12 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN113688232A (zh) * 2021-07-09 2021-11-23 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
CN114882279A (zh) * 2022-05-10 2022-08-09 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN116151242A (zh) * 2023-04-19 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种编程学习场景的智能习题推荐方法、系统及储存介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111309918A (zh) * 2020-03-17 2020-06-19 湖南大学 一种基于标签关联性的多标签文本分类方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
WO2020207431A1 (zh) * 2019-04-12 2020-10-15 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN112163426A (zh) * 2020-09-30 2021-01-01 中国矿业大学 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112308115A (zh) * 2020-09-25 2021-02-02 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
WO2020207431A1 (zh) * 2019-04-12 2020-10-15 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111309918A (zh) * 2020-03-17 2020-06-19 湖南大学 一种基于标签关联性的多标签文本分类方法
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统
CN112308115A (zh) * 2020-09-25 2021-02-02 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112163426A (zh) * 2020-09-30 2021-01-01 中国矿业大学 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RIDNIK, T 等: "Asymmetric Loss For Multi-Label Classification", pages 2, Retrieved from the Internet <URL:https://arxiv.org/pdf/2009.14119v1.pdf> *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688232A (zh) * 2021-07-09 2021-11-23 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
CN113688232B (zh) * 2021-07-09 2023-10-27 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
CN113641821A (zh) * 2021-08-11 2021-11-12 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN113641821B (zh) * 2021-08-11 2023-08-29 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN114882279A (zh) * 2022-05-10 2022-08-09 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN114882279B (zh) * 2022-05-10 2024-03-19 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN116151242A (zh) * 2023-04-19 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种编程学习场景的智能习题推荐方法、系统及储存介质

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN113064995A (zh) 一种基于图深度学习的文本多标签分类方法和系统
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111666766A (zh) 数据处理方法、装置和设备
CN113704434A (zh) 知识库问答方法、电子设备及可读存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN116150404A (zh) 一种基于联合学习的教育资源多模态知识图谱构建方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN116776881A (zh) 一种基于主动学习的领域实体识别系统及识别方法
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN111339258A (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN113051607B (zh) 一种隐私政策信息提取方法
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114297375A (zh) 网络安全实体与关系的网络模型的训练方法及抽取方法
CN111615178B (zh) 识别无线网络类型及模型训练的方法、装置及电子设备
CN113919358A (zh) 一种基于主动学习的命名实体识别方法和系统
CN113836903A (zh) 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN112100336A (zh) 一种档案的保存时间鉴定方法、装置及存储介质
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质
CN116977781A (zh) 训练集获取方法、模型训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination