CN113064995A

CN113064995A - 一种基于图深度学习的文本多标签分类方法和系统

Info

Publication number: CN113064995A
Application number: CN202110352008.4A
Authority: CN
Inventors: 鲁继东; 林越峰; 苗仲辰; 王晨宇; 倪梦珺; 江航
Original assignee: Shanghai Financial Futures Information Technology Co ltd
Current assignee: Shanghai Financial Futures Information Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-02

Abstract

本发明公开了基于图深度学习的文本多标签分类方法和系统，在金融领域少标注样本且标签间存在业务关联的前提下，依靠基于图深度学习的文本分类方法，自动化解决文本多标签分裂问题。其技术方案为：对原始采集数据进行预处理并进行文本向量化的处理，基于中文分词后转化为文本向量；对文本向量化结果，使用多标签注意力网络提取文本特征，最终得到文本特征提取结果；在文本特征提取的基础上，构建图语义交互层，得到融合图语义交互层的混合文本向量化的结果；在融入语义交互层的文本向量化表示基础上，采用特定损失函数训练模型进行训练，得到输入文本每个标签的输出概率。

Description

一种基于图深度学习的文本多标签分类方法和系统

技术领域

本发明涉及一种文本多标签分类技术，具体涉及基于图深度学习模型来实现的文本多标签分类方法和系统。

背景技术

近年来，随着互联网飞速发展，包括微博、微信等社交网络的兴起，使得信息能够迅速的扩散，信息量呈现爆炸式增长，尤其在金融领域，专业术语多，信息门户广，导致监管人员快速检索文本信息带来了不小的麻烦。因此人们迫切需要一种面向金融领域的文本多标签分类方法，帮助人们从海量的金融新闻信息中迅速发现有价值的信息，给新闻打上多个合适的业务标签，对机器学习领域来说这个问题抽象定义为一个文本多标签分类问题。

一般来说，要解决这个问题，需要耗费大量具体较高专业程度的人员对金融文本进行标注，这使得金融语料的标注代价昂贵，且效率低下，无法满足对实时性要求高的业务场景。如何在仅提供少量标注样本的情况下，且标注样本比例严重不均衡的前提下，实现自动化文本多标签分类，成为目前业界迫在眉睫的问题。

目前，市场上没有一款产品可以在金融领域少标注样本且标签间存在业务关联的前提下自动化的解决文本多标签分裂问题。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种基于图深度学习的文本多标签分类方法和系统，可以在金融领域少标注样本且标签间存在业务关联的前提下，依靠基于图深度学习的文本分类方法，自动化的解决文本多标签分裂问题。

本发明的技术方案为：本发明揭示了一种基于图深度学习的文本多标签分类方法，方法包括：

步骤1：对原始采集数据进行预处理并进行文本向量化的处理，基于中文分词后转化为文本向量；

步骤2：对于步骤1处理得到的文本向量化结果，使用多标签注意力网络提取文本特征，最终得到文本特征提取的结果；

步骤3：在步骤2所得到的文本特征提取的基础上，构建图语义交互层，得到融合图语义交互层的混合文本向量化的结果；

步骤4：在步骤3得到的融入语义交互层的文本向量化表示基础上，采用特定损失函数训练模型进行训练，得到输入文本每个标签的输出概率。

根据本发明的基于图深度学习的文本多标签分类方法的一实施例，步骤1中的文本向量化的处理是以上下文语义嵌入表示来实现。

根据本发明的基于图深度学习的文本多标签分类方法的一实施例，步骤2中采用多头注意力进行文本特征提取。

根据本发明的基于图深度学习的文本多标签分类方法的一实施例，步骤3中通过门控图神经网络根据标签之间的统计关系进行特征交互，既在模型中显式地融入标签之间的关联，又自适应地捕捉更丰富的相关文本特征。

根据本发明的基于图深度学习的文本多标签分类方法的一实施例，步骤4中，采用非对称损失函数处理正负样本的非均衡分布，其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。

本发明还揭示了一种基于图深度学习的文本多标签分类系统，系统包括：

文本向量化模块，对原始采集数据进行预处理并进行文本向量化的处理，基于中文分词后转化为文本向量；

文本特征提取模块，连接文本向量化模块，对文本向量化结果，使用多标签注意力网络提取文本特征，最终得到文本特征提取的结果；

图语义交互模块，连接文本特征提取模块，在文本特征提取的基础上，构建图语义交互层，得到融合图语义交互层的混合文本向量化的结果；

标签概率获取模块，连接图语义交互模块，在融入语义交互层的文本向量化表示基础上，采用特定损失函数训练模型进行训练，得到输入文本每个标签的输出概率。

根据本发明的基于图深度学习的文本多标签分类系统的一实施例，文本向量化模块的处理是以上下文语义嵌入表示来实现。

根据本发明的基于图深度学习的文本多标签分类系统的一实施例，文本特征提取模块采用多头注意力进行文本特征提取。

根据本发明的基于图深度学习的文本多标签分类系统的一实施例，图语义交互模块通过门控图神经网络根据标签之间的统计关系进行特征交互，既在模型中显式地融入标签之间的关联，又自适应地捕捉更丰富的相关文本特征。

根据本发明的基于图深度学习的文本多标签分类系统的一实施例，标签概率获取模块采用非对称损失函数处理正负样本的非均衡分布，其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。

本发明对比现有技术有如下的有益效果：本发明基于图深度学习模型，在此基础上引入了两方面的技术创新：一是利用门控神经网络建模标签之间的关系，二是利用非对称损失函数应对二元关联中正负样本不均衡现象。这两方面的结合可以大大提升模型在缺乏标签数据，且不依赖人为指定标签层级结构及丰富语义信息等先验知识的前提下，显式建模标签之间的复杂依赖关系，提升文本多标签分类效果。具体而言，本发明的创新点包括：

1、本发明首次采用基于双向门控循环网络和注意力机制对新闻文本进行特征表示，相比已有向量化方法，提取了上下文信息并融入了不同角度的语言角度。

2、本发明采用非对称损失函数应对二元关联中正负样本不均衡现象，解决了现实中常见的标注样本不均衡的问题，显著提升了分类效果。

3、同已有标签分类算法相比，本发明不需要预先定义标签层级结构及标签语义信息，可自动挖掘标签之间的隐含语义关系，显示的建模标签之间的复杂依赖关系，提升新闻多标签分类准确性，适用于依赖专业领域人员获取标签信息数据的金融领域。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的基于图深度学习的文本多标签分类方法的一实施例的流程图。

图2示出了本发明的基于图深度学习的文本多标签分类系统的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的基于图深度学习的文本多标签分类方法的一实施例的流程。请参见图1，本实施例的方法的实施步骤详述如下。

在具体描述处理过程之前，先将重要符号及其含义列表如下。

步骤1：对原始采集数据进行预处理并进行文本向量化的处理，基于中文分词后转化为文本向量。

在本实施例中，文本向量化的处理是以上下文语义嵌入表示来实现。对于原始采集的一段新闻文本，步骤1的具体处理如下：

(1)使用中文分词工具jieba进行分词，得到字符序列[w₁,w₂,…,w_m]；

(2)使用word2vec工具进行嵌入表示学习，得到融合上下文信息的语义嵌入向量序列

(记为H)，其中

为字符w_i的嵌入表示，d_init为初始嵌入表示的维度，R表示实数域；

(3)为了在嵌入表示中融入上下文信息，进一步使用双向门控循环网络(包括正向门控循环网络

和反向门控循环网络

)对向量序列H进行编码：

其中，每个前向隐藏状态

和后项隐藏状态

被拼接起来，得到一系列文本的上下文语义嵌入表示

其中

为融入上下文信息的嵌入表示，符号||表示拼接操作。

步骤2：对于步骤1处理得到的文本向量化结果，使用多标签注意力网络提取文本特征，最终得到文本特征提取的结果。

在本步骤中，由于文本中常常包含大量冗余信息且每个标签同文本不同角度的特征有关，本发明使用多头注意力{q₁,q₂,..q_L}(其中，q_i为注意力头，L为最大注意力头数)进行特征提取。本文将

设置为可训练的一维向量，其中d_c为融入上下文信息的嵌入表示维度，R为实数域。具体来说，

其中α_ij代表文本中第j个字符同标签i的相关程度，

代表同标签i相关的文本向量表示(由第i个注意力头提取到的特征)。最终可以得到文本的向量表示

上式中，m为最大文本向量化长度。

步骤3：在步骤2所得到的文本特征提取的基础上，构建图语义交互层，得到融合图语义交互层的混合文本向量化的处理结果。

现有工作大都只通过单个注意力头提取到的特征

判断文本是否与标签i有关，但是单头注意力q_i也许无法完全捕捉同标签i有关的信息，且这种做法忽略了标签之间的关系。本发明通过门控图神经网络根据标签之间的统计关系进行特征交互。这不仅可以在模型中显式地融入标签之间的关联，此外门控机制可以自适应地捕捉到更丰富的相关文本特征。

步骤3的具体处理如下。

本实施例的整个算法模型首先根据训练集构建标签统计关联图G，图G为有向带权图，其中节点集V由数据集中的所有标签组成，边权adj_ij被定义为标签i,j之间的条件概率，条件概率通过训练数据集估算得到，即

adj_ij＝p(j|i)

其中I为指示函数(指示函数是集合论中的公知函数，定义在某集合X上的函数，表示其中有哪些元素属于某一子集A)。给定图G，模型使用门控图神经网络进行特征交互。图G上节点的初始向量表示被设置为注意力层提取得到的特征，即

其中

为图上节点i在第t层的特征表示，N表示自然数域，y_k表示整数域。

模型首先通过图G上的信息流动从邻节点聚合信息，

上式中，

表示聚合信息。

然而，从邻节点聚合到的信息可能存在噪声，模型使用门控机制自适应选择有效信息：

其中σ代表Sigmoid函数，*代表Hadamard乘积，其中

和

表示更新门和重置门，

表示当前状态下每个词的输入向量，W_ra，W_rv，W_za，W_zv，W_nv，W_na表示可训练权重，b_r，b_z，b_nv，b_na表示偏置参数，

表示经过非线性映射函数，即使用激活函数tanh独立应用于

和

重复上述步骤K次，得到语义交互后的文本向量表示

为了防止深层图神经网络带来的过平滑现象，模型进一步加入了残差连接，语义交互层最终得到文本表示

其中

定义如下,

其中||代表拼接操作，最终对于每个类别，模型训练一个二分类器，

其中

为标签i的预测输出概率，σ代表Sigmoid函数，W_pi，b_pi是对应的二分类器可训练参数权重和偏置。

通过基于标签间的隐含关系通过构建语义交互层，可自动挖掘标签之间的隐含语义关系，显示的建模标签之间的复杂依赖关系，无需预先定义标签层级结构及标签语义信息。

由于大部分标签只在少数样本中出现，采用二元关联解决多标签分类会导致二分类问题中正负样本的严重失衡。本发明采用非对称损失函数(Asymmetric loss,ASL)处理非均衡分布。非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。预测概率

同真实概率p_i之间的非对称损失函数计算如下，

其中L⁺和L^-分别代表样本作为正类和负类时带来的损失，上式中，p_i表示预测概率，

表示真实概率，γ表示权重衰减因子，m表示置信度阈值。权重衰减因子γ用于为易分负样本的损失赋予更小的权重，置信度阈值m用于忽略预测置信度较高负样本带来

的损失。上述两个参数可以减少负样本在损失中的占比，使模型能关注到正样本产生的优化信息。

图2示出了本发明的基于图深度学习的文本多标签分类系统的一实施例的原理。请参见图2，本实施例的系统包括：文本向量化模块、文本特征提取模块、图语义交互模块、标签概率获取模块。

文本向量化模块的输出端连接文本特征提取模块，文本特征提取模块的输出端连接图语义交互模块，图语义交互模块的输出端连接标签概率获取模块。

文本向量化模块，对原始采集数据进行预处理并进行文本向量化的处理，基于中文分词后转化为文本向量。文本向量化模块的处理是以上下文语义嵌入表示来实现。

文本向量化模块的具体处理如下：

(4)使用中文分词工具jieba进行分词，得到字符序列[w₁,w₂,…,w_m]；

(5)使用word2vec工具进行嵌入表示学习，得到融合上下文信息的语义嵌入向量序列

(记为H)，其中

(6)为了在嵌入表示中融入上下文信息，进一步使用双向门控循环网络(包括正向门控循环网络

和反向门控循环网络

)对向量序列H进行编码：

其中，每个前向隐藏状态

和后项隐藏状态

被拼接起来，得到一系列文本的上下文语义嵌入表示

其中

为融入上下文信息的嵌入表示，符号||表示拼接操作。

文本特征提取模块，对文本向量化结果，使用多标签注意力网络提取文本特征，最终得到文本特征提取的结果。文本特征提取模块采用多头注意力进行文本特征提取。

由于文本中常常包含大量冗余信息且每个标签同文本不同角度的特征有关，本发明使用多头注意力{q₁,q₂,..q_L}(其中，q_i为注意力头，L为最大注意力头数)进行特征提取。本文将

其中α_ij代表文本中第j个字符同标签i的相关程度，

上式中，m为最大文本向量化长度。

图语义交互模块，在文本特征提取的基础上，构建图语义交互层，得到融合图语义交互层的混合文本向量化的结果。图语义交互模块通过门控图神经网络根据标签之间的统计关系进行特征交互，既在模型中显式地融入标签之间的关联，又自适应地捕捉更丰富的相关文本特征。

图语义交互模块配置的具体处理如下。

adj_ij＝p(j|i)

其中

模型首先通过图G上的信息流动从邻节点聚合信息，

上式中，

表示聚合信息。

其中σ代表Sigmoid函数，*代表Hadamard乘积，其中

和

表示更新门和重置门，

表示经过非线性映射函数，即使用激活函数tanh独立应用于

和

重复上述步骤K次，得到语义交互后的文本向量表示

其中

定义如下,

其中

标签概率获取模块，在融入语义交互层的文本向量化表示基础上，采用特定损失函数训练模型进行训练，得到输入文本每个标签的输出概率。标签概率获取模块采用非对称损失函数处理正负样本的非均衡分布，其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。

同真实概率p_i之间的非对称损失函数计算如下，

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于图深度学习的文本多标签分类方法，其特征在于，方法包括：

2.根据权利要求1所述的基于图深度学习的文本多标签分类方法，其特征在于，步骤1中的文本向量化的处理是以上下文语义嵌入表示来实现。

3.根据权利要求1所述的基于图深度学习的文本多标签分类方法，其特征在于，步骤2中采用多头注意力进行文本特征提取。

4.根据权利要求1所述的基于图深度学习的文本多标签分类方法，其特征在于，步骤3中通过门控图神经网络根据标签之间的统计关系进行特征交互，既在模型中显式地融入标签之间的关联，又自适应地捕捉更丰富的相关文本特征。

5.根据权利要求1所述的基于图深度学习的文本多标签分类方法，其特征在于，步骤4中，采用非对称损失函数处理正负样本的非均衡分布，其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。

6.一种基于图深度学习的文本多标签分类系统，其特征在于，系统包括：

7.根据权利要求6所述的基于图深度学习的文本多标签分类系统，其特征在于，文本向量化模块的处理是以上下文语义嵌入表示来实现。

8.根据权利要求6所述的基于图深度学习的文本多标签分类系统，其特征在于，文本特征提取模块采用多头注意力进行文本特征提取。

9.根据权利要求6所述的基于图深度学习的文本多标签分类系统，其特征在于，图语义交互模块通过门控图神经网络根据标签之间的统计关系进行特征交互，既在模型中显式地融入标签之间的关联，又自适应地捕捉更丰富的相关文本特征。

10.根据权利要求6所述的基于图深度学习的文本多标签分类系统，其特征在于，标签概率获取模块采用非对称损失函数处理正负样本的非均衡分布，其中非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。