CN111428026A - 一种多标签文本分类处理方法及系统、信息数据处理终端 - Google Patents

一种多标签文本分类处理方法及系统、信息数据处理终端 Download PDF

Info

Publication number
CN111428026A
CN111428026A CN202010106132.8A CN202010106132A CN111428026A CN 111428026 A CN111428026 A CN 111428026A CN 202010106132 A CN202010106132 A CN 202010106132A CN 111428026 A CN111428026 A CN 111428026A
Authority
CN
China
Prior art keywords
label
text
attention
weight coefficient
coefficient matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010106132.8A
Other languages
English (en)
Inventor
裴庆祺
王玉燕
马立川
肖阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Xidian Lianrong Technology Co ltd
Xidian University
Original Assignee
Xi'an Xidian Lianrong Technology Co ltd
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Xidian Lianrong Technology Co ltd, Xidian University filed Critical Xi'an Xidian Lianrong Technology Co ltd
Priority to CN202010106132.8A priority Critical patent/CN111428026A/zh
Publication of CN111428026A publication Critical patent/CN111428026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理技术领域,公开了一种多标签文本分类处理方法及系统、信息数据处理终端。步骤包括:获取数据集;对数据集进行预处理并划分为训练集和测试集;通过BERT预训练模型微调提取文本序列中单词的全局特征向量,采用卷积神经网络对全局特征向量进行聚合,得到文本序列中单词的语义向量;构建注意力权重系数矩阵,分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量加权,得到标签的注意力向量;对标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签做为文本的类别。本发明提取了文本序列的全局和局部特征,考虑了文本中关键词对标签类别的影响,提高了分类准确性。

Description

一种多标签文本分类处理方法及系统、信息数据处理终端
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种多标签文本分类处理方法及系统、信息数据处理终端。
背景技术
文本分类,是按照一定的分类体系或标准,将文本归于预先给定的某一类或某几类的过程,在自然语言处理和文本挖掘领域具有非常重要的意义。目前,文本分类在信息检索、Web文档自动分类、自动文摘、文本过滤等多个领域已经得到了广泛的应用。多标签文本分类,不同于传统的二分类或多分类,要处理的是现实生活中文本具有多个类别的任务,属于自然语言处理中既复杂又具有挑战性的任务。
目前,多标签文本分类算法可以分为两大类:一是基于问题转化的方法,将多标签分类任务转化成多个二分类或多分类问题,使其适用于现有算法,如:Native Bayes、SVM、DT等。二是基于算法适用的方法,指针对某一特定的算法进行扩展,从而能够处理多标签数据。如:ML-KNN、Rank-SVM等。发明人在研发过程中发现。现有方法存在以下技术问题:(1)提取文本语义信息时,表示文本序列中单词的语义时,不能根据句子长短灵活调整上下文文本长度,文本中即使考虑了上下文,也很少有考虑语序的;(2)模型训练时,标签和文本序列中的部分关键词的相关性往往起到很重要的作用,现有模型大多忽视了这一关系;(3)在预测标签时,通常假设所有标签都与文本有关,使得文本无关或相关性较低的标签,也计算出了概率,增加了训练误差,降低了模型性能和分类的准确性。
解决以上问题及缺陷的难度为:一方面在于从文本信息到文本中每个单词语义信息更精准表达,另一方面在于现有多标签分类算法,对于标签与文本序列中关键词之间的关系的忽略,在分类时,不能依据句子中最重要的词来判断类别。
解决以上问题及缺陷的意义为:通过研究出更精准的词向量表达和根据标签与文本相关性提高文本关键单词在分类模型所占的重要性,提高现有多标签文本分类信息处理系统的性能,为相关部门挖掘出有效的信息以辅助决策。
发明内容
针对现有技术存在的问题,本发明提供了一种多标签文本分类处理方法及系统、信息数据处理终端。
本发明是这样实现的,一种多标签文本分类处理方法,所述多标签文本分类处理方法包括:
第一步,获取包含文本序列和标签空间的数据集;
第二步,对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
第三步,通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
第四步,分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
第五步,对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
进一步,所述文本序列包含若干个字,每条文本对应的标签空间包含多个标签。
进一步,所述多标签文本分类处理方法通过BERT预训练模型微调的方式提取文本序列中所有单词的全局特征向量的步骤包括:加载Google官方的BERT中文预训练模型;读取自己的文本数据集;调整模型参数,得到每个单词的全局特征向量并保存。
进一步,所述通过卷积神经网络对所得全局特征向量进行聚合的步骤为:通过训练学习获得卷积神经网络的最优权值参数和偏置参数;利用训练后的卷积神经网络对全局特征向量进行聚合,得到文本序列中所有单词的语义向量。
进一步,所述注意力权重系数矩阵的构建步骤为:计算标签空间中每个标签与文本序列中每个单词的相似度向量,并构建相似度矩阵;利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量,得到注意力权重系数矩阵。
进一步,所述对注意力权重系数矩阵进行处理的步骤为:对注意力权重系数矩阵进行动态最大池化处理;对处理后的权重矩阵向量进行归一化处理,获得最优权重系数矩阵。
进一步,得到标签的注意力向量后,利用全线性连接层对标签的注意力向量进行线性处理。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤:
第一步,获取包含文本序列和标签空间的数据集;
第二步,对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
第三步,通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
第四步,分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将文本序列中的每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
第五步,对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
本发明的另一目的在于提供一种实施所述多标签文本分类处理方法的多标签文本分类处理系统,所述多标签文本分类处理系统包括:
获取数据集模块,用于获取包含文本序列和标签空间的数据集;
文本预处理模块,用于对数据进行预处理,去除没有意义的单词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
语义向量表示模块,用于通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
标签注意力向量构建模块,用于分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
分类模块,用于对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
本发明的另一目的在于提供一种搭载所述多标签文本分类处理系统的信息数据处理终端。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明的语义向量表示模块使用了基于BERT预训练模型微调的方式,BERT内部词向量训练模型基于Transformer的编码模块,将句子以字为单位输入,且加入了位置信息编码和句向量编码模块,在计算上下文关系的时计算了每个单词与句子中所有单词的相关关系,不再受原始句子长短的影响,能抽取出句子序列全局上下文信息的语义向量;在其后接入CNN聚合句子中单词周围邻域的局部信息。将全局信息和局部信息进行融合,能获得更准确表达句子的语义向量。本发明引入注意力机制,计算标签和文本之间的相关性,在预测标签时,使用动态最大池化,计算出与文本相关性较大的几个标签的概率,避免了不必要的误差,提高了分类的准确性。
附图说明
图1是本发明实施例提供的多标签文本分类处理方法流程图。
图2是本发明实施例提供的多标签文本分类处理系统的结构示意图;
图中:1、获取数据集模块;2、文本预处理模块;3、语义向量表示模块;4、标签注意力向量构建模块;5、分类模块。
图3是本发明实施例提供的多标签文本分类处理方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种多标签文本分类处理方法及系统、信息数据处理终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的多标签文本分类处理方法包括以下步骤:
S101:获取包含文本序列和标签空间的数据集;
S102:对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
S103:通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
S104:分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
S105:对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
如图2所示,本发明实施例提供的多标签文本分类处理系统包括:
获取数据集模块1,用于获取包含文本序列和标签空间的数据集。
文本预处理模块2,用于对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集。
语义向量表示模块3,用于通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型。
标签注意力向量构建模块4,用于分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量。
分类模块5,用于对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明实施例提供的多标签文本分类处理方法包括以下步骤:
第一步,获取数据集模块:获取包含文本序列和标签空间的数据集;
第二步,文本预处理模块:对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
第三步,语义向量表示模块:通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
第四步,标签注意力向量构建模块:分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
第五步,分类模块:对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
在本发明的优选实施例中,第一步数据集中文本序列包含若干个单词,每条文本标签空间包含多个标签。
在本发明的优选实施例中,第二步中文本预处理包括以下步骤:对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据分为训练集和测试集。
在本发明的优选实施例中,第三步提取全局特征向量包括以下步骤:通过BERT预训练模型微调的方式提取文本序列中所有单词的全局特征向量的步骤包括:加载Google官方的BERT中文预训练模型;读取自己的文本数据集;调整模型参数,得到每个单词的全局特征向量并保存。
在本发明的优选实施例中,第三步特征聚合包括以下步骤:用卷积神经网络对所得全局特征向量进行聚合的步骤为:通过训练学习获得卷积神经网络的最优权值参数和偏置参数;利用训练后的卷积神经网络对全局特征向量进行聚合,得到文本序列中所有单词的语义向量。
在本发明的优选实施例中,注意力权重系数矩阵的构建步骤为:计算标签空间中每个标签与文本序列中每个单词的相似度向量,并构建相似度矩阵;利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量,得到注意力权重系数矩阵。
在本发明的优选实施例中,对注意力权重系数矩阵进行处理的步骤为:对注意力权重系数矩阵进行动态最大池化处理;对处理后的权重系数矩阵中的权重矩阵向量进行归一化处理,获得最优权重系数矩阵。
在本发明的优选实施例中,得到标签的注意力向量后,利用全线性连接层对标签的注意力向量进行线性处理。
下面结合实验对本发明的技术效果作详细的描述。
数据集:本实施例使用今日头条的多标签文本分类数据集,截取其中的50万条数据作为本实施例的训练数据,其样本总标签数为1070,每条样本最大标签数为5。
参数设置:BERT中文预训练模型使用谷歌官方公布的:BERT-Base,Chinese:Chinese Simplified and Traditional,12-layer,768-hidden,12-heads,110Mparameters;最大句子长度设置为128;微调的训练轮数为4,词向量维度256,卷积神经网络的卷积核大小为3。
性能评价指标:本实施例使用精确率(precision)、召回率(recall)和汉明损失(Hamming loss)作为多标签文本分类方法性能的评价标准。
精确率:是指预测为正确出来的某类样本中,预测正确的数据所占的比例,精确率的值越高,模型性能表现越好。
召回率:是指实际样本中,被正确预测出来的样本所占的比例,召回率值越高,模型性能表现越好。
Hamming loss(汉明损失):衡量预测所得标签与样本实际标签之间的不一致程度,即样本具有标签但未被识别出或不具有标签却被误判的可能性。所以该值越小则网络的分类能力越强。计算公式如下:
Figure BDA0002388192570000081
N是样本的数量,L是标签的个数,Yi,j是第i个预测结果中第j个分量的真实值,Pi,j是第i个预测结果中第j个分量的预测值。
实验结果,分别采用Word2Vec+CNN、BERT+CNN以及本实施例提出的多标签文本分类方法的实验结果如表1所示:
表1实验结果
Figure BDA0002388192570000082
Figure BDA0002388192570000091
由表1可以看出,使用Word2Vec+CNN,精确率为73.2%,召回率为69.1%,相应的汉明损失为0.112。而使用BERT+CNN,精确率提升了约4.3%,召回率达到了72.1%;汉明损失也降低了约1.3%。所以BERT预训练模型微调的方式提取词向量性能优于word2vec。本文方案在使用BERT+CNN基础上,引入了注意力机制,精确率和召回率较基线提升了近2.0%和3.1%,汉明损失降低了约0.8%。说明本发明加入注意力机制提升了性能,综上所述,本发明方案具有较好的性能。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种多标签文本分类处理方法,其特征在于,所述多标签文本分类处理方法包括:
第一步,获取包含文本序列和标签空间的数据集;
第二步,对数据进行预处理,去除没有意义的单词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
第三步,通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
第四步,分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
第五步,对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
2.如权利要求1所述的多标签文本分类处理方法,其特征在于,所述文本序列包含若干个单词,每条文本对应的标签空间包含多个标签。
3.如权利要求1所述的多标签文本分类处理方法,其特征在于,所述多标签文本分类处理方法通过BERT预训练模型微调的方式提取文本序列中所有单词的全局特征向量的步骤包括:加载Google官方的BERT中文预训练模型;读取自己的文本数据集;调整模型参数,得到每个单词的全局特征向量并保存。
4.如权利要求1所述的多标签文本分类处理方法,其特征在于,所述用卷积神经网络对所得全局特征向量进行聚合的步骤为:通过训练学习获得卷积神经网络的最优权值参数和偏置参数;利用训练后的卷积神经网络对全局特征向量进行聚合,得到文本序列中所有单词的语义向量。
5.如权利要求1所述的多标签文本分类处理方法,其特征在于,所述注意力权重系数矩阵的构建步骤为:计算标签空间中每个标签与文本序列中每个词的相似度向量,并构建相似度矩阵;利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量,得到注意力权重系数矩阵。
6.如权利要求1所述的多标签文本分类处理方法,其特征在于,所述对注意力权重系数矩阵进行处理的步骤为:对注意力权重系数矩阵进行动态最大池化处理;对处理后的权重系数矩阵中的权重矩阵向量进行归一化处理,获得最优权重系数矩阵。
7.如权利要求1所述的多标签文本分类处理方法,其特征在于,得到标签的注意力向量后,利用全线性连接层对标签的注意力向量进行线性归一化处理,选取概率最大的几个为文本的类别。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤:
第一步,获取包含文本序列和标签空间的数据集;
第二步,对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
第三步,通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
第四步,分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
第五步,对标签注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个作为文本的类别。
9.一种实施权利要求1~7任意一项所述多标签文本分类处理方法的多标签文本分类处理系统,其特征在于,所述多标签文本分类处理系统包括:
获取数据集模块,用于获取包含文本序列和标签空间的数据集;
文本预处理模块,用于对数据进行预处理,去除没有意义的词,繁体字转换为简体字等,将数据集划分为训练集和测试集;
语义向量表示模块,用于通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量,保存最佳语义向量模型;
标签注意力向量构建模块,用于分别计算每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,调整得到最优权重系数矩阵,分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权,得到标签的注意力向量;
分类模块,用于对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取概率最大的几个标签作为文本的类别。
10.一种搭载权利要求9所述多标签文本分类处理系统的信息数据处理终端。
CN202010106132.8A 2020-02-20 2020-02-20 一种多标签文本分类处理方法及系统、信息数据处理终端 Pending CN111428026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010106132.8A CN111428026A (zh) 2020-02-20 2020-02-20 一种多标签文本分类处理方法及系统、信息数据处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010106132.8A CN111428026A (zh) 2020-02-20 2020-02-20 一种多标签文本分类处理方法及系统、信息数据处理终端

Publications (1)

Publication Number Publication Date
CN111428026A true CN111428026A (zh) 2020-07-17

Family

ID=71547047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010106132.8A Pending CN111428026A (zh) 2020-02-20 2020-02-20 一种多标签文本分类处理方法及系统、信息数据处理终端

Country Status (1)

Country Link
CN (1) CN111428026A (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000803A (zh) * 2020-07-28 2020-11-27 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112084338A (zh) * 2020-09-18 2020-12-15 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN112131389A (zh) * 2020-10-26 2020-12-25 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN112183094A (zh) * 2020-11-03 2021-01-05 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN112182217A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 多标签文本类别的识别方法、装置、设备和存储介质
CN112182214A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 一种数据分类方法、装置、设备及介质
CN112182215A (zh) * 2020-09-27 2021-01-05 中润普达(十堰)大数据中心有限公司 一种基于涕液特征信息语义认知系统及其使用方法
CN112183655A (zh) * 2020-10-10 2021-01-05 北京邮电大学 文档多标签分类方法和装置
CN112215007A (zh) * 2020-10-22 2021-01-12 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN112330379A (zh) * 2020-11-25 2021-02-05 税友软件集团股份有限公司 一种发票内容生成方法、系统、电子设备及存储介质
CN112347150A (zh) * 2020-11-23 2021-02-09 北京智源人工智能研究院 一种学者学术标签标注方法、装置和电子设备
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112699915A (zh) * 2020-12-07 2021-04-23 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112765961A (zh) * 2021-01-13 2021-05-07 中国人民解放军国防科技大学 一种基于实体图神经网络推理的事实验证方法及其系统
CN112784047A (zh) * 2021-01-25 2021-05-11 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN112802568A (zh) * 2021-02-03 2021-05-14 紫东信息科技(苏州)有限公司 基于病历文本的多标签胃部疾病分类方法及装置
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
CN112906382A (zh) * 2021-02-05 2021-06-04 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112925908A (zh) * 2021-02-19 2021-06-08 东北林业大学 一种基于Attention的图注意力网络的文本分类方法及系统
CN113010680A (zh) * 2021-03-19 2021-06-22 国网河北省电力有限公司营销服务中心 电力工单文本分类方法、装置及终端设备
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113128622A (zh) * 2021-05-12 2021-07-16 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113139051A (zh) * 2021-03-29 2021-07-20 广东外语外贸大学 文本分类模型训练方法、文本分类方法、设备和介质
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113312480A (zh) * 2021-05-19 2021-08-27 北京邮电大学 基于图卷积网络的科技论文层级多标签分类方法及设备
CN113377912A (zh) * 2021-06-09 2021-09-10 南京光普信息技术有限公司 一种基于自然语言处理的移动手机用户画像建立方法
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113468203A (zh) * 2021-04-29 2021-10-01 华东师范大学 基于循环神经网络与注意力机制的金融用户画像方法
CN113486175A (zh) * 2021-07-08 2021-10-08 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113535961A (zh) * 2021-08-03 2021-10-22 公安部第三研究所 基于小样本学习实现多语言混合短文本分类处理的系统、方法、装置、存储器及其存储介质
CN113590827A (zh) * 2021-08-12 2021-11-02 云南电网有限责任公司电力科学研究院 一种基于多角度的科研项目文本分类装置和方法
CN113626589A (zh) * 2021-06-18 2021-11-09 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113656581A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 文本分类及模型训练的方法、装置、设备以及存储介质
CN113688234A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本分类管理方法、装置、终端及可读存储介质
CN113761935A (zh) * 2021-08-04 2021-12-07 厦门快商通科技股份有限公司 一种短文本语义相似度度量方法、系统及装置
CN113806534A (zh) * 2021-09-03 2021-12-17 电子科技大学 一种面向社交网络的热点事件预测方法
CN113849655A (zh) * 2021-12-02 2021-12-28 江西师范大学 一种专利文本多标签分类方法
CN114091472A (zh) * 2022-01-20 2022-02-25 北京零点远景网络科技有限公司 多标签分类模型的训练方法
CN114118273A (zh) * 2021-11-24 2022-03-01 南开大学 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法
CN114358014A (zh) * 2021-12-23 2022-04-15 佳源科技股份有限公司 基于自然语言的工单智能诊断方法、装置、设备及介质
CN114943236A (zh) * 2022-06-30 2022-08-26 北京金山数字娱乐科技有限公司 关键词提取方法及装置
CN115878793A (zh) * 2022-05-25 2023-03-31 北京中关村科金技术有限公司 多标签文档分类方法、装置、电子设备及介质
CN115982736A (zh) * 2022-12-21 2023-04-18 南阳理工学院 用于计算机网络信息的数据加密方法及系统
CN117350524A (zh) * 2023-12-05 2024-01-05 广东新禾道信息科技有限公司 一种新型基础测绘移动采集协同作业方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3499384A1 (en) * 2017-12-18 2019-06-19 Fortia Financial Solutions Word and sentence embeddings for sentence classification
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN110728153A (zh) * 2019-10-15 2020-01-24 天津理工大学 基于模型融合的多类别情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3499384A1 (en) * 2017-12-18 2019-06-19 Fortia Financial Solutions Word and sentence embeddings for sentence classification
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN110728153A (zh) * 2019-10-15 2020-01-24 天津理工大学 基于模型融合的多类别情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏勇: "关联语义结合卷积神经网络的文本分类方法", 《控制工程》 *

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000803A (zh) * 2020-07-28 2020-11-27 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112000803B (zh) * 2020-07-28 2024-05-14 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112084338A (zh) * 2020-09-18 2020-12-15 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN112084338B (zh) * 2020-09-18 2024-02-06 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN112182214B (zh) * 2020-09-27 2024-03-19 中国建设银行股份有限公司 一种数据分类方法、装置、设备及介质
CN112182214A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 一种数据分类方法、装置、设备及介质
CN112182215A (zh) * 2020-09-27 2021-01-05 中润普达(十堰)大数据中心有限公司 一种基于涕液特征信息语义认知系统及其使用方法
CN112182217A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 多标签文本类别的识别方法、装置、设备和存储介质
CN112183655A (zh) * 2020-10-10 2021-01-05 北京邮电大学 文档多标签分类方法和装置
CN112215007A (zh) * 2020-10-22 2021-01-12 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN112215007B (zh) * 2020-10-22 2022-09-23 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN112131389B (zh) * 2020-10-26 2023-04-07 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN112131389A (zh) * 2020-10-26 2020-12-25 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN112183094B (zh) * 2020-11-03 2023-06-16 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN112183094A (zh) * 2020-11-03 2021-01-05 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN112347150A (zh) * 2020-11-23 2021-02-09 北京智源人工智能研究院 一种学者学术标签标注方法、装置和电子设备
CN112330379A (zh) * 2020-11-25 2021-02-05 税友软件集团股份有限公司 一种发票内容生成方法、系统、电子设备及存储介质
CN112330379B (zh) * 2020-11-25 2023-10-31 税友软件集团股份有限公司 一种发票内容生成方法、系统、电子设备及存储介质
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112699915B (zh) * 2020-12-07 2024-02-02 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112699915A (zh) * 2020-12-07 2021-04-23 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112765961A (zh) * 2021-01-13 2021-05-07 中国人民解放军国防科技大学 一种基于实体图神经网络推理的事实验证方法及其系统
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112711953B (zh) * 2021-01-19 2024-01-26 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112784047B (zh) * 2021-01-25 2023-02-28 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN112784047A (zh) * 2021-01-25 2021-05-11 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN112802568A (zh) * 2021-02-03 2021-05-14 紫东信息科技(苏州)有限公司 基于病历文本的多标签胃部疾病分类方法及装置
CN112906382A (zh) * 2021-02-05 2021-06-04 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112925908A (zh) * 2021-02-19 2021-06-08 东北林业大学 一种基于Attention的图注意力网络的文本分类方法及系统
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统
CN113220874B (zh) * 2021-03-13 2023-04-07 山东师范大学 一种多标签文本分类方法及系统
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113010680A (zh) * 2021-03-19 2021-06-22 国网河北省电力有限公司营销服务中心 电力工单文本分类方法、装置及终端设备
CN113139051A (zh) * 2021-03-29 2021-07-20 广东外语外贸大学 文本分类模型训练方法、文本分类方法、设备和介质
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113468203A (zh) * 2021-04-29 2021-10-01 华东师范大学 基于循环神经网络与注意力机制的金融用户画像方法
CN113128622A (zh) * 2021-05-12 2021-07-16 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113128622B (zh) * 2021-05-12 2022-05-31 齐鲁工业大学 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113312480A (zh) * 2021-05-19 2021-08-27 北京邮电大学 基于图卷积网络的科技论文层级多标签分类方法及设备
CN113377912B (zh) * 2021-06-09 2023-06-30 南京光普信息技术有限公司 一种基于自然语言处理的移动手机用户画像建立方法
CN113377912A (zh) * 2021-06-09 2021-09-10 南京光普信息技术有限公司 一种基于自然语言处理的移动手机用户画像建立方法
CN113626589B (zh) * 2021-06-18 2023-04-18 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113626589A (zh) * 2021-06-18 2021-11-09 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113486175A (zh) * 2021-07-08 2021-10-08 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113486175B (zh) * 2021-07-08 2024-03-15 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113688234A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本分类管理方法、装置、终端及可读存储介质
CN113535961A (zh) * 2021-08-03 2021-10-22 公安部第三研究所 基于小样本学习实现多语言混合短文本分类处理的系统、方法、装置、存储器及其存储介质
CN113761935A (zh) * 2021-08-04 2021-12-07 厦门快商通科技股份有限公司 一种短文本语义相似度度量方法、系统及装置
CN113761935B (zh) * 2021-08-04 2024-02-27 厦门快商通科技股份有限公司 一种短文本语义相似度度量方法、系统及装置
CN113590827B (zh) * 2021-08-12 2023-08-01 云南电网有限责任公司电力科学研究院 一种基于多角度的科研项目文本分类装置和方法
CN113590827A (zh) * 2021-08-12 2021-11-02 云南电网有限责任公司电力科学研究院 一种基于多角度的科研项目文本分类装置和方法
CN113656581B (zh) * 2021-08-17 2023-09-22 北京百度网讯科技有限公司 文本分类及模型训练的方法、装置、设备以及存储介质
CN113656581A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 文本分类及模型训练的方法、装置、设备以及存储介质
CN113420154B (zh) * 2021-08-25 2021-12-10 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113806534B (zh) * 2021-09-03 2023-04-18 电子科技大学 一种面向社交网络的热点事件预测方法
CN113806534A (zh) * 2021-09-03 2021-12-17 电子科技大学 一种面向社交网络的热点事件预测方法
CN114118273B (zh) * 2021-11-24 2024-04-26 南开大学 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法
CN114118273A (zh) * 2021-11-24 2022-03-01 南开大学 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法
CN113849655A (zh) * 2021-12-02 2021-12-28 江西师范大学 一种专利文本多标签分类方法
CN114358014A (zh) * 2021-12-23 2022-04-15 佳源科技股份有限公司 基于自然语言的工单智能诊断方法、装置、设备及介质
CN114091472A (zh) * 2022-01-20 2022-02-25 北京零点远景网络科技有限公司 多标签分类模型的训练方法
CN115878793A (zh) * 2022-05-25 2023-03-31 北京中关村科金技术有限公司 多标签文档分类方法、装置、电子设备及介质
CN115878793B (zh) * 2022-05-25 2023-08-25 北京中关村科金技术有限公司 多标签文档分类方法、装置、电子设备及介质
CN114943236A (zh) * 2022-06-30 2022-08-26 北京金山数字娱乐科技有限公司 关键词提取方法及装置
CN115982736B (zh) * 2022-12-21 2023-08-08 南阳理工学院 用于计算机网络信息的数据加密方法及系统
CN115982736A (zh) * 2022-12-21 2023-04-18 南阳理工学院 用于计算机网络信息的数据加密方法及系统
CN117350524A (zh) * 2023-12-05 2024-01-05 广东新禾道信息科技有限公司 一种新型基础测绘移动采集协同作业方法及系统
CN117350524B (zh) * 2023-12-05 2024-03-26 广东新禾道信息科技有限公司 一种新型基础测绘移动采集协同作业方法及系统

Similar Documents

Publication Publication Date Title
CN111428026A (zh) 一种多标签文本分类处理方法及系统、信息数据处理终端
CN110209823B (zh) 一种多标签文本分类方法及系统
US11030415B2 (en) Learning document embeddings with convolutional neural network architectures
CN114595333B (zh) 一种用于舆情文本分析的半监督方法和装置
US8787683B1 (en) Image classification
EP2812883B1 (en) System and method for semantically annotating images
US20210216576A1 (en) Systems and methods for providing answers to a query
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN111898366A (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112966068A (zh) 基于网页信息的简历识别方法和装置
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN116822651A (zh) 基于增量学习的大模型参数微调方法、装置、设备及介质
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
US10970488B2 (en) Finding of asymmetric relation between words
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN116842951A (zh) 命名实体识别方法、装置、电子设备及存储介质
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
Thielmann et al. Coherence based document clustering
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN113609841A (zh) 一种主题词生成模型的训练方法及计算设备
CN113792131A (zh) 一种关键词的提取方法、装置、电子设备及存储介质
CN109992716B (zh) 一种基于itq算法的印尼语相似新闻推荐方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 710071 Xi'an Electronic and Science University, 2 Taibai South Road, Shaanxi, Xi'an

Applicant after: XIDIAN University

Applicant after: Xi'an Lianrong Technology Co., Ltd

Address before: 710071 Xi'an Electronic and Science University, 2 Taibai South Road, Shaanxi, Xi'an

Applicant before: XIDIAN University

Applicant before: Xi'an Xidian Lianrong Technology Co., Ltd

CB02 Change of applicant information