CN108073677A - 一种基于人工智能的多级文本多标签分类方法及系统 - Google Patents

一种基于人工智能的多级文本多标签分类方法及系统 Download PDF

Info

Publication number
CN108073677A
CN108073677A CN201711063644.5A CN201711063644A CN108073677A CN 108073677 A CN108073677 A CN 108073677A CN 201711063644 A CN201711063644 A CN 201711063644A CN 108073677 A CN108073677 A CN 108073677A
Authority
CN
China
Prior art keywords
text
classification
module
vector
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711063644.5A
Other languages
English (en)
Other versions
CN108073677B (zh
Inventor
李鹏
王斌
郭莉
梅钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201711063644.5A priority Critical patent/CN108073677B/zh
Publication of CN108073677A publication Critical patent/CN108073677A/zh
Application granted granted Critical
Publication of CN108073677B publication Critical patent/CN108073677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本发明只通过文档级的标注信息来推断组成文本的标签,可以很好的应用于组成文本标签难以收集的场景;相对于传统多示例学习方法,本发明引入最少假设,能够更好地拟合实际数据;本发明具有良好的可扩展性。

Description

一种基于人工智能的多级文本多标签分类方法及系统
技术领域
本发明涉及人工智能、文本分类、内容可视化领域,尤其涉及一种基于人工智能的多级文本多标签分类方法及系统。
背景技术
对文本内容的理解和分析是自然语言处理的研究目标。大部分文本内容以文档形式存在,每个文档对应一个文件,典型的文件格式包括TXT、HMTL、WORD、PDF等等。目前随着互联网以及移动互联网的蓬勃发展,待分析的文档数量急剧上升。如何对不同粒度文本(如句子、段落、文档)进行类别标记对信息发现、信息浏览和分析具有重要意义。比如大量电商网站提供用户评论的功能,如“这个榨汁机给宝宝做辅食特别细腻,速度非常快,好清洗,唯一的缺点是声音比想象中大”,这个评论虽然整体上属于正面情感,但是其中的细粒度句子(以逗号分隔的句子)既有正面情感也有负面情感,即“这个榨汁机给宝宝做辅食特别细腻”、“速度非常快”,“好清洗”是正面情感,“唯一的缺点是声音比想象中大”是负面情感。如何抽取评论中不同类别的代表子句对于进行产品分析具有重要价值。该问题可以看作是一个细粒度文本(子句)的分类问题。
传统机器学习针对该问题有两种实现方法。一是收集各级别文本的类别标注信息,并学习相应分类模型;二是利用多示例学习(MIL,multi-instance learning)方法,只需要文档级的类别信息。第一种方法面临的问题是细粒度文本的类别标注信息很少、收集成本高昂,大规模应用不现实;第二种方法面临的问题是传统多示例学习方法中的假设太强,不能很好的建模实际数据。
发明内容
针对上述不足,本发明提供一种基于人工智能的多级文本多标签分类方法及系统。该方法及系统能够在实际数据上进行建模,且能够对多级文本(如字、词、句子、段落、文档等)进行多标签分类。
在本发明中,“文本”泛指文档内的字符串序列,其级别由低到高依次包括字、词、句子、段落、文档等,如句子的级别高于词,词的级别高于字;多级是指文本本身存在的多粒度组成关系,如词组成句子;多标签是指对于给定的文本,本发明既可以输入单个类别,也可以输入多个类别,从而满足对于文本分类的不同需求。
本发明提供一种基于人工智能的多级文本多标签分类方法,主要包括以下步骤:
1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;
2)根据训练文本中已有的文本类别标注信息(即训练文本中正确的文本类别标注信息)与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;
3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。
本发明的典型应用包括抽取文档中与类别相关的文本(如句子)以及对文档进行分类。
本发明还提供一种基于人工智能的多级文本多标签分类系统,包括多级文本分类模块、模型学习模块和模型应用模块;
所述多级文本分类模块用于利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;且所述多级文本分类模块包括加权组合模块、分类预测模块、序列编码模块;其中,所述分类预测模块又分为单标签分类模块和多标签分类模块,所述序列编码模块又分为序列到向量编码模块以及序列到序列编码模块。
所述多级文本分类模块在构建多级文本多标签分类模型时包括4个步骤:
(1)确定文本级别。文本的所有级别包括文档、段落(句子集合)、句子、词、字;构建的模型可以只对部分级别进行建模,至少设置的级别包括文档级别、要预测类别的文本级别、词级别(或者字级别),也可以将其他级别加入。
(2)确定文本的构建假设。构建假设包括加权组合假设以及序列编码假设,其中,文档级别的构建使用加权组合假设;要预测类别的文本级别向上的相邻文本级别的构建使用加权组合假设;要预测类别的文本级别的构建既可以使用加权组合假设,也可以使用序列编码假设。
(3)将构建假设转换为构建模块。加权组合假设对应加权组合模块,序列编码假设对应序列编码模块。
(4)添加分类预测模块。根据训练集中标签所在的文本级别,为对应文本添加分类预测模块,用于预测给定文本的类别。
所述加权组合模块用于生成文本在指定类别下的向量表示,即“文本-类别”对的向量表示,输入为文本及类别。具体做法是:
(1)将文本拆分为低级别“构成文本”,使用构成文本序列对应的“构成文本-类别”向量序列以及类别向量作为输入;
(2)人工加入至少1个“填充文本”并计算“填充文本-类别”向量序列;
(3)利用神经网络的关注机理(attention mechanisum),分别计算“构成文本-类别”权重以及“填充文本-类别”权重;
(4)将相关的“构成文本-类别”向量和“填充文本-类别”向量进行加权相加,再经过非线性转换,得到最后的输出即“文本-类别”向量。这里非线性转换是可选项。
所述加权组合假设认为文本是由低级别“构成文本-类别”向量加权组合而成,不考虑“构成文本”的位置顺序。
所述序列编码假设认为文本是由低级别“构成文本-类别”向量顺序编码而成,考虑输入的文本向量的位置顺序。
所述加权组合模块的“构成文本-类别”向量序列,序列的每一个向量可以来自于另一个加权组合模块的输出或者序列到向量编码模块的输出,整个序列也可以直接是序列到序列编码模块的输出。
所述加权组合模块的“填充文本”是人工加入的与加权组合模块中的低级别“构成文本”同级别的背景文本,“填充文本”可以使用文档集中出现最频繁的字词来构建。对于给定级别文本的加权组合模块,“填充文本”的数量与低级别“构成文本”的数量和要等于一个常数,目的是确保加权组合时操作的向量个数相同,比如计算句子级别文本表示,为每个句子填充词,填充后所有句子长度要相等。
所述加权组合模块的“填充文本-类别”向量序列的计算基于填充文本,计算过程与“构成文本-类别”向量序列的计算过程完全一致。
所述序列到向量编码模块是指将向量序列输入转换为单个向量,有2种实现方法:
(a)使用神经网络中的CNN模型对输入的“文本-类别”向量序列进行编码生成输入的文本序列对应的“文本-类别”的向量表示,CNN模型可以考虑低级别文本的局部依赖关系。
(b)使用神经网络中的LSTM模型(https://en.wikipedia.org/wiki/Long_short-term_memory)或者GRU模型(https://en.wikipedia.org/wiki/Gated_recurrent_unit)对输入的“文本-类别”向量序列进行编码生成输入的文本序列对应“文本-类别”的向量表示,LSTM(GRU)能够考虑低级别文本的长距离依赖;
所述序列到序列编码模块是指将向量序列输入转换为等长的新向量序列输出,计算使用LSTM、GRU、Bi-LSTM或者Bi-GRU(https://en.wikipedia.org/wiki/Bidirectional_recurrent_neural_networks)中的一种对输入的“文本-类别”向量序列进行编码,顺序保留每个位置的输出向量构成向量序列输出。
所述单标签分类模块用于预测给定文本的唯一类别标签,以给定文本在所有类别上的“文本-类别”向量作为输入,计算文本在每个类别的得分,并根据最高得分得到文本类别预测结果,其中“文本-类别”向量输入来自于多次加权组合模块的输出,每次计算使用不同的类别。
所述多标签分类模块用于预测给定文本与给定类别的相关度。多标签分类模块以加权组合模块所计算的“填充文本-类别”向量集合和“构成文本-类别”向量集合作为输入,分别计算两者的得分,若“构成文本-类别”向量集合得分大于“填充文本-类别”向量集合得分,则认为“构成文本”与类别相关,反之则无关。
所述单标签分类模块和多标签分类模块在模型学习时,可以选择其中一种使用,也可以结合使用。在模型学习时,两种分类模块对应不同的损失函数,选择不同分类模块会影响损失函数从而影响学习到的参数;在模型预测时,可以单独使用2种模块中的一种进行预测。
所述模型学习模块用于根据上述训练文本已有的文本类别标注信息与上述训练文本的文本类别预测结果进行模型学习。
所述模型应用模块根据上述学习的模型对待分类文本进行分类。首先确定待分类文本的级别,利用模型中该级别文本从下到上的构建关系,使用同样过程生成待分类的文本-类别的向量表示;如果该级别文本对应于训练集中的标注文本级别,可以使用与训练集中相同的分类预测模块进行预测,也可以为该级别文本上添加一个多标签分类模块,输出文本的类别结果。
本发明的有益效果在于:
(1)只通过文档级(或者组级别)的标注信息来推断组成文本(或者组成个体)的标签,可以很好的应用于组成文本(或者组成个体)标签难以收集的场景。
(2)相对于传统多示例学习(MIL,multi-instance learning)方法,该方法引入最少假设,能够更好地拟合实际数据。
(3)模型具有良好的可扩展性,为每个标签使用独立的类别向量,适合持续学习,对于新收集的训练集,如果出现新的类别,可以很容易更新已有模型。
附图说明
图1是基于人工智能的多级文本多标签分类方法的总体框架图。
图2是词-句子-文档的构建示意图。
图3是加权组合模块的黑盒示意图。
图4是加权组合模块各向量的计算示意图。
图5是填充文本示意图。
图6是词到句子的卷积神经网络黑盒示意图。
图7是词到句子的时间递归神经网络黑盒示意图。
图8是句子的序列到序列编码模块示意图。
图9是单标签分类模块黑盒示意图。
图10是单标签分类模块各向量计算示意图。
图11是模型训练阶段预测文档类别标签的多标签分类模块示意图。
图12是模型应用阶段预测句子类别标签的多标签分类模块计算示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明。
假设我们有网络评论文本,每篇评论文本有用户给出的类别标签,类别标签分为2种:好评和差评。下面详细说明如何利用本发明的多级文本多标签分类模型及系统来抽取评论中的好评和差评的句子。
1.构建多级文本多标签分类模型
1)确定文本级别:设置的级别包括文档级别、句子级别(要预测类别的文本级别)以及词级别。
2)确定文本构建假设:文档构建基于句子,使用加权组合假设;句子构建基于词,使用序列编码假设。
3)确定构建模块:句子到文档的构建使用加权组合模块;词到句子的构建使用序列到向量编码模块;在句子向量序列输入到加权组合模块前,可以使用序列到序列编码模块将句子向量序列进行转换,转换后的新序列能够建模句子之间的依赖关系。完整的构建图如图2所示,使用虚线框的序列到序列编码模块表示该模块在实际使用过程中也可以去掉。
a)句子到文档的加权组合模块
图3给出了加权组合模块的黑盒示意图,图4给出了加权组合模块的计算示意图,箭头表示计算依赖关系。其中,d是加权组合模块要加工的文本,s是d的构成文本,Bs是与s同级的填充文本。对于句子到文档的加权组合模块,这里d对应文档,s对应句子,Bs对应填充句。
加权组合模块的输入是{hs,c}、以及uc。hs,c是“构成文本-类别”向量,表示构成文本s在类别c上的向量表示;是“填充文本-类别”向量,表示填充文本Bs在类别c上的向量表示;uc表示类别c的向量。{·}表示集合。
加权组合模块的输出是hd,c、h{s},cs→d,c}以及h{s},c、{αs→d,c}是基于d的实际构成文本{s}计算得到,h{s},c是“构成文本集合-类别”向量,αs→d,c是“构成文本-类别”权重,每个构成文本有一个对应权重;是基于填充文本{Bs}计算得到,是“填充文本集合-类别”向量,对于同一个加权组合模块,所有填充文本的都相同;向量hd,c通过综合h{s},c以及信息计算得到。
填充文本{Bs}的一种实现是使用背景词(训练集中出现频次最高的词)来构造,对于同级所有的加权组合模块,填充文本向量相同。为每篇文档填充不同的填充句,每篇文档至少填充1句填充句,填充后,要确保不同文档的句子总数(原句子加填充句)相等,即|{s}|+|{Bs}|,|·|表示集合中元素的个数。填充实例如图5所示。
uc作为类别c的向量,是一个全局向量,所谓全局是指该类别向量被与该类别相关的加权组合模块所共享。hd,c与h{s},c的计算公式如下:
hd,c=f(ud,c) (公式1)
h{s},c=∑shs,cαs→d,c (公式3)
f(ud,c)=Activation(Wcud,c+bc) (公式7)
上述公式中的加粗符号表示向量,未加粗符号表示变量。
公式(1)(2)反映高级别“文本-类别”向量hd,c由“构成文本-类别”向量和h{s},c以及“填充文本-类别”向量和加权组合、然后通过函数f(·)作变换得到,f(·)计算如公式(7)所示,其中的Activation函数可以是神经网络中的任意激活函数(所述激活函数可参照https://en.wikipedia.org/wiki/Activation_function),Wc,bc是转换参数。f(ud,c)对ud,c的非线性变化属于可选操作,也可以直接令f(ud,c)=ud,c
“构成文本-类别”权重为αs→d,c,“填充文本-类别”权重为其计算使用了神经网络关注原理,参照公式(5)、公式(6),hs,c Tuc表示向量hs,c的转置与向量uc的点积,上标T表示向量转置。
加权组合模块的参数为:Θatt={Wc,bc,{uc|c∈C}}。
b)词到句子的序列到向量编码模块
图6、图7给出了词到句子的序列到向量编码模块示意图,ht,c是“词-类别”输入向量,是“填充词-类别”输入向量。需注意的是,本实施例中该模块使用词表示来生成句子,故输入的是“词”,在其它实施例中,该模块的输入不一定限于“词”,也可以是其它输入文本。图6使用卷积神经网络(https://en.wikipedia.org/wiki/Convolutional_neural_network),将向量序列转换为单个向量;图7使用时间递归神经网络LSTM或者GRU,可以使用2种网络中的任意一种,时间递归神经网络对每个输入向量都可以产生一个输出,序列到向量编码模块只保留最后一个输出作为编码的输出向量。
对于词到句子的序列到向量编码模块,t是构成句子的词,Bt是填充词(训练集中出现频次最高的词),Bt也可以不使用。由于词是最小的构建单元,同一个词在不同类别下的表示相同,即对于ci≠cj ci,cj∈C,C是所有类别的集合,令
序列到向量编码模块的参数为对应卷积神经网络或者时间递归神经网络的参数,这里使用Θseq-vec来表示。
c)序列到序列编码模块示意图
图8给出了序列到序列编码模块示意图,hs,c是“句子-类别”输入向量,是“填充句-类别”输入向量。编码使用的神经网络可以是LSTM、Bi-LSTM、GRU、Bi-GRU等时间递归神经网络的一种,时间递归神经网络对每个输入向量都可以产生一个输出,序列到序列编码模块的输出结果为所有位置的输出向量的序列。
序列到序列编码模块的输入是“词到句子的序列到向量编码模块”运行多次生成的句子向量序列。
如图8所示,通过序列到序列编码模块,将“词到句子的序列到向量编码模块”的输出hs,c转化为编码依赖关系后的句子表示
序列到序列编码模块的参数为对应神经网络的参数,这里使用Θseq-seq来表示。
4)添加分类预测模块:训练集只有文档有类别标签,那么在文档级文本上添加标签分类模块。可以使用单标签分类模块和多标签分类模块。
a)单标签分类模块
图9给出了单标签分类模块的黑盒示意图,图10给出了单标签分类模块各向量的计算示意图。
单标签分类模块的输入可以表示为{hd,c|c∈C},其中,hd,c表示文本d在类别c上的向量表示(即“文本-类别”向量),C是所有类别的集合,每个hd,c来自一次加权组合模块的输出;yd是该模块的输出,即文本d的类别预测结果。单标签分类模块文本类别预测结果的计算公式如下:
yd=argmaxc∈CΦ(d,c) (公式8)
Φ(d,c)=WThd,c (公式9)
公式(9)将文本d在类别c上的向量表示hd,c映射为得分Φ(d,c),W是参数向量;公式(8)通过寻找最高得分来确定文本d的类别。文本单标签分类模块的参数为Θpred={W}。
在本例中,d对应文档。
b)多标签分类模块
图11给出了使用多标签分类模块对文档进行标签预测的示意图。分类模块的输入可以表示为“构成文本集合-类别”向量h{s},c以及“填充文本集合-类别”向量这2个向量来自加权组合模块的输出。yd,c∈{0,1}是分类模块的输出。yd,c=0表示文档d与类别c无关,反之则属于类别c。
多标签分类模块的预测使用如下公式:
Φ({s},c)=WTh{s},c……………公式(10)
公式(12)(13)分别计算构成文本集合{s}以及填充文本集合{Bs}在类别c上的得分,即Φ({s},c)与Φ({Bs},c),构成文本和填充文本属于同一个加权组合模块。公式(12)计算构成文本集合得分相对于填充文本得分的优势,如果构成文本集合{s}在类别c上的得分高于同级填充文本集合{Bs}在类别c的得分,那么认为文本s与类别c相关,反之,则文本s与类别c无关。
在本例中,d对应文档,s对应的构成句,Bs对应d的填充句,s和Bs属于同一个文档的加权组合模块。
文本单标签分类模块的参数为:Θpred={W}。
2.模型学习
1)获取训练样本。获得网络评论文本集合,对每篇评论文本人工进行标注或者通过评论文本对应的星级标注推断出的类别标签,类别标签分为2种:好评和差评。使用评论文本的星级标注进行推断时,首先设置星级阈值,将小于阈值的星级作为差评,将大于阈值的星级作为好评。
2)预处理。预处理操作包括:对句子进行分词,生成词级别文本;对词进行编号;对词进行选择,可以使用机器学习的多种特征选择方法。其中,“对词进行选择”是可选步骤。
3)模型训练。
模型参数为Θ={Θseq-vec,Θseq-seq,Θatt},如果词向量{ht}需要学习,那么对应参数空间变为Θ={Θseq-vec,Θseq-seq,Θatt,{ht}};词向量{ht}也可以预先指定,在学习过程中不进行更新。
模型学习通过梯度下降优化损失函数来完成,其损失函数定义为:
公式(14)中D表示文档集合,d∈D表示每篇文档。
损失函数(即公式(14))包括两部分,分别是文档类别预测错误的损失以及所有参数的正则项||Θ||2,||·||2符号表示2范数,λ是超参数,控制两部分损失的重要性。
对于单标签分类模块,公式(14)中的ld(Θ)定义为公式(15)
y∈C是文本d对应的实际类别标签,该标签只有一个;y∈C\y是y的补集,Φ(d,y;Θ)计算参照公式(9)。
对于多标签分类模块,公式(14)中的ld(Θ)的定义为公式(16)。
其中,y∈Y(d)是文本d对应的实际类别标签集合,该标签可以有多个;{s}是d的构成文本集合,{Bs}是d的填充文本集合;C\Y(d)是Y(d)的补集,λ是超参数,控制两部分损失的重要性;Φ({s},y;Θ)和Φ({Bs},y;Θ)计算分别参照公式(10)和公式(11)。
对于本例,在模型学习阶段,损失函数可以只使用单标签分类模块和多标签分类模块中的一种。
所述梯度下降优化算法应用反向传播算法,计算损失函数对各个参数的梯度值,迭代指定次数得到最终模型参数。该算法可以应用Adagrad、Adam、RMSProp等常用的神经网络优化算法(请参照https://en.wikipedia.org/wiki/Stochastic_gradient_descent)。
3.模型应用
给定文档d以及类别c,抽取文档d中与类别c相关的代表句s。有2种方法:
方法1:使用单标签分类模块
根据客观情况,一个句子只属于一个情感类别。为每个句子添加一个单标签分类模块。具体地,其步骤包括:(1)利用学习到的模型参数,对每个句子s(s∈d),计算句子s的向量表示{hs,c|c∈C},以及句子s在各个类别c上的得分{Φ(s,c)|c∈C},取得分最大的类别作为句子s的类别,见公式(1)、公式(9)以及公式(8)。(2)挑选出预测类别为c的句子,并按照Φ(s,c)从大到小对这些句子进行排序,用户可以选择排名最高的句子作为类别c的代表句。
方法2:使用多标签分类模块
图12给出了使用多标签分类模块对句子类别进行预测的示意图。
多标签分类模块的输入是文本-类别对,这里对应“句子-类别”对<s,c>,输出是句子s是否属于类别c。
(1)利用学习到的模型参数,对每个句子s(s∈d),计算句子s在类别c上的向量表示{hs,c|c∈C}以及填充句Bs在类别c上向量表示
(2)句子的多标签分类预测使用如下公式:
Φ(s,c)=WThs,c……………公式(17)
公式(17)(18)分别计算句子s以及填充文本Bs在类别c上的得分,即Φ(s,c)与s和Bs属于同一个文档的加权组合模块。公式(19)计算原始文本得分相对于填充文本得分的优势,如果原始文本s在类别c上的得分高于同级填充文本Bs在类别c的得分,那么认为句子s与类别c相关,反之,则句子s与类别c无关。
(3)挑选出预测类别为c的句子,并按照从大到小对这些句子进行排序,用户可以选择排名最高的句子作为类别c的代表句。
单标签分类模块和多标签分类模块参数相同,模型学习阶段可以只选择其中一个分类模块进行学习,学习的参数在模型应用阶段可以共享。
表1给出了本实施例在3个代表性数据集上的性能,并给出了参考方法的性能。
表1.本发明方法与其它方法的性能对比
表1中加粗部分是效果最好的性能。本发明的方法在文档级分类效果要优于HAN分类方法,在句子级别分类效果上略差于HAN方法,但当数据量增大时,句子级分类效果会超过HAN方法。本发明方法的另一个优势是支持训练数据集的扩充,支持利用含新标签的新训练数据来更新已有模型,而HAN方法从损失函数角度来讲,不支持新标签。
具体地,IMDB数据集是一个电影评论数据集,来自于“Andrew L.Maas,RaymondE.Daly,Peter T.Pham,Dan Huang,Andrew Y.Ng,and Christopher Potts.2011.Learningword vectors for sentiment analysis.In ACL 2011,19-24June,2011,Portland,Oregon,USA.pages 142–150.”的工作,正负样本各25,000;Amazon数据集是来自Amazon网站的“cell phones and accessories”类别的评论文本,来自于“Julian J.McAuley andJure Leskovec.2013.Hidden factors and hidden topics:understanding ratingdimensions with review text.In RecSys’13,Hong Kong,China,October 12-16,2013.pages 165–172.”的工作,正样本148,675个,负样本24,343个;Yelp数据集来自于餐饮评论文本(https://www.yelp.com/dataset challenge),我们分别选择所有正负评论的前300,000个评论构建最终数据集。HAN方法来源于“Rui Lin,Shujie Liu,Muyun Yang,MuLi,Ming Zhou,and Sheng Li.2015.Hierarchical recurrent neural network fordocument modeling.In EMNLP 2015,Lisbon,Portugal,September 17-21,2015.pages899–907.”;MLConvNet来源于“Misha Denil,Alban Demiraj,and Nando deFreitas.2014.Extraction of salient sentences from labeled documents.CoRR abs/1412.6815.”,LogisticRegression,LinearSVM为传统机器学习方法,文档使用词袋表示,词权重使用TF-IDF,实现方法使用Sklearn(http://scikit-learn.org/)。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于人工智能的多级文本多标签分类方法,其特征在于,包括以下步骤:
1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;
2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;
3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。
2.如权利要求1所述的方法,其特征在于,步骤1)所述构建多级文本多标签分类模型,包括以下步骤:
1-1)确定文本级别,其为文档、段落、句子、词、字中的全部或部分级别;
1-2)确定文本的构建假设,所述构建假设包括加权组合假设以及序列编码假设,其中,文档级别的构建使用加权组合假设,要预测类别的文本级别向上的相邻文本级别的构建使用加权组合假设,要预测类别的文本级别的构建使用加权组合假设或者序列编码假设;所述加权组合假设认为文本是由低级别“构成文本-类别”向量加权组合而成,不考虑“构成文本”的位置顺序;所述序列编码假设认为文本是由低级别“构成文本-类别”向量顺序编码而成,考虑输入的文本向量的位置顺序;
1-3)将构建假设转换为构建模块,其中,加权组合假设对应加权组合模块,序列编码假设对应序列编码模块;
1-4)根据训练集中标签所在的文本级别,为对应文本添加分类预测模块。
3.如权利要求2所述的方法,其特征在于,所述加权组合模块用于生成文本在指定类别下的向量表示,即“文本-类别”对的向量表示,包括以下步骤:
(1)将文本拆分为低级别“构成文本”,使用构成文本序列对应的“构成文本-类别”向量序列以及类别向量作为输入;
(2)人工加入至少1个“填充文本”并计算“填充文本-类别”向量序列;
(3)利用神经网络的关注机理,分别计算“构成文本-类别”权重以及“填充文本-类别”权重;
(4)将相关的“构成文本-类别”向量和“填充文本-类别”向量进行加权相加,得到最后的输出即“文本-类别”向量。
4.如权利要求2所述的方法,其特征在于,所述序列编码模块包括序列到向量编码模块以及序列到序列编码模块;所述序列到向量编码模块将向量序列输入转换为单个向量;所述序列到序列编码模块将向量序列输入转换为等长的新向量序列输出。
5.如权利要求4所述的方法,其特征在于,所述序列到向量编码模块采用CNN模型或者LSTM模型,对输入的“文本-类别”向量序列进行编码,生成输入的文本序列对应的“文本-类别”的向量表示;所述序列到序列编码模块使用LSTM、GRU、Bi-LSTM或者Bi-GRU中的一种对输入的“文本-类别”向量序列进行编码,顺序保留每个位置的输出向量,构成向量序列并输出。
6.如权利要求2所述的方法,其特征在于,所述分类预测模块包括单标签分类模块和多标签分类模块;所述单标签分类模块用于预测给定文本的唯一类别标签;所述多标签分类模块用于预测给定文本与给定类别的相关度。
7.如权利要求6所述的方法,其特征在于,所述单标签分类模块以给定文本在所有类别上的“文本-类别”向量作为输入,计算文本在每个类别的得分,并根据最高得分得到文本类别预测结果,其中“文本-类别”向量输入来自于多次加权组合模块的输出;所述多标签分类模块以加权组合模块所计算的“填充文本-类别”向量集合和“构成文本-类别”向量集合作为输入,分别计算两者的得分,若“构成文本-类别”向量集合得分大于“填充文本-类别”向量集合得分,则认为“构成文本”与类别相关,反之则无关。
8.如权利要求6所述的方法,其特征在于,步骤2)在模型学习时,选择单标签分类模块、多标签分类模块中的一种使用或者结合使用,并采用梯度下降优化算法计算损失函数对各个参数的梯度值,通过迭代指定次数得到最终模型参数;步骤3)使用单标签分类模块或多标签分类模块对句子类别进行预测。
9.一种基于人工智能的多级文本多标签分类系统,其特征在于,包括:
多级文本分类模块,用于利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;
模型学习模块,用于根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;
模型应用模块,用于利用参数确定的多级文本多标签分类模型对待分类文本进行分类。
10.如权利要求9所述的系统,其特征在于,所述多级文本分类模块包括加权组合模块、序列编码模块和分类预测模块;所述序列编码模块包括序列到向量编码模块以及序列到序列编码模块,所述序列到向量编码模块将向量序列输入转换为单个向量,所述序列到序列编码模块将向量序列输入转换为等长的新向量序列输出;所述分类预测模块包括单标签分类模块和多标签分类模块,所述单标签分类模块用于预测给定文本的唯一类别标签,所述多标签分类模块用于预测给定文本与给定类别的相关度。
CN201711063644.5A 2017-11-02 2017-11-02 一种基于人工智能的多级文本多标签分类方法及系统 Active CN108073677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711063644.5A CN108073677B (zh) 2017-11-02 2017-11-02 一种基于人工智能的多级文本多标签分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711063644.5A CN108073677B (zh) 2017-11-02 2017-11-02 一种基于人工智能的多级文本多标签分类方法及系统

Publications (2)

Publication Number Publication Date
CN108073677A true CN108073677A (zh) 2018-05-25
CN108073677B CN108073677B (zh) 2021-12-28

Family

ID=62159549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711063644.5A Active CN108073677B (zh) 2017-11-02 2017-11-02 一种基于人工智能的多级文本多标签分类方法及系统

Country Status (1)

Country Link
CN (1) CN108073677B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN108897871A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN109783636A (zh) * 2018-12-12 2019-05-21 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN110059181A (zh) * 2019-03-18 2019-07-26 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN110210515A (zh) * 2019-04-25 2019-09-06 浙江大学 一种图像数据多标签分类方法
CN110442723A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
CN110580285A (zh) * 2018-06-08 2019-12-17 北京三快在线科技有限公司 一种产品标签确定方法及装置,电子设备
CN110689036A (zh) * 2018-07-06 2020-01-14 塔塔咨询服务有限公司 用于自动染色体分类的方法和系统
CN111461904A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 对象类别的分析方法及装置
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN112184133A (zh) * 2019-07-02 2021-01-05 黎嘉明 一种基于人工智能的政务办公系统预置批示与分工方法
CN112183655A (zh) * 2020-10-10 2021-01-05 北京邮电大学 文档多标签分类方法和装置
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN112541059A (zh) * 2020-11-05 2021-03-23 大连中河科技有限公司 一种应用在税务问答系统的多轮智能问答交互方法
CN112612884A (zh) * 2020-11-27 2021-04-06 中山大学 一种基于公共文本的实体标签自动化标注方法
CN113010634A (zh) * 2020-07-17 2021-06-22 华东师范大学 一种基于层级多标签分类的金融事件检测方法、设备
CN113032534A (zh) * 2019-12-24 2021-06-25 中国移动通信集团四川有限公司 对话文本的分类方法和电子设备
CN113139558A (zh) * 2020-01-16 2021-07-20 北京京东振世信息技术有限公司 确定物品的多级分类标签的方法和装置
CN113407720A (zh) * 2021-06-25 2021-09-17 南开大学 基于预训练文本编码模型的分类体系扩展方法
CN113449103A (zh) * 2021-01-28 2021-09-28 民生科技有限责任公司 融入标签与文本交互机制的银行交易流水分类方法及系统
CN115563284A (zh) * 2022-10-24 2023-01-03 重庆理工大学 一种基于语义的深度多实例弱监督文本分类方法
US20230195773A1 (en) * 2019-10-11 2023-06-22 Ping An Technology (Shenzhen) Co., Ltd. Text classification method, apparatus and computer-readable storage medium
CN116304064A (zh) * 2023-05-22 2023-06-23 中电云脑(天津)科技有限公司 一种基于抽取式的文本分类方法
CN117729545A (zh) * 2024-02-18 2024-03-19 北京中科网芯科技有限公司 一种5g网络通信管制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG, B 等: "Semi-supervised self-training for sentence subjectivity classification", 《21ST CONFERENCE OF THE CANADIAN-SOCIETY-FOR-COMPUTATIONAL-STUDIES-OF-INTELLIGENCE》 *
李鹏 等: "Tag-TextRank:一种基于Tag的网页关键词抽取方法", 《计算机研究与发展》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580285A (zh) * 2018-06-08 2019-12-17 北京三快在线科技有限公司 一种产品标签确定方法及装置,电子设备
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN108897871B (zh) * 2018-06-29 2020-10-30 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN108897871A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN110689036B (zh) * 2018-07-06 2022-09-20 塔塔咨询服务有限公司 用于自动染色体分类的方法和系统
CN110689036A (zh) * 2018-07-06 2020-01-14 塔塔咨询服务有限公司 用于自动染色体分类的方法和系统
CN109783636A (zh) * 2018-12-12 2019-05-21 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN109783636B (zh) * 2018-12-12 2023-03-28 重庆邮电大学 一种基于分类器链的汽车评论主题提取方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN110059181A (zh) * 2019-03-18 2019-07-26 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN110059181B (zh) * 2019-03-18 2021-06-25 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN110210515B (zh) * 2019-04-25 2021-04-20 浙江大学 一种图像数据多标签分类方法
CN110210515A (zh) * 2019-04-25 2019-09-06 浙江大学 一种图像数据多标签分类方法
CN112184133A (zh) * 2019-07-02 2021-01-05 黎嘉明 一种基于人工智能的政务办公系统预置批示与分工方法
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN110442723B (zh) * 2019-08-14 2020-05-15 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
CN110442723A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
US20230195773A1 (en) * 2019-10-11 2023-06-22 Ping An Technology (Shenzhen) Co., Ltd. Text classification method, apparatus and computer-readable storage medium
CN113032534A (zh) * 2019-12-24 2021-06-25 中国移动通信集团四川有限公司 对话文本的分类方法和电子设备
CN113139558B (zh) * 2020-01-16 2023-09-05 北京京东振世信息技术有限公司 确定物品的多级分类标签的方法和装置
CN113139558A (zh) * 2020-01-16 2021-07-20 北京京东振世信息技术有限公司 确定物品的多级分类标签的方法和装置
CN111461904A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 对象类别的分析方法及装置
CN111461904B (zh) * 2020-04-17 2022-06-21 支付宝(杭州)信息技术有限公司 对象类别的分析方法及装置
CN111651605B (zh) * 2020-06-04 2022-07-05 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN113010634A (zh) * 2020-07-17 2021-06-22 华东师范大学 一种基于层级多标签分类的金融事件检测方法、设备
CN112183655A (zh) * 2020-10-10 2021-01-05 北京邮电大学 文档多标签分类方法和装置
CN112541059A (zh) * 2020-11-05 2021-03-23 大连中河科技有限公司 一种应用在税务问答系统的多轮智能问答交互方法
CN112612884B (zh) * 2020-11-27 2024-03-12 中山大学 一种基于公共文本的实体标签自动化标注方法
CN112612884A (zh) * 2020-11-27 2021-04-06 中山大学 一种基于公共文本的实体标签自动化标注方法
CN113449103A (zh) * 2021-01-28 2021-09-28 民生科技有限责任公司 融入标签与文本交互机制的银行交易流水分类方法及系统
CN113449103B (zh) * 2021-01-28 2024-05-10 民生科技有限责任公司 融入标签与文本交互机制的银行交易流水分类方法及系统
CN113407720A (zh) * 2021-06-25 2021-09-17 南开大学 基于预训练文本编码模型的分类体系扩展方法
CN115563284A (zh) * 2022-10-24 2023-01-03 重庆理工大学 一种基于语义的深度多实例弱监督文本分类方法
CN116304064A (zh) * 2023-05-22 2023-06-23 中电云脑(天津)科技有限公司 一种基于抽取式的文本分类方法
CN117729545A (zh) * 2024-02-18 2024-03-19 北京中科网芯科技有限公司 一种5g网络通信管制方法
CN117729545B (zh) * 2024-02-18 2024-05-03 北京中科网芯科技有限公司 一种5g网络通信管制方法

Also Published As

Publication number Publication date
CN108073677B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN108073677A (zh) 一种基于人工智能的多级文本多标签分类方法及系统
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN106779087B (zh) 一种通用机器学习数据分析平台
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
Zhang et al. Aspect-based sentiment analysis for user reviews
CN109189926A (zh) 一种科技论文语料库的构建方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN107798624A (zh) 一种软件问答社区中的技术标签推荐方法
CN112784013B (zh) 一种基于上下文语义的多粒度文本推荐方法
CN113392651A (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN104077408B (zh) 大规模跨媒体数据分布式半监督内容识别分类方法及装置
Sendhilkumar Developing a conceptual framework for short text categorization using hybrid CNN-LSTM based Caledonian crow optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant