CN113704466A - 基于迭代网络的文本多标签分类方法、装置及电子设备 - Google Patents
基于迭代网络的文本多标签分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113704466A CN113704466A CN202110844880.0A CN202110844880A CN113704466A CN 113704466 A CN113704466 A CN 113704466A CN 202110844880 A CN202110844880 A CN 202110844880A CN 113704466 A CN113704466 A CN 113704466A
- Authority
- CN
- China
- Prior art keywords
- label
- vector
- text
- word segmentation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 124
- 230000011218 segmentation Effects 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000393496 Electra Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及文本分类技术领域,公开了一种基于迭代网络的文本多标签分类方法、装置及电子设备,能够学习到标签之间的相关性和不相关性,提高多标签分类的准确性,该方法包括:将待处理文本转换为编码向量S1;将所述编码向量S1输入标签预测模型,获得标签L1;其中,标签预测模型输出的标签包括N个维度,每个维度的取值表征待处理文本是否属于对应的类别;通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn‑1和标签Ln‑1,获得编码向量Sn,将编码向量Sn输入所述标签预测模型,获得标签Ln,其中n为大于1的整数;基于标签LN确定待处理文本所属的类别。
Description
技术领域
本申请涉及文本分类技术领域,尤其涉及一种基于迭代网络的文本多标签分类方法、装置及电子设备。
背景技术
自动文本分类,简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。目前文本分类在信息检索、Web文档自动分类、自动文摘、文本过滤等多个领域已经得到了初步的应用。常用的多标签分类算法主要可以分为两类,一类是基于问题转化的方法PT(Problem Transformation),另一类是基于算法转化的方法AA(AlgorithmAdaptation)。PT类方法的主要目标是将一个多标签分类问题转化成一个或一组单标签分类问题,从而运用己有的单标签分类方法解决该问题,这种方法的缺点是没有考虑标签之间的相关性,当标签之间存在较强的相关性时效果较差。AA方法的主要目标是,通过改变已有的单标签分类算法,使其能够处理多标签数据,对于一条预测数据,这类方法会生成该数据在标签集合上的概率分布,并通过一个阈值函数来确定最终的标签。
发明内容
本申请实施例提供一种基于迭代网络的文本多标签分类方法、装置、电子设备及存储介质,能够学习到标签之间的相关性和不相关性,提高多标签分类的准确性。
一方面,本申请一实施例提供了一种基于迭代网络的文本多标签分类方法,包括:
将待处理文本转换为编码向量S1;
将所述编码向量S1输入标签预测模型,获得标签L1;其中,所述标签预测模型输出的标签包括N个维度,每个维度的取值表征所述待处理文本是否属于对应的类别;
通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,将编码向量Sn输入所述标签预测模型,获得标签Ln,其中n为大于1的整数;
基于标签LN确定所述待处理文本所属的类别。
可选地,所述基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,包括:
获得标签Ln-1对应的向量表示;
将所述编码向量Sn-1和标签Ln-1对应的向量表示相加,以获得编码向量Sn。
可选地,所述标签预测模型包括至少一层简单网络和输出层,所述至少一层简单网络用于从输入的编码向量中提取语义特征,所述输出层用于根据提取的语义特征输出标签。
可选地,所述简单网络为transformer、attention、CNN、RNN、pool中的至少一种。
可选地,所述将待处理文本转换为编码向量S1,包括:
对待处理文本进行分词处理,获得分词集合;
对所述分词集合中的每个分词进行向量化处理,获得对应的词向量序列;
将所述词向量序列输入已训练的词级别编码模型,获得编码向量S1。
可选地,所述对待处理文本进行分词处理,获得分词集合:
对待处理文本进行分词处理,获得若干个分词组成的候选分词集合;
对所述候选分词集合中不在预设词表中的分词继续进行分词处理,并用获得的分词替换所述候选分词集合对应的分词,以获得分词集合。
可选地,所述词级别编码模型是基于指定领域的语料库对通用的编码模型进行训练获得的。
一方面,本申请一实施例提供了一种基于迭代网络的文本多标签分类装置,包括:
编码模块,用于将待处理文本转换为编码向量S1;
标签预测模块,用于将所述编码向量S1输入标签预测模型,获得标签L1;其中,所述标签预测模型输出的标签包括N个维度,每个维度的取值表征所述待处理文本是否属于对应的类别;
以及通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,将编码向量Sn输入所述标签预测模型,获得标签Ln,其中n为大于1的整数;
输出模块,用于基于标签LN确定所述待处理文本所属的类别。
一方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,本申请一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种TCP传输性能的控制的各种可选实现方式中提供的方法。
本申请实施例提供的基于迭代网络的文本多标签分类方法、装置、电子设备及存储介质,将文本分类分成两个阶段,第一阶段是对长文本进行初始化编码处理,以将长文本转换为编码向量;第二阶段是通过迭代网络结构,循环预测长文本对应的多个标签,即在长文本对应的编码向量中融入之前预测的标签信息,基于融合获得的编码向量预测下一个标签,以此学习到标签之间的相关性和不相关性,提高多标签分类的准确性,且只需要在第一阶段中进行一次编码,解决了生成式算法需要多次编码的问题,提高了处理速度。此外,在第一阶段中,可使用词级别的编码模型对长文本进行编码处理,以降低编码向量的数据量,提高后续标签预测的推理速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的基于迭代网络的文本多标签分类方法的应用场景示意图;
图2为本申请实施例提供的一种基于迭代网络的文本多标签分类方法的流程示意图;
图3为本申请实施例提供的使用词级别的预训练模型对待处理文本进行编码处理的流程示意图;
图4为本申请实施例提供的基于迭代网络的文本多标签分类装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
长文本:是指包含较多字词的一段文本,包括但不限于论文、新闻、报导、评论、工单、摘要等。
标签:是指分类标签,即用于表征对象所属类别的标签。标签的分类和数量可根据应用场景设定,本申请不作限定。例如,新闻的标签可以包括:时事类、体育类、娱乐类等;工单系统中的标签可以包括:咨询类、售后类、投诉类等。
Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
BERT模型:全称为Bidirectional Encoder Representations fromTransformers,意为来自变换器的双向编码器表征量,是一种新的语言表征模型。BERT模型旨在基于所有层的左、右语境来预训练深度双向表征,因此,预训练的BERT表征可以仅用一个额外的输出层进行微调,进而为很多任务(如问答和语言推理)创建当前最优模型,无需对任务特定架构做出大量修改。
Transformer:是以一种采用encoer-decoder结构的模型,Transformer模型有着新的表示学习策略,不再使用递归,而是使用注意力机制对每个词构建进行表示,即每个词语在句子中的重要程度。
Attention注意力机制(Attention Mechanism):源于对人类视觉的研究,在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。注意力机制最成功的应用是机器翻译,一般的神经机器翻译模型采用“编码-解码”的方式进行序列到序列的转换,这种方式有两个问题:一是编码向量的容量瓶颈问题,即源语言所有的信息都需要保存在编码向量中,才能进行有效地解码;二是长距离依赖问题,即编码和解码过程中在长距离信息传递中的信息丢失问题。通过引入注意力机制,将源语言中每个位置的信息都保存下来,在解码过程中生成每一个目标语言的单词时,都通过注意力机制直接从源语言的信息中选择相关的信息作为辅助。这样的方式就可以有效地解决上面的两个问题。一是无需让所有的源语言信息都通过编码向量进行传递,在解码的每一步都可以直接访问源语言的所有位置上的信息;二是源语言的信息可以直接传递到解码过程中的每一步,缩短了信息传递的距离。
Transformer:是以一种采用encoer-decoder结构的模型,Transformer模型有着新的表示学习策略,不再使用递归,而是使用注意力机制对每个词构建进行表示,即每个词语在句子中的重要程度。
在具体实践过程中,常用的多标签分类算法主要可以分为两类,一类是基于问题转化的方法,另一类是基于算法转化的方法。
基于问题转化的方法是将一个多标签分类问题转化成一个或一组单标签分类问题,从而运用己有的单标签分类方法解决该问题,没有考虑标签之间的相关性,当标签之间存在较强的相关性时效果较差。现有的基于问题转化的方法,还可以将标签看成一棵树,对标签的相似度和权重给出一定的限制,但是,树标签的层次体系只是计算相似度,标签间没有交互,往往引入冗余信息和非关键信息,造成模型指标不高的问题。
基于算法转化的方法,一种是基于机器学习的方法,处理大规模多标签分类;另外一种是改造成生成式的算法,如seq2seq/encode-decode,利用多标签间的信息等提高指标。生成式算法虽然能利用上层次信息,但是需要多次编码,推理时间往往很慢。此外,常用的基于字级别的预训练模型,文本输入长,推理速度慢。
因此,现有的多标签文本分类方法不足以提取局部语义信息和模型标签相关性,没有考虑标签之间的相关性,当标签之间存在较强的相关性时效果较差,且在提取局部语义信息和对标签相关性建模方面存在不足。
为此,本申请提出了一种基于迭代网络的文本多标签分类方法,包括:将待处理文本转换为编码向量S1;将编码向量S1输入标签预测模型,获得标签L1;通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,将编码向量Sn输入标签预测模型,获得标签Ln,其中n为大于1的整数;基于标签LN确定待处理文本所属的类别。上述方法将文本分类分成两个阶段,第一阶段是对长文本进行初始化编码处理,以将长文本转换为编码向量;第二阶段是通过迭代网络结构,循环预测长文本对应的多个标签,即在长文本对应的编码向量中融入之前预测的标签信息,基于融合获得的编码向量预测下一个标签,以此学习到标签之间的相关性和不相关性,提高多标签分类的准确性,且只需要在第一阶段中进行一次编码,解决了生成式算法需要多次编码的问题,提高了处理速度。此外,在第一阶段中,可使用词级别的编码模型对长文本进行编码处理,以降低编码向量的数据量,提高后续标签预测的推理速度。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,其为本申请实施例提供的基于迭代网络的文本多标签分类方法的应用场景示意图。其中,终端设备101和服务器102之间可通过无线或有线网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、机器人等电子设备,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102的数据库中可存储大量数据,包括但不限于文本数据(如小说、论文、新闻报导等)、影音数据等。服务器102通过文本多标签分类方法确定数据库中每个数据对应的分类标签,对于影音数据,可根据影音数据对应的描述文本(如简介、剧情介绍等文本信息)确定出影音数据对应的分类标签;然后按照标签对文本数据进行分类存储,提高数据存储和检索的效率,还可以在终端设备101上展示不同的类别,以方便用户在不同类别下检索对应的数据。在数据检索场景下,用户可通过终端设备101向服务器102发送检索条件,服务器102根据检索条件以及分类标签,从数据库中快速检索到满足检索条件的数据,并反馈给终端设备101。在数据推送场景下,服务器102可根据用户信息确定用户偏好,并确定出与用户偏好匹配的至少一个分类标签,从该分类标签下的数据中选取需要推送给用户的数据,将数据推动到用户的终端设备101。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。本申请实施例提供的任一基于迭代网络的文本多标签分类方法,可应用于终端设备或服务器等电子设备,本申请不作限定。
参考图2,本申请实施例提供一种基于迭代网络的文本多标签分类方法,包括以下步骤:
S201、将待处理文本转换为编码向量S1。
其中,待处理文本为一个长文本。步骤S201的目的是将待处理文本转换为一个固定维度的向量,以符合标签预测模型的输入要求。
具体实施时,可采用现有的向量化方式(如word2vec、bert、xlnet、electra等模型),将待处理文本转换为编码向量。
S202、将编码向量S1输入标签预测模型,获得标签L1。
其中,标签预测模型输出的标签包括N个维度,每个维度对应一个文本分类,N的取值等于预先设定的文本分类的数量,每个维度的取值表征待处理文本是否属于对应的类别,当文本属于某一文本分类时,对应维度的取值为1,当文本不属于某一文本分类时,对应维度的取值为0。例如:总共有7种文本分类,体育类对应N维向量中的第一个维度,娱乐类对应第二个维度,则如果预测一个长文本为体育类,则输出的标签为[1,0,0,0,0,0,0],如果预测一个长文本为娱乐类,则输出标签为[0,1,0,0,0,0,0],如果一个长文本同时属于体育类和娱乐类,则输出标签为[1,1,0,0,0,0,0]。
其中,标签预测模型的输入为一个编码向量,标签预测模型的输出为预测的标签。标签预测模型包括至少一层简单网络和输出层,至少一层简单网络用于从输入的编码向量中提取语义特征,输出层用于根据提取的语义特征输出标签。
具体实施时,可通过已标注了多个标签的训练样本,对至少一层简单网络和输出层进行训练,将训练好的简单网络和输出层作为标签预测模型,通过简单网络可抽取编码向量的语义特征,然后输出层基于提取的语义特征预测待处理文本所属的标签。其中,简单网络可以是Transformer、Attention、CNN(Convolutional Neural Network,卷积神经网络)、RNN(RerrentNeural Network,循环神经网络)、Pool(池化),简单网络还可以是多种网络的组合,如CNN+Pool,以便更好地抽取局部特征信息。输出层是一个将特征信息转换为分类结果的分类器,具体可以是softmax。
S203、基于编码向量Sn-1和标签Ln-1,获得编码向量Sn。
具体实施时,可通过现有的向量融合方式,有效地将编码向量Sn-1和标签Ln-1融合成一个向量,即编码向量Sn,使得码向量Sn既包含待处理文本的特征又包含上一个预测标签Ln-1的特征。通过不断的迭代,编码向量Sn实际上包含了待处理文本的特征和之前预测的所有标签(包括L1,L2,...Ln-1)的特征,这样可以充分学习到标签之间的相关性。
在一种可能的实施方式中,步骤S203具体包括:获得标签Ln-1对应的向量表示;将编码向量Sn-1和标签Ln-1对应的向量表示相加,以获得编码向量Sn。其中,标签的向量表示的维度与编码向量的维度一致,可预先确定好每个标签对应的向量表示,以提高处理效率。
具体实施时,可训练一个embedding层,通过这个训练的embedding层,将标签转换为对应的向量表示,即进行标签嵌入处理。例如,标签预测模型的输入为一个768维度的向量,则embedding层的输出也为一个768维度的向量,例如:标签“体育”为[1,0,0,0,0,0,0],将其输入embedding后,获得一个768维度的向量,如[0.723564,0.24385432,.....0.12345654],这个向量即为标签“体育”的向量表示。
S204、将编码向量Sn输入标签预测模型,获得标签Ln。
S205、判断n是否等于预设值;若n等于预设值N,则执行步骤S206,否则,n的取值增加1,并返回步骤S203。
其中,n为大于1的整数,n的初始值为2。
其中,预设值N的取值可根据具体应用领域中包含的标签种类J确定的。例如训练标签预测模型时使用的语料包含10种标签,则N=10,即标签预测模型会进行10次迭代。
通过不断的循环步骤S203~S205形成迭代网络结构,使得输入标签预测模型的编码向量不断地迭代融合之前预测的标签信息,从而能利用标签预测模型输出的标签,丰富上下文编码信息,并学习到标签之间的相关性和不相关性,从而提高多标签分类的准确性。
S206、基于标签LN确定待处理文本所属的类别。
具体地,根据标签LN中每个维度的取值,确定待处理文本是否属于对应的类别。
本申请实施例的基于迭代网络的文本多标签分类方法,通过迭代网络结构,循环预测长文本对应的多个标签,以此学习到标签之间的相关性和不相关性,提高多标签分类的准确性。此外,基于迭代网络结构进行多次推理预测的方式,只需要在生成编码向量S1时进行一次编码,后续无需在进行编码处理,解决了生成式算法需要多次编码的问题,提高了处理速度。
在上述任一实施方式的基础上,为了降低编码向量S1的数据量,提高后续标签预测的推理速度,可使用词级别的预训练模型对待处理文本进行编码处理,即步骤S201具体包括以下步骤:对待处理文本进行分词处理,获得分词集合;对分词集合中的每个分词进行向量化处理,获得对应的词向量序列;将词向量序列输入已训练的词级别编码模型,获得编码向量S1。
进一步地,为了提高分词结果的精准度,可通过如下方式对待处理文本进行分词处理:对待处理文本进行分词处理,获得若干个分词组成的候选分词集合;对候选分词集合中不在预设词表中的分词继续进行分词处理,并用获得的分词替换候选分词集合对应的分词,以获得分词集合。
其中,可把通用词和专业词加入到预设词表中,具体选择哪些专业词需要根据应用领域确定,此处不作限定。通过通用的分词器对待处理文本进行第一次分词处理,然后利用基于应用邻域的词汇训练得到的分词器,对不在预设词表中的分词进行进一步分词,提高分词结果的精准度。
上述步骤的具体实施方式可参考图3,具体包括如下步骤:
S301、对待处理文本进行分词处理,获得若干个分词组成的分词集合[w1,w2,…,wm]。
具体实施时,可采用现有的中文分词器(如Jieba)对待处理文本进行分词处理。
S302、判断分词集合中的分词wi是否在预设词表中;若是,则执行步骤S304,否则执行步骤S303。
其中,i的初始值为1。如果分词wi在预设词表中,则保留分词集合中的分词wi。
S303、对分词wi继续进行分词处理,用新获得的分词替换分词集合中的分词wi。
其中,步骤S303使用的分词器与步骤S301使用的分词器是不同的。以BERT模型为例,可把通用词和专业词添加到BERT模型的字典vocab.txt中,用BERT模型自带的tokenize函数对分词wi再进行一次分词处理,以获得更精准的分词结果。
具体实施时,如果基于分词wi获得的分词仍然不在预设词表中,则可继续对该不在预设词表中的分词进行分词处理,获得新的分词,并用新的分词替换该不在预设词表中的分词。
S304、判断i是否等于m;若是,则执行步骤S305,否则i的取值增加1,并返回步骤S302。
S305、将分词集合中的每个分词转换为词向量,获得对应的词向量序列。
S306、将词向量序列输入已训练的词级别编码模型,获得编码向量S1。
其中,词级别编码模型是基于指定领域的语料库对通用的编码模型进行训练获得的。该指定领域即预设设定的词级别编码模型所适用的应用领域,获得该领域的语料库对通用的编码模型进行训练,以获得适用于指定领域的词级别编码模型。
具体实施时,可在已开源的预训练模型(如谷歌开源的BERT-base、百度开源的ERNIE、哈工大开源的RoBERTa-wwm-ext等)基础上,基于指定领域的语料库继续进行训练,以获得适用于指定领域的词级别编码模型。其中,可预先将每个语料中的词切分为若干个字,获得这若干个字的向量表示,将这这若干个字的向量表示的平均值作为该词汇的初始化向量,基于词汇的初始化向量不断对编码模型进行训练,最终获得词级别编码模型。
例如:投诉工单长文本为:“客户问题详细描述:客户不满网点工作人员强行营销、办理账单分期,另外客户要求终止账单分期||业务办理时间:2021-03-1312:10:14||办理支行:深圳13支行”。对该投诉工单长文本进行分词处理,获得的分词集合为:['客户','问题','详细描述',':','客户','不满','网点','工作人员','强行','营销','、','办理','账单','分期',',','另外','客户','要求','终止','账单','分期',″,'|',″,'|',″,'业务','办理','时间',':','2021','-','03','-','13',″,'12',':','10',':','14',″,″,'|',″,'|',″,'办理','支行',':','深圳','13','支行']”,序列长度由91变成了53,减少了接近1/2,进一步地可将标点符号等一些无意义的符号去除掉,对该分词集合进行编码处理后得到编码向量Sequence_1,Sequence_1的维度为53*768。将Sequence_1输入标签预测模型,得到第一个标签label_1,如[1,0,0,0,0,0,0],然后对Lable_1进行标签嵌入处理,得到label_embedding_1,以将label_1映射到53*768维,将Sequence_1与label_embedding_1相加,得到一个新的编码向量,记为Sequence_2。继续将Sequence_2输入标签预测模型,得到第2个标签label_2,对Lable_2进行标签嵌入处理,得到label_embedding_2,将Sequence_2与label_embedding_2相加,得到一个新的编码向量,记为Sequence_3。基于上述方式进行迭代,直到预测到第N个标签,即完成针对该投诉工单长文本的多标签分类。
如图4所示,基于与上述基于迭代网络的文本多标签分类方法相同的发明构思,本申请实施例还提供了一种基于迭代网络的文本多标签分类装置40,包括:
编码模块401,用于将待处理文本转换为编码向量S1;
标签预测模块402,用于将所述编码向量S1输入标签预测模型,获得标签L1;以及通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,将编码向量Sn输入所述标签预测模型,获得标签Ln,其中n为大于1的整数;其中,所述标签预测模型输出的标签包括N个维度,每个维度的取值表征所述待处理文本是否属于对应的类别;
输出模块403,用于基于标签LN确定所述待处理文本所属的类别。
可选地,所述标签预测模块402,具体用于:获得标签Ln-1对应的向量表示;将所述编码向量Sn-1和标签Ln-1对应的向量表示相加,以获得编码向量Sn。
可选地,所述标签预测模型包括至少一层简单网络和输出层,所述至少一层简单网络用于从输入的编码向量中提取语义特征,所述输出层用于根据提取的语义特征输出标签。
可选地,所述简单网络为transformer、attention、CNN、RNN、pool中的至少一种。
可选地,所述编码模块401具体用于:对待处理文本进行分词处理,获得分词集合;对所述分词集合中的每个分词进行向量化处理,获得对应的词向量序列;将所述词向量序列输入已训练的词级别编码模型,获得编码向量S1。
可选地,所述编码模块401具体用于:对待处理文本进行分词处理,获得若干个分词组成的候选分词集合;对所述候选分词集合中不在预设词表中的分词继续进行分词处理,并用获得的分词替换所述候选分词集合对应的分词,以获得分词集合。
可选地,所述词级别编码模型是基于指定领域的语料库对通用的编码模型进行训练获得的。
本申请实施例提的基于迭代网络的文本多标签分类装置与上述基于迭代网络的文本多标签分类方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述基于迭代网络的文本多标签分类方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为机器人内部的控制设备或控制系统,也可以是与智能设备通信的外部设备,如桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图5所示,该电子设备50可以包括处理器501和存储器502。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(RandomAccess Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于:移动存储设备、随机存取存储器(RAM,RandomAccess Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,RandomAccess Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于迭代网络的文本多标签分类方法,其特征在于,包括:
将待处理文本转换为编码向量S1;
将所述编码向量S1输入标签预测模型,获得标签L1;其中,所述标签预测模型输出的标签包括N个维度,每个维度的取值表征所述待处理文本是否属于对应的类别;
通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,将编码向量Sn输入所述标签预测模型,获得标签Ln,其中n为大于1的整数;
基于标签LN确定所述待处理文本所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,包括:
获得标签Ln-1对应的向量表示;
将所述编码向量Sn-1和标签Ln-1对应的向量表示相加,以获得编码向量Sn。
3.根据权利要求1所述的方法,其特征在于,所述标签预测模型包括至少一层简单网络和输出层,所述至少一层简单网络用于从输入的编码向量中提取语义特征,所述输出层用于根据提取的语义特征输出标签。
4.根据权利要求3所述的方法,其特征在于,所述简单网络为transformer、attention、CNN、RNN、pool中的至少一种。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述将待处理文本转换为编码向量S1,包括:
对待处理文本进行分词处理,获得分词集合;
对所述分词集合中的每个分词进行向量化处理,获得对应的词向量序列;
将所述词向量序列输入已训练的词级别编码模型,获得编码向量S1。
6.根据权利要求5所述的方法,其特征在于,所述对待处理文本进行分词处理,获得分词集合:
对待处理文本进行分词处理,获得若干个分词组成的候选分词集合;
对所述候选分词集合中不在预设词表中的分词继续进行分词处理,并用获得的分词替换所述候选分词集合对应的分词,以获得分词集合。
7.根据权利要求5所述的方法,其特征在于,其中,所述词级别编码模型是基于指定领域的语料库对通用的编码模型进行训练获得的。
8.一种基于迭代网络的文本多标签分类装置,其特征在于,包括:
编码模块,用于将待处理文本转换为编码向量S1;
标签预测模块,用于将所述编码向量S1输入标签预测模型,获得标签L1;其中,所述标签预测模型输出的标签包括N个维度,每个维度的取值表征所述待处理文本是否属于对应的类别;
以及通过如下迭代方式依次获得标签L2,...LN:基于编码向量Sn-1和标签Ln-1,获得编码向量Sn,将编码向量Sn输入所述标签预测模型,获得标签Ln,其中n为大于1的整数;
输出模块,用于基于标签LN确定所述待处理文本所属的类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110844880.0A CN113704466B (zh) | 2021-07-26 | 2021-07-26 | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110844880.0A CN113704466B (zh) | 2021-07-26 | 2021-07-26 | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704466A true CN113704466A (zh) | 2021-11-26 |
CN113704466B CN113704466B (zh) | 2024-03-12 |
Family
ID=78650489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110844880.0A Active CN113704466B (zh) | 2021-07-26 | 2021-07-26 | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704466B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091472A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 多标签分类模型的训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
-
2021
- 2021-07-26 CN CN202110844880.0A patent/CN113704466B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091472A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 多标签分类模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113704466B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021082953A1 (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
Wang et al. | Learning latent opinions for aspect-level sentiment classification | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
WO2023241410A1 (zh) | 数据处理方法、装置、设备及计算机介质 | |
CN111241851A (zh) | 语义相似度确定方法、装置及处理设备 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113128431B (zh) | 视频片段检索方法、装置、介质与电子设备 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN112948676A (zh) | 文本特征提取模型的训练方法、文本推荐方法及装置 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
US20230042683A1 (en) | Identifying and transforming text difficult to understand by user | |
CN112052329A (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN116069931A (zh) | 层级标签文本分类方法、系统、设备及存储介质 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN112732862A (zh) | 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN117236340A (zh) | 问答方法、装置、设备和介质 | |
CN114648005B (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |