CN112612898A - 文本分类的方法和装置 - Google Patents

文本分类的方法和装置 Download PDF

Info

Publication number
CN112612898A
CN112612898A CN202110247013.9A CN202110247013A CN112612898A CN 112612898 A CN112612898 A CN 112612898A CN 202110247013 A CN202110247013 A CN 202110247013A CN 112612898 A CN112612898 A CN 112612898A
Authority
CN
China
Prior art keywords
feature vector
text
classified
semantic
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110247013.9A
Other languages
English (en)
Other versions
CN112612898B (zh
Inventor
李显明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Zhixin Hangzhou Information Technology Co ltd
Original Assignee
Ant Zhixin Hangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ant Zhixin Hangzhou Information Technology Co ltd filed Critical Ant Zhixin Hangzhou Information Technology Co ltd
Priority to CN202110247013.9A priority Critical patent/CN112612898B/zh
Publication of CN112612898A publication Critical patent/CN112612898A/zh
Application granted granted Critical
Publication of CN112612898B publication Critical patent/CN112612898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供一种文本分类的方法,包括:由语义编码模型得到待分类文本的语义特征向量;对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。

Description

文本分类的方法和装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种文本分类的方法和装置。
背景技术
文本分类是自然语言处理(NLP,Natural Language Processing)应用领域中最常见也最重要的任务类型。对于预先定义的两个到多个类别,由计算机自动将一段文本归属于其中的一个类别。用来分类的一段文本可以是短语、句子、段落、直至整篇文档。
文本分类在知识管理、社交媒体数据分析、客户服务、垃圾邮件过滤、预防网络犯罪等领域得到了广泛的应用。随着各种应用的类别精细程度逐步增加,提高文本分类的准确度已经成为亟待解决的问题。
发明内容
有鉴于此,本说明书提供一种文本分类的方法,包括:
由语义编码模型得到待分类文本的语义特征向量;
对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;
将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
本说明书还提供了一种文本分类的装置,包括:
语义特征向量单元,用于由语义编码模型得到待分类文本的语义特征向量;
统计特征向量单元,用于对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;
增强特征向量单元,用于将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述文本分类的方法所述的步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述文本分类的方法所述的步骤。
由以上技术方案可见,本说明书的实施例中,生成待分类文本的语义特征向量和统计特征向量,采用统计特征向量对语义特征向量进行增强,并基于增强后得到的增强特征向量对待分类文本进行分类,从而能够基于融合了待分类文本的统计信息和语义信息的特征进行分类,极大的提高了分类的准确性。
附图说明
图1是本说明书实施例中分类模型的一种逻辑结构示意图;
图2是本说明书实施例中一种文本分类的方法的流程图;
图3是本说明书应用示例中文本分类的流程示意图;
图4是运行本说明书实施例的设备的一种硬件结构图;
图5是本说明书实施例中一种文本分类的装置的逻辑结构图。
具体实施方式
本说明书的实施例提出一种新的文本分类的方法,分别采用语义特征向量和统计特征向量来表达待分类文本的语义信息和统计系信息,在采用统计特征向量对语义特征向量中满足预定增强条件的元素进行增强后,以增强特征向量对待分类文本进行分类,使得对文本的分类综合了待分类文本的统计信息和语义信息,分类准确性得到极大的提升。
本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。
本说明书的实施例中,采用分类模型来对待分类文本进行分类。分类模型以待分类文本的语义信息和统计信息作为输入,以预测的待分类文本所属的预定类别、或属于各个预定类别的可能性作为输出。待分类文本可以是短语、句子、段落、文档等,可以是邮件、社交媒体的消息、文章等,均不做限定。预定类别可以按照符合实际应用场景需求的各种方式来划分,比如将邮件划分为垃圾邮件与非垃圾邮件,或者将邮件划分为更细粒度的广告推销邮件、消息通知邮件、正常邮件等;再如将社交媒体上用户的消息和评论划分为正面与负面,或者是更细粒度的涉黄、涉政、涉恐、正常等。
分类模型的逻辑结构如图1所示,分类模型包括语义编码模型、统计编码器和门控网络模型。
语义编码模型用来根据待分类文本的语义信息,生成待分类文本的语义特征向量。可以根据实际应用场景的需要,来决定语义编码模型所采用的算法,并将适合该算法的语义信息作为输入,本说明书实施例均不做限定。语义编码模型的输出是待分类文本的语义特征向量。
例如,可以采用CNN(Convolutional Neural Networks,卷积神经网络)、LSTM(Long short-term memory,长短期记忆网络)、Transformer(变换器)等算法,也可以采用BERT(Bidirectional Encoder Representations from Transformers,基于自注意力机制的双向编码表示模型)以及BERT算法的各种变型,还可以采用其他机器学习算法。作为输入的语义信息可以是待分类文本中词的稀疏向量、字典下标表征向量等各种对待分类文本中词的表达形式。
语义特征向量可以携带待分类文本中每个词本身的信息、词同义、近义等信息、以及每个词在待分类文本中的上下文信息中的一个到多个,能够充分体现待分类文本的语义。
在本说明书的一种实现方式中,将待分类文本中词的字典下标向量作为语义编码模型的输入,语义编码模型输出一个向量,即是待分类文本的语义特征向量。
统计编码器用来根据待分类文本的统计信息,生成待分类文本的统计特征向量。可以根据实际应用场景的需要,来选择统计编码器所采用的算法,并将适合该算法的统计信息作为输入,本说明书实施例均不做限定。统计编码器的输出是待分类文本的统计特征向量。
可以采用预定的语料数据集来生成待分类文本中词的统计信息,来作为统计编码器的输入。预定的语料数据集可以是适合具体应用场景的语料库,可以是训练样本库,还可以是词典等。词的统计信息可以是一个值,例如可以是词的词频、TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)等。词的统计信息也可以是一个向量,可以令统计信息向量的每个元素对应于一个分类的预定类别,按照语料数据集中属于每个预定类别的语料来确定该预定类别对应的元素的值。例如,可以将词在语料数据集分别属于各个预定类别的语料中的词频、TF-IDF等作为该词的统计信息向量中对应于所属预定类别的元素。本说明书实施例对语料数据集的构成、词统计信息向量的生成方式均不做限定。
在本说明书的一种实施方式中,采用训练样本库作为语料数据集,对待分类文本中每个词,将该词出现在某个预定分类语料的条数与训练样本库中语料总条数的比值作为该词相对于该分类的标签分布,该词相对于所有预定分类的标签分布构成了该词的统计信息向量Tcol(Term Count of Label,词项在标签中的统计)。例如,假设预定分类有mm为大于1的自然数)个,训练语料库中有NN为不小于m的自然数)条语料,对待分类文本中的一个词,该词出现在训练样本库中属于第1个预定分类的
Figure DEST_PATH_IMAGE002
Figure 899121DEST_PATH_IMAGE002
为0或自然数)条语料中,出现在训练样本库中属于第2个预定分类的
Figure DEST_PATH_IMAGE004
Figure 144157DEST_PATH_IMAGE004
为0或自然数)条语料中,……,出现在训练样本库中属于第m个预定分类的
Figure DEST_PATH_IMAGE006
Figure 986211DEST_PATH_IMAGE006
为0或自然数)条语料中,则该词的Tcol向量为
Figure DEST_PATH_IMAGE008
。在本实施方式中,可以将待分类文本中所有词的统计信息向量、或除停用词之外其他词的统计信息向量作为统计编码器的输入。
统计编码器可以采用AE(AutoEncoder,自编码器)及其各种变型来作为编码算法。AE是一种利用反向传播使得输出值尽可能接近于输入值的算法,来达到数据压缩和特征降维。
在一些应用场景中,待分类文本中可能出现词的统计信息过度集中的情况(比如某些词在文本中的密集度很高),这样的统计信息会对分类的预测造成不良影响。这些应用场景中可以采用VAE(Variational AutoEncoder,变分自编码器)来作为统计编码器,将待分类文本中词的统计信息输入VAE,以VAE的隐层特征表示向量作为待分类文本的统计特征向量。VAE通过分布之间的变换来将输入转变输出向量,不仅能够对输入进行降维,还有一定的降噪作用,缓解了统计信息过度集中时对分类模型的冲击,能够增加分类模型的稳定性和分类的准确性。
门控网络模型的输入是语义编码模型输出的语义特征向量、和统计编码器输出的统计特征向量,门控网络模型的输出是分类结果。其中分类结果可以是预测的待分类文本所属一个预定类别,也可以是待分类文本属于各个预定类别的可能性,不做限定。
门控网络模型用来根据语义特征向量和统计特征向量来对待分类文本进行分类,包括增强器和分类器。具体而言,在门控网络模型中,先由增强器中在语义特征向量中查找满足预定增强条件的元素,对满足预定增强条件的元素采用统计特征向量来进行增强,生成待分类文本的增强特征向量;然后由分类器采用增强特征向量来对待分类文本的所属预定类别进行预测。
本说明书的实施例中,当待分类文本的语义特征向量中某个元素所体现的语义信息在用于分类时只能起到比较弱的作用时,采用该待分类文本的统计特征向量来对该元素进行增强。可以根据实际应用场景中所采用的语义信息和语义特征向量的生成方式、所采用的统计信息和统计特征向量的生成方式等因素来决定预定增强条件、和如何采用统计特征向量来对语义特征向量的元素进行增强,不做限定,以下举例说明。
在一个例子中,可以采用对称激活函数来激活语义特征向量,如果激活后语义特征向量的某个元素的值在预定增强区域的范围内,则该元素满足预定增强条件。在一些应用场景中,预定增强区域范围可以根据所采用的对称激活函数的强弱分界点、和生成待分类文本中词的统计信息时所采用语料数据集的大小来确定。对称激活函数的对称点通常即是其强弱分界点,预定增强区域范围中包括强弱分界点,预定增强区域范围的大小与语料数据集的大小相关。
统计信息通常会含有一定的噪音,其可靠性往往会受限于统计时的数据量,特别是来自小的语料数据集的统计信息可能存在较大的偏差。因此当语料数据集较小时可以减小预定增强区域范围,来降低统计信息对分类结果的影响;而对于大的语料数据集,统计信息相对来说噪音较小,可以增大预定增强区域范围,来加大统计信息对分类结果的影响。
假设采用的对称激活函数是Sigmoid,其表达式如式1所示:
Figure DEST_PATH_IMAGE010
Sigmoid激活函数将定义域为
Figure DEST_PATH_IMAGE012
的输入映射为值域为
Figure DEST_PATH_IMAGE014
的输出,其强弱分界点为0.5。按照生成统计信息时所采用的语料数据集的大小,确定调节系数
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
,较大的语料数据集采用较大的
Figure 811779DEST_PATH_IMAGE016
,较小的语料数据集采用较小的
Figure 94993DEST_PATH_IMAGE016
),则可以将
Figure DEST_PATH_IMAGE020
来作为预定增强区域范围。在采用Sigmoid函数激活语义特征向量后,如果某个元素激活后的值属于
Figure 979772DEST_PATH_IMAGE020
,则该元素为满足预定增强条件的元素。
在另一个例子中,语义特征向量、统计特征向量和增强特征向量具有相同的维度。对语义特征向量中满足预定增强条件的某个元素,提取所述统计特征向量中与该满足预定增强条件的元素对应维度的元素,采用上述两个元素进行预定运算,将运算后得到的值作为增强特征向量中与该满足预定增强条件的元素对应维度的元素。而对于语义特征向量中不满足预定增强条件的某个元素,则直接以该不满足预定增强条件的元素的值作为增强特征向量中对应维度的元素的值。其中,预定运算可以是相加、加权和、或者其他运算,不做限定。
假设语义特征向量为
Figure DEST_PATH_IMAGE022
,统计特征向量为
Figure DEST_PATH_IMAGE024
,预定增强条件是值域在
Figure DEST_PATH_IMAGE026
内的元素,预定运算是相加,则语义特征向量的第1个元素
Figure DEST_PATH_IMAGE028
和第4个元素
Figure DEST_PATH_IMAGE030
满足预定增强条件,分别与统计特征向量中对应维度的第1个元素0.3和第4个元素
Figure DEST_PATH_IMAGE034
相加后,得到增强特征向量的第1个元素0.7和第4个元素0.8。语义特征向量的第2个元素0.2和第3个元素0.8不满足预定增强条件,直接作为增强特征向量的第2个元素和第3个元素,得到的增强特征向量为
Figure DEST_PATH_IMAGE040
门控网络模型中的分类器采用增强特征向量对待分类文本进行分类。分类器可以只根据增强特征向量来分类,也可以根据增强特征向量和其他待分类文本的信息来进行分类,如在使用增强特征向量的同时,还将语义特征向量、统计特征向量中的一个或两个一起用于分类,本说明书的实施例不做限定。图1中的分类器采用增强特征向量和语义特征向量来进行分类。另外,对分类时所采用的具体算法也同样不做限定。
在一种实现方式中,可以将增强特征向量应用于特征自注意(Self Attention)机制之后再进行分类。在一个具体的应用场景中,将增强特征向量作为查询向量(Query),以语义特征向量作为键向量(Key)和值向量(Value)进行特征自注意,并采用自注意的输出向量生成分类结果。在生成分类结果时,可以将自注意的输出向量输入全连接层,通过全连接层投射到各个预定分类,得到分类结果。
需要说明的是,分类模型的训练分为两个步骤来进行:首先进行统计编码器的训练,当统计编码器为AE、VAE或者其他AE的变型时,进行的训练是无监督学习。在统计编码器训练完毕后,采用带有标签的训练样本对语义编码模型和门控网络模型进行联合训练,联合训练是有监督的学习过程。统计编码器不参加联合训练,换言之,统计编码器在联合训练前已经预先完成训练,在联合训练中统计编码器内的参数不再修改。训练统计编码器时采用的训练样本库、与训练语义编码模型和门控网络模型采用的训练样本库可以相同,也可以不同。
在联合训练完毕后,可以采用分类模型对待分类文本进行分类。文本分类的方法的流程如图2所示。
步骤210,由语义编码模型得到待分类文本的语义特征向量。
将待分类文本的语义信息输入语义编码模型,得到待分类文本的语义特征向量。
步骤220,对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量。
将待分类文本中词的统计信息输入统计编码器,得到待分类文本的统计特征向量。
步骤230,将语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对语义特征向量中满足预定增强条件的元素采用统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对待分类文本进行分类。其中,语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
对步骤210至230的详细说明请参见前述对分类模型的阐释,不再重复。
可见,本说明书的实施例中,分别由待分类文本的语义信息和统计信息生成语义特征向量和统计特征向量,在采用统计特征向量对语义特征向量中满足预定增强条件的元素进行增强后,基于增强特征向量对待分类文本进行分类,使得对文本的分类综合了待分类文本的统计信息和语义信息,极大的提高了分类的准确性。
需要说明的是,本说明书中所说的词,在中文中可以是字,也可以是由字组成的词语。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一个应用示例中,邮件服务提供商采用文本分类技术自动识别用户的邮箱收到的垃圾邮件,并将识别出的垃圾邮件标示出来,或者放到用户邮箱的特定文件夹里。邮件服务器提供商的邮件服务器通过分类模型将收到的用户邮件划分为垃圾邮件和非垃圾邮件(两种预定类别)。
邮件服务器使用的分类模型包括神经网络模型S-Net(一种语义编码模型)、变分自编码器V-Net(一种统计编码器)和AGN(Adaptive Gate Network,可调节的门控网络,一种门控网络模型),其结构及处理流程如图3所示。其中,S-Net的输入为待分类邮件文本对应的字典下标表征向量,V-Net的输入为待分类邮件中词的Tcol向量。
在将分类模型用于邮件分类前,要先进行分类模型的训练。训练样本库中包括若干条带有标签(即被标记为垃圾邮件或非垃圾邮件)的邮件。
在开始训练前,先进行数据准备。具体而言,用训练样本库的所有邮件中词构建字典,字典包括键和值,每个键代表一个词,每个键的值代表该词对应的下标。键和值都是唯一的,也就是一个词只有一个键,只能对应一个值。字典中还包括未知字符,用来对应所有在字典中不存在的词。这样,依序排列某封邮件中各个词在字典中对应的值,可以得到一个向量,该向量即为该封邮件的字典下标表征向量。基于生成的字典,可以将训练样本库中的样本邮件转换为对应的字典下标表征向量。此外,还要基于训练样本库的统计数据计算样本邮件中各个词的Tcol向量。本应用示例中每个词的Tcol向量为一个二维向量,两个维度分别表示词相对于训练样本库中垃圾邮件和非垃圾邮件的标签分布。
先采用训练样本库中的样本邮件对变分编码器V-Net进行训练。将样本邮件中所有词的Tcol向量输入V-Net,令V-Net进行无监督学习。
在V-Net训练完毕后,再进行S-Net和AGN的训练。具体而言,将样本邮件的字典下标表征向量输入S-Net,将样本邮件中词的Tcol向量输入V-Net,得到AGN输出的预测分类结果。使用交叉熵计算预测分类结果与样本邮件标签的损失值,使用Adam优化器进行梯度优化更新S-Net和AGN中的参数。也即,进行S-Net和AGN的联合训练;而V-Net的参数固定,不再进行迭代。
训练完毕的分类模型即可用于对用户邮件进行分类。
在收到一封待分类邮件后,采用由训练样本库构建的字典,得到该待分类邮件的字典下标表征向量
Figure DEST_PATH_IMAGE042
;再采用由训练样本库的统计数据得出的Tcol向量,得到该待分类邮件中所有词的Tcol向量
Figure DEST_PATH_IMAGE044
将字典下标表征向量
Figure 445410DEST_PATH_IMAGE042
作为S-Net的输入,得到待分类邮件的语义特征向量
Figure DEST_PATH_IMAGE046
。将Tcol向量
Figure 501091DEST_PATH_IMAGE044
作为V-Net的输入,将V-Net中VAE网络编码后的隐层特征表示向量作为V-Net的输出,即待分类邮件的统计特征向量
Figure DEST_PATH_IMAGE048
Figure 317737DEST_PATH_IMAGE046
Figure 523591DEST_PATH_IMAGE048
具有相同的维度。
语义特征向量
Figure 640451DEST_PATH_IMAGE046
和统计特征向量
Figure 539137DEST_PATH_IMAGE048
输入AGN(图3中未示出)。在AGN中,先采用Sigmoid函数对语义特征向量
Figure 875703DEST_PATH_IMAGE046
进行激活,得到向量
Figure DEST_PATH_IMAGE050
Figure 213143DEST_PATH_IMAGE050
里每个元素(神经元)的值都在
Figure 591035DEST_PATH_IMAGE014
之间。
根据训练样本库的数据集大小预先确定调节系数
Figure 519677DEST_PATH_IMAGE016
,认为向量
Figure 717440DEST_PATH_IMAGE050
中值在
Figure DEST_PATH_IMAGE052
区间内的元素的分类能力比较弱,需要补充统计信息来增强该元素的分类能力。对这些元素,将该元素与统计特征向量
Figure 685003DEST_PATH_IMAGE048
中对应维度的元素相加后,作为增强特征向量
Figure DEST_PATH_IMAGE054
对应维度的元素。而对向量
Figure 245297DEST_PATH_IMAGE050
中值在
Figure 485785DEST_PATH_IMAGE020
区间外的元素,则将该元素作为增强特征向量
Figure 29899DEST_PATH_IMAGE054
对应维度的元素。
AGN以增强特征向量
Figure 381246DEST_PATH_IMAGE054
作为Query,以语义特征向量
Figure 327205DEST_PATH_IMAGE046
作为Key和Value,进行特征自注意,通过Attention机制来调整对语义特征向量进行统计信息增强后整体的权重。自注意的输出向量通过多层感知机投射到分类空间,得到待分类邮件的分类结果。
本应用示例使得神经网络模型可以融合文本的统计类信息,由于统计类信息是文本本身的内在信息,和文本本身的分布是一致,从而能够极大的提升分类结果的准确性。
与上述流程实现对应,本说明书的实施例还提供了一种文本分类的装置。该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图4所示的CPU、内存以及存储器之外,提文本分类的装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图5所示为本说明书实施例提供的一种文本分类的装置,包括语义特征向量单元、统计特征向量单元和增强特征向量单元,其中:语义特征向量单元用于由语义编码模型得到待分类文本的语义特征向量;统计特征向量单元用于对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;增强特征向量单元用于将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
可选的,所述语义特征向量、所述统计特征向量和所述增强特征向量具有相同的维度;所述增强特征向量单元对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,包括:对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量中与所述满足预定增强条件的元素对应维度的元素进行预定运算后,作为增强特征向量中与所述满足预定增强条件的元素对应维度的元素。
一个例子中,所述预定增强条件包括:采用对称激活函数激活所述语义特征向量,激活后的元素值在预定增强区域范围内。
上述例子中,所述预定增强区域范围根据所述对称激活函数的强弱分界点、和生成待分类文本中词的统计信息时所采用语料数据集的大小来确定。
可选的,所述增强特征向量单元基于增强特征向量对所述待分类文本进行分类,包括:以增强特征向量作为查询向量Query,以语义特征向量作为键向量Key和值向量Value,进行特征自注意;采用自注意的输出向量生成分类结果。
可选的,所述统计特征向量单元具体用于:将待分类文本中词的统计信息输入变分自编码器VAE,以VAE的隐层特征表示向量作为待分类文本的统计特征向量;所述VAE在训练语义编码模型和门控网络模型前预先完成训练。
可选的,所述词的统计信息包括统计信息向量,统计信息向量的每个元素对应于一个分类的预定类别,所述元素根据在语料数据集中属于对应预定类别的语料确定。
可选的,所述语义特征向量单元具体用于:将待分类文本中词的字典下标表征向量输入语义编码模型,语义编码模型的输出即为待分类文本的语义特征向量;所述语义编码模型为以下任意一种模型:卷积神经网络CNN、长短期记忆网络LSTM、变换器Transformer、基于自注意力机制的双向编码表示模型BERT。
本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中文本分类的方法的各个步骤。对文本分类的方法的各个步骤的详细描述请参见之前的内容,不再重复。
本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中文本分类的方法的各个步骤。对文本分类的方法的各个步骤的详细描述请参见之前的内容,不再重复。
以上所述仅为本说明书的较佳实施例而已,并不用以限制请求保护的其他实施例,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在请求保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (18)

1.一种文本分类的方法,包括:
由语义编码模型得到待分类文本的语义特征向量;
对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;
将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
2.根据权利要求1所述的方法,所述语义特征向量、所述统计特征向量和所述增强特征向量具有相同的维度;
所述对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,包括:对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量中与所述满足预定增强条件的元素对应维度的元素进行预定运算后,作为增强特征向量中与所述满足预定增强条件的元素对应维度的元素。
3.根据权利要求1所述的方法,所述预定增强条件包括:采用对称激活函数激活所述语义特征向量,激活后的元素值在预定增强区域范围内。
4.根据权利要求3所述的方法,所述预定增强区域范围根据所述对称激活函数的强弱分界点、和生成待分类文本中词的统计信息时所采用语料数据集的大小来确定。
5.根据权利要求1所述的方法,所述基于增强特征向量对所述待分类文本进行分类,包括:以增强特征向量作为查询向量Query,以语义特征向量作为键向量Key和值向量Value,进行特征自注意;采用自注意的输出向量生成分类结果。
6.根据权利要求1所述的方法,所述对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量,包括:将待分类文本中词的统计信息输入变分自编码器VAE,以VAE的隐层特征表示向量作为待分类文本的统计特征向量;所述VAE在训练语义编码模型和门控网络模型前预先完成训练。
7.根据权利要求1所述的方法,所述词的统计信息包括统计信息向量,统计信息向量的每个元素对应于一个分类的预定类别,所述元素根据在语料数据集中属于对应预定类别的语料确定。
8.根据权利要求1所述的方法,所述由语义编码模型得到待分类文本的语义特征向量,包括:将待分类文本中词的字典下标表征向量输入语义编码模型,语义编码模型的输出即为待分类文本的语义特征向量;
所述语义编码模型为以下任意一种模型:卷积神经网络CNN、长短期记忆网络LSTM、变换器Transformer、基于自注意力机制的双向编码表示模型BERT。
9.一种文本分类的装置,包括:
语义特征向量单元,用于由语义编码模型得到待分类文本的语义特征向量;
统计特征向量单元,用于对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;
增强特征向量单元,用于将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
10.根据权利要求9所述的装置,所述语义特征向量、所述统计特征向量和所述增强特征向量具有相同的维度;
所述增强特征向量单元对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,包括:对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量中与所述满足预定增强条件的元素对应维度的元素进行预定运算后,作为增强特征向量中与所述满足预定增强条件的元素对应维度的元素。
11.根据权利要求9所述的装置,所述预定增强条件包括:采用对称激活函数激活所述语义特征向量,激活后的元素值在预定增强区域范围内。
12.根据权利要求11所述的装置,所述预定增强区域范围根据所述对称激活函数的强弱分界点、和生成待分类文本中词的统计信息时所采用语料数据集的大小来确定。
13.根据权利要求9所述的装置,所述增强特征向量单元基于增强特征向量对所述待分类文本进行分类,包括:以增强特征向量作为查询向量Query,以语义特征向量作为键向量Key和值向量Value,进行特征自注意;采用自注意的输出向量生成分类结果。
14.根据权利要求9所述的装置,所述统计特征向量单元具体用于:将待分类文本中词的统计信息输入变分自编码器VAE,以VAE的隐层特征表示向量作为待分类文本的统计特征向量;所述VAE在训练语义编码模型和门控网络模型前预先完成训练。
15.根据权利要求9所述的装置,所述词的统计信息包括统计信息向量,统计信息向量的每个元素对应于一个分类的预定类别,所述元素根据在语料数据集中属于对应预定类别的语料确定。
16.根据权利要求9所述的装置,所述语义特征向量单元具体用于:将待分类文本中词的字典下标表征向量输入语义编码模型,语义编码模型的输出即为待分类文本的语义特征向量;
所述语义编码模型为以下任意一种模型:卷积神经网络CNN、长短期记忆网络LSTM、变换器Transformer、基于自注意力机制的双向编码表示模型BERT。
17.一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1到8任意一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1到8任意一项所述的方法。
CN202110247013.9A 2021-03-05 2021-03-05 文本分类的方法和装置 Active CN112612898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110247013.9A CN112612898B (zh) 2021-03-05 2021-03-05 文本分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110247013.9A CN112612898B (zh) 2021-03-05 2021-03-05 文本分类的方法和装置

Publications (2)

Publication Number Publication Date
CN112612898A true CN112612898A (zh) 2021-04-06
CN112612898B CN112612898B (zh) 2021-05-18

Family

ID=75254531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110247013.9A Active CN112612898B (zh) 2021-03-05 2021-03-05 文本分类的方法和装置

Country Status (1)

Country Link
CN (1) CN112612898B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032572A (zh) * 2021-04-22 2021-06-25 中国平安人寿保险股份有限公司 基于文本匹配模型的文本分类方法、装置及相关设备
CN113268599A (zh) * 2021-05-31 2021-08-17 平安国际智慧城市科技股份有限公司 文件分类模型的训练方法、装置、计算机设备及存储介质
CN113590767A (zh) * 2021-09-28 2021-11-02 西安热工研究院有限公司 多语种告警信息类别判定方法、系统、设备及存储介质
CN113626603A (zh) * 2021-08-19 2021-11-09 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113792144A (zh) * 2021-09-16 2021-12-14 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN114564958A (zh) * 2022-01-11 2022-05-31 平安科技(深圳)有限公司 文本识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550748A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 基于双曲正切函数的新型神经网络的构造方法
CN109325114A (zh) * 2018-07-24 2019-02-12 武汉理工大学 一种融合统计特征与Attention机制的文本分类算法
CN110188836A (zh) * 2019-06-21 2019-08-30 西安交通大学 一种基于变分自编码器的脑功能网络分类方法
US20200286614A1 (en) * 2017-09-08 2020-09-10 The General Hospital Corporation A system and method for automated labeling and annotating unstructured medical datasets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550748A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 基于双曲正切函数的新型神经网络的构造方法
US20200286614A1 (en) * 2017-09-08 2020-09-10 The General Hospital Corporation A system and method for automated labeling and annotating unstructured medical datasets
CN109325114A (zh) * 2018-07-24 2019-02-12 武汉理工大学 一种融合统计特征与Attention机制的文本分类算法
CN110188836A (zh) * 2019-06-21 2019-08-30 西安交通大学 一种基于变分自编码器的脑功能网络分类方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032572A (zh) * 2021-04-22 2021-06-25 中国平安人寿保险股份有限公司 基于文本匹配模型的文本分类方法、装置及相关设备
CN113032572B (zh) * 2021-04-22 2023-09-05 中国平安人寿保险股份有限公司 基于文本匹配模型的文本分类方法、装置及相关设备
CN113268599A (zh) * 2021-05-31 2021-08-17 平安国际智慧城市科技股份有限公司 文件分类模型的训练方法、装置、计算机设备及存储介质
CN113268599B (zh) * 2021-05-31 2024-03-19 平安国际智慧城市科技股份有限公司 文件分类模型的训练方法、装置、计算机设备及存储介质
CN113626603A (zh) * 2021-08-19 2021-11-09 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113626603B (zh) * 2021-08-19 2024-03-29 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113792144A (zh) * 2021-09-16 2021-12-14 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN113792144B (zh) * 2021-09-16 2024-03-12 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN113590767A (zh) * 2021-09-28 2021-11-02 西安热工研究院有限公司 多语种告警信息类别判定方法、系统、设备及存储介质
CN114564958A (zh) * 2022-01-11 2022-05-31 平安科技(深圳)有限公司 文本识别方法、装置、设备及介质
CN114564958B (zh) * 2022-01-11 2023-08-04 平安科技(深圳)有限公司 文本识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112612898B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112612898B (zh) 文本分类的方法和装置
CN109471938B (zh) 一种文本分类方法及终端
Prabha et al. Survey of sentiment analysis using deep learning techniques
Han et al. Semi-supervised active learning for sound classification in hybrid learning environments
WO2017219548A1 (zh) 用户属性预测方法及装置
US20200410157A1 (en) Automatic hyperlinking of documents
AU2016256764A1 (en) Semantic natural language vector space for image captioning
US20220300735A1 (en) Document distinguishing based on page sequence learning
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN115186056A (zh) 文本风格迁移方法、装置、电子设备及存储介质
Prachi et al. Detection of Fake News Using Machine Learning and Natural Language Processing Algorithms [J]
US20230351121A1 (en) Method and system for generating conversation flows
KR102472447B1 (ko) 머신러닝을 이용한 복합 문서내 특정 콘텐츠 자동 차단 시스템 및 방법
US20240028827A1 (en) Method for identify a word corresponding to a target word in text information
US20230315999A1 (en) Systems and methods for intent discovery
Zhou Donation-based crowdfunding title classification based on BERT+ CNN
Natarajan et al. Spam detection over call transcript using deep learning
Rahman et al. Towards a framework for acquisition and analysis of speeches to identify suspicious contents through machine learning
Gôlo et al. Learning to sense from events via semantic variational autoencoder
Zhang et al. A hybrid approach for network rumor detection based on attention mechanism and bidirectional GRU model in big data environment
Wang et al. Personal health mention identification from tweets using convolutional neural network
Bhuvaneswari Amma et al. RumorDetect: detection of rumors in twitter using convolutional deep tweet learning approach
US11972756B2 (en) Method for recognizing the voice of audio containing foreign languages
Sun et al. Detect the emotions of the public based on cascade neural network model
Paramesh et al. A DEEP LEARNING BASED IT SERVICE DESK TICKET CLASSIFIER USING CNN.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant