CN109871448B - 一种短文本分类的方法及系统 - Google Patents

一种短文本分类的方法及系统 Download PDF

Info

Publication number
CN109871448B
CN109871448B CN201910191018.7A CN201910191018A CN109871448B CN 109871448 B CN109871448 B CN 109871448B CN 201910191018 A CN201910191018 A CN 201910191018A CN 109871448 B CN109871448 B CN 109871448B
Authority
CN
China
Prior art keywords
convolution
feature
text
dimensional
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910191018.7A
Other languages
English (en)
Other versions
CN109871448A (zh
Inventor
朱芬红
朱巧明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910191018.7A priority Critical patent/CN109871448B/zh
Publication of CN109871448A publication Critical patent/CN109871448A/zh
Application granted granted Critical
Publication of CN109871448B publication Critical patent/CN109871448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种短文本分类的方法及系统,该方法为:对待分类短文本进行文本处理得到文本向量矩阵。基于卷积神经网络对文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一多维卷积特征进行压缩处理得到每一多维卷积特征对应的一维精要特征。针对每一一维精要特征,计算每一一维精要特征的权重值。针对每一多维卷积特征,基于一维精要特征对应的权重值,对多维卷积特征进行加权,利用得到的自适应的卷积特征确定待分类短文本的类别。在本方案中,通过从不同角度提取短文本的多维卷积特征,并计算不同角度的多维卷积特征在短文本中的权重。基于该权重计算得到用于确定短文本类别的自适应的卷积特征,提高短文本分类的准确度。

Description

一种短文本分类的方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种短文本分类的方法及系统。
背景技术
随着科学技术的发展,使用神经网络算法构建分类模型来对短文本进行分类逐渐成为主流的分类方式之一,其中基于卷积神经网络的分类模型在短文本分类上取得了较好的性能。
基于卷积神经网络算法构建分类模型的步骤为:将短文本训练数据集作为网络模型的输入,利用多个卷积核从多个角度抽取文本特征,并拼接每个卷积特征中最大的特征作为文本的最终特征表示,进而使用全连接层对文本表示进行类别预测,使模型得到的预测的类别分布不断逼近真实的类别分布,根据逼近的过程利用反向传播不断优化模型参数,使模型收敛,从而得到拟合训练数据且泛化能力较好的短文本分类模型。短文本使用较少的词就能完整表达句意,因此用词精炼且每个词都可能表达不同角度的主题类别,但是,卷积神经网络在处理多角度特征时,其认为每个角度特征对文本表示的重要性程度是一致的,直接将各个角度特征进行拼接,可能导致文本特征的区分度不强且文本特征表示的信息度不够,因此降低了分类的准确率。
发明内容
有鉴于此,本发明实施例提供一种短文本分类的方法及系统,以解决现有的基于卷积神经网络构成的分类模型抽取的文本特征区分度不强以及信息度不够,往往导致分类准确度低的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种短文本分类的方法,所述方法包括:
对待分类短文本进行文本处理得到文本向量矩阵;
基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一所述多维卷积特征进行压缩处理得到每一所述多维卷积特征对应的一维精要特征,每一角度对应一个多维卷积特征;
针对每一所述一维精要特征,计算每一所述一维精要特征的权重值;
针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,利用得到的自适应的卷积特征确定所述待分类短文本的类别。
优选的,所述对待分类短文本进行文本处理得到文本向量矩阵,包括:
对所述待分类短文本进行分词处理以及去停用词处理,得到第一词表;
过滤所述第一词表中的低频词,得到第二词表;
为所述第二词表中的词进行编号,得到包含词和词编号的对应关系的第一文本序列;
基于所述第一文本序列的序列长度,对所述第一文本序列进行补零处理或截断处理或无处理,得到第二文本序列;
基于词向量矩阵,将所述第二文本序列映射得到所述文本向量矩阵,所述词向量矩阵从预先训练好的词向量模型获得。
优选的,所述基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一所述多维卷积特征进行压缩处理得到每一所述多维卷积特征对应的一维精要特征,包括:
基于所述卷积神经网络中预设的每一卷积核,对所述文本向量矩阵进行卷积操作,得到多个不同角度对应的多维卷积特征,每一所述卷积核对应一角度;
通过平均池化操作对每一所述多维卷积特征进行压缩,得到每一所述多维卷积特征对应的一维精要特征。
优选的,所述针对每一所述一维精要特征,计算每一所述一维精要特征的权重值,包括:
随机初始化参数矩阵和偏置向量;
针对每一所述一维精要特征,基于网络参数对所述一维精要特征进行优化,得到包含每一所述一维精要特征在所述待分类短文本中的重要性的第一重要性集合,所述网络参数包括卷积核、所述参数矩阵和偏置向量;
基于RELU激活函数,将所述第一重要性集合中无用的一维精要特征置零,得到第二重要性集合;
基于sigmoid函数对所述第二重要性集合进行压缩,得到每一所述一维精要特征的权重值。
优选的,所述针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,得到用于确定所述待分类短文本类别的自适应的卷积特征,包括:
针对每一所述多维卷积特征,对所述多维卷积特征进行最大池化操作,得到每一所述多维卷积特征对应的最优卷积特征;
将每一所述一维精要特征对应的权重值和最优卷积特征进行加权处理,得到多个加权卷积特征;
对多个所述加权卷积特征进行拼接处理,得到一个自适应的卷积特征;
将所述自适应的卷积特征输入预先构建的分类子模型中,基于所述自适应的卷积特征中最大的加权卷积特征对应的类别,确定所述待分类短文本的类别。
本发明实施例第二方面公开了一种短文本分类的系统,所述系统包括:
第一处理单元,用于对待分类短文本进行文本处理得到文本向量矩阵;
第二处理单元,用于基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一所述多维卷积特征进行压缩处理得到每一所述多维卷积特征对应的一维精要特征,每一角度对应一个多维卷积特征;
计算单元,用于针对每一所述一维精要特征,计算每一所述一维精要特征的权重值;
分类单元,用于针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,利用得到的自适应的卷积特征确定所述待分类短文本的类别。
优选的,所述第一处理单元包括:
第一处理模块,用于对所述待分类短文本进行分词处理以及去停用词处理,得到第一词表;
过滤模块,用于过滤所述第一词表中的低频词,得到第二词表;
编号模块,用于为所述第二词表中的词进行编号,得到包含词和词编号的对应关系的第一文本序列;
第二处理模块,用于基于所述第一文本序列的序列长度,对所述第一文本序列进行补零处理或截断处理或无处理,得到第二文本序列;
映射模块,用于基于词向量矩阵,将所述第二文本序列映射得到所述文本向量矩阵,所述词向量矩阵从预先训练好的词向量模型获得。
优选的,所述第二处理单元包括:
操作模块,用于基于所述卷积神经网络中预设的每一卷积核,对所述文本向量矩阵进行卷积操作,得到多个不同角度对应的多维卷积特征,每一所述卷积核对应一角度;
压缩模块,用于通过平均池化操作对每一所述多维卷积特征进行压缩,得到每一所述多维卷积特征对应的一维精要特征。
优选的,所述计算单元包括:
初始化模块,用于随机初始化参数矩阵和偏置向量;
优化模块,用于针对每一所述一维精要特征,基于网络参数对所述一维精要特征进行优化,得到包含每一所述一维精要特征在所述待分类短文本中的重要性的第一重要性集合,所述网络参数包括卷积核、所述参数矩阵和偏置向量;
处理模块,用于基于RELU激活函数,将所述第一重要性集合中无用的一维精要特征置零,得到第二重要性集合;
压缩模块,用于基于sigmoid函数对所述第二重要性集合进行压缩,得到每一所述一维精要特征的权重值。
优选的,所述分类单元包括:
操作模块,用于针对每一所述多维卷积特征,对所述多维卷积特征进行最大池化操作,得到每一所述多维卷积特征对应的最优卷积特征;
加权模块,用于将每一所述一维精要特征对应的权重值和最优卷积特征进行加权处理,得到多个加权卷积特征;
拼接模块,用于对多个所述加权卷积特征进行拼接处理,得到一个自适应的卷积特征;
确定模块,用于将所述自适应的卷积特征输入预先构建的分类子模型中,基于所述自适应的卷积特征中最大的加权卷积特征对应的类别,确定所述待分类短文本的类别。
基于上述本发明实施例提供的一种短文本分类的方法及系统,该方法为:对待分类短文本进行文本处理得到文本向量矩阵。基于卷积神经网络对文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一多维卷积特征进行压缩处理得到每一多维卷积特征对应的一维精要特征。针对每一一维精要特征,计算每一一维精要特征的权重值。针对每一多维卷积特征,基于一维精要特征对应的权重值,对多维卷积特征进行加权,利用得到的自适应的卷积特征确定待分类短文本的类别。在本方案中,通过从不同角度提取短文本的多维卷积特征,并计算不同角度的多维卷积特征在短文本中的权重。基于该权重计算得到用于确定短文本类别的自适应的卷积特征,提高短文本分类的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种短文本分类的方法流程图;
图2为本发明实施例提供的获取文本向量矩阵的流程图;
图3为本发明实施例提供的计算一维精要特征的权重值的流程图;
图4为本发明实施例提供的得到自适应的卷积特征的流程图;
图5为本发明实施例提供的一种短文本分类的系统的结构框图;
图6为本发明实施例提供的一种短文本分类的系统的结构框图;
图7为本发明实施例提供的一种短文本分类的系统的结构框图;
图8为本发明实施例提供的一种短文本分类的系统的结构框图;
图9为本发明实施例提供的一种短文本分类的系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,卷积神经网络在处理多角度特征时,其认为每个角度特征对文本表示的重要性程度是一致的,直接将各个角度特征进行拼接,可能导致文本特征的区分度不强且文本特征表示的信息度不够,因此降低了分类的准确率。
因此,本发明实施例提供了一种短文本分类的方法及系统,通过从不同角度提取短文本的多维卷积特征,并计算不同角度的多维卷积特征在短文本中的权重。基于该权重计算得到用于确定短文本类别的自适应的卷积特征。利用自适应的卷积特征确定待分类短文本的类别,以提高为短文本进行分类的准确度。
参考图1,示出了本发明实施例提供的一种短文本分类的方法流程图,包括以下步骤:
步骤S101:对待分类短文本进行文本处理得到文本向量矩阵。
在具体实现步骤S101的过程中,在对所述待分类短文本进行分类之前,需对所述待分类短文本进行处理得到所述文本向量矩阵。
步骤S102:基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一所述多维卷积特征进行压缩处理得到每一所述多维卷积特征对应的一维精要特征。
在具体实现步骤S102的过程中,首先,基于所述卷积神经网络中预设的每一卷积核,对所述文本向量矩阵进行卷积操作,得到多个不同角度对应的多维卷积特征。然后,通过平均池化操作对每一所述多维卷积特征进行压缩,得到每一所述多维卷积特征对应的一维精要特征。
需要说明的是,在所述卷积神经网络中,虽然卷积核窗口尺寸相同,但每个卷积核的参数不同,因此每一所述卷积核对应一角度,每一角度对应一个多维卷积特征。比如,卷积神经网络中存在10个参数不同的卷积核,则对所述文本向量进行卷积操作可以得到10个不同角度对应的多维卷积特征。
需要说明的是,每个卷积特征是包含了多个概念级别的语义块集,而每个语义块集中的每个语义块表示的意思偏差可能较大,因此需要使用上述涉及到的平均池化操作对语义块集进行加和处理以及求平均处理获取所述语义块集的一维精要特征。
步骤S103:针对每一所述一维精要特征,计算每一所述一维精要特征的权重值。
在具体实现步骤S103的过程中,通过公式(1)计算得到每一所述一维精要特征的权重值。在所述公式(1)中,a为所述一维精要特征、W1为初始化的参数矩阵、b1为偏置向量、δ为RELU激活函数、σ为sigmoid激活函数。
g=σ(δ(a*W1+b1)) (1)
步骤S104:针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,利用自适应的卷积特征确定所述待分类短文本的类别。
在具体实现步骤S104的过程中,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,得到一个自适应的卷积特征,将所述自适应的卷积特征输入到分类子模型中,可确定所述待分类短文本的类别。
在本发明实施例中,通过从不同角度提取短文本的多维卷积特征,并计算不同角度的多维卷积特征在短文本中的权重。基于该权重计算得到用于确定短文本类别的自适应的卷积特征,利用自适应的卷积特征确定待分类短文本的类别,提高短文本分类的准确度。
上述步骤S101涉及到的得到文本向量矩阵的过程,参考图2,示出了本发明实施例提供的获取文本向量矩阵的流程图,包括以下步骤:
步骤S201:对所述待分类短文本进行分词处理以及去停用词处理,得到第一词表。
在具体实现步骤S201的过程中,将所述待分类短文本进行分词处理,得到多个词。基于预先获取的停用词表,将所述多个词中的停用词去除,最终可得到所述第一词表。
通常情况下第一词表中的词按照分词顺序进行排列。
需要说明的是,所述去停用词处理为将无意义的词去除掉,比如将“的”等没有实际含义的功能词去除。需要说明的是,停用词通常可以理解为人类语言中包含的功能词,而功能词与其它词相比较没有实际含义。
步骤S202:过滤所述第一词表中的低频词,得到第二词表。
在具体实现步骤S202的过程中,将所述第一词表中使用频率低于阈值的词过滤掉。比如预先设定使用频率低于2次的词为低频词,则在所述第一词表中将使用频率低于2次的词过滤掉。
需要说明的是,该阈值还可以取值为3、4或5等等。
步骤S203:为所述第二词表中的词进行编号,得到包含词和词编号的对应关系的第一文本序列。
在具体实现步骤S203的过程中,基于预先设定的编号规则,为所述第二词表中的词进行编号,则可以得到词和词编号的对应关系。需要说明的是,所述第二词表中相同的词只需要一个编号,比如“我们”这个词共有5次,则只需要对一个“我们”进行编号。
可选的,预先设定的编号规则为按照提取出的分词顺序对第二词表中相同的词进行编号。
步骤S204:基于所述第一文本序列的序列长度,对所述第一文本序列进行补零处理或截断处理或无处理,得到第二文本序列。
在具体实现步骤S204的过程中,在建立为短文本分类的模型时,输入该模型的文本序列的长度需要一致。因此,当输入的文本序列长度与标准长度不一致时,需对文本序列进行处理,比如当文本序列长度小于标准长度,则进行补零处理,当文本序列长度大于标准长度,则进行截断处理,当文本序列长度刚好与标准长度相同,则不进行处理。需要说明的是,补零处理是指,向长度短于标准长度的文本序列中填零,直至长度与标准长度一致。截断处理是指,将长度大于标准长度的文本序列中的词进行截除,直至长度与标准长度一致。比如,设定标准长度为5个词,一文本序列有7个词,则将该文本序列中最后两个词截除。
步骤S205:基于词向量矩阵,将所述第二文本序列映射得到所述文本向量矩阵。
在具体实现步骤S205的过程中,基于预先训练好的Word2vec模型获取词向量,并基于词编号构建词编号与所述词向量的对应关系,得到所述词向量矩阵。
在本发明实施例中,通过对待分类短文本进行处理得到文本向量矩阵,从不同角度对文本向量矩阵进行特征抽取得到不同角度对应的多维卷积特征。基于该多维卷积特征,得到用于确定待分类短文本类别的自适应的卷积特征,利用自适应的卷积特征确定待分类短文本的类别,能提高短文本分类的准确度。
上述图1步骤S103涉及到的计算一维精要特征的权重值的过程,参考图3,示出了本发明实施例提供的计算一维精要特征的权重值的流程图,包括以下步骤:
步骤S301:随机初始化参数矩阵和偏置向量。
步骤S302:针对每一所述一维精要特征,基于网络参数对所述一维精要特征进行优化,得到包含每一所述一维精要特征在所述待分类短文本中的重要性的第一重要性集合。
在具体实现步骤S302的过程中,所述网络参数包括卷积核、所述参数矩阵和偏置向量。基于所述网络参数,对每一个所述一维精要特征进行优化,得到每一个所述一维精要特征在所述待分类短文本中的重要性,即得到所述第一重要性集合,也就是重要性分布。
以公式(1)进行说明,公式(1)中的(a*W1+b1)用于表征一维精要特征a对应的重要性分布
步骤S303:基于RELU激活函数,将所述第一重要性集合中无用的一维精要特征置零,得到第二重要性集合。
在具体实现步骤S303的过程中,基于RELU激活函数和所述第一重要性集合进行计算。若计算得到的值小于等于0,则置0,若计算得到的值大于0,则保持不变。经过上述处理,得到所述第二重要性集合。
步骤S304:基于sigmoid函数对所述第二重要性集合进行压缩,得到每一所述一维精要特征的权重值。
在具体实现步骤S304的过程中,将所述第二重要性集合中的0设置为二分之一,并进行压缩处理后得到每一所述一维精要特征的权重值。
在本发明实施例中,通过计算不同角度的多维卷积特征在短文本中的权重,并基于该权重计算得到用于确定短文本类别的自适应的卷积特征,利用自适应的卷积特征确定待分类短文本的类别,能提高短文本分类的准确度。
上述图1步骤S104涉及到的得到自适应的卷积特征的过程,参考图4,示出了本发明实施例提供的得到自适应的卷积特征的流程图,包括以下步骤:
步骤S401:针对每一所述多维卷积特征,对所述多维卷积特征进行最大池化操作,得到每一所述多维卷积特征对应的最优卷积特征。
在具体实现步骤S401的过程中,每一个多维卷积特征存在多个卷积特征,通过最大池化操作将每一所述多维卷积特征中的最大卷积特征提取出来,得到每一所述多维卷积特征对应的最优卷积特征。
步骤S402:将每一所述一维精要特征对应的权重值和最优卷积特征进行加权处理,得到多个加权卷积特征。
在具体实现步骤S402的过程中,针对每一所述多维卷积特征对应的最优卷积特征,基于每一所述一维精要特征的权重值,对每一所述最优卷积特征进行加权处理,得到多个加权卷积特征。
需要说明的是,每一所述多维卷积特征与每一所述一维精要特征有对应关系。
步骤S403:对多个所述加权卷积特征进行拼接处理,得到一个自适应的卷积特征。
在具体实现步骤S403的过程中,将由上述步骤S402得到的多个所述加权卷积特征进行拼接,得到一个自适应的卷积特征。
步骤S404:将所述自适应的卷积特征输入预先构建的分类子模型中,基于所述自适应的卷积特征中最大的加权卷积特征对应的类别,确定所述待分类短文本的类别。
在具体实现步骤S404的过程中,预先在所述分类子模型中构建包含多种文本类别的文本类别标签。将所述自适应的卷积特征输入所述分类子模型中,确定所述自适应的卷积特征中最大的加权卷积特征,将所述自适应的卷积特征与所述文本类别标签进行比对,将所述最大的加权卷积特征对应的文本类别作为所述待分类短文本的类别。
在本发明实施例中,基于每一一维精要特征对应的权重值,对多维卷积特征进行加权和拼接处理得到一个自适应的卷积特征,将自适应的卷积特征作为分类子模型的输入,确定待分类短文本的类别,能提高短文本分类的准确度。
与上述本发明实施例提供的一种短文本分类的方法相对应,参考图5,本发明实施例还提供了一种短文本分类的系统的结构框图,所述系统包括:第一处理单元501、第二处理单元502、计算单元503和分类单元504。
第一处理单元501,用于对待分类短文本进行文本处理得到文本向量矩阵。
第二处理单元502,用于基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一所述多维卷积特征进行压缩处理得到每一所述多维卷积特征对应的一维精要特征,每一角度对应一个多维卷积特征。具体计算所述一维精要特征的内容参见上述本发明实施例图1公开的步骤S102相对应的内容。
计算单元503,用于针对每一所述一维精要特征,计算每一所述一维精要特征的权重值。一维精要特征的权重值的计算过程参见上述本发明实施例图1公开的步骤S103相对应的内容。
分类单元504,用于针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,利用得到的自适应的卷积特征确定所述待分类短文本的类别。
在本发明实施例中,通过从不同角度提取短文本的多维卷积特征,并计算不同角度的多维卷积特征在短文本中的权重。基于该权重计算得到用于确定短文本类别的自适应的卷积特征,利用自适应的卷积特征确定待分类短文本的类别,提高短文本分类的准确度。
参考图6,示出了本发明实施例提供的一种短文本分类的系统的结构框图,所述第一处理单元501包括:第一处理模块5011、过滤模块5012、编号模块5013、第二处理模块5014和映射模块5015。
第一处理模块5011,用于对所述待分类短文本进行分词处理以及去停用词处理,得到第一词表。对所述待分类短文本处理的具体内容请参见上述本发明实施例图2公开的步骤S201相对应的内容。
过滤模块5012,用于过滤所述第一词表中的低频词,得到第二词表,具体内容请参见上述本发明实施例图2公开的步骤S202相对应的内容。
编号模块5013,用于为所述第二词表中的词进行编号,得到包含词和词编号的对应关系的第一文本序列。为所述第二词表中的词进行编号的具体内容请参见上述本发明实施例图2公开的步骤S203相对应的内容。
第二处理模块5014,用于基于所述第一文本序列的序列长度,对所述第一文本序列进行补零处理或截断处理或无处理,得到第二文本序列。对所述第一文本序列进行处理的具体内容请参见上述本发明实施例图2公开的步骤S204相对应的内容。
映射模块5015,用于基于词向量矩阵,将所述第二文本序列映射得到所述文本向量矩阵,所述词向量矩阵从预先训练好的词向量模型获得。
在本发明实施例中,通过对待分类短文本进行处理得到文本向量矩阵,从不同角度对文本向量矩阵进行特征抽取得到不同角度对应的多维卷积特征。基于该多维卷积特征,得到用于确定待分类短文本类别的自适应的卷积特征,利用自适应的卷积特征确定待分类短文本的类别,能提高短文本分类的准确度。
参考图7,示出了本发明实施例提供的一种短文本分类的系统的结构框图,所述第二处理单元502包括:
操作模块5021,用于基于所述卷积神经网络中预设的每一卷积核,对所述文本向量矩阵进行卷积操作,得到多个不同角度对应的多维卷积特征,每一所述卷积核对应一角度。
压缩模块5022,用于通过平均池化操作对每一所述多维卷积特征进行压缩,得到每一所述多维卷积特征对应的一维精要特征。
参考图8,示出了本发明实施例提供的一种短文本分类的系统的结构框图,所述计算单元503包括:初始化模块5031、优化模块5032、处理模块5033和压缩模块5034。
初始化模块5031,用于随机初始化参数矩阵和偏置向量。
优化模块5032,用于针对每一所述一维精要特征,基于网络参数对所述一维精要特征进行优化,得到包含每一所述一维精要特征在所述待分类短文本中的重要性的第一重要性集合,所述网络参数包括卷积核、所述参数矩阵和偏置向量。获取所述第一重要性集合的具体内容请参见上述本发明实施例图3公开的步骤S302相对应的内容。
处理模块5033,用于基于RELU激活函数,将所述第一重要性集合中无用的一维精要特征置零,得到第二重要性集合。对所述第一重要性集合进行处理的具体内容请参见上述本发明实施例图3公开的步骤S303相对应的内容。
压缩模块5034,用于基于sigmoid函数对所述第二重要性集合进行压缩,得到每一所述一维精要特征的权重值。
在本发明实施例中,通过计算不同角度的多维卷积特征在短文本中的权重,并基于该权重计算得到用于确定短文本类别的自适应的卷积特征,利用得到的自适应的卷积特征确定待分类短文本的类别,能提高短文本分类的准确度。
参考图9,示出了本发明实施例提供的一种短文本分类的系统的结构框图,所述分类单元504包括:操作模块5041、加权模块5042、拼接模块5043和确定模块5044。
操作模块5041,用于针对每一所述多维卷积特征,对所述多维卷积特征进行最大池化操作,得到每一所述多维卷积特征对应的最优卷积特征。
加权模块5042,用于将每一所述一维精要特征对应的权重值和最优卷积特征进行加权处理,得到多个加权卷积特征。获取加权卷积特征的具体过程请参见上述本发明实施例图4公开的步骤S402相对应的内容。
拼接模块5043,用于对多个所述加权卷积特征进行拼接处理,得到一个自适应的卷积特征。
确定模块5044,用于将所述自适应的卷积特征输入预先构建的分类子模型中,基于所述自适应的卷积特征中最大的加权卷积特征对应的类别,确定所述待分类短文本的类别。确定所述待分类短文本的类别的具体过程请参见上述本发明实施例图4公开的步骤S402相对应的内容。
基于上述本发明实施例公开的一种短文本分类的系统,该系统可以等同为由卷积神经网络(Convolutional Neural Networks,CNN)和全连接层构成的分类模型,CNN用于对所述待分类文本进行特征提取,在所述全连接层中构建分类子模型,用于确定所述待分类文本的类别。具体实现功能和原理等同于上述本发明实施例图5-图9公开的相对应的内容,在此不再进行赘述。
综上所述,本发明实施例提供一种短文本分类的方法及系统,该方法为:对待分类短文本进行文本处理得到文本向量矩阵。基于卷积神经网络对文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并对每一多维卷积特征进行压缩处理得到每一多维卷积特征对应的一维精要特征。针对每一一维精要特征,计算每一一维精要特征的权重值。针对每一多维卷积特征,基于一维精要特征对应的权重值,对多维卷积特征进行加权,利用得到的自适应的卷积特征确定待分类短文本的类别。在本方案中,通过从不同角度提取短文本的多维卷积特征,并计算不同角度的多维卷积特征在短文本中的权重。基于该权重计算得到用于确定短文本类别的自适应的卷积特征,提高短文本分类的准确度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种短文本分类的方法,其特征在于,所述方法包括:
对待分类短文本进行文本处理得到文本向量矩阵;
基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并通过平均池化操作对每一所述多维卷积特征进行加和处理以及求平均处理得到每一所述多维卷积特征对应的一维精要特征,每一角度对应一个多维卷积特征;
针对每一所述一维精要特征,计算每一所述一维精要特征的权重值;
针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,利用得到的自适应的卷积特征确定所述待分类短文本的类别;
所述针对每一所述一维精要特征,计算每一所述一维精要特征的权重值,包括:
随机初始化参数矩阵和偏置向量;
针对每一所述一维精要特征,基于网络参数对所述一维精要特征进行优化,得到包含每一所述一维精要特征在所述待分类短文本中的重要性的第一重要性集合,所述网络参数包括卷积核、所述参数矩阵和偏置向量;
基于RELU激活函数,将所述第一重要性集合中无用的一维精要特征置零,得到第二重要性集合;
基于sigmoid函数对所述第二重要性集合进行压缩,得到每一所述一维精要特征的权重值。
2.根据权利要求1所述的方法,其特征在于,所述对待分类短文本进行文本处理得到文本向量矩阵,包括:
对所述待分类短文本进行分词处理以及去停用词处理,得到第一词表;
过滤所述第一词表中的低频词,得到第二词表;
为所述第二词表中的词进行编号,得到包含词和词编号的对应关系的第一文本序列;
基于所述第一文本序列的序列长度,对所述第一文本序列进行补零处理或截断处理或无处理,得到第二文本序列;
基于词向量矩阵,将所述第二文本序列映射得到所述文本向量矩阵,所述词向量矩阵从预先训练好的词向量模型获得。
3.根据权利要求1所述的方法,其特征在于,所述基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并通过平均池化操作对每一所述多维卷积特征进行加和处理以及求平均处理得到每一所述多维卷积特征对应的一维精要特征,包括:
基于所述卷积神经网络中预设的每一卷积核,对所述文本向量矩阵进行卷积操作,得到多个不同角度对应的多维卷积特征,每一所述卷积核对应一角度;
通过平均池化操作对每一所述多维卷积特征进行加和处理以及求平均处理,得到每一所述多维卷积特征对应的一维精要特征。
4.根据权利要求1所述的方法,其特征在于,所述针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,得到用于确定所述待分类短文本类别的自适应的卷积特征,包括:
针对每一所述多维卷积特征,对所述多维卷积特征进行最大池化操作,得到每一所述多维卷积特征对应的最优卷积特征;
将每一所述一维精要特征对应的权重值和最优卷积特征进行加权处理,得到多个加权卷积特征;
对多个所述加权卷积特征进行拼接处理,得到一个自适应的卷积特征;
将所述自适应的卷积特征输入预先构建的分类子模型中,基于所述自适应的卷积特征中最大的加权卷积特征对应的类别,确定所述待分类短文本的类别。
5.一种短文本分类的系统,其特征在于,所述系统包括:
第一处理单元,用于对待分类短文本进行文本处理得到文本向量矩阵;
第二处理单元,用于基于卷积神经网络对所述文本向量矩阵进行特征抽取,得到多个不同角度对应的多维卷积特征,并通过平均池化操作对每一所述多维卷积特征进行加和处理以及求平均处理得到每一所述多维卷积特征对应的一维精要特征,每一角度对应一个多维卷积特征;
计算单元,用于针对每一所述一维精要特征,计算每一所述一维精要特征的权重值;
分类单元,用于针对每一所述多维卷积特征,基于所述一维精要特征对应的权重值,对所述多维卷积特征进行加权,利用得到的自适应的卷积特征确定所述待分类短文本的类别;
所述第二处理单元包括:
操作模块,用于基于所述卷积神经网络中预设的每一卷积核,对所述文本向量矩阵进行卷积操作,得到多个不同角度对应的多维卷积特征,每一所述卷积核对应一角度;
压缩模块,用于通过平均池化操作对每一所述多维卷积特征进行压缩,得到每一所述多维卷积特征对应的一维精要特征。
6.根据权利要求5所述的系统,其特征在于,所述第一处理单元包括:
第一处理模块,用于对所述待分类短文本进行分词处理以及去停用词处理,得到第一词表;
过滤模块,用于过滤所述第一词表中的低频词,得到第二词表;
编号模块,用于为所述第二词表中的词进行编号,得到包含词和词编号的对应关系的第一文本序列;
第二处理模块,用于基于所述第一文本序列的序列长度,对所述第一文本序列进行补零处理或截断处理或无处理,得到第二文本序列;
映射模块,用于基于词向量矩阵,将所述第二文本序列映射得到所述文本向量矩阵,所述词向量矩阵从预先训练好的词向量模型获得。
7.根据权利要求5所述的系统,其特征在于,所述计算单元包括:
初始化模块,用于随机初始化参数矩阵和偏置向量;
优化模块,用于针对每一所述一维精要特征,基于网络参数对所述一维精要特征进行优化,得到包含每一所述一维精要特征在所述待分类短文本中的重要性的第一重要性集合,所述网络参数包括卷积核、所述参数矩阵和偏置向量;
处理模块,用于基于RELU激活函数,将所述第一重要性集合中无用的一维精要特征置零,得到第二重要性集合;
压缩模块,用于基于sigmoid函数对所述第二重要性集合进行压缩,得到每一所述一维精要特征的权重值。
8.根据权利要求5所述的系统,其特征在于,所述分类单元包括:
操作模块,用于针对每一所述多维卷积特征,对所述多维卷积特征进行最大池化操作,得到每一所述多维卷积特征对应的最优卷积特征;
加权模块,用于将每一所述一维精要特征对应的权重值和最优卷积特征进行加权处理,得到多个加权卷积特征;
拼接模块,用于对多个所述加权卷积特征进行拼接处理,得到一个自适应的卷积特征;
确定模块,用于将所述自适应的卷积特征输入预先构建的分类子模型中,基于所述自适应的卷积特征中最大的加权卷积特征对应的类别,确定所述待分类短文本的类别。
CN201910191018.7A 2019-03-12 2019-03-12 一种短文本分类的方法及系统 Active CN109871448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910191018.7A CN109871448B (zh) 2019-03-12 2019-03-12 一种短文本分类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910191018.7A CN109871448B (zh) 2019-03-12 2019-03-12 一种短文本分类的方法及系统

Publications (2)

Publication Number Publication Date
CN109871448A CN109871448A (zh) 2019-06-11
CN109871448B true CN109871448B (zh) 2023-08-15

Family

ID=66920376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910191018.7A Active CN109871448B (zh) 2019-03-12 2019-03-12 一种短文本分类的方法及系统

Country Status (1)

Country Link
CN (1) CN109871448B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852386B (zh) * 2019-11-13 2023-05-02 北京秒针人工智能科技有限公司 数据分类方法、装置、计算机设备和可读存储介质
CN113378567B (zh) * 2021-07-05 2022-05-10 广东工业大学 一种针对低频词进行改善的中文短文本分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291822B (zh) * 2017-05-24 2020-03-24 北京邮电大学 基于深度学习的问题分类模型训练方法、分类方法及装置
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
CN109446333A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现中文文本分类的方法及相关设备

Also Published As

Publication number Publication date
CN109871448A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109948149B (zh) 一种文本分类方法及装置
EP3568811A1 (en) Training machine learning models
US11803731B2 (en) Neural architecture search with weight sharing
EP3620982B1 (en) Sample processing method and device
CN112488183A (zh) 一种模型优化方法、装置、计算机设备及存储介质
CN109583586B (zh) 一种语音识别或图像识别中的卷积核处理方法及装置
CN113571064B (zh) 自然语言理解方法及装置、交通工具及介质
CN109871448B (zh) 一种短文本分类的方法及系统
CN111259189B (zh) 一种音乐分类方法及装置
CN110135681A (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN106802888B (zh) 词向量训练方法和装置
CN113011532B (zh) 分类模型训练方法、装置、计算设备及存储介质
CN109299246B (zh) 一种文本分类方法及装置
CN110705708A (zh) 卷积神经网络模型的压缩方法、装置及计算机存储介质
CN113657421A (zh) 卷积神经网络压缩方法和装置、图像分类方法和装置
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN116564315A (zh) 一种声纹识别方法、装置、设备及存储介质
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
CN109783769B (zh) 一种基于用户项目评分的矩阵分解方法和装置
CN111046177A (zh) 一种仲裁案件自动预判方法及装置
CN115066689A (zh) 细粒度的随机神经架构搜索
CN113345464A (zh) 语音提取方法、系统、设备及存储介质
CN111602145A (zh) 卷积神经网络的优化方法及相关产品
CN113887709A (zh) 神经网络自适应量化方法、装置、设备、介质和产品
CN115472179A (zh) 面向数字音频删除和插入篡改操作自动检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant