CN110968692B - 一种文本分类方法及系统 - Google Patents

一种文本分类方法及系统 Download PDF

Info

Publication number
CN110968692B
CN110968692B CN201911010301.1A CN201911010301A CN110968692B CN 110968692 B CN110968692 B CN 110968692B CN 201911010301 A CN201911010301 A CN 201911010301A CN 110968692 B CN110968692 B CN 110968692B
Authority
CN
China
Prior art keywords
text
layer
label
word index
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911010301.1A
Other languages
English (en)
Other versions
CN110968692A (zh
Inventor
张强
邓君华
赵鲸朋
柴博
马应龙
宋博川
贾全烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Global Energy Interconnection Research Institute
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Global Energy Interconnection Research Institute
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Global Energy Interconnection Research Institute, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911010301.1A priority Critical patent/CN110968692B/zh
Publication of CN110968692A publication Critical patent/CN110968692A/zh
Application granted granted Critical
Publication of CN110968692B publication Critical patent/CN110968692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法及系统,方法包括:获取待分类文本的父标签并转化为父标签词索引向量;将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征,然后进行转化生成待分类文本的语义向量;利用神经元有序的循环神经网络学习语义向量的层次结构,对层次结构的各层参数进行训练输出文本表征;利用多层感知器对文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;根据文本最后一层标签的概率分布获取文本分类结果。本发明将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务,涉及的参数少收敛速度快,通过对文本进行逐层的方式,与现有的平面分类器相比,大大提高了分类性能。

Description

一种文本分类方法及系统
技术领域
本发明涉及机器学习领域,具体涉及一种文本分类方法及系统。
背景技术
文本分类主要采用基于知识工程的人工分类方法,该方法不仅费时费力,而且分类精度不高,此外,人工主观干预对分类精度影响很大。随后学者们提出了一系列基于机器学习的文本分类方法,如朴素贝叶斯、决策树、K近邻、支持向量机等。基于机器学习的文本分类方法在一定程度上优于专家人工分类的结果,而且文本分类方法在学习过程中不需要或很少需要人工知识的干预,因此可以应用到许多领域。
随着信息技术的发展,类别标签的划分粒度越来越细,标签的规模越来越大,标签的结构也越来越复杂。以一篇新闻文章为例,它可能涉及“体育”,“篮球”和“NBA”三大类别。可以发现,这三个类别从左到右存在一个大小包含关系即类别标签具有层次结构,而且在层次结构中,叶子节点的规模往往很大。由于语料库规模的不断扩大以及标签的粒度不断细化,目前的文本分类方法的分类难度也越来越大。Kowsari等人提出了一种层次化深度学习的文本分类方法(HDLTex),该方法以自顶向下的方式将深层神经网络连接起来,在每个父标签节点上建立一个单独的神经网络(CNN或RNN)来对其子标签节点进行分类,该方法在层次分类法中取得了最好的表现,但存在参数爆炸,训练时间长的弊端。Koustuv等人提出了基于深度学习的全局的层次化文本分类算法HATC,该模型基于注意力机制变体的动态文本表示,依次预测下一个级别的类别标签,解决了参数爆炸问题,但其精度略低于HDLTex模型。
发明内容
因此,本发明提供文本分类方法及系统,克服了现有技术中的文本分类算法训练时间长,精度低的缺陷。
第一方面,本发明实施例提供一种文本分类方法,包括:获取待分类文本的父标签,将所述父标签转化为父标签词索引向量;将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;将所述文本词索引表征进行转化生成待分类文本的语义向量;利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征;利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;根据文本最后一层标签的概率分布,获取文本分类结果
在一实施例中,所述将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征的步骤,通过以下公式进行:
Figure BSA0000192944270000021
其中,zi,j表示在第j级标签的第i个文本的文本词索引表征,wi表示第i个文本词索引向量,
Figure BSA0000192944270000022
表示向量拼接操作,ci,j-1表示第i个文本的第j-1级标签词索引向量。
在一实施例中,所述利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练的步骤,包括:利用神经元有序的循环神经网络根据待分类文本中的语法信息,学习待分类文本语义向量的层次结构;将前一层级标签训练的网络的权重参数迁移到当前层级标签作为其初始化参数进行训练,对层次结构的各层参数进行训练。
在一实施例中,输出的文本表征通过以下公式表示:
Figure BSA0000192944270000031
其中,ht j表示输入序列在t时刻的隐藏层状态向量,
Figure BSA0000192944270000032
表示对j-1级标签进行分类时网络最终的权重参数,xt j表示t时刻第j级标签的待分类文本的语义向量集合。
在一实施例中,所述利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布的步骤,包括:
利用tanh非线性层和softmax非线性层两层全连接层做非线性变换操作,预测第j级标签上的概率分布:
dj=tanh(W1hT j+b1)
yj=softmax(W2dj+b2),
其中,dj为tanh非线性层的非线性变换操作输出,W1和b1分别表示为tanh非线性层的权值矩阵和偏置,yj为softmax非线性层的非线性变换操作输出,W2和b2分别表示softmax非线性层的权值矩阵和偏置。
在一实施例中,以最小化预测分布与真实分布的交叉熵作为为损失函数训练网络,所述损失函数为:
Figure BSA0000192944270000033
其中,Cj表示第j级标签种类数,N表示训练的样本数,
Figure BSA0000192944270000034
表示预测标签,y表示真实标签,
Figure BSA0000192944270000035
表示第n个文本的第c个位置的真实标签,
Figure BSA0000192944270000036
表示第n个文本的第c个位置的预测标签。
第二方面,本发明实施例提供一种文本分类系统,包括:父标签词索引向量获取模块,用于获取待分类文本的父标签,将所述父标签转化为父标签词索引向量;父标签嵌入操作模块,用于将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;语义向量生成模块,用于将所述文本词索引表征进行转化生成待分类文本的语义向量;文本表征获取模块,用于利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征;非线性操作模块,用于利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;文本分类结果获取模块,用于根据文本最后一层标签的概率分布,获取文本分类结果。
第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的文本分类方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的文本分类方法。
本发明技术方案,具有如下优点:
本发明提供的文本分类方法及系统,获取待分类文本的父标签并转化为父标签词索引向量;将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征,然后进行转化生成待分类文本的语义向量;利用神经元有序的循环神经网络学习语义向量的层次结构,对层次结构的各层参数进行训练输出文本表征;利用多层感知器对文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;根据文本最后一层标签的概率分布获取文本分类结果。本发明将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务,涉及的参数少收敛速度快,通过对文本进行逐层的方式,与现有的平面分类器相比,大大提高了分类性能。
2、本发明提供的文本分类方法及系统,在训练过程中将父标签训练模型的参数作为子标签训练模型的初始化参数,不仅可以获取先验知识,而且可以加速收敛,使在子标签分类过程中会产生约束效应,可以大大提高分类精度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本分类方法的一个示例的流程图;
图2为本发明实施例提供的在训练是进行参数迁移的示意图;
图3为本发明实施例提供的文本分类系统的模块组成图;
图4为本发明实施例提供的终端的模块组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种文本分类方法,可以适用于标签规模大及标结构的文本进行分类的应用。如图1所示,该文本分类包括:
步骤S1:获取待分类文本的父标签,将所述父标签转化为父标签词索引向量。
在本发明实施例中,父标签包含一个或多个子标签,父标签限制约束其所有子标签。具体来说,在文本预处理阶段,我们首先提取每个文本对应的父标签,将父标签的词映射到索引空间后,将其转换为固定维数的向量,即转化为父标签词索引向量。
步骤S2:将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征。
在本发明实施例中,将待分类文本的文本内容词映射到索引空间后,转换为文本词索引向量,将父标签嵌入到文本中,即,将父标签词索引向量与文本词索引向量进行拼接操作,获取文本词索引表征,可以使在子标签分类过程中会产生约束效应,可以大大提高分类精度。
在一实施例中,给予一个包含n个文本的集合T和与这n个文本相对应的标签集的集合C。把T和C这两个集合分别转换为词索引表征集合T′=(w1,w2,...,wn)和C′=((c11,c12,...,c1k),(c21,c22,...,c2k),...(cn1,cn2,...,cnk)),其中wn表示第n个文本,cnk表示第n个文本的第k级标签,具体来说第n个文本wn的第一层标签到第k层标签依次为(cn1,cn2,...,cnk),然后通过父标签嵌入操作得到表征z。公式(1)中表示的是父标签嵌入方式获取文本词索引表征:
Figure BSA0000192944270000071
其中,zi,j表示在第j级标签的第i个文本的文本词索引表征,wi表示第i个文本词索引向量,
Figure BSA0000192944270000072
表示向量拼接操作,ci,j-1表示第i个文本的第j-1级标签词索引向量。
步骤S3:将文本词索引表征进行转化生成待分类文本的语义向量。
在本发明实施例中,在获取文本词索引表征zi,j后,在通过如图2所示的词嵌入层转换为语义向量x。
步骤S4:利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征。
在本发明实施例中,利用神经元有序的循环神经网络(ON-LSTM)根据待分类文本中的语法信息,学习待分类文本语义向量的层次结构;在训练过程中,如图2所示,将前一层级标签训练的网络的权重参数迁移到当前层级标签作为其初始化参数进行训练,对层次结构的各层参数进行训练。
在本发明实施例中,输出的文本表征通过以下公式表示:
Figure BSA0000192944270000081
其中,ht j表示输入序列在t时刻的隐藏层状态向量,
Figure BSA0000192944270000082
表示对j-1级标签进行分类时网络最终的权重参数,xt j表示t时刻第j级标签的待分类文本的语义向量集合。
步骤S5:利用至少一层多层感知器对文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布。
在本发明实施例中,利用tanh非线性层和softmax非线性层两层全连接层做非线性变换操作,预测第j级标签上的概率分布:
dj=tanh(W1hT j+b1)      (3)
yj=softmax(W2dj+b2),     (4)
其中,dj为tanh非线性层的非线性变换操作输出,W1和b1分别表示为tanh非线性层的权值矩阵和偏置,yj为softmax非线性层的非线性变换操作输出,W2和b2分别表示softmax非线性层的权值矩阵和偏置。
采用多层感知器进行非线性变换操作,用于增强神经网络的表达能力,本发明实施采用两层的多层感知器,进行操作既可以满足增强神经网络的表达能力的作用,又使得涉及的参数不会太多,但仅以此举例,不以此为限,在其他实施例中可以采用其他类型的函数作为多层感知器,或者根据实际需要设置一层或者其他层数的多层感知器进行非线性变换操作。
本发明实施例,以最小化预测分布与真实分布的交叉熵作为为损失函数训练网络,该损失函数为:
Figure BSA0000192944270000083
其中,Cj表示第j级标签种类数,N表示训练的样本数,
Figure BSA0000192944270000091
表示预测标签,y表示真实标签,
Figure BSA0000192944270000092
表示第n个文本的第c个位置的真实标签,
Figure BSA0000192944270000093
表示第n个文本的第c个位置的预测标签。
以上损失函数仅以此举例,不以此为限,在其他实施例中也可以采用其他其他损失函数作为收敛目标。
步骤S6:根据文本最后一层标签的概率分布,获取文本分类结果。
在一实施例中,例如最后的一层的标签为y1=[′biochemistry′,′civil′,′computer science′,′electrical′,′mechanical′,′medical′,′psychology′],最终多层感知器softmax的输出为【0.99,0,0,0.01,0,0,0】时,则文本分类结果即为该文本属于′biochemistry′类。
本实施例利用Web of Science(WOS)数据集和DBpedia数据集对本发明的文本分类方法进行评估。如表1所示的为具体的数据集构成,WOS数据集包含46985个文本,其中有两层标签,第一层有7个类别标签,第二层有134个类别标签。相比WOS数据集,DBpedia不仅数据量大,而且标签层级也深,其包含381025个文本,第一层有9个类别标签,第二层有70个类别标签,第三层有219个类别标签。
表1
WOS DBpedia
第一层标签类别数 7 9
第二层标签类别数 134 70
第三层标签类别数 219
文本数量 46985 381025
本发明实施例提供的表2和表3分别展示了模型分类表现的对比以及模型参数量的对比。从表2和表3可以看出,除了每个数据集的第一级标签外,本发明实施例提供的文本分类方法在这两个数据集上都实现了最佳性能。不仅比目前最先进的层次分类器性能更好,而且还比目前最先进的层次分类器的参数少。由于第一层标签数量少没有父标签,模型不能采用父标签嵌入和层次微调的方法。而且,目前的方法对于处理少量标签的文本分类问题已经相当理想,因此我们的模型在第一层标签中的效果不如其他模型,但最差也排在第二位而且相差不大。在表2中,可以看到当分类标签的数量逐步增加时,本发明实施例提供的模型比其他模型具有更多的优势,证明了本发明实施例提供模型适用于大规模的标签文本分类。
表2
Figure BSA0000192944270000101
表3
模型 参数数量/百万
HDLTex 5000
HATC 34
本实施例提供的方法 28
本发明实施例提供的文本分类方法,将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务,涉及的参数少收敛速度快,在训练过程中将父标签训练模型的参数作为子标签训练模型的初始化参数,不仅可以获取先验知识,而且可以加速收敛,使在子标签分类过程中会产生约束效应,可以大大提高分类精度,通过对文本进行逐层的方式,与现有的平面分类器相比,大大提高了分类性能。
实施例2
本发明实施例提供一种文本分类系统,如图3所示,该系统包括:
父标签词索引向量获取模块1,用于获取待分类文本的父标签,将所述父标签转化为父标签词索引向量。此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
父标签嵌入操作模块2,用于将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
语义向量生成模块3,用于将所述文本词索引表征进行转化生成待分类文本的语义向量;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
文本表征获取模块4,用于利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征。此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
非线性操作模块5,用于利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布。此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
文本分类结果获取模块6,用于根据文本最后一层标签的概率分布,获取文本分类结果。此模块执行实施例1中的步骤S6所描述的方法,在此不再赘述。
本发明实施例提供的文本分类系统,将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务,涉及的参数少收敛速度快,在训练过程中将父标签训练模型的参数作为子标签训练模型的初始化参数,不仅可以获取先验知识,而且可以加速收敛,使在子标签分类过程中会产生约束效应,可以大大提高分类精度,通过对文本进行逐层的方式,与现有的平面分类器相比,大大提高了分类性能。
实施例3
本发明实施例提供一种终端,如图4所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的文本分类方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的文本分类方法。其中,通信总线402可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的文本分类方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的文本分类方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固降硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种文本分类方法,其特征在于,包括:
获取待分类文本的父标签,将所述父标签转化为父标签词索引向量;
将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;
将所述文本词索引表征进行转化生成待分类文本的语义向量;
利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征;
利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;
根据文本最后一层标签的概率分布,获取文本分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征的步骤,通过以下公式进行:
Figure FSA0000192944260000011
其中,zi,j表示在第j级标签的第i个文本的文本词索引表征,wi表示第i个文本词索引向量,
Figure FSA0000192944260000012
表示向量拼接操作,ci,j-1表示第i个文本的第j-1级标签词索引向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练的步骤,包括:
利用神经元有序的循环神经网络根据待分类文本中的语法信息,学习待分类文本语义向量的层次结构;
将前一层级标签训练的网络的权重参数迁移到当前层级标签作为其初始化参数进行训练,对层次结构的各层参数进行训练。
4.根据权利要求3所述的文本分类方法,其特征在于,输出的文本表征通过以下公式表示:
Figure FSA0000192944260000021
其中,ht j表示输入序列在t时刻的隐藏层状态向量,
Figure FSA0000192944260000022
表示对j-1级标签进行分类时网络最终的权重参数,xt j表示t时刻第j级标签的待分类文本的语义向量集合。
5.根据权利要求3所述的文本分类方法,其特征在于,所述利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布的步骤,包括:
利用tanh非线性层和softmax非线性层两层全连接层做非线性变换操作,预测第j级标签上的概率分布:
dj=tanh(W1hT j+b1),
yj=softmax(W2dj+b2),
其中,dj为tanh非线性层的非线性变换操作输出,W1和b1分别表示为tanh非线性层的权值矩阵和偏置,yj为softmax非线性层的非线性变换操作输出,W2和b2分别表示softmax非线性层的权值矩阵和偏置。
6.根据权利要求5所述的文本分类方法,其特征在于,以最小化预测分布与真实分布的交叉熵作为损失函数训练网络,所述损失函数为:
Figure FSA0000192944260000031
其中,Cj表示第j级标签种类数,N表示训练的样本数,
Figure FSA0000192944260000032
表示预测标签,y表示真实标签,
Figure FSA0000192944260000033
表示第n个文本的第c个位置的真实标签,
Figure FSA0000192944260000034
表示第n个文本的第c个位置的预测标签。
7.一种文本分类系统,其特征在于,包括:
父标签词索引向量获取模块,用于获取待分类文本的父标签,将所述父标签转化为父标签词索引向量;
父标签嵌入操作模块,用于将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;
语义向量生成模块,用于将所述文本词索引表征进行转化生成待分类文本的语义向量;
文本表征获取模块,用于利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征;
非线性操作模块,用于利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;
文本分类结果获取模块,用于根据文本最后一层标签的概率分布,获取文本分类结果。
8.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6中任一所述的文本分类方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-6中任一所述的文本分类方法。
CN201911010301.1A 2019-10-23 2019-10-23 一种文本分类方法及系统 Active CN110968692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911010301.1A CN110968692B (zh) 2019-10-23 2019-10-23 一种文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911010301.1A CN110968692B (zh) 2019-10-23 2019-10-23 一种文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN110968692A CN110968692A (zh) 2020-04-07
CN110968692B true CN110968692B (zh) 2023-04-07

Family

ID=70029758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911010301.1A Active CN110968692B (zh) 2019-10-23 2019-10-23 一种文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN110968692B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651603B (zh) * 2020-06-04 2024-03-19 上海电力大学 一种基于lav参数微调的电力工单层次文本分类方法及系统
CN112182229A (zh) * 2020-11-05 2021-01-05 江西高创保安服务技术有限公司 一种文本分类模型构建方法、文本分类方法及装置
CN115062150B (zh) * 2022-06-27 2024-04-02 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备及存储介质
CN116151242B (zh) * 2023-04-19 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种编程学习场景的智能习题推荐方法、系统及储存介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN110134764A (zh) * 2019-04-26 2019-08-16 中国地质大学(武汉) 一种文本数据的自动分类方法及系统
CN110162636A (zh) * 2019-05-30 2019-08-23 中森云链(成都)科技有限责任公司 基于d-lstm的文本情绪原因识别方法
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201706047D0 (en) * 2017-04-14 2017-05-31 Digital Genius Ltd Automated tagging of text
US20190273509A1 (en) * 2018-03-01 2019-09-05 Crowdstrike, Inc. Classification of source data by neural network processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
CN110134764A (zh) * 2019-04-26 2019-08-16 中国地质大学(武汉) 一种文本数据的自动分类方法及系统
CN110162636A (zh) * 2019-05-30 2019-08-23 中森云链(成都)科技有限责任公司 基于d-lstm的文本情绪原因识别方法
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yikeng Shen.Ordered Neurons:Integrating Tree Structures into Recurrent Neural Networks.International Conference on Learning Representations.2019,1-14. *

Also Published As

Publication number Publication date
CN110968692A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110968692B (zh) 一种文本分类方法及系统
EP3467723B1 (en) Machine learning based network model construction method and apparatus
EP3227836B1 (en) Active machine learning
CN109471938B (zh) 一种文本分类方法及终端
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN110019795B (zh) 敏感词检测模型的训练方法和系统
Chen et al. SS-HCNN: Semi-supervised hierarchical convolutional neural network for image classification
CN113011529B (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN111898704B (zh) 对内容样本进行聚类的方法和装置
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN115131613A (zh) 一种基于多向知识迁移的小样本图像分类方法
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114357151A (zh) 文本类目识别模型的处理方法、装置、设备及存储介质
CN114077836A (zh) 一种基于异构神经网络的文本分类方法及装置
Wang et al. A text classification method based on LSTM and graph attention network
Padate et al. Image caption generation using a dual attention mechanism
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
CN116089886A (zh) 信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant