CN111897961A - 一种宽度神经网络模型的文本分类方法及相关组件 - Google Patents

一种宽度神经网络模型的文本分类方法及相关组件 Download PDF

Info

Publication number
CN111897961A
CN111897961A CN202010712976.7A CN202010712976A CN111897961A CN 111897961 A CN111897961 A CN 111897961A CN 202010712976 A CN202010712976 A CN 202010712976A CN 111897961 A CN111897961 A CN 111897961A
Authority
CN
China
Prior art keywords
word
words
text classification
text
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010712976.7A
Other languages
English (en)
Inventor
杜杰
周艳红
韩婉婉
岳广辉
汪天富
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202010712976.7A priority Critical patent/CN111897961A/zh
Publication of CN111897961A publication Critical patent/CN111897961A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于宽度神经网络模型的文本分类方法及相关组件,所述方法包括:获取历史文本数据并进行预处理得到数据集{xi,yi},然后将所述数据集分为训练集和测试集;利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure DDA0002597216000000011
然后计算得到连接权重W,从而构建BLS‑RNN文本分类模型;利用所述测试集对所述文本分类模型进行测试;利用测试后的文本分类模型对目标文本进行分类。本发明通过综合考虑单词的时序信息和重要性,使文本分类更加有效准确。

Description

一种宽度神经网络模型的文本分类方法及相关组件
技术领域
本发明涉及计算机软件技术领域,特别涉及一种宽度神经网络模型的文本分类方法及相关组件。
背景技术
文本分类是自然语言处理(NLP)中一个很经典也很重要的问题,它的应用很广泛,在很多领域发挥着重要作用,例如垃圾邮件过滤、舆情分析以及新闻分类等。与其他的分类问题一样,文本分类的核心问题首先是从文本中提取出分类数据的特征,然后选择合适的分类算法和模型对特征进行建模,从而实现分类。当然文本分类问题又具有自身的特点,例如文本分类需要先对文本进行分词等预处理,然后选择合适的方法对文本进行特征表示,最后构建分类器对其进行分类。
循环神经网络(RNN),是一种能够处理自然语言的深度神经网络,它将截止到当前时刻接收到的输入信息存储在记忆单元中。换句话说,RNN利用时序信息Mp来有效地处理自然语言。其中,Mp基于当前输入词Xp和之前学习过的信息Mp-1计算得到的。
在RNN中,为优化网络的权值、偏差等参数,采用基于梯度的训练方法。与前馈神经网络不同,RNN中模型的梯度值依赖于所有输入的历史数据。这种梯度可以通过一种称为“基于时间的反向传播算法”(BPTT)的迭代过程来计算。然而,使用BPTT训练的RNN在学习长句子的依赖关系(即相隔很远的两个单词之间的依赖关系)方面存在困难,这主要是由于发生了梯度消失和梯度爆炸问题。
LSTM是基于RNN设计的。在每个LSTM层(或LSTM模块)中,设计三个门,分别控制以下组件:输入(输入门)、存储单元(遗忘门)和输出(输出门)。然后将多个LSTM层叠加在一起,构成一个较深的LSTM网络。事实上,除了时序信息外,单词的重要性在文本分类等许多NLP任务中也扮演着重要的角色。例如,要识别一篇文章是否与某些感兴趣的话题相关(如经济)或不相关,一些相关的词(如公司、市场、经济等)是非常有用的,他们被认为比其他词更重要。因此,为了更有效地对文本进行分类,应同时考虑单词的重要性和时序信息,而现有技术中,还没有同时考虑单词的重要性和时序信息的技术方案。
发明内容
本发明实施例提供了一种基于宽度神经网络模型的文本分类方法、装置、计算机设备及存储介质,旨在通过同时考虑单词的重要性和时序信息来提高文本分类的有效性及准确性。
第一方面,本发明实施例提供了一种基于宽度神经网络模型的文本分类方法,所述方法包括:
获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure BDA0002597215980000021
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;
利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;
对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;
对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure BDA0002597215980000023
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure BDA0002597215980000022
式中,Y为所述训练集中的文本分类标签矩阵;
利用所述测试集对所述文本分类模型进行测试;
利用测试后的文本分类模型对目标文本进行分类。
进一步的,所述获取历史文本数据并进行预处理得到数据集{xi,yi},包括:
将所述当前输入样本中的标点符号删除,并对所述当前输入样本进行标记得到输入样本标签;
将所述当前输入样本中的句子截断或者整合为长度为预设固定长度的句子;
利用文本分析工具获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,从而得到数据集。
进一步的,所述利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点,包括:
将所述单词特征矩阵Xp作为所述宽度学习系统输入层的输入,并计算当前单词的时序信息Mp,然后根据所述当前单词的时序信息Mp计算下一单词的时序信息,依次类推,最后计算得到单词的最终时序信息Mk,公式如下:
Mk=f(Xkαm+Mk-1U+βm)
式中,f为激活函数,Xk为单词特征,MK-1为上一单词的时序信息,αm、U为随机生成的权重系数,βm为随机生成的偏差系数。
进一步的,所述利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点,还包括:
将单词特征矩阵Xp输入至增强模块,并按下述公式计算第p个单词特征的增强节点Op
Op=g(Xpαoo)
式中,g为激活函数,αo为随机生成的权重系数,βo为随机生成的偏差系数。
进一步的,所述对所述单词的最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A,包括:
按照下列公式计算得到所述目标输入A:
Figure BDA0002597215980000031
式中,Mk为单词的最终时序信息,Oj为第j个单词的增强节点,其中j=1~k。
进一步的,所述利用文本分析工具箱获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,包括:
预先设置参数Mincount和参数Dimension,其中,所述参数Mincount表示所述词嵌入表示中包含的最小字数,所述参数Dimension表示所述词嵌入表示中每个单词向量的维数;
将所述历史文本数据中出现频率小于所述参数Mincount的单词删除,并结合所述参数Dimension构建词汇表;
利用所述词嵌入表示将所述词汇表中的单词映射为数字向量。
进一步的,所述计算得到连接权重W之后,包括:
利用所述连接权重对所述最终时序信息MK以及每个单词的增强节点至每一输出节点的连接赋予相应的权重值,得到最终分类结果,从而构建BLS-RNN文本分类模型。
第二方面,本发明实施例提供了一种基于宽度神经网络模型的文本分类装置,包括:
获取单元,用于获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure BDA0002597215980000041
Figure BDA0002597215980000042
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;
学习单元,用于利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;
级联单元,用于对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;
构建单元,用于对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure BDA0002597215980000043
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure BDA0002597215980000044
式中,Y为所述训练集中的文本分类标签矩阵;
测试单元,用于利用所述测试集对所述文本分类模型进行测试;
分类单元,用于利用测试后的文本分类模型对目标文本进行分类。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于宽度神经网络模型的文本分类方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于宽度神经网络模型的文本分类方法。
本发明实施例提供了一种基于宽度神经网络模型的文本分类方法、装置、计算机设备及存储介质,所述方法包括获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure BDA0002597215980000045
Figure BDA0002597215980000046
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure BDA0002597215980000051
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure BDA0002597215980000052
式中,Y为所述训练集中的文本分类标签矩阵;利用所述测试集对所述文本分类模型进行测试;利用测试后的文本分类模型对目标文本进行分类。本发明实施例通过同时对文本数据中的单词的时序信息及重要性进行计算,从而使最终得到文本分类标签更加准确有效。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于宽度神经网络模型的文本分类方法的流程示意图;
图2为本发明实施例提供的一种基于宽度神经网络模型的文本分类方法的原理架构图;
图3为本发明实施例提供的一种基于宽度神经网络模型的文本分类装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参阅图1,图1为本发明实施例提供的一种基于宽度神经网络模型的文本分类方法的流程示意图,具体包括:步骤S101~S106。
S101、获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure BDA0002597215980000061
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;
S102、利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;
S103、对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;
S104、对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure BDA0002597215980000062
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure BDA0002597215980000063
式中,Y为所述训练集中的文本分类标签矩阵;
S105、利用所述测试集对所述文本分类模型进行测试;
S106、利用测试后的文本分类模型对目标文本进行分类。
本实施例通过将所述当前输入样本输入至所述宽度学习系统中,计算所述当前输入样本中单词的时序信息和重要性,以及所述单词的时序信息和重要性的权重,从而得到单词的时序信息和重要性的级联权重(即连接权重W),进而通过级联权重构建基于BLS-RNN(宽度学习系统-循环神经网络)的文本分类模型。结合图2,宽度学习系统(Broad LearningSystem,BLS)可以同时学习不同类型的信息,本实施例基于此,将所述宽度学习系统与循环神经网络模型相结合,从而构建文本分类模型,用于同时学习文本时序信息和单词的重要性,弥补了BLS模型、RNN模型和LSTM模型在文本分类上的不足。
由于深度LSTM模型虽然提取了更深层次的时序信息,但却缺失了单词的重要性信息,而本实施例则兼顾单词的时序信息和重要性,因此本实施例提供的BLS-RNN文本分类模型相较于深度LSTM等模型,可以表现出更好的精度。
举例来说,在识别电影评论的情感的任务中,有两个这样的评论:a)it is notgood at all;和b)it is good and not bad。虽然“not”和“good”在两篇评论中都出现了,但它们的含义完全不同。显然,评论a是负面的,评论b是正面的。关键的问题是这两个词在两个评论中出现的顺序不同。因此,时序信息对文本分类非常重要。此外,对于评论a来说,“not”和“good”这两个词显然比“it””is”“at”和“all”更重要。在评论b时,单词good,not和bad也比其他单词更重要。因此,为了更精确的文本分类,必须同时考虑时序信息和单词的重要性。
需要说明的是,本实施例提供的BLS-RNN文本分类模型具有闭式解,因此避免了梯度消失和爆炸问题。从分类结果来看,所述BLS-RNN文本分类模型是优于深度LSTM模型的,在一具体应用场景中,所述BLS-RNN文本分类模型输出的分类结果的准确性可高达13.30%。同时,受益于BLS的宽度学习机制,时序信息和单词重要性可以同时学习,从而提高文本分类的效率。在一具体应用场景中,所述BLS-RNN文本分类模型具有较高的有效性,并且同时利用时序信息和单词重要性对文本分类进行了验证。
另外,深度神经网络的训练过程通常非常耗时,并且有数十亿参数需要学习。但是,本实施例提供的BLS-RNN文本分类模型由于不需要迭代训练并且部分参数是随机确定的,因此,所述BLS-RNN文本分类模型将获得更快的训练速度。在一具体应用场景中,对所述BLS-RNN文本分类模型和深度LSTM模型的训练时间进行比较,最终所述深度LSTM模型的训练时间是BLS-RNN文本分类模型的数百倍。在另一具体应用场景中,例如在天气预测方面,由于深度LSTM模型采用迭代梯度下降策略优化所有参数,包括每个门的权值和偏差,因此BLS-RNN文本分类模型的训练时间只占LSTM训练时间的1/867。
而且由于所述BLS-RNN文本分类模型只需要分析计算连接权重W,而其他权重和偏差(如αm和βm等)都是随机生成的,因此在大多数比较的数据集上,所述BLS-RNN文本分类模型的训练学习效率比深度LSTM模型的训练学习效率都要高。在一具体应用场景中,所述BLS-RNN文本分类模型的训练学习效率比深度LSTM模型的训练学习效率高10倍。
在一实施例中,所述步骤S101包括:
将所述当前输入样本中的标点符号删除,并对所述当前输入样本进行标记得到输入样本标签;
将所述当前输入样本中的句子截断或者整合为长度为预设固定长度的句子;
利用文本分析工具获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,从而得到数据集。
本实施例中,对所述当前输入样本进行预处理,例如将所述当前输入样本中的标点符号删除,又或者是当所述输入样本为英文时,则将英文中的大写字母转换为小写字母,在完成上述操作后,对所述当前输入样本
Figure BDA0002597215980000081
进行标记,从而得到输入样本标签
Figure BDA0002597215980000082
其中,xp i是指第i个样本的第p个单词的特征表示,d表示特征维度;
Figure BDA0002597215980000083
则代表所述当前输入样本中的第p个单词的矩阵表示。另外,Y=[yi]∈RN×C表示所述当前输入样本的标签矩阵。在一具体应用场景中,设置
Figure BDA0002597215980000084
对于输入样本,如果j=u∈[1,…,C],其中u为标签索引,那么
Figure BDA0002597215980000085
如果j为其余值,那么
Figure BDA0002597215980000086
然后,将所述当前输入样本中长短不一的句子截断或者整合成长度相等且固定的多个句子,方便后续通过词嵌入表示将经过长度处理的句子映射为数字向量。例如将“Iamhappy”映射为“102525012535”。本实施例中的词嵌入表示可以通过Matlab(一种数学软件)里文本分析工具箱中的trainWordEmbedding方法得到,当然也可以通过其他方式得到。
在一具体应用场景中,将得到的数据集中的80%作为训练集,20%作为测试集。
在一实施例中,所述步骤S102包括:
将所述单词特征矩阵Xp作为所述宽度学习系统输入层的输入,并计算当前单词的时序信息Mp,然后根据所述当前单词的时序信息Mp计算下一单词的时序信息,依次类推,最后计算得到单词的最终时序信息Mk,公式如下:
Mk=f(Xkαm+Mk-1U+βm)
式中,f为激活函数,Xk为单词特征,Mk-1为上一单词的时序信息,αm、U为随机生成的权重系数,βm为随机生成的偏差系数。
本实施例中,通过计算每个单词的时序信息Mp来学习所述当前输入文本的时序信息。所述每个单词的时序信息Mp不仅由当前的输入Xp决定,还由循环神经网络中的记忆单元存储的Mp-1决定,即:
Mp=f(Xpαm+Mp-1U+βm)
式中,f为激活函数,Xk为单词特征,Mk-1为上一单词的时序信息,αm、U为随机生成的权重系数,βm为随机生成的偏差系数。
由此可知,记忆单元Mp捕获了之前所有时间步长的信息,因此单词的最后时序信息Mk表示从所有单词(即输入X1至输入Xk)中学习到的时序信息,然后将所述单词的最终时序信息Mk连接到输出节点Y的权值WM,即表示单词的时序信息对于最终分类的重要性。还需说明的是,本实施例中的M0可以设置为0。
在一实施例中,所述步骤S102还包括:
将单词特征矩阵Xp输入至增强模块,并按下述公式计算第p个单词特征的增强节点Op
Op=g(Xpαoo)
式中,g为激活函数,αo为随机生成的权重系数,βo为随机生成的偏差系数。
本实施例中,按照上述公式即可得到每个单词的增强节点,将增强节点Op连接到输出节点Y的权值WO即表示第p个单词特征对于最终分类的重要性。
在一实施例中,所述步骤S103包括:
按照下列公式计算得到所述目标输入A:
Figure BDA0002597215980000091
式中,Mk为单词的最终时序信息,Oj为第j个单词的增强节点,其中j=1~k。
本实施例中,所述目标输入A即是指所述宽度学习系统的整个输入信息,也就是说,所述目标输入A等于所述当前输入样本中的单词的最终时序信息与每个单词的增强节点的级联。
在得到所述目标输入A后,对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure BDA0002597215980000092
然后利用
Figure BDA0002597215980000093
即可逐步得到连接权重W,具体公式如下:
Figure BDA0002597215980000094
通过上述公式即可得到所需的最终级联权重(即连接权重W),从而根据所述连接权重W构建BLS-RNN文本分类模型。
在一实施例中,所述利用文本分析工具箱获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,包括:
预先设置参数Mincount和参数Dimension,其中,所述参数Mincount表示所述词嵌入表示中包含的最小字数,所述参数Dimension表示所述词嵌入表示中每个单词向量的维数;
将所述历史文本数据中出现频率小于所述参数Mincount的单词删除,并结合所述参数Dimension构建词汇表;
利用所述词嵌入表示将所述词汇表中的单词映射为数字向量。
本实施例中,通过定义参数Mincount和参数Dimension构建关于所述历史文本数据的词汇表,然后利用所述词嵌入表示将所述词汇表中的单词映射为数字向量。其中,所述参数Mincount表示所述词嵌入表示中单词出现频率最小次数,例如设定参数Mincount为50,而所述词嵌入表示中单词“happy”出现的频率低于50次,那么便需要将单词“happy”删除;所述参数Dimension表示单词的向量维度,例如将“I am happy”映射为“102525012535”后,每个单词的维度均为4。
在一实施例中,所述计算得到连接权重W之后,包括:
利用所述连接权重对所述最终时序信息Mk以及每个单词的增强节点至每一输出节点的连接赋予相应的权重值,得到最终分类结果,从而构建BLS-RNN文本分类模型。
本实施例中,通过所述最终时序信息Mk和每个单词的增强节点可以得到连接权重,即所述最终时序信息的权重WM与每个单词的增强节点的权重WO的级联W=[WM|WO],也就是说,所述连接权重W既表示所述当前输入样本中单词的时序信息,也表示了每个单词的重要性。
在得到所述连接权重后,即可构建BLS-RNN文本分类模型,并利用所述BLS-RNN文本分类模型按照下述公式对测试集中的数据进行测试:
Figure BDA0002597215980000101
式中,Mk test为所述测试集中单词的最终时序信息,Ok test所述测试集中第k个单词的增强节点,W为连接权重。
图3为本发明实施例提供的一种基于宽度神经网络模型的文本分类装置300的示意性框图,包括:
获取单元301,用于获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure BDA0002597215980000111
Figure BDA0002597215980000112
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;
学习单元302,用于利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息MK以及每个单词的增强节点;
级联单元303,用于对所述最终时序信息MK以及每个单词的增强节点进行级联,得到目标输入A;
构建单元304,用于对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure BDA0002597215980000113
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure BDA0002597215980000114
式中,Y为所述训练集中的文本分类标签矩阵;
测试单元305,用于利用所述测试集对所述文本分类模型进行测试;
分类单元306,用于利用测试后的文本分类模型对目标文本进行分类。
在一实施例中,所述获取单元301包括:
标记单元,用于将所述当前输入样本中的标点符号删除,并对所述当前输入样本进行标记得到输入样本标签;
截断或整合单元,用于将所述当前输入样本中的句子截断或者整合为长度为预设固定长度的句子;
第一映射单元,用于利用文本分析工具获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,从而得到数据集。
在一实施例中,所述学习单元302包括:
时序信息学习单元,用于将所述单词特征矩阵Xp作为所述宽度学习系统输入层的输入,并计算当前单词的时序信息Mp,然后根据所述当前单词的时序信息Mp计算下一单词的时序信息,依次类推,最后计算得到单词的最终时序信息Mk,公式如下:
Mk=f(Xkαm+Mk-1U+βm)
式中,f为激活函数,Xk为单词特征,Mk-1为上一单词的时序信息,αm、U为随机生成的权重系数,βm为随机生成的偏差系数。
在一实施例中,所述学习单元302还包括:
增强节点单元,用于将单词特征矩阵Xp输入至增强模块,并按下述公式计算第p个单词特征的增强节点Op
Op=g(Xpαoo)
式中,g为激活函数,αo为随机生成的权重系数,βo为随机生成的偏差系数。
在一实施例中,所述级联单元303包括:
目标输入单元,用于按照下列公式计算得到所述目标输入A:
Figure BDA0002597215980000121
式中,Mk为单词的最终时序信息,Oj为第j个单词的增强节点,其中j=1~k。
在一实施例中,所述第一映射单元包括:
参数设置单元,用于预先设置参数Mincount和参数Dimension,其中,所述参数Mincount表示所述词嵌入表示中包含的最小字数,所述参数Dimension表示所述词嵌入表示中每个单词向量的维数;
删除单元,用于将所述历史文本数据中出现频率小于所述参数Mincount的单词删除,并结合所述参数Dimension构建词汇表;
第二映射单元,用于利用所述词嵌入表示将所述词汇表中的单词映射为数字向量。
在一实施例中,所述构建单元304包括:
赋予单元,用于利用所述连接权重对所述最终时序信息Mk以及每个单词的增强节点至每一输出节点的连接赋予相应的权重值,得到最终分类结果,从而构建BLS-RNN文本分类模型。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于宽度神经网络模型的文本分类方法,其特征在于,包括:
获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure FDA0002597215970000011
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;
利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;
对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;
对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure FDA0002597215970000012
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure FDA0002597215970000013
式中,Y为所述训练集中的文本分类标签矩阵;
利用所述测试集对所述文本分类模型进行测试;
利用测试后的文本分类模型对目标文本进行分类。
2.根据权利要求1所述的基于宽度神经网络模型的文本分类方法,其特征在于,所述获取历史文本数据并进行预处理得到数据集{xi,yi},包括:
将所述当前输入样本中的标点符号删除,并对所述当前输入样本进行标记得到输入样本标签;
将所述当前输入样本中的句子截断或者整合为长度为预设固定长度的句子;
利用文本分析工具获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,从而得到数据集。
3.根据权利要求1所述的基于宽度神经网络模型的文本分类方法,其特征在于,所述利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点,包括:
将所述单词特征矩阵Xp作为所述宽度学习系统输入层的输入,并计算当前单词的时序信息Mp,然后根据所述当前单词的时序信息Mp计算下一单词的时序信息,依次类推,最后计算得到单词的最终时序信息Mk,公式如下:
Mk=f(Xkαm+Mk-1U+βm)
式中,f为激活函数,Xk为单词特征,Mk-1为上一单词的时序信息,αm、U为随机生成的权重系数,βm为随机生成的偏差系数。
4.根据权利要求1所述的基于宽度神经网络模型的文本分类方法,其特征在于,所述利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点,还包括:
将单词特征矩阵Xp输入至增强模块,并按下述公式计算第p个单词特征的增强节点Op
Op=g(Xpαoo)
式中,g为激活函数,αo为随机生成的权重系数,βo为随机生成的偏差系数。
5.根据权利要求1所述的基于宽度神经网络模型的文本分类方法,其特征在于,所述对所述单词的最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A,包括:
按照下列公式计算得到所述目标输入A:
Figure FDA0002597215970000021
式中,Mk为单词的最终时序信息,Oj为第j个单词的增强节点,其中j=1~k。
6.根据权利要求1所述的基于宽度神经网络模型的文本分类方法,其特征在于,所述利用文本分析工具箱获取词嵌入表示,并根据词嵌入表示将截断或者整合后的句子中的单词映射为数字向量,包括:
预先设置参数Mincount和参数Dimension,其中,所述参数Mincount表示所述词嵌入表示中包含的最小字数,所述参数Dimension表示所述词嵌入表示中每个单词向量的维数;
将所述历史文本数据中出现频率小于所述参数Mincount的单词删除,并结合所述参数Dimension构建词汇表;
利用所述词嵌入表示将所述词汇表中的单词映射为数字向量。
7.根据权利要求1所述的基于宽度神经网络模型的文本分类方法,其特征在于,所述计算得到连接权重W之后,包括:
利用所述连接权重对所述最终时序信息Mk以及每个单词的增强节点至每一输出节点的连接赋予相应的权重值,得到最终分类结果,从而构建BLS-RNN文本分类模型。
8.一种基于宽度神经网络模型的文本分类方法,其特征在于,包括:
获取单元,用于获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,
Figure FDA0002597215970000031
Figure FDA0002597215970000032
i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;
学习单元,用于利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息MK以及每个单词的增强节点;
级联单元,用于对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;
构建单元,用于对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果
Figure FDA0002597215970000033
然后按下述公式计算得到连接权重W,从而构建BLS-RNN文本分类模型:
Figure FDA0002597215970000034
式中,Y为所述训练集中的文本分类标签矩阵;
测试单元,用于利用所述测试集对所述文本分类模型进行测试;
分类单元,用于利用测试后的文本分类模型对目标文本进行分类。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于宽度神经网络模型的文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于宽度神经网络模型的文本分类方法。
CN202010712976.7A 2020-07-22 2020-07-22 一种宽度神经网络模型的文本分类方法及相关组件 Pending CN111897961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010712976.7A CN111897961A (zh) 2020-07-22 2020-07-22 一种宽度神经网络模型的文本分类方法及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010712976.7A CN111897961A (zh) 2020-07-22 2020-07-22 一种宽度神经网络模型的文本分类方法及相关组件

Publications (1)

Publication Number Publication Date
CN111897961A true CN111897961A (zh) 2020-11-06

Family

ID=73190375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010712976.7A Pending CN111897961A (zh) 2020-07-22 2020-07-22 一种宽度神经网络模型的文本分类方法及相关组件

Country Status (1)

Country Link
CN (1) CN111897961A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139053A (zh) * 2021-04-15 2021-07-20 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113283530A (zh) * 2021-06-08 2021-08-20 重庆大学 基于级联特征块的图像分类系统
CN113361269A (zh) * 2021-06-11 2021-09-07 南京信息工程大学 一种用于文本情感分类的方法
CN115249133A (zh) * 2022-09-22 2022-10-28 华南理工大学 一种基于宽度学习网络的建筑施工过程风险分类方法
CN115688601A (zh) * 2022-11-15 2023-02-03 合肥工业大学 基于bls和lstm的剩余使用寿命预测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851593A (zh) * 2019-09-23 2020-02-28 天津大学 一种基于位置与语义的复值词向量构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851593A (zh) * 2019-09-23 2020-02-28 天津大学 一种基于位置与语义的复值词向量构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIE DU等: ""Novel Efficient RNN and LSTM-Like Architectures: Recurrent and Gated Broad Learning Systems and Their Applications for Text Classification"", 《IEEE TRANSACTIONS ON CYBERNETICS》, pages 1586 - 1596 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139053A (zh) * 2021-04-15 2021-07-20 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113139053B (zh) * 2021-04-15 2024-03-05 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113283530A (zh) * 2021-06-08 2021-08-20 重庆大学 基于级联特征块的图像分类系统
CN113283530B (zh) * 2021-06-08 2022-11-15 重庆大学 基于级联特征块的图像分类系统
CN113361269A (zh) * 2021-06-11 2021-09-07 南京信息工程大学 一种用于文本情感分类的方法
CN113361269B (zh) * 2021-06-11 2023-07-18 南京信息工程大学 一种用于文本情感分类的方法
CN115249133A (zh) * 2022-09-22 2022-10-28 华南理工大学 一种基于宽度学习网络的建筑施工过程风险分类方法
CN115688601A (zh) * 2022-11-15 2023-02-03 合肥工业大学 基于bls和lstm的剩余使用寿命预测方法及系统

Similar Documents

Publication Publication Date Title
CN111897961A (zh) 一种宽度神经网络模型的文本分类方法及相关组件
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN112948541B (zh) 基于图卷积网络的金融新闻文本情感倾向分析方法
Tsionas Bayesian multivariate Poisson regression
CN112528010B (zh) 知识推荐方法、装置、计算机设备及可读存储介质
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN108228808A (zh) 确定热点事件的方法、装置和存储介质以及电子设备
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN106445914B (zh) 微博情感分类器的构建方法及构建装置
CN113449084A (zh) 基于图卷积的关系抽取方法
Joshi et al. Statistical downscaling of precipitation and temperature using sparse Bayesian learning, multiple linear regression and genetic programming frameworks
CN111581379A (zh) 一种基于作文扣题度的自动作文评分计算方法
CN117370736A (zh) 一种细粒度情感识别方法、电子设备及存储介质
Sinapoy et al. Comparison of lstm and indobert method in identifying hoax on twitter
CN117077679B (zh) 命名实体识别方法和装置
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
CN114817537A (zh) 一种基于政策文件数据的分类方法
CN114357284A (zh) 基于深度学习的众包任务个性化推荐方法和系统
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN114020901A (zh) 一种结合主题挖掘和情感分析的金融舆情分析方法
CN113095068A (zh) 基于权重字典的情感分析方法、系统、装置及存储介质
CN117932487B (zh) 一种风险分类模型训练、风险分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201106

RJ01 Rejection of invention patent application after publication