CN115544259A - 一种长文本分类预处理模型及其构建方法、装置及应用 - Google Patents

一种长文本分类预处理模型及其构建方法、装置及应用 Download PDF

Info

Publication number
CN115544259A
CN115544259A CN202211506872.6A CN202211506872A CN115544259A CN 115544259 A CN115544259 A CN 115544259A CN 202211506872 A CN202211506872 A CN 202211506872A CN 115544259 A CN115544259 A CN 115544259A
Authority
CN
China
Prior art keywords
input vector
vector
lstm
long text
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211506872.6A
Other languages
English (en)
Other versions
CN115544259B (zh
Inventor
王国梁
毛云青
陈娜华
葛俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202211506872.6A priority Critical patent/CN115544259B/zh
Publication of CN115544259A publication Critical patent/CN115544259A/zh
Application granted granted Critical
Publication of CN115544259B publication Critical patent/CN115544259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种长文本分类预处理模型的构建方法,包括以下步骤:获取至少一待处理长文本作为训练样本,其中每一所述待处理文本中标记有标记词汇,将所述训练样本输入到长文本分类预处理模型中进行训练;所述长文本分类预处理模型由多个LSTM模块串联组成,所述LSTM模块包括决策网络和多层感知机制层,使用所述决策网络来判断每一标记词汇是否为关键词,使用所述多层感知机制层对所述标记词汇进行跳过或保留。所述长文本分类预处理模型可以快速将关键词信息整合到判断过程中,对长文本进行预处理,以便于后续更好的对长文本进行分类。

Description

一种长文本分类预处理模型及其构建方法、装置及应用
技术领域
本申请涉及自然语言处理领域,特别是涉及一种长文本分类预处理模型及其构建方法、装置及应用。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,当前对文本进行分类的方法通常是视同BERT模型或者RNN模型来对文本进行处理,但是一般来说,BERT模型只能处理长度小于512的文本序列,算上文本序列上的一些分隔符[CLS],[SEP]等,其实际能处理的文本长度要小于512,因此,对于长文本来说,一般是截取文字前面或者文字后面的部分,从而将文本进行截断处理,这样会导致BERT模型判断分类输出的效果较差,尤其是那些依赖于被截断部分内容的文本分类。
而在现实应用中,一些如新闻类稿件之类的文本长度一般都是超过512的,为了来解决长文本分类的上述问题,目前在深度学习上一般采用滑窗处理(每次截取一定长度的文本)来对文本进行切分,将切分后的结果依次通过模型得到每个窗口的分类结果,最后每个窗口进行投票来确定最终的分类结果,但是,上述处理方法当各窗口之间文本前后连贯性不是很大的话,会使得分类结果不准确。
对长文本进行分类的另一种方法如CN113553848A CN114281996A的方法,对N个序列的文本表示进行特征融合,得到所述目标长文本的篇章表示,再接着对融合后的信息进行分类;这种方法相当于前期特征融合,增加了计算量,且会造成信息丢失。
综上所述,现有技术存在模型分类输出效果较差,分类结果不准确,增加计算量且容易造成信息丢失的问题。
发明内容
本申请方案提供一种本申请实施例提供了一种长文本分类预处理模型及其构建方法、装置及应用,对目前对长文本进行分类容易导致分类结果差,计算量大的问题进行解决,从而更好的对长文本进行分类处理。
第一方面,本申请实施例提供了一种长文本分类预处理模型的构建方法,所述方法包括:
获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
第二方面,本申请实施例提供了一种长文本分类预处理模型,所述长文本分类预处理模型使用第一方面提到的构建方法进行构建。
第三方面,本申请实施例提供了一种长文本分类预处理方法,包括:
获取至少一待处理长文本,将所述待处理长文本分词后顺序送入所述长文本分类预处理模型中的每一LSTM模块中,所述LSTM模块中的决策网络对每一对应词汇进行关键词的判断后,送入所述多层感知基质层进行跳过或保留,得到仅包含保留词汇的处理后文本。
第四方面,本申请实施例提供了一种长文本分类预处理模型的构建装置,包括:
获取模块:获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
构建模块:所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
第五方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种长文本分类预处理模型的构建方法或一种长文本分类预处理方法。
第六方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种长文本分类预处理模型的构建方法或一种长文本分类预处理方法。
本发明的主要贡献和创新点如下:
本申请实施例提供了一种长文本分类预处理模型的构建方法,所述长文本分类预处理模型使用长短期记忆(LSTM)作为框架,用来解决梯度爆炸或消失的问题,并引入门控机制来控制信息的累计速度,有选择地加入新的信息,并有选择地遗忘之前积累的信息。
本方案提供的长文本分类预处理模型的构建方法通过跳过不相关、不重要的冗余词的方式来加快对长文本的识别速度:具体的,长文本分类预处理模型中含有预测词是否应该被跳过的决策网络,所述长文本分类预处理模型通过包含当前词和后续语境的信息来实现对词汇进行跳过,并且可以利用关键词来监督决策网络的训练,通过关键词来判断跳过过程,以提高跳过冗余词的精准度。
为了提高所述长文本分类预处理模型的精度,本申请实施例设计了因子型和门控型两种整合策略,所述因子型将关键词向量整合为词汇嵌入的因素,所述门控型使用门控机制来强制模型保留关键词;本申请实施例还以关键词为基础构建损失函数,以更好的优化决策网络中的参数,以用来决定对词汇进行跳过还是保留。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种长文本分类模型的构建方法的流程图;
图2是根据本申请实施例的因子层的算法流程图;
图3是根据本申请实施例的门控层的内部结构图;
图4是根据本申请实施例的门控层的算法流程图;
图5是根据本申请实施例的一种长文本分类模型的构建装置的结构框图;
图6是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
在介绍本方案之前首先对本方案可能涉及的专业名词进行解释说明:
循环神经网络(RNN):是一类具有短期记忆能力的神经网络,在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。
长短时记忆网络(LSTM):LSTM是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖、梯度爆炸或消失等问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式,在标准RNN中,这个重复的结构模块只有一个非常简单的结构。
本申请实施例提供了一种长文本分类预处理模型的构建方法,可以对长文本基于关键词进行预处理,以便于后续分类,具体地,参考图1,所述方法包括:
获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
在一些实施例中,具体的,在每一所述LSTM模块的多层感知机制层中使用激活函数对所述第二输入向量进行隐层状态的计算,得到每一所述第二输入向量的隐层状态,所述隐层状态结合分类函数得到每一所述第二输入向量的跳过-保留概率分布,再使用采样函数对每一所述第二输入向量的跳过-保留概率分布进行采样操作,得到每一所述第二输入向量的二元决策。
示例性的,所述LSTM模块中的多层感知机制为两层,使用RELU激活函数对结合了上下文信息的第二输入向量xt进行计算,得到每一所述第二输入向量的隐层状态st,使用softmax分类函数对所述隐层状态st进行分类操作,得到每一所述第二输入向量的跳过-保留概率分布πt,再使用Gumbel-softmax采样函数对所述跳过-保留概率分布πt进行采样操作,得到二元决策dt,使用所述二元决策判断是否对所述第二输入向量进行跳过或保留。
在多层感知机制层对所述第二输入向量进行隐层状态的计算步骤中,多层感知机制层结合当前LSTM模块之前的前置上下文特征和当前LSTM模块之后的后置上下文特征和所述第二输入向量共同计算隐层状态。
具体的,使用RELU激活函数对结合了上下文特征的第二输入向量xt进行计算,得到每一所述第二输入向量的隐层状态st的计算公式如下:
Figure DEST_PATH_IMAGE002
其中t为所述LSTM模块的时间编号,W1、b1为可训练参数,fprecede(t)表示编号为t的LSTM模块之前的前置上下文特征,ffollow(t)表示编号为t的LSTM模块之后的后置上下文特征,所述时间编号表征每一所述LSTM模块在第二输入向量xt进行输入时的时间特征。
进一步的,fprecede(t)由编号为t-1的LSTM模块的输出向量ht-1形成,用来编码所有处理过的词的信息,ffollow(t)由局部语境信息和全局语境信息组成,所述局部语境信息通过一个卷积神经网络对编号t+1至t+m的LSTM模块的对应标记词汇处理后获取,其中m表示语境的窗口大小;所述全局语境信息通过一个LSTM网络对编号为t+1至T的LSTM模块的对应标记词汇进行反向读取文本来获取,其中T为当前序列的长度,反向读取即从序列的末端开始对每一标记词汇进行读取文本,具体计算公式如下:
Figure DEST_PATH_IMAGE004
其中,T为所述长文本的序列长度, LSTMr(t+1)为使用LSTM网络对编号为t+1的LSTM模块开始反向读取,CNN(t+1)为使用卷积神经网络对编号为t+1的LSTM模块进行卷积,hend为可学习参数,用来判断长文本的序列长度,当编号t的值小于序列长度T,则下文特征为LSTMr(t+1)和CNN(t+1)的融合,当t的值大于序列长度T时,结束上下文特征的识别。
具体的,使用softmax分类函数对所述隐层状态st进行分类操作,得到每一所述第二输入向量的跳过-保留概率分布πt的计算公式如下:
Figure DEST_PATH_IMAGE006
其中,t为所述LSTM模块的编号,st为编号为t的LSTM模块中第二输入向量的隐层特征,W2、b2为可训练参数。
具体的,使用所述二元决策判断是否对所述第二输入向量进行跳过或保留的计算公式表示如下:
Figure DEST_PATH_IMAGE008
公式一A
其中,ht为编号为t的LSTM模块的输出向量,ht-1为编号为t-1的LSTM模块的输出向量,当所述二元决策dt=0时,表示保留所述第二输入向量xt,在编号为t的LSTM模块中将编号为t-1的LSTM模块和所述第二输入向量xt进行融合作为编号为t的LSTM模块的输出向量ht;当所述二元决策dt=1时,则表示跳过所述第二输入向量xt,则将编号为t-1的LSTM模块的输出ht-1作为编号为t的LSTM模块的输出向量ht
具体的,使用Gumbel-softmax采样函数对所述跳过-保留概率分布πt进行采样操作的计算公式如下:
Figure DEST_PATH_IMAGE010
其中,i={1,…,k},k是决策项的数量,τ为温度参数,使用yi将公式一A变为:
Figure DEST_PATH_IMAGE012
在一些实施例中,所述决策网络可以为因子型决策网络,因子型决策网络将关键词作为词嵌入的因素,可从先前的关键词中获得更多的好处,因子型决策网络将关键词信息加入到第二输入向量中。
具体的,所述因子型决策网络对每一所述第二输入向量定义一个关键词向量,将每一所述第二输入向量的关键词向量连接所述第二输入向量,送入所述多层感知机制层进行跳过或保留操作。
且本方案的关键词向量采用多维one-hot向量以捕捉丰富的关键词信息。具体的,定义一个one-hot向量ft,ft=[d0、d1、d2、d3]用来表示所述标记词汇是否为关键词,其中当d0=0时表示对应词汇为单词关键词,当d0=1时表示对应词汇为多词关键词的一部分,此时d1、d2、d3分别表示对应词汇是多词关键词的开始、中间和结束,所述单词关键词表征关键词由单个标记词汇组成,所述多词关键词表征关键词由多个标记词汇组成。
示例性的,当ft=[1、0、1、0]时,表示对应词汇wt是一个多词关键词,且在多词关键词的中间部分。
具体的,可以通过将ft设置为不同的正整数来确定每个关键词的重要程度,例如,当ft>1表示对应关键词更为重要,当ft<1时表示对应关键词不是很重要。
在一具体示例中,关键词向量采用具有相同权重的多维one-hot向量。
具体的,所述因子型决策网络的算法流程图如图2所示,对所述第二输入向量添加关键词向量后结合所述多层感知机制层进行跳过或保留处理,为所述长文本分类预处理模型的跳过预测提供了一个判断依据,保证所述长文本分类预处理模型执行跳过步骤时保证重要关键词被保留,将关键词向量作为跳过预测的一个因素,为跳过预测提供了一个软信号,虽然使用所述因子型决策网络的决策结果作为跳过依据不能保证会保留每个关键词,但是本方案提出的以关键词感知的通过权重优化驱动模型通过认识更多的关键词可以部分解决这个问题。
在一些实施例中,所述决策网络可以为门控型决策网络,可让模型强制保留所有的关键词的同时保持算法网络的可区分性。门控型决策网络将关键词信息整合到跳过预测中。
所述门控型决策网络包括关键词门和决策门,所述关键词门对所述第二输入向量定义一个关键词权重,并使用所述关键词权重判断所述第二输入向量所代表的标记词汇为关键词的概率,所述决策门将所述关键词的概率结合所述多层感知机制层进行跳过或保留操作。所述门控型决策网络的内部结构如图3所示。
具体的,对每一所述第二输入向量设置一个关键词权重,当所述第二输入向量为关键词时,将对应的关键词权重设置为大于1的正整数,当所述第二输入向量为非关键词时,将对应的关键词权重设置为小于-1的负整数,使用分类函数对所述关键词权重进行判断,得到每一所述第二输入向量是关键词的概率,计算公式表示为:
Figure DEST_PATH_IMAGE014
其中,hf(t)为所述第二输入向量为关键词的概率,ft为所述第二输入向量的关键词权重,wt为第二输入向量,C是所述长文本中每一第二输入向量的关键词权重的最小值。
示例性的,可以对每一所述第二输入向量设置不同的关键词权重,以表示每一第二输入向量不同的重要程度。
在一些实施例中,对关键词设定了关键词权重为6,非关键词设定的权重为-6。
具体的,所述决策门将所述关键词概率与公式一A结合,得到公式一B来对所述第二输入向量进行跳过或保留,公式一B为:
Figure DEST_PATH_IMAGE016
公式一B
其中,θ为所述关键词门定义的阈值,在本申请实施例中,可以为0.5。当所述二元决策为0或者所述关键词的概率大于设定阈值时,表示保留所述第二输入向量在编号为t的LSTM模块中将编号为t-1的LSTM模块和所述第二输入向量进行融合作为编号为t的LSTM模块的第一输入向量;当所述二元决策为1时或者所述关键词的概率小于设定阈值时,则跳过所述第二输入向量,则将编号为t-1的LSTM模块的输出作为编号为t的LSTM模块的输出向量。
示例性的,如图4所示,当所述二元决策dt=0或关键词概率大于等于θ时,表示保留所述第二输入向量xt,在编号为t的LSTM模块中将编号为t-1的LSTM模块和所述第二输入向量xt进行融合作为编号为t的LSTM模块的输出向量ht;当所述二元决策dt=1或关键词概率小于0时,则表示跳过所述第二输入向量xt,则将编号为t-1的LSTM模块的输出ht-1作为编号为t的LSTM模块的输出向量ht
具体的,为了对所述长文本分类预处理模型进行训练,要使公式一B具有可导性,将公式一B改写为:
Figure DEST_PATH_IMAGE018
示例性的,当所述关键词门表明第二输入向量xt是一个非关键词时,所述关键词概率hf(t)≈0,则二元决策dt=1,对第二输入向量wt进行跳过处理,则
Figure DEST_PATH_IMAGE020
,也就是说将ht-1复制到ht来跳过xt;当所述关键词门表明第二输入向量xt是一个关键词时,所述关键词概率hf(t)≈1,则二元决策dt=0,对第二输入向量xt进行保留处理,则
Figure DEST_PATH_IMAGE022
,也就是说将ht-1与xt进行融合来对xt进行保留。
在一些实施例中,通过在训练过程中优化长文本分类预处理模型的损失函数以提高长文本分类预处理模型的精度。在所述长文本分类预处理模型的损失函数中添加惩罚项,当所述第二输入向量的跳过率过高时,提高损失函数的损失值进行惩罚。
具体的,对所述损失函数添加惩罚项来控制模型的跳过率,损失函数的计算公式为:
Figure DEST_PATH_IMAGE024
其中,
Figure DEST_PATH_IMAGE026
表示所述长文本分类预处理模型的损失,
Figure DEST_PATH_IMAGE028
表示所述长文本分类预处理模型的分类损失,rt是预先定义的跳过率,r是实际的跳过率,λ为惩罚项的权重,λ>0。
示例性的,给定一组关键词K,使用Kwt表示编号为t的LSTM模块对应的w词汇为关键词,根据所述损失函数的计算公式结合改组关键词K得到新的损失函数计算公式如下:
Figure DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE032
表示预先设定的跳过率和实际跳过率之间的差额,
Figure DEST_PATH_IMAGE034
表示关键词损失并以β>0进行加权处理。
具体的,当所述训练样本中的一个词汇被标记为一个关键词,所述多层感知机制层应该保留该词汇,若所述多层感知机制决定跳过该词汇,则所述长文本分类预处理模型应该接受惩罚,所以,将
Figure 454968DEST_PATH_IMAGE034
定义为:
Figure DEST_PATH_IMAGE036
其中,P为根据所述概率分布计算得出dt=0的概率。
具体的,为了保持所述长文本分类预处理模型的灵活性,以学习和发现对预处理有用的词,在所述多层感知机制层预测到所述训练样本中的词汇保留的概率接近1,或者所述多层感知机制层发现所述训练样本中的词汇为非关键词汇,但仍然决定保留该词汇的情况,则不对其进行惩罚。
示例性的,获取编号为t的LSTM模块中的关键词标记Kwt,如果所述长文本分类预处理模型保留该词汇,即dt=0,则不会发生惩罚;如果所述长文本分类预处理模型跳过该词汇,即dt=1,则进行惩罚,值得一提的是,为了保持模型的灵活性,以学习和发现对预处理任务有用的词,当所述决策网络判断该词汇为非关键词,但是对该词汇进行保留时,不进行惩罚。
在其中一些实施例中,使用本方案改进的LSTM模块与标准LSTM模块使用公共数据集进行了准确率的比对实验,实验结果表明:本方案改进的LSTM模块与标准LSTM模块在准确性上明显优于标准LSTM,同时也能保持快速的处理速度;
本方案改进的LSTM模块与XLNet模型和distilBERT模型相比,不仅仅速度更快,而且在资源优先的情况下,与XLNet和distilBERT相比,也能达到相当的性能。
实施例二
本申请提出一种长文本分类预处理模型,所述长文本分类预处理模型使用实施例一所提到的方法进行构建。
关于该实施例二中同于实施例一的技术特征内容详见实施例一的技术介绍,在此不在进行赘述。
实施例三
本申请实施例提出一种长文本分类预处理方法,包括:
获取至少一待处理长文本,将所述待处理长文本分词后顺序送入所述长文本分类预处理模型中的每一LSTM模块中,所述LSTM模块中的决策网络对每一对应词汇进行关键词的判断后,送入所述多层感知基质层进行跳过或保留,得到仅包含保留词汇的处理后文本。
实施例四
基于相同的构思,参考图5,本申请还提出了一种长文本分类预处理模型的构建装置,包括:
获取模块:获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
构建模块:所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
实施例五
本实施例还提供了一种电子装置,参考图6,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种长文本分类预处理模型的构建方法或任意一种长文本分类预处理方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是训练样本,关键词信息等,输出的信息可以进行预处理后的长文本。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
S102、所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图6中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种长文本分类预处理模型的构建方法,其特征在于,包括以下步骤:
获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
2.根据权利要求1所述的一种长文本分类预处理模型的构建方法,其特征在于,在每一所述LSTM模型的多层感知机制层中使用激活函数对所述第二输入向量进行隐层状态的计算,得到每一所述第二输入向量的隐层状态,所述隐层状态结合分类函数得到每一所述第二输入向量的跳过-保留概率分布,再使用采样函数对每一所述第二输入向量的跳过-保留概率分布进行采样操作,得到每一所述第二输入向量的二元决策。
3.根据权利要求2所述的一种长文本分类预处理模型的构建方法,其特征在于,在多层感知机制层对所述第二输入向量进行隐层状态的计算步骤中,多层感知机制层结合当前LSTM模块之前的前置上下文特征和当前LSTM模块之后的后置上下文特征和所述第二输入向量共同计算隐层状态。
4.根据权利要求1所述的一种长文本分类预处理模型的构建方法,其特征在于,所述决策网络为因子型决策网络,所述因子型决策网络对每一所述第二输入向量定义一个关键词向量,将每一所述第二输入向量的关键词向量连接所述第二输入向量,送入所述多层感知机制层进行跳过或保留操作。
5.根据权利要求4所述的一种长文本分类预处理模型的构建方法,其特征在于,关键词向量采用多维one-hot向量,关键词向量设置为不同的正整数以确定每个关键词的重要程度。
6.根据权利要求2所述的一种长文本分类预处理模型的构建方法,其特征在于,所述决策网络为门控型决策网络,所述门控型决策网络包括关键词门和决策门,所述关键词门对所述第二输入向量定义一个关键词权重,并使用所述关键词权重判断所述第二输入向量所代表的标记词汇为关键词的概率,所述决策门将所述关键词的概率结合所述多层感知机制层进行跳过或保留操作。
7.根据权利要求6所述的一种长文本分类预处理模型的构建方法,其特征在于,当所述二元决策为0或者所述关键词的概率大于设定阈值时,表示保留所述第二输入向量在编号为t的LSTM模块中将编号为t-1的LSTM模块和所述第二输入向量进行融合作为编号为t的LSTM模块的输出向量;当所述二元决策为1时或者所述关键词的概率小于设定阈值时,则跳过所述第二输入向量,则将编号为t-1的LSTM模块的输出作为编号为t的LSTM模块的输出向量。
8.根据权利要求1所述的一种长文本分类预处理模型的构建方法,其特征在于,在所述长文本分类预处理模型的损失函数中添加惩罚项,当所述第二输入向量的跳过率过高时,提高损失函数的损失值进行惩罚。
9.一种长文本分类预处理模型,其特征在于,所述长文本分类预处理模型使用权利要求1-8任一所述的方法进行构建。
10.一种长文本分类预处理方法,其特征在于,包括:
获取至少一待处理长文本,将所述待处理长文本分词后顺序送入所述长文本分类预处理模型中的每一LSTM模块中,所述LSTM模块中的决策网络对每一对应词汇进行关键词的判断后,送入所述多层感知基质层进行跳过或保留,得到仅包含保留词汇的处理后文本。
11.一种长文本分类预处理模型的构建装置,其特征在于,包括:
获取模块:获取至少一长文本作为训练样本,其中每一所述长文本中标记有标记词汇,所述标记词汇中包含关键词的标记,将所述训练样本输入到长文本分类预处理模型中进行训练;
构建模块:所述长文本分类预处理模型采用LSTM框架,所述LSTM框架中包括多个LSTM模块串联组成,每一所述LSTM模块对应一标记词汇,每一所述LSTM模块包括决策网络和多层感知机制层,且每一所述LSTM模块有两个输入和一个输出,两个输入分别为第一输入向量和第二输入向量,第二输入向量为所述LSTM模块对应的标记词汇;首个LSTM模块的第一输入向量为0向量,使用所述决策网络来判断所述第二输入向量是否为关键词,再使用所述多层感知机制层对第二输入向量进行跳过或保留操作,若对所述第二输入向量进行跳过,则该LSTM模块的输出向量依旧为0向量,若对所述第二输入向量进行保留,则将所述第一输入向量和所述第二输入向量进行合并,将合并后的向量作为该LSTM模块的输出向量,将该LSTM模块的输出向量作为下一LSTM模块的第一输入向量进行输入,遍历所有的LSTM模块。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-8任一所述的一种长文本分类预处理模型的构建方法或权利要求10所述的一种长文本分类预处理方法。
13.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-8任一所述的一种长文本分类预处理模型的构建方法或权利要求10所述的一种长文本分类预处理方法。
CN202211506872.6A 2022-11-29 2022-11-29 一种长文本分类预处理模型及其构建方法、装置及应用 Active CN115544259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211506872.6A CN115544259B (zh) 2022-11-29 2022-11-29 一种长文本分类预处理模型及其构建方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211506872.6A CN115544259B (zh) 2022-11-29 2022-11-29 一种长文本分类预处理模型及其构建方法、装置及应用

Publications (2)

Publication Number Publication Date
CN115544259A true CN115544259A (zh) 2022-12-30
CN115544259B CN115544259B (zh) 2023-02-17

Family

ID=84722259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211506872.6A Active CN115544259B (zh) 2022-11-29 2022-11-29 一种长文本分类预处理模型及其构建方法、装置及应用

Country Status (1)

Country Link
CN (1) CN115544259B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018094294A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
US20200380956A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Device text to speech
CN112232231A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 行人属性的识别方法、系统、计算机设备和存储介质
CN113569932A (zh) * 2021-07-18 2021-10-29 湖北工业大学 一种基于文本层级结构的图像描述生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018094294A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
US20200380956A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Device text to speech
CN112232231A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 行人属性的识别方法、系统、计算机设备和存储介质
CN113569932A (zh) * 2021-07-18 2021-10-29 湖北工业大学 一种基于文本层级结构的图像描述生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGHAO DAI: "Research on Rumor Detection Based on Nested LSTM with Multi-Source Loss", 《中国优秀硕士学位论文全文数据库》 *
陶自强: "基于深度学习的多尺度文本分类算法研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN115544259B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
EP3711000B1 (en) Regularized neural network architecture search
KR102444457B1 (ko) 단어 그래프를 이용한 대화의 요약 생성 방법
CN113222139A (zh) 神经网络训练方法和装置、设备,及计算机存储介质
CN116110234B (zh) 基于人工智能的车流量预测方法、装置及其应用
WO2023279674A1 (en) Memory-augmented graph convolutional neural networks
CN116594748A (zh) 针对任务的模型定制处理方法、装置、设备和介质
CN112765415A (zh) 基于关系内容联合嵌入卷积神经网络的链路预测方法
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及系统
CN114579739B (zh) 文本数据流的话题检测与追踪方法
US11914672B2 (en) Method of neural architecture search using continuous action reinforcement learning
CN115544259B (zh) 一种长文本分类预处理模型及其构建方法、装置及应用
CN116306606A (zh) 一种基于增量学习的金融合同条款提取方法和系统
CN114881003A (zh) 一种文本相似度识别方法、装置及应用
CN115438658A (zh) 一种实体识别方法、识别模型的训练方法和相关装置
CN114298290A (zh) 一种基于自监督学习的神经网络编码方法及编码器
CN115048530A (zh) 融合邻居重要度和特征学习的图卷积推荐系统
CN114153976A (zh) 基于社交媒体数据的交通事件分类方法、系统及介质
CN113190662A (zh) 基于篇章结构图网络的话题分割方法
CN112487191A (zh) 基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置
CN113139624A (zh) 基于机器学习的网络用户分类方法
CN111552827A (zh) 标注方法和装置、行为意愿预测模型训练方法和装置
CN111078882A (zh) 一种文本情感测量方法和装置
CN112085040A (zh) 对象标签确定方法、装置和计算机设备
CN116737607B (zh) 样本数据缓存方法、系统、计算机设备和存储介质
CN116821512B (zh) 推荐模型训练方法及装置、推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant