CN109783794A - 文本分类方法及装置 - Google Patents

文本分类方法及装置 Download PDF

Info

Publication number
CN109783794A
CN109783794A CN201711120063.0A CN201711120063A CN109783794A CN 109783794 A CN109783794 A CN 109783794A CN 201711120063 A CN201711120063 A CN 201711120063A CN 109783794 A CN109783794 A CN 109783794A
Authority
CN
China
Prior art keywords
sentence
text
sorted
vector
summary info
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711120063.0A
Other languages
English (en)
Inventor
贾丹丹
张明明
张丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201711120063.0A priority Critical patent/CN109783794A/zh
Publication of CN109783794A publication Critical patent/CN109783794A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文本分类方法及装置。本发明实施例通过根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量,根据每个句子的句子向量,确定每个句子的重要性评价参数,根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息,然后对摘要信息利用LSTM网络进行分类代替直接对长文本进行分类,减少了计算量,避免了将长文本截取成短文本带来的语义信息缺失的问题。实现了高效准确地对长文本进行分类的方法。

Description

文本分类方法及装置
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种文本分类方法及装置。
背景技术
随着科技的进步,互联网已经成了人们生活中不可或缺的一部分。在当今信息爆炸的时代,网络上每天都会产生大量的微博,新闻等文本数据,文本数据的挖掘越来越被人们所需要,挖掘文本中有价值的信息可以帮助决策者更好地做出决策。文本分类是文本挖掘技术的基础,它被广泛地应用在垃圾过滤,新闻分类,词性标注等问题中。
随着深度学习技术的发展,神经网络在文本分类中的应用逐渐成熟。循环神经网络(RNN)是一种重要的神经网络结构,在语音识别,机器翻译及预测、处理序列数据等方面有着广泛的应用。
目前基于循环神经网络的长文本分类方法,一种是将长文本截取成固定长度的短文本进行分类,不能充分体现文本的语义信息;另一种是基于窗口的方法,大大增加了计算量。因此现有技术中缺乏一种高效准确地对长文本进行分类的方法。
发明内容
本发明实施例提供一种文本分类方法及装置,以实现一种高效准确地对长文本进行分类的方法。
本发明实施例的一个方面是提供一种文本分类方法,包括:
根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量;
根据每个句子的句子向量,确定每个句子的重要性评价参数;
根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息;
根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
本发明实施例的另一个方面是提供一种文本分类装置,包括:
确定模块,用于根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量;根据每个句子的句子向量,确定每个句子的重要性评价参数;根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息;
分类模块,用于根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
本发明实施例提供的文本分类方法及装置,通过根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量,根据每个句子的句子向量,确定每个句子的重要性评价参数,根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息,然后对摘要信息利用LSTM网络进行分类代替直接对长文本进行分类,减少了计算量,避免了将长文本截取成短文本带来的语义信息缺失的问题。实现了高效准确地对长文本进行分类的方法。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明实施例提供的文本分类方法流程图;
图2为本发明实施例提供的LSTM神经元的示意图;
图3为本发明另一实施例提供的文本分类方法流程图;
图4为本发明另一实施例提供的文本分类方法流程图;
图5为本发明实施例提供的文本分类装置的结构图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明实施例提供的文本分类方法流程图。本发明实施例针对现有技术的如上技术问题,提供了文本分类方法,该方法具体步骤如下:
步骤101、根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量。
本实施例在对待分类文本进行分类之前,可以去除待分类文本中的特殊符号,如微博的转发符号、表情符号、视频图片链接等,并以句子为单位对待分类文本C进行切分C=[v1,...vs],其中,s表示对待分类文本C进行切分后的句子的个数。
对待分类文本C进行切分后的句子利用CRF方法进行分词,并将每个分词表示成词向量。其中,利用CRF方法对句子进行分词的过程为:将训练语料中的分词根据分词在句子中的位置,对分词进行如下标记处理:用B表示词首,E表示词尾,M表示词中,S表示单字词,将标记处理后的分词作为CRF模型的输入,通过训练CRF模型得到最终的分词结果,即每个分词的词向量。
例如,句子V中包括n个分词,n个分词中每个分词的词向量分别为w1,w2,…,wn,则句子V的句子向量可以是w1,w2,…,wn的平均值。句子V的句子向量记为Va,则Va=(w1+w2+…+wn)/n。可以理解,待分类文本C包括多个句子,每个句子的句子向量的计算方法同理于此,此处不一一赘述。
步骤102、根据每个句子的句子向量,确定每个句子的重要性评价参数。
根据不同句子的句子向量,可计算出不同句子之间的相似度,例如,Vi表示待分类文本C中第i个句子的句子向量,Vj表示待分类文本C中第j个句子的句子向量。根据Vi和Vj可计算出第i个句子和第j个句子相似度,进一步的,根据不同句子之间的相似度,可计算出每个句子的重要性评价参数。
步骤103、根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息。
具体的,可以将重要性评价参数大于预设值的句子作为所述待分类文本的摘要信息。
步骤104、根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
具体的,采用长短期记忆网络(Long Short-Term Memory,简称LSTM)对待分类文本的摘要信息进行分类,从而根据待分类文本的摘要信息的分类,确定待分类文本的分类。
本实施例采用长短期记忆网络(Long Short-Term Memory,简称LSTM)。当遇到复杂的语言环境时,当前文本对此前出现的文本依赖情况不同,有价值的信息间隔长短不一,这时长短期记忆网络比一般的循环神经网络效果更好。LSTM通过输入门,遗忘门,输出门,使此前的信息有选择地影响当前的状态。
LSTM神经元的示意图如图2所示,其中,遗忘门的作用是使神经网络忘记前面没有参考价值的信息,它由t时刻的输入、t-1时刻的状态和t-1时刻的输出共同决定。输入门的作用则是向t时刻补充最新的信息。输出门会根据t时刻最新的状态、t-1时刻的输出和t时刻的输入来决定t时刻的输出。
单个LSTM神经元具体的计算过程如下:
输入门的激活函数可表示为如下公式(1):
it=σ(wixt+Uiht-1+bi) (1)
t时刻状态的预备函数可表示为如下公式(2):
ft=σ(wfxt+Ufht-1+bf) (2)
遗忘门激活函数可表示为如下公式(3):
ft=σ(wfxt+Ufht-1+bf) (3)
t时刻的状态可表示为如下公式(4):
最终得到t时刻的输出,表示为如下公式(5)和(6):
ht=Ot*tanh(Ct) (5)
Ot=σ(w0xt+U0ht-1+b0) (6)
其中,xt表示当前t时刻的输入,ht-1表示t-1时刻的输出,Ct-1表示t-1时刻的状态,wi、w0、wf、wc、Uf、Uc、Ui、U0表示权值矩阵,b0、bf、bc、bi表示偏置,σ、tanh表示激活函数。
该步骤可根据实际需要设置多个LSTM隐含层,每层的输出作为下一层的输入。注意,同一层的LSTM单元之间,将前一时刻的输出作为下一时刻的输入。将LSTM层的输出经过平均池化减少数据量。全连接层选择softmax函数作为激活函数,得到文本摘要属于每个类的概率,根据概率值的大小确定文本属于哪一类。
本发明实施例通过根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量,根据每个句子的句子向量,确定每个句子的重要性评价参数,根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息,然后对摘要信息利用LSTM网络进行分类代替直接对长文本进行分类,减少了计算量,避免了将长文本截取成短文本带来的语义信息缺失的问题。实现了高效准确地对长文本进行分类的方法。
图3为本发明另一实施例提供的文本分类方法流程图。在上述实施例的基础上,该方法具体步骤如下:
步骤301、根据待分类文本中每个句子中的分词在所述待分类文本中的上下文语境,确定所述分词的词向量,所述分词的词向量为所述分词的分布式表示。
本实施例利用CBOW神经网络语言模型训练得到词的分布式表示:本发明采用分布式表示(Distributed Representation)来表示词向量,利用CBOW神经网络模型,无需人工标注,从大量未标记的语料中无监督地学习出词语的分布式表示。该模型的主要思想是根据当前词的上下文语境,计算得到当前词语,最终得到词的分布式表示。可选的,CBOW神经网络模型具体分为以下几层:
查找层:随机初始化列向量F1,F2,…,Fv,其中,v表示句子的长度,Fi表示初始词向量。
输入层:将当前词t上下文语境中的c个列向量进行首尾拼接组成特征向量x,并把该特征向量x作为神经网络的输入。
隐藏层:z=tanh(Hx+d),其中,H表示权值矩阵,d表示偏置,tanh表示激活函数。
输出层:softmax(Wz+b)=p(Ft\Fc),其中,W表示权值矩阵,b表示偏置,其中,第i个输出值为p(Ft\Fc),表示当前词语的特征为Fi的概率。
对于每一个训练样本模型的目标是最大化p(Ft\Fc),最终获得词的分布式表示。
分布式表示方法相比独热(one-hot representation)方法,避免了词典特别大的时候带来的维数灾难,同时很好地表示了词的语义信息,将词表示成长度相对短的向量,将每个词向量看作词向量空间的一个点,这样可以根据距离公式计算词的相似性。
步骤302、根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量。
步骤302与步骤102的具体原理和实现方式均一致,此处不再赘述。
步骤303、根据每个句子的句子向量,确定不同句子之间的相似度。
根据不同句子的句子向量,可计算出不同句子之间的相似度,例如,Vi表示待分类文本C中第i个句子的句子向量,Vj表示待分类文本C中第j个句子的句子向量。根据Vi和Vj可计算出第i个句子和第j个句子之间的相似度,第i个句子和第j个句子之间的相似度wij可表示为如下公式(7):
步骤304、根据不同句子之间的相似度,确定每个句子的重要性评价参数。
例如,第i个句子的重要性评价参数记为WS(Vi),WS(Vi)可通过如下公式(8)确定:
其中,所有句子的初始分数取为1,d表示阻尼常数,(0<d<1),通常取d=0.85。
In(Vi)表示与句子Vi相似度大于0的句子集合。
Out(Vj)表示与句子Vj相似度大于0的句子集合。
wij表示第i个句子和第j个句子之间的相似度。
依次迭代计算每个句子的分数,直到分数不再变化为止。
步骤305、根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息。
具体的,可以将重要性评价参数大于预设值的句子作为所述待分类文本的摘要信息。
步骤306、根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
对于上述步骤得到的待分类文本的摘要信息,可利用LSTM对该摘要信息分类,可以理解,该摘要信息的分类为该待分类文本的分类。下面详细介绍利用LSTM对该摘要信息分类的过程。
分词:对待分类文本的摘要信息使用CRF++分词工具进行分词。
分词的向量表示:根据CBOW模型得到的分词的分布式表示,将分词后的文本摘要中每个词用词向量表示得到[v1,v2,...,vm],其中vi为词向量,m为摘要信息的长度。
LSTM层:如图2所示的LSTM神经元,根据实际需要设置多个LSTM隐含层,每层的输出作为下一层的输入。注意,同一层的LSTM单元之间,将前一时刻的输出作为下一时刻的输入。
平均池化层:将LSTM层的输出经过平均池化减少数据量。
全连接层:全连接层选择softmax函数作为激活函数,得到文本摘要属于每个类的概率,根据概率值的大小确定文本属于哪一类。
本实施例采用CRF分词方法,克服了HMM独立性假设及最大熵模型标记偏见的问题;利用CBOW模型及深度学习技术无监督地训练词向量模型,真实地体现了词的语义信息,同时无监督的训练方式大大减轻了人工标注的工作量;采用LSTM文本分类方法,克服了标准循环神经网络的梯度消失和梯度爆炸问题。
图4为本发明另一实施例提供的文本分类方法流程图。在上述实施例的基础上,该方法具体步骤如下:
步骤401、根据待分类文本中每个句子中的分词在所述待分类文本中的上下文语境,确定所述分词的词向量,所述分词的词向量为所述分词的分布式表示。
步骤401与步骤301的具体实现方式和原理一致,此处不再赘述。
步骤402、根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量。
步骤402与步骤302的具体实现方式和原理一致,此处不再赘述。
步骤403、根据每个句子的句子向量,确定不同句子之间的相似度。
步骤403和与步骤303的具体实现方式和原理一致,此处不再赘述。
步骤404、根据不同句子之间的相似度,确定每个句子的重要性评价参数。
步骤404和与步骤304的具体实现方式和原理一致,此处不再赘述。
步骤405、将重要性评价参数大于预设值的句子作为所述待分类文本的摘要信息。
步骤406、采用LSTM对所述待分类文本的摘要信息进行分类。
对于上述步骤得到的待分类文本的摘要信息,可利用LSTM对该摘要信息分类。利用LSTM对该摘要信息分类的过程具体如上述实施例所述的过程,此处不再赘述。
步骤407、根据所述摘要信息的分类确定所述待分类文本的分类。
可以理解,该摘要信息的分类为该待分类文本的分类。
本实施例采用CRF分词方法,克服了HMM独立性假设及最大熵模型标记偏见的问题;利用CBOW模型及深度学习技术无监督地训练词向量模型,真实地体现了词的语义信息,同时无监督的训练方式大大减轻了人工标注的工作量;采用LSTM文本分类方法,克服了标准循环神经网络的梯度消失和梯度爆炸问题。
图5为本发明实施例提供的文本分类装置的结构图。本发明实施例提供的文本分类装置可以执行文本分类方法实施例提供的处理流程,如图5所示,文本分类装置50包括:确定模块51和分类模块52;其中,确定模块51用于根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量;根据每个句子的句子向量,确定每个句子的重要性评价参数;根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息;分类模块52用于根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
本发明实施例提供的文本分类装置可以具体用于执行上述图1所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量,根据每个句子的句子向量,确定每个句子的重要性评价参数,根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息,然后对摘要信息利用LSTM网络进行分类代替直接对长文本进行分类,减少了计算量,避免了将长文本截取成短文本带来的语义信息缺失的问题。实现了高效准确地对长文本进行分类的方法。
在上述实施例的基础上,确定模块51根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量之前,还用于:根据待分类文本中每个句子中的分词在所述待分类文本中的上下文语境,确定所述分词的词向量,所述分词的词向量为所述分词的分布式表示。
可选的,确定模块51根据每个句子的句子向量,确定每个句子的重要性评价参数时,具体用于:根据每个句子的句子向量,确定不同句子之间的相似度;根据不同句子之间的相似度,确定每个句子的重要性评价参数。
可选的,确定模块51根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息时,具体用于:将重要性评价参数大于预设值的句子作为所述待分类文本的摘要信息。
可选的,分类模块52根据所述待分类文本的摘要信息,对所述待分类文本进行分类时,具体用于:采用LSTM对所述待分类文本的摘要信息进行分类;根据所述摘要信息的分类确定所述待分类文本的分类。
本发明实施例提供的文本分类装置可以具体用于执行上述图3或图4所提供的方法实施例,具体功能此处不再赘述。
本发明实施例采用CRF分词方法,克服了HMM独立性假设及最大熵模型标记偏见的问题;利用CBOW模型及深度学习技术无监督地训练词向量模型,真实地体现了词的语义信息,同时无监督的训练方式大大减轻了人工标注的工作量;采用LSTM文本分类方法,克服了标准循环神经网络的梯度消失和梯度爆炸问题。
综上所述,本发明实施例通过根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量,根据每个句子的句子向量,确定每个句子的重要性评价参数,根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息,然后对摘要信息利用LSTM网络进行分类代替直接对长文本进行分类,减少了计算量,避免了将长文本截取成短文本带来的语义信息缺失的问题。实现了高效准确地对长文本进行分类的方法;采用CRF分词方法,克服了HMM独立性假设及最大熵模型标记偏见的问题;利用CBOW模型及深度学习技术无监督地训练词向量模型,真实地体现了词的语义信息,同时无监督的训练方式大大减轻了人工标注的工作量;采用LSTM文本分类方法,克服了标准循环神经网络的梯度消失和梯度爆炸问题。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量;
根据每个句子的句子向量,确定每个句子的重要性评价参数;
根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息;
根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量之前,还包括:
根据待分类文本中每个句子中的分词在所述待分类文本中的上下文语境,确定所述分词的词向量,所述分词的词向量为所述分词的分布式表示。
3.根据权利要求2所述的方法,其特征在于,所述根据每个句子的句子向量,确定每个句子的重要性评价参数,包括:
根据每个句子的句子向量,确定不同句子之间的相似度;
根据不同句子之间的相似度,确定每个句子的重要性评价参数。
4.根据权利要求3所述的方法,其特征在于,所述根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息,包括:
将重要性评价参数大于预设值的句子作为所述待分类文本的摘要信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待分类文本的摘要信息,对所述待分类文本进行分类,包括:
采用LSTM对所述待分类文本的摘要信息进行分类;
根据所述摘要信息的分类确定所述待分类文本的分类。
6.一种文本分类装置,其特征在于,包括:
确定模块,用于根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量;根据每个句子的句子向量,确定每个句子的重要性评价参数;根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息;
分类模块,用于根据所述待分类文本的摘要信息,对所述待分类文本进行分类。
7.根据权利要求6所述的文本分类装置,其特征在于,所述确定模块根据待分类文本中每个句子中的分词的词向量,确定每个句子的句子向量之前,还用于:根据待分类文本中每个句子中的分词在所述待分类文本中的上下文语境,确定所述分词的词向量,所述分词的词向量为所述分词的分布式表示。
8.根据权利要求7所述的文本分类装置,其特征在于,所述确定模块根据每个句子的句子向量,确定每个句子的重要性评价参数时,具体用于:
根据每个句子的句子向量,确定不同句子之间的相似度;
根据不同句子之间的相似度,确定每个句子的重要性评价参数。
9.根据权利要求8所述的文本分类装置,其特征在于,所述确定模块根据每个句子的重要性评价参数,确定所述待分类文本的摘要信息时,具体用于:
将重要性评价参数大于预设值的句子作为所述待分类文本的摘要信息。
10.根据权利要求9所述的文本分类装置,其特征在于,所述分类模块根据所述待分类文本的摘要信息,对所述待分类文本进行分类时,具体用于:
采用LSTM对所述待分类文本的摘要信息进行分类;
根据所述摘要信息的分类确定所述待分类文本的分类。
CN201711120063.0A 2017-11-14 2017-11-14 文本分类方法及装置 Pending CN109783794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711120063.0A CN109783794A (zh) 2017-11-14 2017-11-14 文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711120063.0A CN109783794A (zh) 2017-11-14 2017-11-14 文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN109783794A true CN109783794A (zh) 2019-05-21

Family

ID=66493366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711120063.0A Pending CN109783794A (zh) 2017-11-14 2017-11-14 文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN109783794A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110457674A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种主题指导的文本预测方法
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111680493A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 英语文本分析方法、装置、可读存储介质及计算机设备
WO2021012485A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质
CN112784052A (zh) * 2021-03-15 2021-05-11 中国平安人寿保险股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN112989049A (zh) * 2021-03-30 2021-06-18 广东工业大学 一种小样本文本分类方法、装置、计算机设备和存储介质
WO2021128342A1 (zh) * 2019-12-27 2021-07-01 西门子(中国)有限公司 文档处理的方法和装置
US11455527B2 (en) 2019-06-14 2022-09-27 International Business Machines Corporation Classification of sparsely labeled text documents while preserving semantics
CN116049385A (zh) * 2023-04-03 2023-05-02 北京太极信息系统技术有限公司 一种生成信创产业研究报告的方法、装置和设备及平台

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060117052A1 (en) * 2000-08-24 2006-06-01 Content Analyst Company, Llc Word sense disambiguation
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060117052A1 (en) * 2000-08-24 2006-06-01 Content Analyst Company, Llc Word sense disambiguation
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
万圣贤,等: "用于文本分类的局部化双向长短时记忆", 《中文信息学报》 *
余珊珊,等: "基于改进的TextRank的自动摘要提取方法", 《计算机科学》 *
江大鹏: "基于词向量的短义本分类方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
王萌,等: "基于HowNet概念获取的中文自动文摘系统", 《中文信息学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
US11455527B2 (en) 2019-06-14 2022-09-27 International Business Machines Corporation Classification of sparsely labeled text documents while preserving semantics
CN110457674A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种主题指导的文本预测方法
CN110457674B (zh) * 2019-06-25 2021-05-14 西安电子科技大学 一种主题指导的文本预测方法
WO2021012485A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
WO2021128342A1 (zh) * 2019-12-27 2021-07-01 西门子(中国)有限公司 文档处理的方法和装置
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111241267B (zh) * 2020-01-10 2022-12-06 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111680493A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 英语文本分析方法、装置、可读存储介质及计算机设备
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质
CN112784052A (zh) * 2021-03-15 2021-05-11 中国平安人寿保险股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN112784052B (zh) * 2021-03-15 2024-09-20 中国平安人寿保险股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN112989049A (zh) * 2021-03-30 2021-06-18 广东工业大学 一种小样本文本分类方法、装置、计算机设备和存储介质
CN116049385A (zh) * 2023-04-03 2023-05-02 北京太极信息系统技术有限公司 一种生成信创产业研究报告的方法、装置和设备及平台

Similar Documents

Publication Publication Date Title
CN109783794A (zh) 文本分类方法及装置
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及系统
Mao et al. Explain images with multimodal recurrent neural networks
Srivastava et al. Modeling documents with deep boltzmann machines
CN109597891A (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN107609009A (zh) 文本情感分析方法、装置、存储介质和计算机设备
CN110019843A (zh) 知识图谱的处理方法及装置
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN107608956A (zh) 一种基于cnn‑grnn的读者情绪分布预测算法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN107909115B (zh) 一种图像中文字幕生成方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
Anupriya et al. LDA based topic modeling of journal abstracts
CN107704558A (zh) 一种用户意见抽取方法及系统
CN109800413A (zh) 新闻事件的识别方法、装置、设备及可读存储介质
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN108062421A (zh) 一种大规模图片多尺度语义检索方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
Lian et al. Unsupervised representation learning with future observation prediction for speech emotion recognition
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法
Gao et al. SetConv: A new approach for learning from imbalanced data
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521