CN108628868A - 文本分类方法和装置 - Google Patents

文本分类方法和装置 Download PDF

Info

Publication number
CN108628868A
CN108628868A CN201710156443.3A CN201710156443A CN108628868A CN 108628868 A CN108628868 A CN 108628868A CN 201710156443 A CN201710156443 A CN 201710156443A CN 108628868 A CN108628868 A CN 108628868A
Authority
CN
China
Prior art keywords
term vector
neural network
text
computing module
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710156443.3A
Other languages
English (en)
Other versions
CN108628868B (zh
Inventor
王青泽
王永亮
陈标龙
翁志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710156443.3A priority Critical patent/CN108628868B/zh
Publication of CN108628868A publication Critical patent/CN108628868A/zh
Application granted granted Critical
Publication of CN108628868B publication Critical patent/CN108628868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种文本分类方法和装置,涉及文本挖掘技术领域。其中,本发明的一种文本分类方法包括:将待分类文本输入词向量计算模块,获取词向量;将词向量输入神经网络,获取输出编码;通过分类模块处理输出编码,获取文本分类结果,其中,词向量计算模块和神经网络通过一体化训练生成。通过这样的方法,能够采用一体化训练而成的词向量计算模块和神经网络生成输出编码,这样的词向量计算模块和神经网络有更好的配合度,采用这样的输出编码进行分类处理能够提高文本分类的准确性。

Description

文本分类方法和装置
技术领域
本发明涉及文本挖掘技术领域,特别是一种文本分类方法和装置。
背景技术
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说,情感分析的目的是为了找出说话者或作者在某些话题上或者针对一个文本两极的观点和态度。这个态度或许是个人的判断或评估,也许是当时的情绪状态,或是想要读者所体验的情绪等。
现有的文本情感分析的途径大致可以集合成四类:关键词识别、词汇关联、统计方法和概念级技术。关键词识别是利用文本中出现的清楚定义的影响词(Affect Words),例如“开心”、“难过”、“伤心”、“害怕”、“无聊”等等,来影响分类。词汇关联除了侦查影响词以外,还附于词汇一个和某项情绪的“关联”值。统计方法通过调控机器学习中的元素,比如潜在语意分析(Latent Semantic Analysis),SVM(Support Vector Machines,支持向量机),词袋(Bag of Words),等等。一些更智能的方法意在探测出情感持有者和情感目标。要想挖掘在某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。与单纯的语义技术不同的是,概念级的算法思路权衡了知识表达的元素,比如知识本体、语意网络,因此这种算法也可以探查到文字间比较微妙的情绪表达,例如,分析一些没有明确表达相关信息的概念,但是通过他们对于明确概念的不明显联系来获取所求信息。
目前,比较流行的方法是潜在语意分析、SVM以及词袋。但是,这些方法无法获得文本“完整”的上下文信息。以词袋模型为例,该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。但是,由于一个句子中每个词都是有着相互作用,互相修饰才能完整表达一句话的意思,因此现有文本分析的准确度较为有限。
发明内容
本发明的一个目的在于提高文本分析的准确性。
根据本发明的一个实施例,提出一种文本分类方法,包括:将待分类文本输入词向量计算模块,获取词向量;将词向量输入神经网络,获取输出编码;通过分类模块处理输出编码,获取文本分类结果,其中,词向量计算模块和神经网络通过一体化训练生成。
可选地,词向量计算模块和神经网络通过一体化训练生成包括:将训练文本输入待训练的词向量计算模块;待训练的词向量计算模块将生成的词向量输入待训练的神经网络;通过后验算法调整待训练的神经网络的参数,生成神经网络。
可选地,后验算法包括反向传播算法。
可选地,神经网络包括LSTM(Long Short-Term Memory,长短期记忆)模块;通过分类模块处理输出编码,获取文本分类结果包括:通过分类模块处理LSTM模块最后一个单元的输出编码,获取文本分类结果。
可选地,神经网络包括LSTM模块;文本分类方法还包括:获取LSTM模块各个单元的输出编码,确定输出编码平均值;通过分类模块处理输出编码,获取文本分类结果包括:分类模块处理输出编码平均值,获取文本分类结果。
可选地,分类模块包括Softmax回归计算模块。
可选地,待分类文本包括:用户评价文本和/或商品介绍文本。
可选地,文本分类结果包括:用户满意程度分类、服务质量分类、产品质量分类和/或产品敏感词分类。
通过这样的方法,能够采用一体化训练而成的词向量计算模块和神经网络生成输出编码,这样的词向量计算模块和神经网络有更好的配合度,采用这样的输出编码进行分类处理能够提高文本分类的准确性。
根据本发明的另一个实施例,提出一种文本分类方法,包括:将训练文本输入待训练的词向量计算模块;待训练的词向量计算模块将生成的词向量输入待训练的神经网络;通过后验算法调整待训练的神经网络的参数,生成神经网络。
可选地,还包括:将待分类文本输入词向量计算模块,获取词向量;将词向量输入神经网络,获取输出编码;通过分类模块处理输出编码,获取文本分类结果。
可选地,神经网络包括LSTM模块。
可选地,分类模块包括Softmax回归计算模块。
可选地,后验算法包括反向传播算法。
通过这样的方法,能够采用一体化训练的方式训练并生成词向量计算模块和神经网络,使词向量计算模块和神经网络更加符合当前环境下的使用需求,从而提高文本分类的准确性。
根据本发明的又一个实施例,提出一种文本分类装置,包括:词向量计算模块,用于接收待分类文本,生成词向量;神经网络,用于获取来自词向量计算模块的词向量,生成输出编码,其中,词向量计算模块和神经网络通过一体化训练生成;分类模块,用于处理输出编码,获取文本分类结果。
可选地,还包括:训练模块,用于通过一体化训练生成词向量计算模块和神经网络,具体包括:训练文本输入单元,用于将训练文本输入待训练的词向量计算模块,待训练的词向量计算模块将生成的词向量输入待训练的神经网络;参数调整单元,用于通过后验算法调整待训练的神经网络的参数,生成神经网络。
可选地,后验算法包括反向传播算法。
可选地,神经网络包括LSTM模块;分类模块具体用于处理LSTM模块最后一个单元的输出编码,获取文本分类结果;
可选地,神经网络包括LSTM模块;文本分类装置还包括:平均值确定模块,用于获取LSTM模块各个单元的输出编码,确定输出编码平均值;分类模块具体用于处理输出编码平均值,获取文本分类结果。
可选地,分类模块包括Softmax回归计算模块。
可选地,待分类文本包括:用户评价文本和/或商品介绍文本。
可选地,文本分类结果包括:用户满意程度分类、服务质量分类、产品质量分类和/或产品敏感词分类。
这样的装置能够采用一体化训练而成的词向量计算模块和神经网络生成输出编码,这样的词向量计算模块和神经网络有更好的配合度,采用这样的输出编码进行分类处理能够提高文本分类的准确性。
根据本发明的再一个实施例,提出一种文本分类装置,包括:训练文本输入单元,用于将训练文本输入待训练的词向量计算模块;待训练的词向量计算模块将生成的词向量输入待训练的神经网络;参数调整单元,用于通过后验算法调整待训练的神经网络的参数,生成神经网络。
可选地,还包括:词向量计算模块,用于接收待分类文本,生成词向量;神经网络,用于获取来自词向量计算模块的词向量,生成输出编码;分类模块,用于处理输出编码,获取文本分类结果。
可选地,神经网络包括LSTM模块。
可选地,分类模块包括Softmax回归计算模块。
可选地,后验算法包括反向传播算法。
这样的装置能够采用一体化训练的方式训练并生成词向量计算模块和神经网络,使词向量计算模块和神经网络有更好的配合度,从而提高文本分类的准确性。
根据本发明其中一个实施例,提出一种文本分类装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种文本分类方法。
这样的装置能够采用一体化训练的方式训练并生成词向量计算模块和神经网络,并采用这样的词向量计算模块和神经网络生成输出编码,由于词向量计算模块和神经网络有更好的配合度,从而能够提高文本分类的准确性。
另外,根据本发明的一个实施例,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种文本分类方法的步骤。
这样的计算机存储介质采用有配合度更好的词向量计算模块和神经网络输出编码并进行文本分类,能够提高文本分类的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的文本分类方法的一个实施例的流程图。
图2为本发明的文本分类方法的另一个实施例的流程图。
图3为本发明的文本分类方法的又一个实施例的流程图。
图4为本发明的文本分类方法的再一个实施例的流程图。
图5为本发明的文本分类装置的一个实施例的示意图。
图6为本发明的文本分类装置的另一个实施例的示意图。
图7为本发明的文本分类装置的又一个实施例的示意图。
图8为本发明的文本分类装置的再一个实施例的示意图。
图9为本发明的文本分类装置的另外一个实施例的示意图。
图10为本发明的文本分类装置的其中一个实施例的示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明的文本分类方法的一个实施例的流程图如图1所示。
在步骤101中,将待分类文本输入词向量计算模块,获取词向量。在一个实施例中,可以采用Embedding将输入的待分类文本转化为词向量。
在步骤102中,将词向量输入神经网络,获取输出编码,其中,词向量计算模块和神经网络通过一体化训练生成,即将待训练的词向量计算模块与待训练的神经网络信号连接,将训练文本输入词向量计算模块,从神经网络的输出端获取输出编码,并对神经网络进行参数调整,得到词向量计算模块和神经网络。
在步骤103中,通过分类模块处理输出编码,获取文本分类结果。在一个实施例中,神经网络可以为LSTM模块,分类模块可以获取LSTM模块最后一个单元的输出编码并进行回归计算,得到文本分类结果。在一个实施例中,分类模块可以为Softmax回归分类模块。
在现有技术中,往往采用与神经网络分别训练的word2vec生成输入神经网络的词向量,一方面若采用的训练文本不同,则会导致word2vec中的词向量库不符合当前的应用场景,另一方面,即使针对特定的应用场景对神经网络和word2vec采用相同的训练文本进行训练,在对神经网络的参数调整过程中也不能体现生成的词向量对神经网络的影响,因此在应用过程中,两者的配合效果并不好。
通过本发明上述实施例中的方法,能够采用一体化训练而成的词向量计算模块和神经网络生成输出编码,这样的词向量计算模块和神经网络有更好的配合度,采用这样的输出编码进行分类处理能够提高文本分类的准确性。
在一个实施例中,神经网络可以为LSTM模块。LSTM模块包括多个单元,每个单元均可以有输出编码。在一个实施例中,LSTM模块会以句子为单位进行处理,每个单元会对每个句子生成一个输出编码。由于LSTM层能够对时间上的特征进行整合,能够体现上下文间的关系,因此能够更好的理解上下文,采用LSTM层输出的编码进行分类能够提高分类的准确度。
在一个实施例中,词向量计算模块可以被设计成一个查找表的形式,实现计算文本词向量的功能。可以将词向量计算模块理解成一个n*m的矩阵,其中n为字典中词的个数,m为每个词的维数,即以多大的维度表示一个词。例如,对于一个300*1014的查找表矩阵,可以理解为词典中有300个词,每个词用1000个实数(向量)来表示。这种表示的好处在于,在语义上比较接近的词,它们的词向量表示的距离也很相近,实例化到坐标系中,会发现这两个词向量对应的点比较近。当向模型中输入句子时(句子被表示成词对应的索引),从查找表中找到句子中每个词对应的词向量,实现文本与向量之间的转换。
本发明的文本分类方法的另一个实施例的流程图如图2所示。
在步骤201中,将待分类文本输入词向量计算模块,获取词向量。在一个实施例中,可以采用Embedding将输入的待分类文本转化为词向量。
在步骤202中,将词向量输入神经网络,获取输出编码,其中,词向量计算模块和神经网络通过一体化训练生成,神经网络可以为LSTM模块。LSTM模块包括多个单元,每个单元均可以有输出编码。在每一个时刻,单元会决定将哪些信息保留,哪些信息丢弃。比如某些场景下,性别信息对讨论内容帮助不是很大,在不断地训练当中LSTM就会选择忘记这项信息。最终LSTM模块输出了对输入信息的一种编码,这种编码保留主要信息,忽略次要信息。
在步骤203中,获取LSTM模块各个单元的输出编码并取均值,确定输出编码平均值。
在步骤204中,分类模块处理输出编码平均值,获取文本分类结果。
在实际应用中我们发现,采用LSTM模块各个单元的输出编码均值作为分类模块的输入能够进一步提高文本分类的准确性,提高文本分类效果。
本发明的文本分类方法的又一个实施例的流程图如图3所示。
在步骤301中,通过一体化训练生成词向量计算模块和神经网络,即将待训练的词向量计算模块与待训练的神经网络信号连接,将训练文本输入词向量计算模块,从神经网络的输出端获取输出编码,并对神经网络进行参数调整,得到词向量计算模块和神经网络。在一个实施例中,为了使词向量计算模块和神经网络更加符合应用场景,输入的训练文本需要为与应用场景相同场景下的文本。
在步骤302中,将待分类文本输入词向量计算模块,获取词向量。在一个实施例中,可以采用Embedding将输入的待分类文本转化为词向量。
在步骤303中,将词向量输入神经网络,获取输出编码。
在步骤304中,通过分类模块处理输出编码,获取文本分类结果。
通过这样的方法,能够采用一体化训练的方式训练并生成词向量计算模块和神经网络,使词向量计算模块和神经网络具有更好的配合度,同时采用与应用场景相同场景下的文本进行训练能够使词向量计算模块和神经网络更加符合当前环境下的使用需求,从而提高文本分类的准确性。
在一个实施例中,针对不同的应用场景,可以采用不同的训练文本生成词向量计算模块和神经网络,从而使词向量计算模块中的词向量库、神经网络的参数更加符合特定应用场景的需求,进一步提高文本分类的准确性。
本发明的文本分类方法的再一个实施例的流程图如图4所示,词向量计算模块和神经网络的训练过程可以包括:
在步骤401中,将训练文本输入待训练的词向量计算模块。在一个实施例中,为了使词向量计算模块和神经网络更加符合应用场景,输入的训练文本需要为与应用场景相同场景下的文本。待训练的词向量计算模块在训练文本的输入过程中逐渐完成训练,生成词向量计算模块。
在步骤402中,待训练的词向量计算模块将生成的词向量输入待训练的神经网络。
在步骤403中,通过后验算法调整待训练的神经网络的参数,生成神经网络。在一个实施例中,后验算法可以包括反向传播算法。
通过这样的方法,能够将词向量计算模块和神经网络连接,利用注入词向量计算模块的训练文本生成神经网络的输出编码,并采用后验算法调整待训练的神经网络的参数,一方面使得词向量计算模块和神经网络能有更好的配合度,另一方面无需分别训练,从而能够提高训练效率,同时,采用与应用场景相同场景下的文本进行训练能使词向量计算模块和神经网络更加符合当前的应用场景,提高文本分类的准确性。
在一个实施例中,可以在深度学习框架caffe上实现本发明的文本分类装置,从而能够在现有框架的基础上进行开发,提高了推广应用的可能性。
在一个实施例中,文本分类方法可以用于进行情感分析,得到作者在文本中体现的喜怒哀乐等情绪,还可以应用于用户购买商品后的评价信息,如,用户购买的商品质量有无问题,物流过程有无问题,以及用户购买的商品是否是二手商品等。在一个实施例中,还可以获取商家提供的商品宣传信息(如从宣传文本或图片中提取的信息),并分析该宣传信息中是否包括敏感词,虚假宣传等,通过本发明的文本分类方法,能够进行上下文分析,避免在检索到敏感词后即判断宣传违规,能够对上下文进行分析后结合语境进行判断,避免误判影响商家的使用。
通过这样的方法,无论是在用户评价信息分析还是在商家宣传信息分析领域都能够提高文本分类的准确性,从而有助于提高用户服务质量,从而提高用户粘度。
本发明的文本分类装置的一个实施例的示意图如图5所示。其中,词向量计算模块501能够将输入的待分类文本转化为词向量。在一个实施例中,词向量计算模块可以采用Embedding将输入的待分类文本转化为词向量。神经网络502能够获取词向量,并获取输出编码,其中,词向量计算模块和神经网络通过一体化训练生成,即将待训练的词向量计算模块与待训练的神经网络信号连接,将训练文本输入词向量计算模块,从神经网络的输出端获取输出编码,并对神经网络进行参数调整,得到词向量计算模块和神经网络。分类模块503能够通过处理输出编码,获取文本分类结果。在一个实施例中,神经网络可以为LSTM模块,分类模块可以获取LSTM模块最后一个单元的输出编码并进行回归计算,得到文本分类结果。在一个实施例中,分类模块可以为Softmax回归分类模块。这样的装置能够采用一体化训练而成的词向量计算模块和神经网络生成输出编码,这样的词向量计算模块和神经网络有更好的配合度,采用这样的输出编码进行分类处理能够提高文本分类的准确性。
本发明的文本分类装置的另一个实施例的示意图如图6所示。其中,词向量计算模块601、神经网络602和分类模块603的结构和功能与图5的实施例中相似,神经网络602可以为LSTM模块。文本分类装置还包括平均值确定模块604,能够获取LSTM模块各个单元的输出编码并取均值,确定输出编码平均值。分类模块603能够获取输出编码平均值并进行回归计算,获取文本分类结果。
由于在实际应用中我们发现采用LSTM模块各个单元的输出编码均值作为分类模块的输入能够进一步提高文本分类的准确性,因此,这样的文本分类装置能够进一步提高文本分类效果。
本发明的文本分类装置的又一个实施例的示意图如图7所示。其中,词向量计算模块701、神经网络702和分类模块703的结构和功能与图5的实施例中相似,还可以包括平均值确定模块,位于神经网络702和分类模块703之间,其结构和功能与图6的实施例中相似。如图7所示,文本分类装置还包括训练模块705,能够通过一体化训练生成词向量计算模块和神经网络,即将待训练的词向量计算模块与待训练的神经网络信号连接,将训练文本输入词向量计算模块,从神经网络的输出端获取输出编码,并对神经网络进行参数调整,得到词向量计算模块和神经网络。在一个实施例中,为了使词向量计算模块和神经网络更加符合应用场景,输入的训练文本需要为与应用场景相同场景下的文本。
这样的装置能够采用一体化训练的方式训练并生成词向量计算模块和神经网络,使词向量计算模块和神经网络具有更好的配合度,同时采用与应用场景相同场景下的文本进行训练能够使词向量计算模块和神经网络更加符合当前环境下的使用需求,从而提高文本分类的准确性。
本发明的文本分类装置的再一个实施例的示意图如图8所示。其中,训练文本输入单元801能够将训练文本输入待训练的词向量计算模块。在一个实施例中,为了使词向量计算模块和神经网络更加符合应用场景,输入的训练文本需要为与应用场景相同场景下的文本;待训练的词向量计算模块会将生成的词向量输入待训练的神经网络,生成训练文本的输出编码。待训练的词向量计算模块在训练文本的输入过程中逐渐完成训练,生成词向量计算模块。参数调整单元802能够通过后验算法调整待训练的神经网络的参数,生成神经网络。在一个实施例中,后验算法可以包括反向传播算法。
这样的装置能够将词向量计算模块和神经网络连接,利用注入词向量计算模块的训练文本生成神经网络的输出编码,并采用后验算法调整待训练的神经网络的参数,一方面使得词向量计算模块和神经网络能有更好的配合度,另一方面无需分别训练,从而能够提高训练效率,同时,采用与应用场景相同场景下的文本进行训练能使词向量计算模块和神经网络更加符合当前的应用场景,提高文本分类的准确性。
在一个实施例中,可以在深度学习框架caffe上实现本发明的文本分类装置,从而能够在现有框架的基础上进行开发,提高了推广应用的可能性。
本发明文本分类装置的另一个实施例的结构示意图如图9所示。文本分类装置包括存储器910和处理器920。其中:存储器910可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储文本分类方法的对应实施例中的指令。处理器920耦接至存储器910,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器920用于执行存储器中存储的指令,能够实现文本分类运算。
在一个实施例中,还可以如图10所示,文本分类装置1000包括存储器1010和处理器1020。处理器1020通过BUS总线1030耦合至存储器1010。该文本分类装置1000还可以通过存储接口1040连接至外部存储装置1050以便调用外部数据,还可以通过网络接口1060连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够实现文本分类运算。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现文本分类方法的对应实施例中的方法的步骤。本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (19)

1.一种文本分类方法,包括:
将待分类文本输入词向量计算模块,获取词向量;
将所述词向量输入神经网络,获取输出编码;
通过分类模块处理所述输出编码,获取文本分类结果,
其中,所述词向量计算模块和所述神经网络通过一体化训练生成。
2.根据权利要求1所述的方法,其中,所述词向量计算模块和所述神经网络通过一体化训练生成包括:
将训练文本输入待训练的所述词向量计算模块;
待训练的所述词向量计算模块将生成的词向量输入待训练的所述神经网络;
通过后验算法调整待训练的所述神经网络的参数,生成所述神经网络。
3.根据权利要求2所述的方法,其中,所述后验算法包括反向传播算法。
4.根据权利要求1所述的方法,其中:
所述神经网络包括长短期记忆LSTM模块;
所述通过分类模块处理所述输出编码,获取文本分类结果包括:通过分类模块处理所述LSTM模块最后一个单元的所述输出编码,获取文本分类结果。
5.根据权利要求1所述的方法,其中:
所述神经网络包括长短期记忆LSTM模块;;
所述文本分类方法还包括:获取所述LSTM模块各个单元的所述输出编码,确定输出编码平均值;
所述通过分类模块处理所述输出编码,获取文本分类结果包括:所述分类模块处理所述输出编码平均值,获取文本分类结果。
6.根据权利要求1~5任意一项所述的方法,其中:
所述分类模块包括Softmax回归计算模块;
所述待分类文本包括:用户评价文本和/或商品介绍文本;
和/或,
所述文本分类结果包括:用户满意程度分类、服务质量分类、产品质量分类和/或产品敏感词分类。
7.一种文本分类方法,包括:
将训练文本输入待训练的词向量计算模块;
待训练的所述词向量计算模块将生成的词向量输入待训练的神经网络;
通过后验算法调整待训练的所述神经网络的参数,生成所述神经网络。
8.根据权利要求7所述的方法,还包括:
将待分类文本输入所述词向量计算模块,获取词向量;
将所述词向量输入所述神经网络,获取输出编码;
通过分类模块处理所述输出编码,获取文本分类结果。
9.根据权利要求8所述的方法,其中:
所述神经网络包括长短期记忆LSTM模块;
所述分类模块包括Softmax回归计算模块;和/或,
所述后验算法包括反向传播算法。
10.一种文本分类装置,包括:
词向量计算模块,用于接收待分类文本,生成词向量;
神经网络,用于获取来自所述词向量计算模块的词向量,生成输出编码,其中,所述词向量计算模块和所述神经网络通过一体化训练生成;
分类模块,用于处理所述输出编码,获取文本分类结果。
11.根据权利要求10所述的装置,还包括:
训练模块,用于通过一体化训练生成所述词向量计算模块和所述神经网络,具体包括:
训练文本输入单元,用于将训练文本输入待训练的所述词向量计算模块,待训练的所述词向量计算模块将生成的词向量输入待训练的所述神经网络;
参数调整单元,用于通过后验算法调整待训练的所述神经网络的参数,生成所述神经网络。
12.根据权利要求11所述的装置,所述后验算法包括反向传播算法。
13.根据权利要求10所述的装置,所述神经网络包括长短期记忆LSTM模块;
所述分类模块具体用于处理所述LSTM模块最后一个单元的所述输出编码,获取文本分类结果;
或,
所述文本分类装置还包括:平均值确定模块,用于获取所述LSTM模块各个单元的所述输出编码,确定输出编码平均值;
所述分类模块具体用于处理所述输出编码平均值,获取文本分类结果。
14.根据权利要求10所述的装置:
所述分类模块包括Softmax回归计算模块;
所述待分类文本包括:用户评价文本和/或商品介绍文本;
和/或,
所述文本分类结果包括:用户满意程度分类、服务质量分类、产品质量分类和/或产品敏感词分类。
15.一种文本分类装置,包括:
训练文本输入单元,用于将训练文本输入待训练的词向量计算模块;待训练的所述词向量计算模块将生成的词向量输入待训练的神经网络;
参数调整单元,用于通过后验算法调整待训练的所述神经网络的参数,生成所述神经网络。
16.根据权利要求15所述的装置,还包括:
词向量计算模块,用于接收待分类文本,生成词向量;
神经网络,用于获取来自所述词向量计算模块的词向量,生成输出编码;
分类模块,用于处理所述输出编码,获取文本分类结果。
17.根据权利要求16所述的装置:
所述神经网络包括长短期记忆LSTM模块;
所述分类模块包括Softmax回归计算模块;和/或,
所述后验算法包括反向传播算法。
18.一种文本分类装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至9任一项所述的方法。
19.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至9任意一项所述的方法的步骤。
CN201710156443.3A 2017-03-16 2017-03-16 文本分类方法和装置 Active CN108628868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710156443.3A CN108628868B (zh) 2017-03-16 2017-03-16 文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710156443.3A CN108628868B (zh) 2017-03-16 2017-03-16 文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN108628868A true CN108628868A (zh) 2018-10-09
CN108628868B CN108628868B (zh) 2021-08-10

Family

ID=63686699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710156443.3A Active CN108628868B (zh) 2017-03-16 2017-03-16 文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN108628868B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739985A (zh) * 2018-12-26 2019-05-10 斑马网络技术有限公司 文本自动分类方法、设备及存储介质
CN109783603A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 基于自编码神经网络的文本生成方法、装置、终端及介质
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、系统及设备
CN110968692A (zh) * 2019-10-23 2020-04-07 全球能源互联网研究院有限公司 一种文本分类方法及系统
WO2020150955A1 (zh) * 2019-01-24 2020-07-30 深圳大学 数据分类方法、装置、设备以及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN105868184A (zh) * 2016-05-10 2016-08-17 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106055673A (zh) * 2016-06-06 2016-10-26 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
US20160350655A1 (en) * 2015-05-26 2016-12-01 Evature Technologies (2009) Ltd. Systems Methods Circuits and Associated Computer Executable Code for Deep Learning Based Natural Language Understanding
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
WO2017007740A1 (en) * 2015-07-06 2017-01-12 Microsoft Technology Licensing, Llc Learning word embedding using morphological and contextual knowledge
CN106503236A (zh) * 2016-10-28 2017-03-15 北京百度网讯科技有限公司 基于人工智能的问题分类方法以及装置
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350655A1 (en) * 2015-05-26 2016-12-01 Evature Technologies (2009) Ltd. Systems Methods Circuits and Associated Computer Executable Code for Deep Learning Based Natural Language Understanding
WO2017007740A1 (en) * 2015-07-06 2017-01-12 Microsoft Technology Licensing, Llc Learning word embedding using morphological and contextual knowledge
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN105868184A (zh) * 2016-05-10 2016-08-17 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106055673A (zh) * 2016-06-06 2016-10-26 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106503236A (zh) * 2016-10-28 2017-03-15 北京百度网讯科技有限公司 基于人工智能的问题分类方法以及装置
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAO A ETAL;: "Actionable and political text classification using word embeddings and LSTM", 《ARXIV PREPRINT ARXIV》 *
梁军: "基于深度学习的文本特征表示及分类应用", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊 )》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN109783603A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 基于自编码神经网络的文本生成方法、装置、终端及介质
CN109783603B (zh) * 2018-12-13 2023-05-26 平安科技(深圳)有限公司 基于自编码神经网络的文本生成方法、装置、终端及介质
CN109739985A (zh) * 2018-12-26 2019-05-10 斑马网络技术有限公司 文本自动分类方法、设备及存储介质
WO2020150955A1 (zh) * 2019-01-24 2020-07-30 深圳大学 数据分类方法、装置、设备以及存储介质
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、系统及设备
CN110968692A (zh) * 2019-10-23 2020-04-07 全球能源互联网研究院有限公司 一种文本分类方法及系统
CN110968692B (zh) * 2019-10-23 2023-04-07 全球能源互联网研究院有限公司 一种文本分类方法及系统

Also Published As

Publication number Publication date
CN108628868B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN108628868A (zh) 文本分类方法和装置
Alikaniotis et al. Automatic text scoring using neural networks
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN109933686B (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
CN108304468A (zh) 一种文本分类方法以及文本分类装置
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN109241525B (zh) 关键词的提取方法、装置和系统
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
Chang et al. Research on detection methods based on Doc2vec abnormal comments
Zhang et al. Multi-modal multi-label emotion recognition with heterogeneous hierarchical message passing
Irsoy et al. Bidirectional recursive neural networks for token-level labeling with structure
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN112182362A (zh) 训练用于在线预测点击率的模型的方法、设备及推荐系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN115481219A (zh) 一种基于语法序列嵌入模型的售电公司评价情感分类方法
US20220108076A1 (en) Apparatus and method for automatic generation of machine reading comprehension training data
Hidayat et al. General Depression Detection Analysis Using IndoBERT Method
CN112711942A (zh) 房源标题生成模型的训练方法、生成方法、装置以及设备
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
Wawer et al. Detecting Metaphorical Phrases in the Polish Language.
Povoda et al. Optimization methods in emotion recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant