CN108416032B - 一种文本分类方法、装置及存储介质 - Google Patents

一种文本分类方法、装置及存储介质 Download PDF

Info

Publication number
CN108416032B
CN108416032B CN201810200768.1A CN201810200768A CN108416032B CN 108416032 B CN108416032 B CN 108416032B CN 201810200768 A CN201810200768 A CN 201810200768A CN 108416032 B CN108416032 B CN 108416032B
Authority
CN
China
Prior art keywords
text
processed
topic
information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810200768.1A
Other languages
English (en)
Other versions
CN108416032A (zh
Inventor
宋彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810200768.1A priority Critical patent/CN108416032B/zh
Publication of CN108416032A publication Critical patent/CN108416032A/zh
Application granted granted Critical
Publication of CN108416032B publication Critical patent/CN108416032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了文本分类方法、装置及存储介质,应用于信息处理技术领域。文本分类装置在对待处理文本进行分类时,可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。

Description

一种文本分类方法、装置及存储介质
技术领域
本发明涉及信息处理技术领域,特别涉及一种文本分类方法、装置及存储介质。
背景技术
通常,短文本分类任务着眼于在长度较短的文本上,通常是一句话或者搜索引擎的检索查询(query),对短文本按照主题或者其它类别信息进行区分。现有技术中,在对短文本进行分类时,主要采用主题模型或神经网络的方法进行分类,具体地:
在使用主题模型进行短文本分类时,主要是通过无监督或者半监督的学习方法对短文本类别进行判断,在这个过程中,为了得到有效的词语(或其他符号)关系描述,这类方法通常需要利用一般性的篇章级文本数据构建概率主题模型。但是由于短文本中包含词语较少,直接在短文本上使用主题模型往往无法得到合理的词语关系建模。
而在使用神经网络的方法进行短文本分类时,直接通过训练的神经网络的分类器对短文本进行分类。这是最直接的一种短文本分类方案,不需要对短文本中的词语关系进行描述,但是其中神经网络的分类器是在长文本上直接训练得到的,没有不考虑短文本的特点,很多情况下对于短文本的分类效果不佳。
发明内容
本发明实施例提供一种文本分类方法、装置及存储介质,实现了根据主题模型与文本分类模型的结合对待处理文本进行分类。
本发明实施例第一方面提供一种文本分类方法,包括:
确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
通过文本分类模型获取所述待处理文本的特征信息;
及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。
本发明实施例第二方面提供一种文本分类装置,包括:
模型确定单元,用于确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
分布确定单元,用于根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
特征获取单元,用于通过文本分类模型获取所述待处理文本的特征信息;
及类别确定单元,用于通过所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。
本发明实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的文本分类方法。
本发明实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本发明实施例第一方面所述的文本分类方法。
可见,在本实施例的方法中,文本分类装置在对待处理文本进行分类时,可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高通过文本分类模型对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种文本分类方法的流程图;
图2a是本发明一个实施例中一种根据第一主题分布信息与特征信息的计算结果确定待处理文本的类别的示意图;
图2b是本发明一个实施例中另一种根据第一主题分布信息与特征信息的计算结果确定待处理文本的类别的示意图;
图3是本发明一个实施例中训练文本分类模型的方法流程图;
图4是本发明一个实施例中文本分类装置确定的文本分类模型与主题模型之间的结构示意图;
图5是本发明应用实施例中文本分类装置的示意图;
图6是本发明应用实施例提供的文本分类方法的流程图;
图7是本发明实施例提供的一种文本分类装置的结构示意图;
图8是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种文本分类方法,主要可以应用于任何短文本分类的场景,例如,搜索引擎的查询意图分类,对话系统问题分类,社交媒体文本主题分类,等等。
其中,在搜索引擎的查询意图分类中,针对查询类型的短文本,可以通过主题模型分析待查询短文本中的关键词在主题模型上的主题分布概率,然后文本分类模型根据该主题分布概率确定待查询短文本的查询意图。
在对话系统问题分类中,如果用户输入到对话系统中的问题存在大量的信息缺失和需要补全的背景知识,并未在输入问题中明确体现出来。因此,在本发明实施例中通过主题模型可以一定程度上构建输入问题中词语与其它未在输入问题中出现的词语的关系,进而文本分类模型可以根据主题模型构建的关系确定输入问题的类型。例如,当用户的输入问题为“苹果和黑莓哪个好?”,只从“苹果”和“黑莓”等关键词并不能确定输入问题的意图,是对手机/电子产品进行比较还是对水果的讨论,而通过主题模型可以确定“苹果”和“黑莓”在作为电子产品品牌以及出现类似问题的场景的主题概率更高,因此,文本分类模型会倾向于选择针对手机/电子产品这一类型。
本发明实施例的文本分类方法还可以应用于长文本的分类,或其它类型文本的输入,比如更低粒度的字或字母的分类,及更高粒度的二元或多元语法(n-gram)的文本分类等。
具体地,本发明实施例中文本分类装置可以通过如下方法进行文本分类:
确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;通过文本分类模型获取所述待处理文本的特征信息;及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。
这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高通过文本分类模型对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。
本发明实施例提供一种文本分类方法,主要是文本分类装置所执行的对待处理文本(特别是短文本)的分类方法,流程图如图1所示,包括:
步骤101,确定主题模型,及确定文本分类模型,在主题模型中包括各个词语的主题分布信息。
可以理解,这里主题模型用于根据第一固定参数确定待处理文本中关键词的主题分布概率,其中第一固定参数可以包括文本主题(doc-topic)的分布概率,具体用第一分布矩阵Φ表示,即Φ={θ_m}_(m=1)^M,即各个词语的主题分布信息,M表示文本数量;还可以包括主题词语(topic-word)的分布概率,具体可以用第二分布矩阵Θ表示,即Θ={φ_k}_(k=1)^K。其中,M表示文本数量,θ_m表示一个文本中的主题分布概率;K表示主题数量,φ_k表示一个主题中的词语分布概率。
主题模型中的第一固定参数具体可以根据一定的训练方法训练得到,具体地:文本分类装置可以先确定第一训练样本,在第一训练样本中包括多个(即M个)文本,这多个文本可以是长文本;然后文本分类装置分别为第一训练样本中各个文本中每个词w,赋一个主题的编号z;针对每个词w,按照基于主题模型的条件概率公式,重新在第一训练样本的各个文本中,采样得到每个词w的主题;重复上述的重新采样过程,使得条件概率公式得到收敛;最后统计第一训练样本的各个文本中各个主题中词语的共现频率矩阵,即得到了上述第一分布矩阵Φ。
该主题模型具体可以为潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,概率潜在语义索引(probabilistic latent semantic indexing,PLSI)模型,或是使用词汇相关矩阵的协同过滤方法(collaborative filtering,CF)比如奇异值分解的模型等。
文本分类模型主要可以提取待处理文本的特征信息,并根据提取的特征信息对待处理文本进行分类。一般都包括特征提取模块和分类模块,其中,特征提取模块可以是神经网络结构,比如多层感知器(Multi-layer Perceptron,MLP),或是长时间的短期记忆(LongShort-Term Memory,LSTM)等结构。
步骤102,根据上述主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息。
具体地,文本分类装置可以先将待处理文本转化为第二语法格式的待处理文本;然后获取第二语法格式的待处理文本的第一特征信息;并根据第一特征信息及第一分布矩阵Φ确定第一主题分布信息,这里第一分布矩阵Φ用于指示主题模型中各个词语的主题分布信息。
其中,待处理文本的语法格式为第一语法格式,第二语法格式为主题模型中各个词语的语法格式。例如,第一语法格式为一元语法,待处理文本中包括的各个词语为a,b,c和d,而第二语法格式为二元语法,即每两个相邻词的组合,则在将待处理文本转化为第二语法格式的待处理文本时,可以转化为:ab,bc和cd。
在确定第一主题分布信息时,文本分类装置可以先对第一分布矩阵Φ进行归一化处理,这样可以简化后续的计算过程;然后文本分类装置将第一特征信息与归一化处理后的第一分布矩阵的乘积作为第一主题分布信息。其中,在归一化处理后的第一分布矩阵Φ中,每一行的元素可以表示某一个词语的归一化主题分布概率,即
Figure BDA0001594425910000061
其中,wi表示某一个词语,其中φ表示该词语在各个主题上的归一化概率,使得
Figure BDA0001594425910000062
步骤103,通过文本分类模型获取待处理文本的特征信息。
由于文本分类模型在获取待处理文本的特征信息时,可以提取到多个不同层次的待处理文本的特征信息,比如待处理文本的全局特征信息,局部特征信息,关键的局部特征信息等;而文本分类模型最终在进行分类操作时所用到的特征信息只是一个层次的特征信息。且文本分类模型在获取这些层次的特征信息时,是逐层递进的,例如图2a和图2b所示,文本分类模型可以先获取待处理文本的全局特征信息,然后再从全局特征信息中选取局部特征信息,最后再从局部特征信息中选取关键的局部特征信息,最终文本分类模型会根据关键的局部特征信息进行分类操作。
具体地,在一种情况下,文本分类装置在本步骤103中获取的特征信息可以是通过文本分类模型获取的待处理文本的浅层表达特征信息,比如上述全局特征信息或局部特征信息,而并非文本分类模型在进行分类操作时所用的特征信息。
在另一种情况下,本步骤103中获取的特征信息可以是通过文文本分类模型获取的待处理文本的最终特征信息,即文本分类模型在分类操作时使用的特征信息。
步骤104,文本分类模型根据第一主题分布信息与特征信息的计算结果,确定待处理文本的类别。
一种情况下,如图2a所示,在上述步骤103获取的特征信息为浅层表达特征信息时,在执行本步骤时,可以通过文本分类模型先将浅层表达特征信息(图2a中以局部特征信息为例说明)与第一主题分布信息进行相加,得到加后特征信息;然后文本分类模型再根据相加后特征信息获取待处理文本的最终特征信息;最后文本分类模型根据最终特征信息进行分类操作,得到待处理文本的类别。
另一种情况下,如图2b所示,在上述步骤103获取的特征信息为最终特征信息时,在执行本步骤时,可以通过文本分类模型先将最终特征信息与第一主题分布信息进行相加,得到加后特征信息;然后文本分类模型再根据相加后特征信息进行分类操作,得到待处理文本的类别。
这里待处理文本的类别是指该待处理文本的完整意图,例如待处理文本为“苹果和黑莓哪个好”,则最终得到的待处理文本的类别为“苹果的手机和黑莓的手机哪个好”。
可见,在本实施例的方法中,文本分类装置在对待处理文本进行分类时,可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高通过文本分类模型对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。
在一个具体的实施例中,本发明实施例中所用的文本分类模型可以通过如下步骤训练得到,方法流程图如图3所示,包括:
步骤201,确定文本分类模型,及确定文本分类模型与主题模型之间的连接结构,该连接结构用于根据各个词语的主题分布信息确定第一主题分布信息,并输出给文本分类模型。
具体地,确定文本分类模型具体包括确定文本分类模型的结构,及文本分类模型的第二固定参数的初始值。这里第二固定参数是指在文本分类模型在执行上述文本分类操作的过程中所用到的不需要随时赋值的参数,比如权重,角度等参数。
在本发明实施例中,需要将文本分类模型与主题模型结合起来,因此,如图4所示,文本分类装置还需要确定文本分类模型与上述主题模型之间的连接结构,该连接结构所执行的方法与上述步骤102中所执行的方法类似,在此不进行赘述。
步骤202,确定第二训练样本,第二训练样本中包括多个训练文本,及各个训练文本中各个词语所属的主题类型。其中,训练文本可以是短文本等。
步骤203,通过文本分类模型根据第二训练样本中各个训练文本对应的第一主题分布信息,分别确定各个训练样本的类别,得到初始分类结果。
文本分类模型在根据任一训练文本的第一主题分布信息,确定该训练文本的类别时,可以采用上述步骤104中所述的方法进行确定,在此不进行赘述。本实施例中得到的初始分类结果中可以包括第二训练样本中各个训练文本中各个词语的主题类别。
步骤204,根据初始分类结果计算与文本分类模型相关的损失函数值。
这里,与文本分类模型相关的损失函数值可以根据初始分类结果得到,具体可以为交叉熵损失函数值等,用于表示根据文本分类模型确定的第二训练样本中各个训练文本中各个词语的主题类别,与各个训练文本中各个词语的实际主题类别(根据第二训练样本包括的训练文本中各个词语所属的主题类型得到)之间的差别,即误差。
例如,如果文本分类模型确定训练文本1中某一词属于电子产品类别,而在第二训练样本中该训练文本1该词属于水果类型,则出现误差;如果文本分类模型确定训练文本2中某一词属于电子产品类别,而在第二训练样本中该训练文本1该词属于电子产品类型,则未出现误差,这些误差都通过损失函数体现出来。
步骤205,根据损失函数值调整文本分类模型中的第二固定参数值。
在文本分类装置调整第二固定参数值时,如果计算的损失函数值较大,比如大于预置的值,则需要改变第二固定参数值,使得文本分类模型按照调整后的第二固定参数值执行文本分类操作后,计算的损失函数值减小。
需要说明的是,上述步骤203到205是通过文本分类模型对第二训练样本中各个训练文本进行分类处理得到初始分类结果后,根据初始分类结果对文本分类模型中的第二固定参数值的一次调整,而在实际应用中,需要通过不断地循环执行上述步骤203到205,直到对第二固定参数值的调整满足一定的停止条件为止。
因此,文本分类装置在执行了上述实施例步骤201到205之后,还需要判断当前对第二固定参数值的调整是否满足预置的停止条件,如果满足,则结束流程;如果不满足,则针对调整第二固定参数值后的文本分类模型,返回执行上述步骤203到205的步骤。
其中,预置的停止条件包括但不限于如下条件中的任何一个:当前调整的第二固定参数值与上一次调整的第二固定参数值的差值小于一阈值,即调整的第二固定参数值达到收敛;及对第二固定参数值的调整次数达到预置的次数等。
以下以一个具体的应用实例来说明本发明实施例的文本分类方法,如图5所示为文本分类装置的示意图,在文本分类装置中可以包括主题模型及文本分类模型,其中,主题模型具体为LDA模型(图5中点画线右边部分),文本分类模型中提取待处理文本的特征信息的结构具体可以为MLP网络(图5中点画线左边部分),而待处理文本为待处理短文本x,则本实施例中,如图5所示的文本分类装置可以按照如下方法实现对待处理短文本x的分类,流程图如图6所示,包括:
步骤301,对于待处理短文本x,通过文本分类模型提取待处理短文本x的全局特征信息。
步骤302,通过一个转化函数D(x)将待处理短文本x的全局特征信息转化为第二语法格式的待处理短文本x的特征信息;且从主体模型中获取第一分布矩阵Φ,用于表示主体模型中各个词语的主题分布信息。
其中,第二语法格式为主体模型中各个词语的语法格式;第一分布矩阵Φ中每一行的元素可以表示为
Figure BDA0001594425910000101
其中,wi表示某一个词语,其中φ表示该词语在各个主题上的归一化概率,使得
Figure BDA0001594425910000102
步骤303,将第二语法格式的待处理短文本x的特征信息,与第一分布矩阵Φ结合,得到待处理短文本x中关键词的第一主题分布信息,可以用特征向量v来表示。具体地,可以通过如下公式1将第二语法格式的待处理短文本x的特征信息,与第一分布矩阵Φ相乘后得到特征向量v:
Figure BDA0001594425910000103
其中,
Figure BDA0001594425910000104
表示经过D(x)变化后得到的待处理短文本x的特征信息。
步骤304,通过文本分类模型获取待处理短文本x的浅层表达特征信息,并将与上述步骤303得到的特征向量v相加后得到相加后特征信息。
其中,浅层表达特征信息可以是文本分类模型根据上述待处理短文本x的全局特征信息进一步得到的。
步骤305,通过文本分类模型根据相加后特征信息得到待处理短文本x的最终特征信息,并根据最终特征信息对待处理短文本x的类别y。
在本发明实施例中,文本分类模型中特征提取部分(比如)的第二固定参数值,可以通过上述实施例中的方法训练得到,在这个训练过程中,需要对第二训练样本中各个训练文本中各个词语的主题类型进行标注,即有监督地学习过程。且主题模型中的第一固定参数,即第二分布矩阵Θ和第一分布矩阵Φ可以通过一定的方法训练得到,在这个过程中,可以不需要对第一训练样本中各个文本进行主题标注,即无监督地学习过程。
这样,本实施例中对文本分类模型与主题模型的训练过程可以实现半监督地学习,由于主题模型的训练属于无监督学习,可以在很大规模的样本数据上训练得到,而大规模无标注的样本数据相对容易获得,因此可以减少对样本数据标注过程的依赖。进一步地,当主题模型训练得足够好,可以适当地降低对训练文本分类模型进行监督学习的训练时的数据需求,这样所带来的一个直接优势就是,当文本分类任务进入一个新的领域,而该领域缺少相应的主题标注数据,本发明实施例的方法可以在得到极少数标注数据的情况下得到更可靠的文本分类模型,进而实现更有效的冷启动(cold-start)。
需要说明的是,在本发明实施例中,主题模型中的第一分布矩阵Φ可以是根据文本的主题分布概率p(θ_m)得到,而文本的主题分布概率p(θ_m)又可以根据一个先验的狄利克雷(Dirichlet)分布的参数α得到,其中m表示某一个文本;第二分布矩阵Θ可以是每个主题下的词语分布概率p(φ_k)得到,而每个主题下的词语分布概率p(φ_k)又可以根据一个先验的Dirichlet分布的参数β得到,其中,k表示某一个主题,K表示主题数量。
进一步地,由于一般待处理短文本本身携带的信息往往不足,通过结合外部知识(即主题模型),可以有效补充这部分缺失的文本关联信息。
且通过本实施例中文本分类模型与主题模型之间的结合,本发明所述的方法还可以隐式地建立了输入变量x,主题模型及之间输出类别y之间的关联关系,即图5中的虚线箭头所指示的部分。这样可以通过改变训练主题模型时所用的训练样本的来源实现领域自适应(domain adaptation),即当训练主题模型时训练样本来自于一个领域,而测试数据(即待处理文本)来自于另一个领域,也可以通过本发明实施例中建立的关联关系,实现对于测试数据有效的分类。
本发明实施例还提供一种文本分类装置,其结构示意图如图7所示,具体可以包括:
模型确定单元10,用于确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
分布确定单元11,用于根据所述模型确定单元10确定的主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
特征获取单元12,用于通过文本分类模型获取所述待处理文本的特征信息;
及类别确定单元13,用于通过所述文本分类模型根据所述分布确定单元11确定的第一主题分布信息与所述特征获取单元12获取的特征信息的计算结果,确定所述待处理文本的类别。
其中,所述模型确定单元10在确定文本分类模型时,具体用于确定所述文本分类模型,及确定所述文本分类模型与主题模型之间的连接结构,所述连接结构用于根据所述各个词语的主题分布信息确定所述第一主题分布信息,并输出给所述文本分类模型;确定第二训练样本,所述第二训练样本中包括训练文本,及所述训练文本中各个词语所属的主题类型;通过所述文本分类模型根据所述第二训练样本中各个训练文本对应的第一主题分布信息,分别确定所述各个训练样本的类别,得到初始分类结果;根据所述初始分类结果计算与所述文本分类模型相关的损失函数值;根据所述损失函数值调整所述文本分类模型中的第二固定参数值。
进一步地,如果模型确定单元10对所述第二固定参数值的调整满足如下任一停止条件,则停止对所述第二固定参数值的调整:对所述第二固定参数值的调整次数达到预置的次数,当前调整的第二固定参数值与上一次调整的第二固定参数值的差值小于一阈值等。
所述分布确定单元11,具体用于将所述待处理文本转化为第二语法格式的待处理文本,所述第二语法格式是所述主题模型中各个词语的语法格式;获取所述第二语法格式的待处理文本的第一特征信息;根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息,所述第一分布矩阵用于指示所述主题模型中各个词语的主题分布信息。
其中,分布确定单元11在所述根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息时,具体用于对所述第一分布矩阵进行归一化处理;将所述第一特征信息与所述归一化处理后的第一分布矩阵的乘积作为所述第一主题分布信息。
所述类别确定单元13在一种情况下,具体用于如果所述特征信息为所述待处理文本的浅层表达特征信息,则通过所述文本分类模型将所述浅层表达特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;所述文本分类模型根据所述相加后特征信息获取所述待处理文本的最终特征信息;所述文本分类模型根据所述最终特征信息进行分类操作,得到所述待处理文本的类别。
所述类别确定单元13在另一种情况下,具体用于如果所述特征信息为所述待处理文本的最终特征信息,则通过所述文本分类模型将所述最终特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;所述文本分类模型根据所述相加后特征信息进行分类操作,得到所述待处理文本的类别。
上述所述浅层表达特征信息为所述待处理文本的全局特征信息,或局部特征信息;所述最终特征信息为所述待处理文本中关键的局部特征信息。
可见,在本实施例的文本分类装置在对待处理文本进行分类时,分布确定单元11可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后类别确定单元13中的文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高通过文本分类模型对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例中的文本分类装置可以很好地应用于对短文本的分类过程中,具有一定的广泛性。
本发明实施例还提供一种服务器,其结构示意图如图8所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。
具体地,在存储介质22中储存的应用程序221包括文本分类的应用程序,且该程序可以包括上述文本分类装置中的模型确定单元10,分布确定单元11,特征获取单元12和类别确定单元13,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中储存的文本分类的应用程序对应的一系列操作。
服务器还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由文本分类装置所执行的步骤可以基于该图8所示的服务器的结构。
本发明实施例还提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如上述文本分类装置所执行的文本分类方法。
本发明实施例还提供一种服务器,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如上述文本分类装置所执行的文本分类方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的文本分类方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种文本分类方法,其特征在于,包括:
确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
通过文本分类模型获取所述待处理文本的特征信息;
及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别;
所述根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息,具体包括:
将所述待处理文本转化为第二语法格式的待处理文本,所述第二语法格式是所述主题模型中各个词语的语法格式;
获取所述第二语法格式的待处理文本的第一特征信息;
根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息,所述第一分布矩阵用于指示所述主题模型中各个词语的主题分布信息。
2.如权利要求1所述的方法,其特征在于,所述确定文本分类模型,具体包括:
确定所述文本分类模型,及确定所述文本分类模型与主题模型之间的连接结构,所述连接结构用于根据所述各个词语的主题分布信息确定所述第一主题分布信息,并输出给所述文本分类模型;
确定第二训练样本,所述第二训练样本中包括训练文本,及所述训练文本中各个词语所属的主题类型;
通过所述文本分类模型根据所述第二训练样本中各个训练文本对应的第一主题分布信息,分别确定所述各个训练样本的类别,得到初始分类结果;
根据所述初始分类结果计算与所述文本分类模型相关的损失函数值;
根据所述损失函数值调整所述文本分类模型中的第二固定参数值。
3.如权利要求2所述的方法,其特征在于,如果对所述第二固定参数值的调整满足如下任一停止条件,则停止对所述第二固定参数值的调整:
对所述第二固定参数值的调整次数达到预置的次数,当前调整的第二固定参数值与上一次调整的第二固定参数值的差值小于一阈值。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息,具体包括:
对所述第一分布矩阵进行归一化处理;
将所述第一特征信息与所述归一化处理后的第一分布矩阵的乘积作为所述第一主题分布信息。
5.如权利要求1至3任一项所述的方法,其特征在于,所述特征信息为所述待处理文本的浅层表达特征信息,则所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别,具体包括:
所述文本分类模型将所述浅层表达特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;
所述文本分类模型根据所述相加后特征信息获取所述待处理文本的最终特征信息;
所述文本分类模型根据所述最终特征信息进行分类操作,得到所述待处理文本的类别。
6.如权利要求5所述的方法,其特征在于,所述浅层表达特征信息为所述待处理文本的全局特征信息,或局部特征信息;
所述最终特征信息为所述待处理文本中关键的局部特征信息。
7.如权利要求1至3任一项所述的方法,其特征在于,所述特征信息为所述待处理文本的最终特征信息,则所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别,具体包括:
所述文本分类模型将所述最终特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;
所述文本分类模型根据所述相加后特征信息进行分类操作,得到所述待处理文本的类别。
8.一种文本分类装置,其特征在于,包括:
模型确定单元,用于确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
分布确定单元,用于根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
特征获取单元,用于通过文本分类模型获取所述待处理文本的特征信息;
及类别确定单元,用于通过所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别;
所述分布确定单元,具体用于将所述待处理文本转化为第二语法格式的待处理文本,所述第二语法格式是所述主题模型中各个词语的语法格式;获取所述第二语法格式的待处理文本的第一特征信息;根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息,所述第一分布矩阵用于指示所述主题模型中各个词语的主题分布信息。
9.如权利要求8所述的装置,其特征在于,
所述模型确定单元,具体用于确定所述文本分类模型,及确定所述文本分类模型与主题模型之间的连接结构,所述连接结构用于根据所述各个词语的主题分布信息确定所述第一主题分布信息,并输出给所述文本分类模型;确定第二训练样本,所述第二训练样本中包括训练文本,及所述训练文本中各个词语所属的主题类型;通过所述文本分类模型根据所述第二训练样本中各个训练文本对应的第一主题分布信息,分别确定所述各个训练样本的类别,得到初始分类结果;根据所述初始分类结果计算与所述文本分类模型相关的损失函数值;根据所述损失函数值调整所述文本分类模型中的第二固定参数值。
10.如权利要求8或9所述的装置,其特征在于,所述类别确定单元,具体用于如果所述特征信息为所述待处理文本的浅层表达特征信息,则通过所述文本分类模型将所述浅层表达特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;所述文本分类模型根据所述相加后特征信息获取所述待处理文本的最终特征信息;所述文本分类模型根据所述最终特征信息进行分类操作,得到所述待处理文本的类别。
11.如权利要求8或9所述的装置,其特征在于,所述类别确定单元,具体用于如果所述特征信息为所述待处理文本的最终特征信息,则通过所述文本分类模型将所述最终特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;所述文本分类模型根据所述相加后特征信息进行分类操作,得到所述待处理文本的类别。
12.一种存储介质,其特征在于,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如权利要求1至7任一项所述的文本分类方法。
13.一种服务器,其特征在于,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如权利要求1至7任一项所述的文本分类方法。
CN201810200768.1A 2018-03-12 2018-03-12 一种文本分类方法、装置及存储介质 Active CN108416032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810200768.1A CN108416032B (zh) 2018-03-12 2018-03-12 一种文本分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810200768.1A CN108416032B (zh) 2018-03-12 2018-03-12 一种文本分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108416032A CN108416032A (zh) 2018-08-17
CN108416032B true CN108416032B (zh) 2021-06-08

Family

ID=63131028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810200768.1A Active CN108416032B (zh) 2018-03-12 2018-03-12 一种文本分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108416032B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471938B (zh) * 2018-10-11 2023-06-16 平安科技(深圳)有限公司 一种文本分类方法及终端
CN110162594B (zh) * 2019-01-04 2022-12-27 腾讯科技(深圳)有限公司 文本数据的观点生成方法、装置及电子设备
CN109815500A (zh) * 2019-01-25 2019-05-28 杭州绿湾网络科技有限公司 非结构化公文的管理方法、装置、计算机设备及存储介质
CN112100364A (zh) * 2019-05-29 2020-12-18 北京地平线机器人技术研发有限公司 文本语义理解方法和模型训练方法、装置、设备和介质
CN110750677B (zh) * 2019-10-12 2023-11-14 腾讯科技(深圳)有限公司 基于人工智能的音视频识别方法、系统及存储介质和服务器
CN111143536B (zh) * 2019-12-30 2023-06-20 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111291187B (zh) * 2020-01-22 2023-08-08 北京芯盾时代科技有限公司 一种情感分析方法、装置、电子设备及存储介质
CN111460105B (zh) * 2020-04-02 2023-08-29 清华大学 基于短文本的主题挖掘方法、系统、设备及存储介质
CN114186057A (zh) * 2020-09-15 2022-03-15 智慧芽(中国)科技有限公司 基于多类型文本的自动分类方法、装置、设备和存储介质
CN112800215A (zh) * 2021-01-29 2021-05-14 北京大米科技有限公司 一种文本处理方法、装置、可读存储介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105183806A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种不同平台间识别同一用户的方法与系统
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355099B2 (en) * 2012-12-01 2016-05-31 Althea Systems and Software Private Limited System and method for detecting explicit multimedia content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105183806A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种不同平台间识别同一用户的方法与系统
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"News text classification model based on topic model";Zhenzhong Li et al.;《 2016 IEEE/ACIS 15th International Conference on Computer and Information Science》;20160825;全文 *
"基于主题角色的文本情感分类方法";刘晨晨 等;《计算机应用与软件》;20170131;第34卷(第1期);全文 *

Also Published As

Publication number Publication date
CN108416032A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108416032B (zh) 一种文本分类方法、装置及存储介质
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
AU2016256764B2 (en) Semantic natural language vector space for image captioning
US9519858B2 (en) Feature-augmented neural networks and applications of same
CN109815336B (zh) 一种文本聚合方法及系统
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
Xu et al. Convolutional neural network using a threshold predictor for multi-label speech act classification
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质
US20230351121A1 (en) Method and system for generating conversation flows
Cherif et al. A combination of low-level light stemming and support vector machines for the classification of Arabic opinions
CN112667791A (zh) 潜在事件预测方法、装置、设备及存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质
Sidorov et al. Some features of sentiment analysis for Russian language posts and comments from social networks
CN114764437A (zh) 用户意图识别方法、装置以及电子设备
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
Katiyar et al. Twitter sentiment analysis using dynamic vocabulary
Salsabiila et al. Comparison of Fasttext and Word2Vec Weighting Techniques for Classification of Multiclass Emotions Using the Conv-LSTM Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant