CN101887443B

CN101887443B - 一种文本的分类方法及装置

Info

Publication number: CN101887443B
Application number: CN 200910140728
Authority: CN
Inventors: 林鸿飞; 崔宝今; 汪芳山; 潘宇; 时达明
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2012-12-19
Anticipated expiration: 2029-05-13
Also published as: CN101887443A

Abstract

本发明实施方式提供了一种文本的分类方法及装置，该方法包括：将存储的文本进行分词处理；提取分词处理后的文本的句子特征，根据所述文本的句子特征建立所述文本的特征向量，将所述特征向量作为输入向量，并将所述输入向量代入支持向量机SVM或人工神经网络ANN中计算得到所述文本的类型；其中，所述句子特征包括所述句子的基本特征，所述句子特征还包括句式特征、重复词特征和叠置词特征中的一种或多种。本发明的文本分类方法及装置具有计算准确，文本分类准确率高的特点。

Description

一种文本的分类方法及装置

技术领域

本发明涉及文本挖掘领域，尤其涉及一种文本的分类方法及装置。

背景技术

随着技术的进步及因特网Internet的普及和发展，网络的资料越来越丰富，人们获取资料的主要途径是通过搜索引擎；除了常用的网页搜索，文本搜索、音乐搜索也是人们常用的网络服务之一。

为了让用户能根据音乐类型进行音乐搜索，现有技术采用一种文本文件的分类方法，该方法通过对文本中的基本特征(即关键字)来判断文本的类型。

在实现本发明的过程中，发明人发现现有技术存在如下问题：

由于现有技术提供的技术方案是根据文本中的基本特征来判断该文本的类型，其判断方式仅根据文本的基本特征来计算文本的分类，文本分类不准确。

发明内容

本发明实施方式提供一种文本的分类方法及装置，所述方法和装置具有文本分类准确率高的特点。

本发明的具体实施方式提供一种文本的分类方法，该方法包括：

将存储的文本进行分词处理；

提取分词处理后的文本的句子特征，根据所述文本的句子特征建立所述文本的特征向量，将所述特征向量作为输入向量，并将所述输入向量代入支持向量机SVM或人工神经网络ANN中计算得到所述文本的类型；

其中，所述句子特征包括所述句子的基本特征，所述句子特征还包括句式特征、重复词特征和叠置词特征中的一种或多种。

本发明具体实施方式还提供一种文本的分类装置，该装置包括：

分词单元，用于将存储的文本进行分词处理；

向量单元，用于提取分词处理后的文本中句子特征，根据所述文本的句子特征建立所述文本的特征向量；

计算单元，用于将所述特征向量作为输入向量，并将所述输入向量代入支持向量机SVM或人工神经网络ANN中计算得到所述文本的类型；

所述句子特征包括所述句子的基本特征，所述句子特征还包括句式特征、重复词特征、叠置词特征中的一种或多种。

由上述所提供的技术方案可以看出，本发明实施例的技术方案将存储的文本进行分词处理后，提取该文本的句子特征，根据文本的句子特征建立文本的特征向量，根据该特征向量采用SVM或ANN方法计算得到该文本的类型，由于在计算时，不仅考虑了文本的基本特征，还考虑了句式特征、重复词特征和叠置词特征中的一种或多种，增加计算的参数，具有计算准确，文本分类准确率高的特点。

附图说明

图1为本发明一实施例提供的一种文本的分类方法的流程图；

图2为本发明另一实施例提供的一种文本的分类方法的流程图；

图3为本发明具体实施方式提供的一种文本的分类装置的结构图。

具体实施方式

本发明实施方式提供了一种文本的分类方法，该方法包括：对存储的文本中的各个句子进行分词处理后，提取文本的句子特征，根据该句子特征建立文本的特征向量，将该特征向量作为输入向量，并将该输入向量代入支持向量机(support vector machine，SVM)或人工神经网络(Artificial Neural Network，ANN)中计算得到该文本的类型；其中该句子特征可以包括基本特征(即关键词)，该句子特征还可以包括句式特征、重复词特征、叠置词特征中的一种或多种，该重复词可以为单个句子中出现至少二次的词，该叠置词为至少有一个字出现至少二次的词。由于上述方法能够根据歌词文本的句子特征的特征向量计算歌词文本的类型，由于该句子特征的特征向量不仅考虑了句子的基本特征，还考虑了句式特征、重复词特征和叠置词特征中的一种或多种，增加了计算参数，从而具有计算准确，文本分类准确率高的特点。

上述文本可以为歌词文本，当然也可以为其他的文本，如诗词文本等。

为了更好的说明本发明的方法，现结合具体实施例和附图对本发明的方法进行详细的说明。

本发明具体实施方式提供一实施例，本实施例提供一种文本的分类方法，为了叙述方便，这里本实施例的文本以歌词文本为例，该方法如图1所示，包括如下步骤：

步骤11、将存储的歌词文本中的各个句子进行分词处理；

存储的文本的具体的建立方法可以为，从网站主页开始，通过解析网站中的统一资源定位器(Uniform Resoure Locator，URL)地址定位到相应歌手类别(如华人男歌手、华人女歌手、乐队组合等)；抓取对应歌手类别的歌词文本，其具体的处理方式可以为：

对歌手类别1(如华人男歌手)所在的链接的URL地址进行解析，定位到其所在页面，读取页面的超文本置标语言(HyperText Markup Language，HTML)源文件；观察HTML源文件的内容，发现其中存放每位歌手名称的标签，并定位相应的链接和链接锚文本(歌手姓名文本)；对歌手姓名文本中的歌手1所在链接的URL地址进行解析，读取歌手1所有歌曲的名称页面的HTML源文件；观察HTML源文件的内容，发现其中存放每首歌曲名称的标签，并定位相应的链接和链接锚文本(歌曲名称文本)；对歌曲名称文本中每一首歌曲所在链接的URL地址进行解析，读取歌词内容，并存储到本地歌词文件库中。对上述歌手姓名文本中的所有歌手都进行如歌手1的操作，直至该类型所有的歌手都完成上述操作。对所有的歌手类别都进行如歌手类别1的操作，直至所有歌手类别都完成上述操作，从而完成音乐歌词文本的存储。

分词处理的具体方法可以为，这里以一个给定的字串为例，首先把给定的字串切分成一个原子的序列，然后把这个原子序列中的每一个原子都作为词添加到切分词图中，同时把这个原子序列作为全切分模块的输入；其中全切分模块的任务是找出给定的字串中所有在词典中出现的词并把每个词添加到该切分词图中；根据以上几个阶段建立的切分词图生成N条最优的分词序列，以此作为接下来的命名实体的输入；对每一条分词序列进行角色标注，从角色标注结果序列中找出所有可能的命名实体并添加到切分词图中；至此，整个切分词图建立完毕，根据该切分词图，寻找出一条最优的分词路径作为最后的分词结果序列；最后，根据该分词结果序列，利用隐马尔科夫模型(Hidden MarkovModel，HMM)标注的方法进行词性标注后，与分词结果一同作为最后的词法分析输出结果。当然在实际情况中也可以用其他的分词处理方法，如双向最大匹配法等。

步骤12、提取分词处理后的文本的句子特征，根据文本的句子特征建立文本的特征向量；

实现该步骤的具体方法可以为，当句子特征为，基本特征和句式特征时，其建立文本的特征向量的方法可以为：

计算基本特征向量和句式特征向量，将基本特征向量和句式特征向量组合起来即得到文本的特征向量。

上述计算基本特征向量包括文本所有基本特征值，该基本特征值的计算方法可以为，

w_{ik} = \frac{TF (t_{k}, d_{i}) \times \log (\frac{N}{n_{t_{k}} + 0.01})}{\sqrt{\underset{t_{k} &Element; d_{i}}{Σ} {[TF (t_{k}, d_{i}) \times \log (\frac{N}{n_{t_{k}} + 0.01})]}^{2}}} - - - (1);

其中，w_ik是指基本特征t_k(即关键词)在歌词文本d_i中的基本特征值，TF(t_k，d_i)是指基本特征t_k在歌词文本d_i中出现的频率，N是所有训练歌词文本的数目，

是指所有训练歌词文本中包含基本特征t_k的歌词文本数目。上述训练歌词文本是指人工标注好情感类别的用于训练歌词情感类别判断模型的歌词文本。

其中基本特征可以由用户自行确认，如建立一个基本词列表或自行设定那些词为基本特征。该基本特征的确定具体可以如表1所示；

表1：

输入歌词	常见的感情词	输出基本特征
			相爱了7年了	相爱	XIANGAI
怎么也都没想到.它会这么轻易的破碎.	破碎	POSUI
			尽管如此最终我们还是分手了离别了	离别	LIBIE
留下的只留下的只有7年时间来的无尽的回忆.	无尽	WUJIN
			不记得为什么当时年少的我们会那么彼此期待见面有7年时间来的无尽的回忆.	期待	QIDAI

上述句式特征向量可以包括所有句式特征值，该句式特征值的计算方法可以为：

V_P＝P/J (2)；

其中V_P表示句式特征值，P表示文本中相同句式特征的句子总数，如文本中陈述句的总数，疑问句的总数，或感叹句的总数；该句式特征可以为句子的表示形式相同，其中包括，陈述句、疑问句和感叹句等；J表示该文本中总的句子数目。其中，确认句式特征的方法可以为：如该句子有标点符号，则根据句子的标点符号判断句子的句式特征；如该句子没有标点符号，则根据该句子的结尾词判断该句子的句式特征，具体方法可以为，将结尾词与疑问语气词库、感叹语气词库比较，如是疑问语气词库中的词则判断出为疑问句，如是感叹语气词库中的词则判断出为感叹句，如都不是则为陈述句。根据句子的标点符号判断句子的句式的具体的方法可以为，获取句子的标点，如该标点为问号则判断为疑问句，如该标点为感叹号则判断为感叹句，如该标点即不是问号，也不是感叹号，则判断出为陈述句。具体的实例可以如表2所示，其中，CSJ代表陈述句，GTJ代表感叹句，YWJ代表疑问句。

表2：

输入歌词	句式判断	输出句式特征
			眼前是一片阴霾	陈述句	CSJ
摊开双手问天怎么办	陈述句	CSJ
			眼看着你走进别人的胸怀	陈述句	CSJ
不顾我慌乱啊	感叹句	GTJ
			这场离别来的不堪又意外	陈述句	CSJ
谁也找不到理由搪塞	陈述句	CSJ
			你的双唇早已说不出真爱	陈述句	CSJ

如上述句子特征为基本特征和重复词特征时，建立文本特征向量的方法具体可以为，计算基本特征向量和重复词特征向量，将基本特征向量和重复词特征向量组合起来即得到文本的特征向量。

其中基本特征向量的获取方法上面已经明确说明，这里就不在赘述；重复词特征向量为所有重复词特征值的平均值，该重复词特征值的计算方法可以为：

重复词特征值＝句子中重复词的总个数/句子的总词数。上述计算的重复词特征值计算的是每个句子的重复词特征值，然后再将所有的重复词特征值取平均值即为重复词的特征向量。下面以表3为例进行说明。

表3

输入	重复词数(个)	总词数(个)	输出特征值
				好难过这不是我要的那种结果结果	2	10	0.2
你说过这辈子你都不会离开我离开我	6	11	0.55
				太多太多让你迷惑	2	5	0.4
最后你还是离开了我	0	/	0
				开始沉默什么都不说	0	/	0
就让泪水慢慢的滑落	0	/	0

如文本为表3所示的句子，则该文本的特征向量可以为，(0.20+0.56+0.40+0+0+0)/6＝(0.19)。

如上述句子特征为基本特征和叠置词特征时，建立文本特征向量的方法具体可以为，将基本特征向量和叠置词特征向量组合起来即为文本特征向量。该叠置词特征向量可以包括所有相同形式的叠置词特征值。该相同形式可以为，重复字在叠置词中的位置相同的词，如救救我和求求我就属于相同形式的叠置词，为了方便说明，这里将救救我这种形式的叠置词叫AAB形式；如恨你恨我和爱你爱我也属于相同形式的叠置词，为了方便说明，将爱你爱我这种形式的叠置词叫ABAC形式。

上述相同形式叠置词特征值的计算方法具体可以为：

O (X, d_{i}) = \frac{K (X, d_{i})}{K} - - - (3)

其中O(X，d_i)表示歌词文本d_i中X(如ABAC、AAB等)形式的叠置词特征值，K(X，d_i)表示歌词文本d_i中X形式的叠置词数目，K为歌词文本d_i中词语总数。

下面以具体的例子来说明建立特征向量的具体方法，特征向量的纬度由句子特征决定：假设前三个纬度分别对应句式特征的三种情况，三种情况具体可以为，CTS，GTJ，YWJ，接下来，每一个基本特征构成一个纬度，然后是重复词特征纬度，最后是各种不同形式的叠置词特征纬度。各个纬度的具体计算可以参见上述相关的描述，这里不在赘述；当然在实际情况中，也可以将各纬度的位置互换，这里仅以一个例子说明，本发明并不局限上述纬度的排列。如歌词文本的特征向量为(0.70，0.16，0.14，0.23，…，0.04，0.12，0.17，…，0.02)，则表示该歌词文本的CTS，GTJ，YWJ特征值分别为0.70，0.16，0.14；0.23至0.04表示该歌词文本的基本特征值；该歌词文本的重复词特征值为0.12；最后的0.17至0.02表示该歌词文本的各种不同形式的叠置词的特征值。

步骤13、将该文本特征向量作为输入向量代入SVM或ANN计算得到该文本的类型。

本发明一实施例提供的方法，将存储的文本进行分词处理后，提取文本的句子特征，根据文本的句子特征建立文本的特征向量后，根据该特征向量采用SVM或ANN方法计算得到该文本的类型，由于该句子特征的特征向量不仅考虑了句子的基本特征，还考虑了句式特征、重复词特征和叠置词特征中的一种或多种，增加了计算参数，从而具有计算准确，文本分类准确率高的有优点。

本发明还提供另一实施例，本实施例提供一种文本的分类方法，本实施例实现的技术场景为，本实施例以歌词文本为例，其存储的文本为，你说过这辈子你都不会离开我离开我，我恨你恨你无情无义。实现上述方法的具体步骤如图2所示：包括：

步骤21、采用双向最大匹配法对存储的歌词文本进行分词处理；

对存储的文本进行分次处理后，得到的结果可以为，你说过这辈子你都不会离开我离开我，我恨你恨你无情无义。

步骤22、提取分词处理后的文本的句子特征，建立文本的特征向量；

实现步骤22的方法具体可以为，计算文本的基本特征向量，本实施例中，设定基本特征为HENNI(恨你)，WUQINGWUYI(无情无义)，对应的基本特征值分别为，0.5、0.3，，该基本特征值的具体计算方法可以参见公式(1)中的描述，基本特征可以自行设定，则该文本的基本特征向量为(0.5，0.3)；计算文本的句式特征向量，其具体方法为，根据标点符号判断出存储的文本的句子均为陈述句，该陈述句的总数量为2，存储的文本的总句数为2，则根据公式(2)计算出句式特征值为，1，由于没有疑问句和感叹句，所以其对应的句式特征值均为0，则该句式特征向量为(1，0，0)；计算文本的重复词特征向量，计算出的重复词特征向量的具体可以为，对于上述歌词文本中的第一句，重复词个数为6个，该重复词具体为离开我离开我，其句子的总词数为11个，则计算出重复词特征值为，0.56；对于上述歌词文本中的第二句，重复词个数为2个，具体为，恨你恨你，其句子的总词数为4个，则计算出重复词特征值为，0.50(为了计算方便，这里保留2为有效数字)，该重复词特征向量为((0.56+0.50)/2)＝(0.53)；计算出叠置词特征向量，这里假设叠置词的类型可以为类型AAB和类型ABAC，该叠置词特征向量具体可以为，该存储的文本只有一个类型ABAC的叠置词“无情无义”，该文本的总词数为15，则根据公式(3)计算出相同形式叠置词特征值为，0.067(保留2位有效数字)，该文本没有AAB类型的叠置词，所以该AAB类型的特征值为0，其叠置词的特征向量为(0，0.067)；建立文本的特征向量，具体可以为将基本特征向量、句式特征向量、重复词特征向量和叠置词特征向量组合起来得到文本的特征向量，具体可以为，(0.5，0.3，1，0，0，0.34，0，0.067)。

步骤23、将该特征向量作为输入向量代入SVM或ANN计算得到该文本的类型。

本实施例中，将(0.5，0.3，1，0，0，0.34，0，0.067)代入SVM或ANN计算得到的结果为3，得到该歌词文本的类型为数值3对应的类型，该类型具体为“伤感”，其中，数值与歌词文本类型的对应关系可以提前设置，设置可以参考训练的经验值进行。

本发明另一实施例所述的方法，将存储的歌词文本进行分词处理后，将基本特征向量、句式特征向量、重复词特征向量和叠置词特征向量加入到文本的特征向量中，然后将该文本的特征向量代入SVM或ANN进行计算得到该文本的类型，使得该文本的类型不仅仅和基本特征有关，还与句式特征向量、重复词特征向量和叠置词特征向量中的一个或多个有关，所以增加了文本分类的计算参数，从而文本分类计算准确，文本分类准确率高。

本发明具体实施例提供一种文本的分类装置，该装置如图3所示，包括：分词单元31，用于将存储的文本进行分词处理；向量单元32，用于提取分词处理后的文本的句子特征，并根据该文本的句子特征建立该文本的特征向量；计算单元33，用于将该特征向量作为输入向量，并将所述输入向量代入支持向量机SVM或人工神经网络ANN中计算得到该文本的类型；其中，该句子特征可以包括该句子的基本特征，该句子特征还可以包括句式特征、重复词特征、叠置词特征中的一种或多种，重复词和叠置词的定义及装置中的各个单元的相关处理可以参见方法实施例中的相关描述，这里不再赘述。

可选的，向量单元32还可以用于确定句子特征，向量单元32可以包括下述配置的任何一种：

配置A、句式计算模块321，用于计算基本特征向量和句式特征向量；

句式集合模块322，用于将该基本特征向量和句式特征向量组合起来即为该文本的特征向量。

配置B、重复词计算模块323，用于计算基本特征向量和重复词特征向量，

重复词集合模块324，用于将该基本特征向量和重复词特征向量组合起来即为该文本的特征向量。

配置C、叠置词计算模块325，用于计算基本特征向量和叠置词特征向量，

叠置词集合模块326，用于将该基本特征向量和叠置词特征向量组合起来即为该文本的特征向量。

上述计算基本特征向量、句式特征向量、重复词特征向量和叠置词特征向量的相关实现方案可以参见方法实施例中的相关描述，这里就不在赘述。

本发明实施例提供的装置，通过分词单元31将存储的文本进行分词处理后，向量单元32提取该文本的句子特征，并根据文本的句子特征建立文本的特征向量后，计算单元33根据该特征向量采用SVM或ANN方法计算得到该文本的类型，由于该句子特征的特征向量不仅考虑了句子的基本特征，还考虑了句式特征、重复词特征和叠置词特征中的一种或多种，增加了计算参数，从而具有计算准确，文本分类准确率高的有优点。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

综上所述，本发明具体实施方式提供的技术方案，具有局限性小，分类准确的优点。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本的分类方法，其特征在于，所述方法包括：

将存储的文本进行分词处理；

其中，所述句子特征包括所述句子的基本特征，所述句子特征还包括句式特征、重复词特征和叠置词特征中的一种或多种；

所述基本特征向量包括所有基本特征值，所述基本特征值的计算方法为：

w_{ik} = \frac{TF (t_{k}, d_{i}) \times \log (\frac{N}{n_{t_{k}} + 0.01})}{\sqrt{\underset{t_{k} &Element; d_{i}}{Σ} {[TF (t_{k}, d_{i}) \times \log (\frac{N}{n_{t_{k}} + 0.01})]}^{2}}};

其中，w_ik是指基本特征t_k在文本d_i中的基本特征值，TF(t_k,d_i)是指基本特征t_k在文本d_i中出现的频率，N是所有训练文本的数目，是指所有训练文本中包含基本特征t_k的文本数目；

所述句式特征向量包括所有句式特征值，所述句式特征值的计算方法为：

V_P=P/J；

其中，V_P为句式特征值，P表示文本中相同句式特征的句子总数，J表示该文本中句子的总数量；

所述重复词特征向量为所有重复词特征值的平均值，所述重复词特征值的计算方法为：

重复词特征值=句子中重复词的总个数/句子的总词数；

所述叠置词特征向量包括所有相同形式叠置词特征值，所述叠置词特征值的计算方法为：

O (X, d_{i}) = \frac{K (X, d_{i})}{K}

其中，O(X,d_i)表示文本d_i中X形式的叠置词特征值，K(X,d_i)表示文本d_i中X形式的叠置词数量，K为文本d_i中词的总数量。

2.根据权利要求1所述的方法，其特征在于，如所述句子特征还包括句式特征，所述根据所述文本的句子特征建立所述文本的特征向量具体为：

计算基本特征向量和句式特征向量，将所述基本特征向量和句式特征向量组合起来即为所述文本的特征向量。

3.根据权利要求1所述的方法，其特征在于，如所述句子特征还包括重复词特征，所述根据所述文本的句子特征建立所述文本的特征向量具体为：

计算基本特征向量和重复词特征向量，将所述基本特征向量和重复词特征向量组合起来即为所述文本的特征向量。

4.根据权利要求1所述的方法，其特征在于，如所述句子特征还包括叠置词特征，所述根据所述文本的句子特征建立所述文本的特征向量具体为：

计算基本特征向量和叠置词特征向量，将所述基本特征向量和叠置词特征向量组合起来即为所述文本的特征向量。

5.一种文本的分类装置，其特征在于，所述装置包括：

分词单元，用于将存储的文本进行分词处理；

所述句子特征包括所述句子的基本特征，所述句子特征还包括句式特征、重复词特征、叠置词特征中的一种或多种；

w_{ik} = \frac{TF (t_{k}, d_{i}) \times \log (\frac{N}{n_{t_{k}} + 0.01})}{\sqrt{\underset{t_{k} &Element; d_{i}}{Σ} {[TF (t_{k}, d_{i}) \times \log (\frac{N}{n_{t_{k}} + 0.01})]}^{2}}};

其中，w_ik是指基本特征t_k在文本d_i中的基本特征值，TF(t_k,d_i)是指基本特征t_k在文本d_i中出现的频率，N是所有训练文本的数目，

是指所有训练文本中包含基本特征t_k的文本数目；

V_P=P/J；

重复词特征值=句子中重复词的总个数/句子的总词数；

O (X, d_{i}) = \frac{K (X, d_{i})}{K}

6.根据权利要求5所述的装置，所述向量单元还用于确定句子特征，并在确认所述句子特征还包括句式特征时，所述向量单元具体为：

句式计算模块，用于计算基本特征向量和句式特征向量；

句式集合模块，用于将所述基本特征向量和句式特征向量组合起来即为所述文本的特征向量。

7.根据权利要求5所述的装置，其特征在于，所述向量单元还用于确定句子特征，并在确认所述句子特征还包括重复词特征时，所述向量单元具体为：

重复词计算模块，用于计算基本特征向量和重复词特征向量；

重复词集合模块，用于将所述基本特征向量和重复词特征向量组合起来即为所述文本的特征向量。

8.根据权利要求5所述的装置，其特征在于，所述向量单元还用于确定句子特征，并在确认所述句子特征还包括叠置词特征时，所述装置具体为：

叠置词计算模块，用于计算基本特征向量和叠置词特征向量；

叠置词集合模块，用于将所述基本特征向量和叠置词特征向量组合起来即为所述文本的特征向量。