CN104199959A

CN104199959A - 一种针对互联网涉税数据的文本分类方法

Info

Publication number: CN104199959A
Application number: CN201410477312.1A
Authority: CN
Inventors: 刘丽娜; 徐宏伟; 黄兴柱
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2014-09-18
Filing date: 2014-09-18
Publication date: 2014-12-10

Abstract

本发明提出了一种针对互联网涉税数据的文本分类方法，可以有效的组织、管理、挖掘文本信息，伴随着互联网的快速发展，网络上的多媒体信息快速的增长，我们如何从浩瀚的网络资源中，高效地挖掘出有用信息，是文本分类中一项非常艰巨的任务，本发明可以通过文本分类技术，使网页自动的按照类别的方式进行组织和管理，满足税务人员方便快捷的信息处理需求，准确定位所需信息资源减少和避免税款流失，成为优化税收征管方式的现实问题。同时，文本分类技术作为信息过滤、信息检索、搜索引擎等领域的技术基础，有着广泛的应用前景，可产生巨大的社会效益和经济效益。

Description

一种针对互联网涉税数据的文本分类方法

技术领域

本发明涉及互联网电商数据，短文本，用户评论等相关文本领域，使互联网中的有关数据得到有效组织和管理，满足人们方便快捷的信息处理需求，准确定位所需信息资源满足客户的需求。具体地说是一种针对互联网涉税数据的文本分类方法。

背景技术

随着互联网和信息技术的快速发展，电子信息资源急剧增长，互联网正深刻的影响着人们的生活。同时大多数的电子信息是以文本形式存在的。如何有效的组织和管理这些资源，并快速、准确地找到用户所需信息成为当前信息技术领域面临的一大问题。对于海量文本内容的处理，文本分类是基础的且非常重要的。文本分类是指根据文本内容，将给定文本划分到预定义的类别中。文本分类在信息过滤、信息检索、垃圾邮件过滤、词义消歧、中有重要应用。

文本分类是一个复杂的过程，主要包括文档预处理、文本表示、分类算法设计、性能评估等主要步骤，文本分类的主要任务有文本的形式化表示以及在此基础上的分类算法设计。从自然语言的角度看文本其核心的内容是它的语义信息。最理想的境界是计算机能准确地揣测和摹拟人们所理解的语义，把人们认为语义相近的文本分成一类。但是，计算机并不具有人的智能，根本不可能在读懂文档的基础上对其进行分类。对于计算机，它只能从文本的外部特征来反映它们的语义信息。因此，要利用它完成文本的分类，必须将它表示成计算机可以接受的模型，必须要对文本进行形式化表示。这种形式化表示应该尽可能多地反映文本所蕴涵的语义信息，同时应该是便于计算的，也就是说，从文本的形式化表示能比较容易地计算出文本所蕴涵的语义信息来，也正是因为把文档以向量的形式定义到实数域中，才使得模式识别和其他领域中各种成熟的计算方法得以采用，极大地提高了自然语言文档的可计算性和可操作性。因此，向量空间模型文档表示的形式化方法是基于文档处理的各种应用得以形式化的基础和前提，如何让这种向量尽量准确有效地表达出文本内容一直是该模型中的基础性问题。在向量空间模型中，词作为文本特征存在着表达能力有限的问题。这种方法仅仅用词作为文本特征，并没有使用人们掌握的知识，国内外研究人员为了处理同义和概念之间的上下级关系，提出基于概念的文本分类方法。在基于向量空间模型的文本分类算法中，文档中出现的词是按照词形考虑的，使用这种简单的表示方法，会使得内容相近的文档由于使用不同的词语而被认为不是同一类。

文本分类作为数据挖掘中一种见的研究热点方向，主要步骤：文本预处理，特征选择(计算特征词的权重和选择特征词)，表示文本的特征模型的建立，训练分类器，用分类器进行分类。其中特征选择是文本分类中最重要的，能否利用特征选择选出合适的特征词对分类的效果有重要影响。能否利用特征选择选出合适的特征词会直接影响分类的效率和效果。由于之前方法没有充分考虑词的层次结构，没有考虑到语义树状结构中的深度以及语义之间的相互独立性，因此，造成了分类结果不够精确，如何提高分类精确度一直是文本分类领域研究的热点，相关领域的研究者提出了许多改进的算法，本发明也对文本分类提出了一种改进的方法。

发明内容

本发明的目的是提供一种针对互联网涉税数据的文本分类方法。

本发明的目的是按以下方式实现的，步骤包括（1）对文本进行特征提取，（2）对文中词语的特征进行降维处理，（3）针对基于语义的文本信息进行分类，其中：

（1）对文本进行特征提取，文本分类存在的特点是训练集较大，并且向量空间的维数较高，高维度的特征数据会加剧机器学习的负担，在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取；

（2）对文中词语的特征进行降维处理，依据特征的分类能力，采用AdaBoost算法同时进行特征选择和分类器增强；

（3）针对基于语义的文本信息进行分类，根据概念之间的语义关系，提出了如何计算两个词语之间相似度的公式如下：

Sim(A,B)= log p(common( A,B))/log p(description(A,B)) (1.1)

其中，分子部分是描述A、B共性所需要的信息量的大小，分母部分是完整的描述出A、B所需要的信息量大小，算法过程如下：

1）计算两个义原间的相似度

义原是最基本的不可分割的最小单位，常用的义原之间的关系有上下位关系，反义关系，同义关系等，计算义原之间的相似度采用了义原之间的主要关系即上下位关系，利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示：

(1.2)

其中，上式中的α表示一个可以改变的参数，代表了相似度为0.5时的路径的长度,依据义原树的深度通常取α= 1.6，dist(s₁,s₂)代表两个义原在义原树中的距离,在研究中发现，义原之间的距离并不代表义原之间的相互关系，其实，义原之间的相对位置对他们之间的相互关系也产生较大的影响；

2）计算出两个义项的相似度

现实生活中面对的文本不仅包含实词还有虚词，基于实词和虚词在现实中是不可以相互替换的，这里将实词和虚词之间的相似度记为零，结合虚词的概念均用句法义原或关系义原方式简单描述，仅仅计算其对应的句法义原或关系义原之间的相似度即可，两个义项的整体相似度表达式如式(1.3)所示：

(1.3)

其中β_i(1≤i≤4) 是可变化的，一般根据经验指定，且有β₁≥β₂≥β₃≥β₄，β₁+β₂+β₃+β₄=1，因为一个概念的最主要的特征由第一义原描述式所反映的，所以其取值一般要大于0.5，当我们在实例验证时候发现，当sim₁非常小，但是sim₃或sim₄比较大时，由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的，将表达式(1.3)进行了修改，给出如式(1.4)所示：

(1.4)

至此，比较精确的表达出义项的相似度，但当考虑第一独立义原在整个概念描述中起至关重要的作用，同时该部分与其余部分是相互独立的，当第一义原部分的相似度比较低时，其余次要的三部分相似度对于整体相似度所起的作用也会降低，因此，对公式(1.4)进行修改为(1.5)：

(1.5)

至此，比较精确的表达出义项的相似度；

3）得出词语的相似度

假设有两个词语W₁和W₂，其中W₁是由m个义项所组成，W₂是由n个义项所组成，C_1i( i=1,…, m )和C_2j( j=1,…, n )分别代表每个词语的义项，W₁= { C₁₁, C ₁₂,…, C _1m}，W₂ = { C₂₁, C ₂₂，…,C_2n}，两个词语的相似度为义项C_1i和C_2j所有组合中相似度的最大值，如式(1.6)所示：

即词语的相似度为所有义项相似度的加权平均值，

(1.6)。

本发明的目的有益效果是：

1、利用互联网大数据技术，从互联网中采集影响税务决策的相关信息，作为数据源；

2、利用特征降维方法，在尽可能保持原有信息基础上，将基础数据中冗余的特征属性删除，建立尽可能少的新数据，能够有效降低算法的复杂性；

3、提出的文本词语相似度计算方法可以有效的将文本进行准确的分类，提高了文本的分类精度。

附图说明

图1是互联网文本数据分类处理流程图。

具体实施方式

参照说明书附图对本发明的一种针对互联网涉税数据的文本分类方法作以下详细地说明。

本发明主要从文本表示及分类算法两个角度展开了深入的研究，提出利用自然语言技术改进原有的文本分类方法，主要内容概括如下:

互联网中的文本分类问题是一个复杂的过程，其中文本表示是系统的基石，分类算法的设计是系统的核心和实现手段。

包括文本预处理、文本的表示、特征提取、权重计算、分类算法、性能评估等主要步骤，（1）对文本进行特征提取，文本分类存在的特点训练集较大，并且向量空间的维数较高，高维度的特征数据会加剧机器学习的负担，在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取；

（2）对文中词语的特征进行降维处理，本发明依据特征的分类能力，采用AdaBoost算法同时进行特征选择和分类器增强；

（3）针对基于语义的文本信息进行分类，根据概念之间的语义关系，提出了如何计算两个词语之间的相似度，如公式(1.1)所示：

S i m( A , B) = log p ( common( A, B ) )/log p ( description( A , B) ) (1.1)

其中，分子部分是描述A、B共性所需要的信息量的大小，分母部分是完整的描述出A、B所需要的信息量大小。

实施例

本文采用一种改进的计算两个词语之间相似度方法，因为词语在实际存在形式中是由义项组成的，对应于一条记录，义项又是由多个义原组成，义原层次体系是一个树状结构。通过遍历义原层次结构树可以计算出两个义原的距离，而层次结构树中节点之间的路径长度即为两个义原的距离。因此词语的相似度计算转化为义原相似度计算，通过义原的相似度组合即可得到义项的相似度，最后由义项的相似度得到词语的相似度。算法过程如下：

（1）计算两个义原间的相似度

义原是最基本的不可分割的最小单位，常用的义原之间的关系有上下位关系，反义关系，同义关系等，计算义原之间的相似度采用了义原之间的主要关系即上下位关系，利用层次结构树中各个义原之间的一些关系来得到词语的相似度。两个义原间的相似度公式如式(1.2)所示：

(1.2)

其中，上式中的α表示一个可以改变的参数，代表了相似度为0.5时的路径的长度。依据义原树的深度通常取α= 1.6，dist(s₁,s₂)代表两个义原在义原树中的距离。在研究中发现，义原之间的距离并不代表义原之间的相互关系，其实，义原之间的相对位置对他们之间的相互关系也产生较大的影响。

（2）计算出两个义项的相似度

我们现实生活中面对的文本不仅包含实词还有虚词，基于实词和虚词在现实中是不可以相互替换的，这里将实词和虚词之间的相似度记为零，结合虚词的概念均用句法义原或关系义原方式简单描述，仅仅计算其对应的句法义原或关系义原之间的相似度即可，两个义项的整体相似度表达式如式(1.3)所示：

(1.3)

其中β_i(1≤i≤4) 是可变化的，一般根据经验指定，且有β₁≥β₂≥β₃≥β₄，β₁+β₂+β₃+β₄=1。因为一个概念的最主要的特征由第一义原描述式所反映的，所以其取值一般要大于0.5。当我们在实例验证时候发现，当sim₁非常小，但是sim₃或sim₄比较大时，由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的。刘群等人对表达式(1.3)进行了修改，给出如式(1.4)所示：

(1.4)

至此，可以比较精确的表达出义项的相似度，但当我们考虑第一独立义原在整个概念描述中起至关重要的作用，同时该部分与其余部分是相互独立的，当第一义原部分的相似度比较低时，其余次要的三部分相似度对于整体相似度所起的作用也会降低，因此，本方法对公式(1.4)进行修改为(1.5)：

(1.5)

至此，可以比较精确的表达出义项的相似度。

（3）得出词语的相似度

即词语的相似度为所有义项相似度的加权平均值。

(1.6)

利用该方法，有效的提高了词语的分类性能，为文本信息分类提供一个良好的方法。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种针对互联网涉税数据的文本分类方法, 其特征在于步骤包括（1）对文本进行特征提取，（2）对文中词语的特征进行降维处理，（3）针对基于语义的文本信息进行分类，其中：

Sim(A,B)= log p(common( A,B))/log p(description(A,B)) (1.1)

1）计算两个义原间的相似度

(1.2)

2）计算出两个义项的相似度

(1.3)

(1.4)

(1.5)

至此，比较精确的表达出义项的相似度；

3）得出词语的相似度

即词语的相似度为所有义项相似度的加权平均值，

(1.6)。