CN104199959A - 一种针对互联网涉税数据的文本分类方法 - Google Patents

一种针对互联网涉税数据的文本分类方法 Download PDF

Info

Publication number
CN104199959A
CN104199959A CN201410477312.1A CN201410477312A CN104199959A CN 104199959 A CN104199959 A CN 104199959A CN 201410477312 A CN201410477312 A CN 201410477312A CN 104199959 A CN104199959 A CN 104199959A
Authority
CN
China
Prior art keywords
similarity
former
word
justice
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410477312.1A
Other languages
English (en)
Inventor
刘丽娜
徐宏伟
黄兴柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201410477312.1A priority Critical patent/CN104199959A/zh
Publication of CN104199959A publication Critical patent/CN104199959A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种针对互联网涉税数据的文本分类方法,可以有效的组织、管理、挖掘文本信息,伴随着互联网的快速发展,网络上的多媒体信息快速的增长,我们如何从浩瀚的网络资源中,高效地挖掘出有用信息,是文本分类中一项非常艰巨的任务,本发明可以通过文本分类技术,使网页自动的按照类别的方式进行组织和管理,满足税务人员方便快捷的信息处理需求,准确定位所需信息资源减少和避免税款流失,成为优化税收征管方式的现实问题。同时,文本分类技术作为信息过滤、信息检索、搜索引擎等领域的技术基础,有着广泛的应用前景,可产生巨大的社会效益和经济效益。

Description

一种针对互联网涉税数据的文本分类方法
技术领域
本发明涉及互联网电商数据,短文本,用户评论等相关文本领域,使互联网中的有关数据得到有效组织和管理,满足人们方便快捷的信息处理需求,准确定位所需信息资源满足客户的需求。具体地说是一种针对互联网涉税数据的文本分类方法。
背景技术
随着互联网和信息技术的快速发展,电子信息资源急剧增长,互联网正深刻的影响着人们的生活。同时大多数的电子信息是以文本形式存在的。如何有效的组织和管理这些资源,并快速、准确地找到用户所需信息成为当前信息技术领域面临的一大问题。对于海量文本内容的处理,文本分类是基础的且非常重要的。文本分类是指根据文本内容,将给定文本划分到预定义的类别中。文本分类在信息过滤、信息检索、垃圾邮件过滤、词义消歧、中有重要应用。
文本分类是一个复杂的过程,主要包括文档预处理、文本表示、分类算法设计、性能评估等主要步骤,文本分类的主要任务有文本的形式化表示以及在此基础上的分类算法设计。从自然语言的角度看文本其核心的内容是它的语义信息。最理想的境界是计算机能准确地揣测和摹拟人们所理解的语义,把人们认为语义相近的文本分成一类。但是,计算机并不具有人的智能,根本不可能在读懂文档的基础上对其进行分类。对于计算机,它只能从文本的外部特征来反映它们的语义信息。因此,要利用它完成文本的分类,必须将它表示成计算机可以接受的模型,必须要对文本进行形式化表示。这种形式化表示应该尽可能多地反映文本所蕴涵的语义信息,同时应该是便于计算的,也就是说,从文本的形式化表示能比较容易地计算出文本所蕴涵的语义信息来,也正是因为把文档以向量的形式定义到实数域中,才使得模式识别和其他领域中各种成熟的计算方法得以采用,极大地提高了自然语言文档的可计算性和可操作性。因此,向量空间模型文档表示的形式化方法是基于文档处理的各种应用得以形式化的基础和前提,如何让这种向量尽量准确有效地表达出文本内容一直是该模型中的基础性问题。在向量空间模型中,词作为文本特征存在着表达能力有限的问题。这种方法仅仅用词作为文本特征,并没有使用人们掌握的知识,国内外研究人员为了处理同义和概念之间的上下级关系,提出基于概念的文本分类方法。在基于向量空间模型的文本分类算法中,文档中出现的词是按照词形考虑的,使用这种简单的表示方法,会使得内容相近的文档由于使用不同的词语而被认为不是同一类。
文本分类作为数据挖掘中一种见的研究热点方向,主要步骤:文本预处理,特征选择(计算特征词的权重和选择特征词),表示文本的特征模型的建立,训练分类器,用分类器进行分类。其中特征选择是文本分类中最重要的,能否利用特征选择选出合适的特征词对分类的效果有重要影响。能否利用特征选择选出合适的特征词会直接影响分类的效率和效果。由于之前方法没有充分考虑词的层次结构,没有考虑到语义树状结构中的深度以及语义之间的相互独立性,因此,造成了分类结果不够精确,如何提高分类精确度一直是文本分类领域研究的热点,相关领域的研究者提出了许多改进的算法,本发明也对文本分类提出了一种改进的方法。
发明内容
本发明的目的是提供一种针对互联网涉税数据的文本分类方法。
本发明的目的是按以下方式实现的,步骤包括(1)对文本进行特征提取,(2) 对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:
(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;
(2) 对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;
(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:
Sim(A,B)= log p(common( A,B))/log p(description(A,B))    (1.1)
其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:
1) 计算两个义原间的相似度
义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:
             (1.2)
其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度,依据义原树的深度通常取α= 1.6,dist(s1,s2)代表两个义原在义原树中的距离,在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响;
2) 计算出两个义项的相似度
现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:
                    (1.3)
其中βi(1≤i≤4) 是可变化的,一般根据经验指定,且有β1≥β2≥β3≥β4,β1234=1,因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5,当我们在实例验证时候发现,当sim1非常小,但是sim3或sim4比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的,将表达式(1.3)进行了修改,给出如式(1.4)所示:
                     (1.4)
至此,比较精确的表达出义项的相似度,但当考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,对公式(1.4)进行修改为(1.5):
         (1.5)   
至此,比较精确的表达出义项的相似度;
3) 得出词语的相似度
假设有两个词语W1和W2,其中W1是由m个义项所组成,W2是由n个义项所组成,C1i ( i=1,…, m )和C2j ( j=1,…, n )分别代表每个词语的义项,W= { C11, C 12,…, C 1m},W2 = { C21, C 22,…,C2n },两个词语的相似度为义项C1i和C2j所有组合中相似度的最大值,如式(1.6)所示:
即词语的相似度为所有义项相似度的加权平均值,
                  (1.6)。
本发明的目的有益效果是:
1、利用互联网大数据技术,从互联网中采集影响税务决策的相关信息,作为数据源;
2、利用特征降维方法,在尽可能保持原有信息基础上,将基础数据中冗余的特征属性删除,建立尽可能少的新数据,能够有效降低算法的复杂性;
3、提出的文本词语相似度计算方法可以有效的将文本进行准确的分类,提高了文本的分类精度。
附图说明
图1是互联网文本数据分类处理流程图。
具体实施方式
参照说明书附图对本发明的一种针对互联网涉税数据的文本分类方法作以下详细地说明。
本发明主要从文本表示及分类算法两个角度展开了深入的研究,提出利用自然语言技术改进原有的文本分类方法,主要内容概括如下:
互联网中的文本分类问题是一个复杂的过程,其中文本表示是系统的基石,分类算法的设计是系统的核心和实现手段。
包括文本预处理、文本的表示、特征提取、权重计算、分类算法、性能评估等主要步骤,(1)对文本进行特征提取,文本分类存在的特点训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;
(2)对文中词语的特征进行降维处理,本发明依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;
(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间的相似度,如公式(1.1)所示:
S i m( A , B) = log p ( common( A, B ) )/log p ( description( A , B) )                 (1.1)
其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小。
实施例
本文采用一种改进的计算两个词语之间相似度方法,因为词语在实际存在形式中是由义项组成的,对应于一条记录,义项又是由多个义原组成,义原层次体系是一个树状结构。通过遍历义原层次结构树可以计算出两个义原的距离,而层次结构树中节点之间的路径长度即为两个义原的距离。因此词语的相似度计算转化为义原相似度计算,通过义原的相似度组合即可得到义项的相似度,最后由义项的相似度得到词语的相似度。算法过程如下:
(1) 计算两个义原间的相似度
义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度。两个义原间的相似度公式如式(1.2)所示:
                     (1.2)
其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度。依据义原树的深度通常取α= 1.6,dist(s1,s2)代表两个义原在义原树中的距离。在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响。
(2) 计算出两个义项的相似度
我们现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:
               (1.3)
其中βi(1≤i≤4) 是可变化的,一般根据经验指定,且有β1≥β2≥β3≥β4,β1234=1。因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5。当我们在实例验证时候发现,当sim1非常小,但是sim3或sim4比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的。刘群等人对表达式(1.3)进行了修改,给出如式(1.4)所示:
          (1.4)
至此,可以比较精确的表达出义项的相似度,但当我们考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,本方法对公式(1.4)进行修改为(1.5):
     (1.5)   
至此,可以比较精确的表达出义项的相似度。
(3) 得出词语的相似度
假设有两个词语W1和W2,其中W1是由m个义项所组成,W2是由n个义项所组成,C1i ( i=1,…, m )和C2j ( j=1,…, n )分别代表每个词语的义项,W= { C11, C 12,…, C 1m},W2 = { C21, C 22,…,C2n },两个词语的相似度为义项C1i和C2j所有组合中相似度的最大值,如式(1.6)所示:
即词语的相似度为所有义项相似度的加权平均值。
            (1.6)
利用该方法,有效的提高了词语的分类性能,为文本信息分类提供一个良好的方法。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种针对互联网涉税数据的文本分类方法, 其特征在于步骤包括(1)对文本进行特征提取,(2) 对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:
(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;
(2) 对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;
(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:
Sim(A,B)= log p(common( A,B))/log p(description(A,B))    (1.1)
其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:
1) 计算两个义原间的相似度
义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:
       (1.2)
其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度,依据义原树的深度通常取α= 1.6,dist(s1,s2)代表两个义原在义原树中的距离,在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响;
2) 计算出两个义项的相似度
现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:
         (1.3)
其中βi(1≤i≤4) 是可变化的,一般根据经验指定,且有β1≥β2≥β3≥β4,β1234=1,因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5,当我们在实例验证时候发现,当sim1非常小,但是sim3或sim4比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的,将表达式(1.3)进行了修改,给出如式(1.4)所示:
              (1.4)
至此,比较精确的表达出义项的相似度,但当考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,对公式(1.4)进行修改为(1.5):
   (1.5)   
至此,比较精确的表达出义项的相似度;
3) 得出词语的相似度
假设有两个词语W1和W2,其中W1是由m个义项所组成,W2是由n个义项所组成,C1i ( i=1,…, m )和C2j ( j=1,…, n )分别代表每个词语的义项,W= { C11, C 12,…, C 1m},W2 = { C21, C 22,…,C2n },两个词语的相似度为义项C1i和C2j所有组合中相似度的最大值,如式(1.6)所示:
即词语的相似度为所有义项相似度的加权平均值,
   (1.6)。
CN201410477312.1A 2014-09-18 2014-09-18 一种针对互联网涉税数据的文本分类方法 Pending CN104199959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410477312.1A CN104199959A (zh) 2014-09-18 2014-09-18 一种针对互联网涉税数据的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410477312.1A CN104199959A (zh) 2014-09-18 2014-09-18 一种针对互联网涉税数据的文本分类方法

Publications (1)

Publication Number Publication Date
CN104199959A true CN104199959A (zh) 2014-12-10

Family

ID=52085252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410477312.1A Pending CN104199959A (zh) 2014-09-18 2014-09-18 一种针对互联网涉税数据的文本分类方法

Country Status (1)

Country Link
CN (1) CN104199959A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268535A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种基于知网HowNet的查询扩展方法和装置
CN109508378A (zh) * 2018-11-26 2019-03-22 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、系统及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156567A1 (en) * 2012-12-04 2014-06-05 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156567A1 (en) * 2012-12-04 2014-06-05 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘群等: "基于《知网》的词汇语义相似度计算", 《中文计算语言学》 *
高洁等: "文本分类技术研究", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268535A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种基于知网HowNet的查询扩展方法和装置
CN109508378A (zh) * 2018-11-26 2019-03-22 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN109508378B (zh) * 2018-11-26 2023-07-14 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、系统及设备

Similar Documents

Publication Publication Date Title
Moldagulova et al. Using KNN algorithm for classification of textual documents
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
CN105426426B (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN103577462B (zh) 一种文档分类方法及装置
Nagamanjula et al. A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis
Beller et al. I’ma belieber: Social roles via self-identification and conceptual attributes
Dey et al. Emtagger: a word embedding based novel method for hashtag recommendation on twitter
Kaviani et al. Emhash: Hashtag recommendation using neural network based on bert embedding
Gu et al. Service package recommendation for mashup creation via mashup textual description mining
Wang et al. Text clustering based on the improved TFIDF by the iterative algorithm
Lee et al. InfoShield: Generalizable information-theoretic human-trafficking detection
López-Monroy et al. Early Text Classification Using Multi-Resolution Concept Representations.
CN104199959A (zh) 一种针对互联网涉税数据的文本分类方法
US20190095525A1 (en) Extraction of expression for natural language processing
CN106202116B (zh) 一种基于粗糙集与knn的文本分类方法及系统
Qiu et al. Feature selection using a set based discrete particle swarm optimization and a novel feature subset evaluation criterion
Patil et al. Class-specific features using j48 classifier for text classification
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method
Camastra et al. Machine learning-based web documents categorization by semantic graphs
Harshvardhan et al. Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization
CN113111288A (zh) 一种融合非结构化和结构化信息的Web服务分类方法
Ziani et al. Combining random sub space algorithm and support vector machines classifier for arabic opinions analysis
Nguyen et al. Text summarization on large-scale Vietnamese datasets
Tong et al. Topic-adaptive sentiment analysis on tweets via learning from multi-sources data
Loglisci et al. An unsupervised framework for topological relations extraction from geographic documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141210