CN106326458A - 一种基于文本分类的城市管理案件分类方法 - Google Patents

一种基于文本分类的城市管理案件分类方法 Download PDF

Info

Publication number
CN106326458A
CN106326458A CN201610750148.6A CN201610750148A CN106326458A CN 106326458 A CN106326458 A CN 106326458A CN 201610750148 A CN201610750148 A CN 201610750148A CN 106326458 A CN106326458 A CN 106326458A
Authority
CN
China
Prior art keywords
feature
text
classification
class
domains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610750148.6A
Other languages
English (en)
Inventor
李灵巧
魏文
杨浩
丁煜
何胜韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Wisdom Of Mdt Infotech Ltd
Original Assignee
Guangxi Wisdom Of Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Wisdom Of Mdt Infotech Ltd filed Critical Guangxi Wisdom Of Mdt Infotech Ltd
Publication of CN106326458A publication Critical patent/CN106326458A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本分类的城市管理案件分类方法,包括以下步骤,S1:预处理,对短文本进行预处理,进行分词、去除文本中的停用词、统计词频等操作,其中停用词包括标点符号、表情符号、语气助词、介词和连接词;S2:互邻特征组合,通过互邻特征组合算法对文本特征空间中的特征进行组合,形成新的特征,并扩展特征空间,S3:基于类别特征域的特征选择,经上述互邻特征组合算法进行特征扩展之后,整个短文本的特征空间变得十分庞大,在产生对短文本分类描述力更强的组合特征的同时,也产生了很多对分类效果贡献不大甚至有影响的特征,需要对其进行特征选择,S4:采用tf‑idf加权,计算每个文本特征向量;S5:训练分类器并对测试文本分类。

Description

一种基于文本分类的城市管理案件分类方法
技术领域
本发明涉及城市案件管理技术领域,具体为一种城市管理案件短文本分类的方法。
背景技术
信息化时代的来临使得世界各国的城市化发展步入数字化的轨道,城市管理也迈入了数字化、科技化、移动化的阶段。城市管理案件的上报将依赖于更多的信息化设备,例如智能手机等。通过手机App,包括环卫工人在内的各部门工作人员,发现案件即可一键上报。案件的来源得到了极大的丰富,提高了发现问题的能力。随着案件数量的大幅提升,案件的快速派发与处理成为了目前以及将来需要处理并解决的重要问题之一。针对庞大的案件数量,如果再通过人工的方式来手动分类,工作量将是巨大的,并且会产生很大的成本开支与较高的错误率。为此,找到一种快速高效的案件自动分类方法是至关重要的。
城市管理案件上报的内容主要包括案件文本描述、案件语音描述、案发照片、案发位置等,其中案件文本描述是必填内容并且通过案件的文本描述即可判断出相应案件类型,因此,城管案件的自动分类可以通过案件描述短文本的自动分类来实现。文本自动分类技术是信息检索以及自然语言处理领域研究的热点和关键技术,近年来已得到了快速的发展,并取得了一定的研究成果。但到目前为止,还没有一套统一的文本自动分类系统可以完美的解决各种类型的文本分类问题,例如,微博、新闻标题、文章、聊天信息等。特别是在文本的特征处理方面,例如,特征表示、特征选择等。文本特征处理是文本分类的基础,对最终的分类效果影响巨大,因此,针对不同的实际问题,选择最合适的特征处理方法显得尤为重要。
本发明要研究的城市管理案件描述文本与普通文本有很大的不同。第一,案件描述文本是一种短文本,字数一般在100字以内,甚至很多情况下,案件描述只有几个字。这就造成文本向量长度非常短,很不利于训练学习,需要对文本的特征长度进行扩展。第二,案件描述短文本一般对事物的现状进行描述,多采用紧凑的主谓(如,机动车占道)、动宾(如,发小广告)或并列(如,雨水井盖)等结构,从学习的角度看,短语特征要比仅以分割的词作特征描述能力更强。因此,若直接对案件描述短文本原始特征进行特征选择,不但会使得文本向量长度更短,而且无法选择得到分类效果更好的短语特征。为此,本发明研究了一种新的特征生成算法即互邻特征组合算法,先对原始文本特征进行处理,扩展文本向量长度并生成描述力更强的组合特征,然后再对文本进行特征选择。在特征选择算法实现方面,本发明改进了基于类别特征域的特征选择方法,通过综合考虑类内类间分散度以及词频因素提出了一种新的隶属度函数替换了传统的隶属度函数(互信息)。实验结果表明:改善后的特征选择方法对案件短文本分类效果较其它几种特征选择方法有着更好的分类性能。
发明内容
本发明针对上述问题,提供一种基于文本分类的城市管理案件分类方法,该短文本分类的方法在进行特征选择之前先用互邻特征组合算法对原始特征空间进行了处理,在生成短语特征的同时扩展了特征空间,这就使得后面在进行特征选择时,有了更多的选择空间。
实现本发明目的的技术方案为:
一种基于文本分类的城市管理案件分类方法,包括以下步骤:
S1:预处理,对短文本进行预处理,进行分词、去除文本中的停用词、统计词频等操作,其中停用词包括标点符号、表情符号、语气助词、介词和连接词;
S2:互邻特征组合,通过互邻特征组合算法对文本特征空间中的特征进行组合,形成新的特征,并扩展特征空间;
S3:基于类别特征域的特征选择,经上述互邻特征组合算法进行特征扩展之后,整个短文本的特征空间变得十分庞大,在产生对短文本分类描述力更强的组合特征的同时,也产生了很多对分类效果贡献不大甚至有影响的特征,需要对其进行特征选择:
首先,为短文本中的每一类都分别分配一个类标识码,设类别ci的类标识码为di;然后,对于短文本D的每一个特征t都按照如下方式进行处理:
a.若t属于且仅属于类别ci的类别特征域,则ci的类标识码di将被作为短文本D的一个特征;
b.若t同时属于m个类别ci1,ci2,…,cim的类别特征域,则上述m个类别的类标识码di1,di2,…,dim都将被作为短文本D的特征;
c.若t不属于任何一类的类别特征域,则将t本身作为短文本D的一个特征;
从上述过程中可以看出:各类的类别特征域中的特征将被替换为对应的类标识码;如果在一条短文本中有多个特征属于同一类别特征域,即多个特征对应同一类标识码,那么它们的权重将被累加并作为这个类标识码在该短文本中的权重,这样,主要特征将获得更大的权重值,有助于提升文本的分类效果;
S4:采用tf-idf加权,计算每个文本特征向量,tf-idf权重被广泛应用于文本分类领域,其基本思想是通过某一特征项在不同文本中出现频率的差异性大小来判断该特征项对分类的贡献度,即如果某一特征项在一个文本中出现的频率很高,并且很少在其他文本中出现,那么就认为该特征具有较高的类别识别度,更有利于文本分类,因此,tf-idf的值与文本中该特征项的词频数成正比,而与文本集中包含该特征项的文本数的比重成反比,常通过特征项的词频数与反文本数的乘积来计算,公式如下:
w t d = tf t d × idf t = tf t d × l o g ( N n t + 0.5 )
其中,wtd为特征项t在文本d中的权重值;tftd是文本d中特征t出现频数;N为总文本数;nt表示含有特征t的文本数,通常还会对TF-IDF权重进行规范化处理,公式为:
w t d = tf t d log ( N n t + 0.5 ) Σ t ∈ d [ tf t d × log ( N n t + 0.5 ) ] 2
S5:训练分类器并对测试文本分类,本方法中使用LibLinear作为文本分类器,LibLinear可高效的解决大规模线性分类问题,并已经成为一种解决大型数据稀疏问题的重要学习技术。
优选的,所述互邻特征组合算法具体为:
当一条案件描述短文本初步分词结果如下:
S=(w1,w2,w3,w4,w5) (1)
其中w1,w2,w3,w4,w5分别代表短文本S的五个特征词;
互邻特征组合算法执行后结果为:
S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)
其中w1,w2,w3,w4,w5不变,w12为特征词w1与w2相连后形成的新的特征词,w23,w34,w45同理。
优选的,所述类别特征域为每个类中的主要特征集合,一个特征是否属于某个类的主要特征集通过该特征与相应类别之间的隶属度函数值大小进行判定。
优选的,所述类别特征域根据隶属度函数计算公式构建,类别ci的类别特征域构建步骤如下:
1)设定一个阈值d,分别计算类别ci中每个特征t的隶属度函数值,其中,阈值d的大小由最终特征选择保留特征的数目所确定;
2)若高于阈值d,就认为特征t属于类别ci的类别特征域;
通过上述类别特征域的构造方式,如果某一个词条在多个类别中都有出现,并且满足相应类别特征域的所属条件,那么该词条将同时属于多个类的类别特征域。
优选的,所述隶属度函数计算公式为:
u c i ( t ) = ( tf i t tf t - tf i t + 1 ) × ( f i t C i - f t N + 1 ) - - - ( 3 )
式中,tfit表示在类别ci中特征t出现的词频数;tft表示在所有类别中特征t出现的词频数;fit表示在类别ci中含有特征t的文本数;Ci表示在类别ci中的文本总数;ft表示在所有类别中含有特征t的文本数;N表示文本集的总文本数;
用于计算类间分散度,tfit越大tft-tfit越小即表明特征t在某一类别中大量出现而在其他类别中较少出现,则说明该特征对文本分类的贡献度越大,为防止分母为零,对tft-tfit进行加1处理;
用于计算类内分散度,越大越小即表明在某一类别中包含该特征t的文本数越多,同时在所有类别中包含特征t的文本数越少,则说明该特征对文本分类的贡献度越大;为防止出现负数,对进行加1处理。
本发明的优点为:
(1)本发明方法在进行特征选择之前先用互邻特征组合算法对原始特征空间进行了处理,在生成短语特征的同时扩展了特征空间,这就使得后面在进行特征选择时,有了更多的选择空间。
(2)本发明中的新的隶属度函数充分考虑了类内类间分散度和词频因素,在构造类别特征域时明显要比只考虑文档数目的互信息的方法有效很多。
(3)基于类别特征域的特征选择算法在特征约减时,是将特征替换为相应的类标识码并加权,过程中并没有直接移除特征,不但没有信息的丢失,而且在很大程度上解决了数据稀疏问题,所以保留特征的数量对分类性能的影响不大。
附图说明
图1为本发明基于特征生成与选择的案件短文本分类的方法流程图;
图2为本发明在不同特征数情况下各特征选择算法对应的宏平均F1值;
图3为本发明在不同特征数情况下各特征选择算法对应的微平均F1值。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种基于文本分类的城市管理案件分类方法,包括以下步骤:
S1:预处理,对短文本进行预处理,进行分词、去除文本中的停用词、统计词频等操作,其中停用词包括标点符号、表情符号、语气助词、介词和连接词,文本处理的过程首先是从分词开始,中文分词大部分采用的是基于词典的最大匹配算法,而匹配的过程中难免会造成匹配错误,并且很大一部分匹配不上的短语有可能对文本的分类效果有着更好的提升,例如:“井盖破损”,分词之后会生成“井盖”与“破损”两个词语,而这两个词语作为特征显然不如合在一起组成的“井盖破损”这一个特征更具有分类性能;
S2:互邻特征组合,通过互邻特征组合算法对文本特征空间中的特征进行组合,形成新的特征,并扩展特征空间;所述互邻特征组合算法具体为:
当一条案件描述短文本初步分词结果如下:
S=(w1,w2,w3,w4,w5) (1)
其中w1,w2,w3,w4,w5分别代表短文本S的五个特征词;
互邻特征组合算法执行后结果为:
S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)
其中w1,w2,w3,w4,w5不变,w12为特征词w1与w2相连后形成的新的特征词,w23,w34,w45同理。
S3:基于类别特征域的特征选择,经上述互邻特征组合算法进行特征扩展之后,整个短文本的特征空间变得十分庞大,在产生对短文本分类描述力更强的组合特征的同时,也产生了很多对分类效果贡献不大甚至有影响的特征,需要对其进行特征选择:
首先,为短文本中的每一类都分别分配一个类标识码,设类别ci的类标识码为di;然后,对于短文本D的每一个特征t都按照如下方式进行处理:
a.若t属于且仅属于类别ci的类别特征域,则ci的类标识码di将被作为短文本D的一个特征;
b.若t同时属于m个类别ci1,ci2,…,cim的类别特征域,则上述m个类别的类标识码di1,di2,…,dim都将被作为短文本D的特征;
c.若t不属于任何一类的类别特征域,则将t本身作为短文本D的一个特征;
从上述过程中可以看出:各类的类别特征域中的特征将被替换为对应的类标识码;如果在一条短文本中有多个特征属于同一类别特征域,即多个特征对应同一类标识码,那么它们的权重将被累加并作为这个类标识码在该短文本中的权重,这样,主要特征将获得更大的权重值,有助于提升文本的分类效果;所述类别特征域为每个类中的主要特征集合,一个特征是否属于某个类的主要特征集通过该特征与相应类别之间的隶属度函数值大小进行判定,所述隶属度函数计算公式为:
u c i ( t ) = ( tf i t tf t - tf i t + 1 ) × ( f i t C i - f t N + 1 ) - - - ( 3 )
式中,tfit表示在类别ci中特征t出现的词频数;tft表示在所有类别中特征t出现的词频数;fit表示在类别ci中含有特征t的文本数;Ci表示在类别ci中的文本总数;ft表示在所有类别中含有特征t的文本数;N表示文本集的总文本数;
用于计算类间分散度,tfit越大tft-tfit越小即表明特征t在某一类别中大量出现而在其他类别中较少出现,则说明该特征对文本分类的贡献度越大,为防止分母为零,对tft-tfit进行加1处理;
用于计算类内分散度,越大越小即表明在某一类别中包含该特征t的文本数越多,同时在所有类别中包含特征t的文本数越少,则说明该特征对文本分类的贡献度越大;为防止出现负数,对进行加1处理。
S4:采用tf-idf加权,计算每个文本特征向量,tf-idf权重被广泛应用于文本分类领域,其基本思想是通过某一特征项在不同文本中出现频率的差异性大小来判断该特征项对分类的贡献度,即如果某一特征项在一个文本中出现的频率很高,并且很少在其他文本中出现,那么就认为该特征具有较高的类别识别度,更有利于文本分类,因此,tf-idf的值与文本中该特征项的词频数成正比,而与文本集中包含该特征项的文本数的比重成反比,常通过特征项的词频数与反文本数的乘积来计算,公式如下:
w t d = tf t d × idf t = tf t d × l o g ( N n t + 0.5 )
其中,wtd为特征项t在文本d中的权重值;tftd是文本d中特征t出现频数;N为总文本数;nt表示含有特征t的文本数,通常还会对TF-IDF权重进行规范化处理,公式为:
w t d = tf t d × l o g ( N n t + 0.5 ) Σ t ∈ d [ tf t d × log ( N n t + 0.5 ) ] 2
S5:训练分类器并对测试文本分类,本方法中使用LibLinear作为文本分类器,LibLinear可高效的解决大规模线性分类问题,并已经成为一种解决大型数据稀疏问题的重要学习技术。
本发明设计合理,传统文本处理的过程首先是从分词开始,中文分词大部分采用的是基于词典的最大匹配算法,而匹配的过程中难免会造成匹配错误。并且很大一部分匹配不上的短语有可能对文本的分类效果有着更好的提升。例如:“井盖破损”,分词之后会生成“井盖”与“破损”两个词语,而这两个词语作为特征显然不如合在一起组成的“井盖破损”这一个特征更具有分类性能。为此,本发明提出互邻特征组合算法来解决上面提到的问题。该算法思想是对相邻特征进行两两组合形成新的特征以解决在分词上面的不足与短文本特征较少的问题,并且互邻特征组合算法能够生成大量对分类效果良好的短语特征。经过本发明上面提出的互邻特征组合算法进行特征扩展之后,整个文本的特征空间变得十分庞大,在产生对文本分类描述力更强的组合特征的同时也产生了很多对分类效果贡献不大甚至有影响的特征,并使得向量特征空间更稀疏,需要进一步的对特征进行优化与处理。
在短文本分类过程中,判断某一特征项是否有利于某一类别的判定,可以通过该特征项在该类别中出现的频率与在其它类别中出现频率的差异性进行判断,例如,某个特征大量出现在一个类别中,而在其它类别中,该特征却出现较少或者不出现,那么我们就可初步认定该特征有利于分类。这种根据类别间特征分布情况来判断特征优劣的方式可以由类间分散度来计算。而与类间分散度相对的是类内分散度,我们考虑在同一类别中,如果某一特征项大量出现在某一文本中,而在其它文本中,该特征项却较少出现或不出现。那么这样的特征对类别的判定作用较小,甚至可认为是冗余特征。类内分散度便能较好的对这种类内特征的分布情况进行判别,通过使用类内类间分散度设计的新隶属度函数能够很好的解决上述问题。
通过上面类别特征域的构造方式,如果某一个词条在多个类别中都有出现,并且满足相应类别特征域的所属条件,那么该词条将同时属于多个类的类别特征域。例如,“井盖”一词,可能既是“雨水井盖”类的特征,又是“电力井盖”类的特征,如果特征词“井盖”同时满足这两个类的类别特征域判定条件,那么“井盖”这个特征词就同时属于“雨水井盖”与“电力井盖”两个类的类别特征域。
应用实验对本发明方法的有效性等进行验证,实验验证及结果分析过程如下:
本实验数据来源于合作研发的“城管通”应用系统。该系统通过手机APP(有Android和iOS两个版本)上报案件到服务端,服务端收到案件并对案件进行分派处理。目前,该系统包括案件、指挥调度和人员精细化管理等五个子系统,管理有34个责任网格,每个网格都有城管、环卫、街道、市政、住建、园林、交警、工商等部门,实现了案件上报、分类、处置、监督等业务流程的自动化,从而支持多部门协同执法。该系统日常用户已接近5000人,每日从凌晨4点起包括环卫工人在内的各岗位工作人员就开始上报案件,晚上的案件则上报到23点以后,平均每天上报案件数量超过2000条。针对如此庞大数量的案件、较长的时间范围,自动分类方法的研究显得尤为重要。为了验证本文所提出的特征选择方法对案件短文本的分类效果,本文从案件数量最多的53种案件类型(包括,私搭乱建、雨水箅子、道路不洁、绿地脏乱、树木毁坏、道路破损、条幅广告、乱堆物料,等)中选取53000个样本集(其中每种案件选取样本1000个)。训练集与测试集的样本数为9:1,即训练集有47700个样本,而测试集有5300个样本。
应用本文方法进行案件短文本自动分类的具体流程如图1所示,包括对训练文本集和测试文本集的短文本进行预处理,对短文本进行预处理之后,用前面提出的互邻特征组合算法对短文本特征空间中的互邻特征进行组合,构建类别特征域,利用类别特征域合并特征;采用tf-idf加权计算每个样本特征向量,再采用分类训练器通过分类模型测试文本特征,进而利用分类器判定样本类别,最后对分类效果进行评价。
特征处理方法的好坏可以直接影响最终的分类性能,因此,可以通过评价分类的效果来判断特征处理方法的有效性。这里,我们采用准确率P(Precision)、召回率R(Recall)以及F1值等通用的文本分类性能评价标准。具体公式如下:
第j类的准确率:
Pj=(lj/mj)×100% (4)
其中,lj为第j类分类正确的分本数,mj为分类系统实际分类为j的分本数。
第j类的召回率:
Rj=(lj/nj)×100% (5)
其中,lj为第j类分类正确的分本数,nj为第j类实际包含的文本数。
第j类的F1值:
F 1 j = P j × R j × 2 P j + R j - - - ( 6 )
本实验中的分类是多分类问题,因此采用微平均和宏平均两种计算准确率、召回率和F1值得方法。定义如下所示:
宏平均准确率:
M a c r o P = 1 n Σ j = 1 n P j - - - ( 7 )
宏平均召回率:
M a c r o R = 1 n Σ j = 1 n R j - - - ( 8 )
宏平均F1值:
M a c r o F 1 = M a c r o P < M a c r o R &times; 2 M a c r o P + M a c r o R - - - ( 9 )
微平均准确率:
M i c r o P = &Sigma; j = 1 n l j / &Sigma; j = 1 n m j - - - ( 10 )
微平均召回率:
M i c r o R = &Sigma; j = 1 n l j / &Sigma; j = 1 n n j - - - ( 11 )
微平均F1值:
M i c r o F 1 = M i c r o P &times; M i c r o R &times; 2 M i c r o P + M i c r o R - - - ( 12 )
实验结果及分析为:文档频率(DF)、信息增益(IG)、互信息(MI)以及CHI统计等特征选择方法在英文文本分类中有着很好的效果。本实验中分别对DF、MI、IG、CHI,以及通过类别特征域进行特征选择的三种算法,即FDBC(采用现有的隶属度函数)、FDBC-N(采用本文提出的新隶属度函数),以及本文方法(互邻特征组合+本文提出的新隶属度函数)共七种方法进行了实验对比。实验中分别比较了七种方法在保留1000,2000,4000,…,14000个特征时,分类系统的分类宏平均准确率、宏平均召回率、宏平均F1值以及微平均F1值。其中特征总数为102734,原始特征有14174个,组合特征有88560个。实验结果分别如表1、表2、图2和图3所示。
表1在不同特征数情况下各特征选择算法对应的宏平均准确率
表2在不同特征数情况下各特征选择算法对应的宏平均召回率
由表1、表2、图2和图3综合可见,对每一组特征集,无论是宏平均值还是微平均值,基于类别特征域进行特征选择的三种方法(FDBC、FDBC-N、本发明方法)在文本分类效果和稳定性上均明显高于其它算法,特别是本发明方法和FDBC-N算法,优势尤其明显。之所以会产生这么大的分类效果差距,主要原因有:
(1)本发明方法在进行特征选择之前先用互邻特征组合算法对原始特征空间进行了处理。在生成短语特征的同时扩展了特征空间,使特征数量由14174个扩展到了102734个,这就使得后面在进行特征选择时,有了更多的选择空间。
(2)DF、MI、CHI等算法是以包含某一特征的文档数为衡量标准对特征进行约减,保留特征越少,舍弃的特征越多,很多有利于提升分类效果的特征被丢弃,导致分类的效果有较大落差。并且案件短文本本身就特征稀疏,这样特征选择后会使数据稀疏问题更加严重。而基于类别特征域的特征选择算法在特征约减时,是将特征替换为相应的类标识码并加权,过程中并没有直接移除特征,不但没有信息的丢失,而且在很大程度上解决了数据稀疏问题,所以保留特征的数量对分类性能的影响不大。
(3)本发明中新的隶属度函数充分考虑了类内类间分散度和词频因素。在构造类别特征域时明显要比只考虑文档数目的互信息的方法好很多。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于文本分类的城市管理案件分类方法,其特征在于:包括以下步骤:
S1:预处理,对短文本进行预处理,进行分词、去除文本中的停用词、统计词频等操作,其中停用词包括标点符号、表情符号、语气助词、介词和连接词;
S2:互邻特征组合,通过互邻特征组合算法对文本特征空间中的特征进行组合,形成新的特征,并扩展特征空间;
S3:基于类别特征域的特征选择,经上述互邻特征组合算法进行特征扩展之后,整个短文本的特征空间变得十分庞大,在产生对短文本分类描述力更强的组合特征的同时,也产生了很多对分类效果贡献不大甚至有影响的特征,需要对其进行特征选择:
首先,为短文本中的每一类都分别分配一个类标识码,设类别ci的类标识码为di;然后,对于短文本D的每一个特征t都按照如下方式进行处理:
a.若t属于且仅属于类别ci的类别特征域,则ci的类标识码di将被作为短文本D的一个特征;
b.若t同时属于m个类别ci1,ci2,...,cim的类别特征域,则上述m个类别的类标识码di1,di2,...,dim都将被作为短文本D的特征;
c.若t不属于任何一类的类别特征域,则将t本身作为短文本D的一个特征;
从上述过程中可以看出:各类的类别特征域中的特征将被替换为对应的类标识码;如果在一条短文本中有多个特征属于同一类别特征域,即多个特征对应同一类标识码,那么它们的权重将被累加并作为这个类标识码在该短文本中的权重,这样,主要特征将获得更大的权重值,有助于提升文本的分类效果;
S4:采用tf-idf加权,计算每个文本特征向量,tf-idf权重被广泛应用于文本分类领域,其基本思想是通过某一特征项在不同文本中出现频率的差异性大小来判断该特征项对分类的贡献度,即如果某一特征项在一个文本中出现的频率很高,并且很少在其他文本中出现,那么就认为该特征具有较高的类别识别度,更有利于文本分类,因此,tf-idf的值与文本中该特征项的词频数成正比,而与文本集中包含该特征项的文本数的比重成反比,常通过特征项的词频数与反文本数的乘积来计算,公式如下:
w t d = tf t d &times; idf t = tf t d &times; l o g ( N n t + 0.5 )
其中,wtd为特征项t在文本d中的权重值;tftd是文本d中特征t出现频数;N为总文本数;nt表示含有特征t的文本数,通常还会对TF-IDF权重进行规范化处理,公式为:
w t d = tf t d &times; l o g ( N n t + 0.5 ) &Sigma; t &Element; d &lsqb; tf t d &times; l o g ( N n t + 0.5 ) &rsqb; 2
S5:训练分类器并对测试文本分类,本方法中使用LibLinear作为文本分类器,LibLinear可高效的解决大规模线性分类问题,并已经成为一种解决大型数据稀疏问题的重要学习技术。
2.根据权利要求1所述的一种基于文本分类的城市管理案件分类方法,其特征在于:所述互邻特征组合算法具体为:
当一条案件描述短文本初步分词结果如下:
S=(w1,w2,w3,w4,w5) (1)
其中w1,w2,w3,w4,w5分别代表短文本S的五个特征词;
互邻特征组合算法执行后结果为:
S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)
其中w1,w2,w3,w4,w5不变,w12为特征词w1与w2相连后形成的新的特征词,w23,w34,w45同理。
3.根据权利要求1所述的一种基于文本分类的城市管理案件分类方法,其特征在于:所述类别特征域为每个类中的主要特征集合,一个特征是否属于某个类的主要特征集通过该特征与相应类别之间的隶属度函数值大小进行判定。
4.根据权利要求1或3所述的一种基于文本分类的城市管理案件分类方法,其特征在于:所述类别特征域根据隶属度函数计算公式构建,类别ci的类别特征域构建步骤如下:
1)设定一个阈值d,分别计算类别ci中每个特征t的隶属度函数值其中,阈值d的大小由最终特征选择保留特征的数目所确定;
2)若高于阈值d,就认为特征t属于类别ci的类别特征域;
通过上述类别特征域的构造方式,如果某一个词条在多个类别中都有出现,并且满足相应类别特征域的所属条件,那么该词条将同时属于多个类的类别特征域。
5.根据权利要求4所述的一种基于文本分类的城市管理案件分类方法,其特征在于:所述隶属度函数计算公式为:
u c i ( t ) = ( tf t tf t - tf i t + 1 ) &times; ( f i t C i - f t N + 1 ) - - - ( 3 )
式中,tfit表示在类别ci中特征t出现的词频数;tft表示在所有类别中特征t出现的词频数;fit表示在类别ci中含有特征t的文本数;Ci表示在类别ci中的文本总数;ft表示在所有类别中含有特征t的文本数;N表示文本集的总文本数;
用于计算类间分散度,tfit越大tft-tfit越小即表明特征t在某一类别中大量出现而在其他类别中较少出现,则说明该特征对文本分类的贡献度越大,为防止分母为零,对tft-tfit进行加1处理;
用于计算类内分散度,越大越小即表明在某一类别中包含该特征t的文本数越多,同时在所有类别中包含特征t的文本数越少,则说明该特征对文本分类的贡献度越大;为防止出现负数,对进行加1处理。
CN201610750148.6A 2016-06-02 2016-08-29 一种基于文本分类的城市管理案件分类方法 Pending CN106326458A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016103879842 2016-06-02
CN201610387984 2016-06-02

Publications (1)

Publication Number Publication Date
CN106326458A true CN106326458A (zh) 2017-01-11

Family

ID=57788667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610750148.6A Pending CN106326458A (zh) 2016-06-02 2016-08-29 一种基于文本分类的城市管理案件分类方法

Country Status (1)

Country Link
CN (1) CN106326458A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247792A (zh) * 2017-06-16 2017-10-13 中国电子技术标准化研究院 匹配职能部门的方法、装置及计算机设备
CN107562938A (zh) * 2017-09-21 2018-01-09 重庆工商大学 一种法院智能审判方法
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置
CN109448792A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109800296A (zh) * 2019-01-21 2019-05-24 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN115544258A (zh) * 2022-11-25 2022-12-30 北京信立方科技发展股份有限公司 文本分类模型的样本构建方法及装置、文本分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247792A (zh) * 2017-06-16 2017-10-13 中国电子技术标准化研究院 匹配职能部门的方法、装置及计算机设备
CN107247792B (zh) * 2017-06-16 2021-01-15 中国电子技术标准化研究院 匹配职能部门的方法、装置及计算机设备
CN107562938A (zh) * 2017-09-21 2018-01-09 重庆工商大学 一种法院智能审判方法
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置
CN109448792A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109448792B (zh) * 2018-09-19 2021-11-05 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109800296A (zh) * 2019-01-21 2019-05-24 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN109800296B (zh) * 2019-01-21 2022-03-01 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN115544258A (zh) * 2022-11-25 2022-12-30 北京信立方科技发展股份有限公司 文本分类模型的样本构建方法及装置、文本分类方法

Similar Documents

Publication Publication Date Title
CN106326458A (zh) 一种基于文本分类的城市管理案件分类方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN106127360A (zh) 一种基于用户特性分析的多模型负荷预测方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN101227435A (zh) 基于Logistic回归的中文垃圾邮件过滤方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN110717654B (zh) 基于用户评论的产品质量评价方法和系统
CN104899230A (zh) 舆情热点自动监测系统
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
CN107180075A (zh) 文本分类集成层次聚类分析的标签自动生成方法
CN107798033A (zh) 一种公安领域案件文本的分类方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN108470022A (zh) 一种基于运维管理的智能工单质检方法
CN103593431A (zh) 网络舆情分析方法和装置
CN109086825A (zh) 一种基于模型自适应选择的多分类模型融合方法
CN108052625A (zh) 一种实体精细分类方法
CN108197175A (zh) 技术监督数据的处理方法和装置、存储介质、处理器
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN111260490A (zh) 基于树模型的车险快速理赔方法和系统
Bhoir An efficient fake news detector
Caid et al. Context vector-based text retrieval
CN112579784B (zh) 一种基于深度强化学习的云边协同文档分类系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170111

RJ01 Rejection of invention patent application after publication