CN110222180B

CN110222180B - 一种文本数据分类与信息挖掘方法

Info

Publication number: CN110222180B
Application number: CN201910481105.6A
Authority: CN
Inventors: 鲁玥; 王玉; 曲皓; 张逍玉; 孔祥智
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2021-05-28
Anticipated expiration: 2039-06-04
Also published as: CN110222180A

Abstract

本发明公开了一种文本数据分类与信息挖掘方法，属于计算机技术领域。本发明通过利用根据实际数据建立的关键词库，使得文本特征向量的维数大大降低、信息集中，克服了文本大数据处理过程中高维‑稀疏的问题，便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体，以增强文本分类的准确性。进一步的，本发明在训练支持向量机之前，利用两层模糊分类初步得到其类别，无需提前获知训练数据的类别对于12345热线文本数据，本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案，能充分调动不同领域的专业人士给予解答。

Description

一种文本数据分类与信息挖掘方法

技术领域

本发明涉及一种文本数据分类与信息挖掘方法，属于计算机技术领域。

背景技术

文本分类是自然语言处理领域中一个很重要的问题，广泛应用于垃圾信息过滤、用户评论情感倾向识别、用户查询意图识别、新闻分类等。目的在于更好的提取文本中所含的共同信息，发掘规律特性，提高文本进一步处理的效率。

比如与人们日常生活密切相关的12345市长热线的文本数据分类，通过分类更好的将人民群众反映的大量问题进行总结，由专业人员给出准确而又统一的答案，形成知识库，避免了政府人员工作的重复，提高工作效率；通过分类还可以获取不同地区不同类别的信息数量，从而对地区的发展和各方面存在的问题有一个整体上的把握，针对突出和亟待解决的问题给出解决方案，提高地区的发展和人民的幸福指数。

现有的文本分类方法存在着高维-稀疏的问题，其训练样本可靠性较差必然导致其分类不准确，且通常需要获取一些已分类文本，比如申请号为CN201710356683.8的专利申请公开了一种文本数据分类方法及服务器，其分类方法就是利用已分类数据提取特征分词，计算各个特征分词的权重并以向量表示，而特征分词的权重根据每个特征词在所属的文本数据类别中出现的次数计算得到；将这些已分类文本一部分作为样本集训练支持向量机，一部分作为测试集测试，输出支持向量机的决策函数对为分类数据分类。

发明内容

为了解决目前文本分类方法中存在的高维-稀疏从而导致分类不准确、且需要获取已分类文本的问题，本发明提供了一种文本数据分类与信息挖掘方法，所述方法包括：

S1：建立不同层级不同类别的关键词库，并根据关键词库确定每条文本数据对应的文本特征向量；为描述方便，假设第i条文本数据所含总关键词数为n_i、总类别个数为k、所含第j类关键词的数目为m_ij，则第i条文本数据的特征向量为[m_i1,m_i2···,m_ij···m_ik]；

S2：根据S1建立好的关键词库，基于分层模糊分类的方法对各条文本数据进行分类，分类过程中，计算每条文本数据对各类的隶属度；第i条文本数据对第j类的隶属度

其中m_ij表示第i条文本数据所含第j类关键词的数目；根据隶属度将各条文本数据模糊分类至对应的类别；

S3：选取隶属度差异化大的文本数据作为可靠个体，通过支持向量机的训练得到训练函数；定义第i条文本数据的隶属度差异化系数为：

定义差异化系数的阈值λ；

当β_i≥λ时，称该个体隶属度差异大，为可靠个体，作为支持向量机的训练数据，

当β_i＜λ时，称该个体隶属度差异小，为不可靠个体；

S4：采用训练好的支持向量机训练函数对待分类的文本数据进行分类。

可选的，所述S3中支持向量机如下：

选取高斯核函数

(x_i,y_i)表示训练数据，x_i表示训练数据的输入，y_i表示对应的输出，α_i表示Lagrange乘子，n为训练数据个数；

取α_j＞0对应的样本

训练支持向量机，得到决策函数：

可选的，所述S1之前，还包括文本预处理，得到离散化后的数据文本。

可选的，所述文本预处理，得到离散化后的数据文本包括：根据NLPIR汉语分词系统对每条文本分词，利用已有停用词词典去停用词，得到离散化后的数据文本。

可选的，所述S1之前，还包括根据已有文本数据确定不同层级不同类别的关键词库所包含的关键词。

可选的，所述方法应用于12345市长热线文本数据的分类。

可选的，所述12345市长热线文本数据的分类中，设置至少两个层级。

可选的，当设置为两个层级时，第一层是性质类别，第二层是职能类别。

可选的，所述性质类别包括咨询和投诉两类，其中咨询一类包括经济违法和社会服务中的至少两项；投诉一类包括行政职能和民生投诉、法制投诉、消费维权中的至少两项。本发明的第二个目的在于提供上述方法在文本分类领域内的应用。

本发明有益效果是：

通过利用根据实际数据建立的关键词库，使得文本特征向量的维数大大降低、信息集中，克服了文本大数据处理过程中高维-稀疏的问题，便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体，以增强文本分类的准确性。进一步的，针对12345热线文本数据，通过利用两层模糊分类将文本分类获取最初分类信息，此过程不需要获取已分类的文本，节省了步骤；对于12345热线文本数据，本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案，能充分调动不同领域的专业人士给予解答。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实现流程图。

图2为本发明的具体实施步骤图。

图3为本发明的文本两层模糊分类类别图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

12345政府服务热线，即“非紧急救助服务系统”，用来帮助诉求人解决生活、生产中所遇困难和问题，是市委、市政府关注民生、倾听民意的平台，其通常会由话务员记录电话内容，进而对记录的内容进行文本分类，由对应的相关部分解决所反映的问题和困难。

本发明提供的文本数据分类与信息挖掘方法即可应用于12345热线文本分类中，下述以此为例进行说明。

实施例一：

本实施例提供一种文本数据分类与信息挖掘方法，参见图1-3，所述方法包括：

步骤一：文本预处理

在获取到12345市长热线的大量文本数据后，首先根据NLPIR汉语分词系统对每条文本分词，利用已有停用词词典去停用词，得到离散化后的数据文本，即初始文本向量。

步骤二：获取文本特征向量

建立不同层级不同类别的关键词库，并根据关键词库确定每条文本数据对应的文本特征向量；

根据文本关键词和类别的实际特征建立类别关键词库，将步骤一得到的初始文本向量与所建立的不同层级不同类别的关键词库进行匹配，得到文本在各类别关键词库上的词频，构成文本特征向量。

针对12345市长热线文本内容，建立不同层级不同类别的关键词库过程中，通常可将其划分为两个层级：

第一层是性质类别，包括咨询和投诉两类；比如，咨询一类对应的关键词库可能包含“了解、请问、询问、咨询、条例、标准、查询”等，而投诉一类对应的关键词库可能包含“反映、解决，亟待，举报、投诉、建议”等。

第二层是职能类别，其中咨询一类中包括经济违法和社会服务两类，投诉一类中包括行政职能和民生投诉，法制投诉、消费维权。

咨询大类下的两小类，比如经济违法类对应的关键词库可能包含“违法，贷款、案件、钱、资金、法律、诈骗、……”，社会服务类对应的关键词库可能包含“，油烟、扰民、协调、社保卡、公积金、身份证、办证、医保、……”。

投诉大类下的四小类：比如行政职能类对应的关键词库可能包含“职能、办公、拖延、领导、纪委、政府、官方、……”，民生投诉类对应的关键词库可能包含“纠纷、扰民、流动摊贩、小区、家具、……”，法制投诉类对应的关键词库可能包含“安全、法律、违反、监管、欺诈、……”，消费维权类对应的关键词库可能包含“买、卖、订购、退款、过期、销售、退货、无证、经营、服务态度、消费、……”。

行政职能：职能、办公、拖延、领导、纪委、政府、官方

民生投诉：纠纷、扰民、流动摊贩、小区、家具

法制投诉：安全、法律、违反、监管、欺诈

消费维权：买、卖、订购、退款、过期、销售、退货、无证、经营、服务态度、消费

上述关键词库可能包含的文本数据仅为示例，实际应用中可根据12345市长热线文本数据的特点总结提取类别关键词。

分类结构见附图3。

文本特征向量：每条文本数据由唯一的特征向量标识，特征向量的列数是类别个数。设第i条文本数据所含总关键词数为n_i，总类别个数为k，所含第j类关键词的数目为m_ij，则第i条文本数据的特征向量为[m_i1,m_i2···,m_ij···m_ik]。

假设2017年10月4号10992行数据为：

市民反映：XX镇XX路XX家具店，2017年10月3日16:00左右在该店购买一套床上用品4件套和两个枕头，其称该店实体店枕头标价398元买一送一，可在该店的淘宝旗舰店(XX家具店)只需要199元一个，还有床上用品4件套实体店销售199元一套送一张被子，但在淘宝店销售119元一套，市民表示这是属于捆绑性销售，存在欺诈消费者，现要求商家退货退款，请相关部门介入处理，谢谢”。

上述数据对应的文本特征向量即为：

第一层模糊分类特征向量[0，1]；

第二层模糊分类特征向量[0，2，1，8]；

根据此步骤可知，本申请大大降低了文本特征向量的维度，传统文本分类方法需要统计预处理后的文本中所有出现的词语的词频，但并非所有词语对于文本分类都有帮助，所以本申请通过建库的过程，只获取库中出现关键词的词频，此部分词语可以对文本分类提供帮助。

步骤三：分层模糊分类确定初始类别

计算文本对于类别的隶属度，并基于分层模糊分类的方法对文本进行初始分类。

上述建立不同层级不同类别的关键词库过程已经针对12345市长热线文本内容，建立了图3所示两层的结构，在确定每条文本数据的初始类别时，需计算其隶属度：

隶属度：第i条文本数据对第j类的隶属度

其中m_ij表示第i条文本数据所含第j类关键词的数目。

分层模糊分类：根据该条文本数据中的关键词，首先确定文本对性质类别的隶属度，将文本数据分到值最大的隶属度对应的性质类别中，第一层模糊分类完成。

再次确定文本对每个性质类别包含的职能类别的隶属度，在每个性质类别下进行第二层模糊分类，同样将文本数据分到值最大的隶属度对应的职能类别中。比如，上述步骤二中给出的文本数据，通过分层模糊分类，其对应于投诉类中的消费维权类。

步骤四：利用可靠个体训练支持向量机

选取隶属度差异化大的文本数据作为可靠个体通过支持向量机的训练得到训练函数，根据训练函数预测其他不可靠文本数据的类别。

其中，可靠个体：选取隶属度差异化大的文本个体作为可靠个体，为此定义隶属度差异化系数，定义第i条文本数据个体的隶属度差异化系数为：

其中m_ij表示第i个文本所含第j类关键词的数目，k表示类别个数，定义差异化系数的阈值λ；

当β_i＜λ时，称该个体隶属度差异小，为不可靠个体。

其中λ的取值可根据实际情况设定，比如，可以根据比例确定，若要选取全部数据的20％作为训练数据，则取隶属度差异化系数大的前20％作为训练数据，

构造支持向量机如下：

选取高斯核函数

(x_i,y_i)表示训练数据，x_i表示训练数据的输入，y_i表示对应的输出，α_i表示Lagrange乘子。一般只有一部分α_i不为零，则α_i对应的样本x_i就是支持向量。取某个α_j＞0对应的样本：

决策函数：

选取可靠的文本个体作为上述支持向量机的输入，训练该支持向量机，得到决策函数；利用已训练的支持向量机，对不可靠个体进行重新分类，得到不可靠的所属的类别，完成整个分类过程。

步骤五：提供解决方案

根据数据分类结果，针对每一个类别的问题提供解决方案。

对于性质类别为投诉的文本个体所包含的问题，是属于性质比较严重的亟待解决的问题，根据文本的职能类别分配到各个对应的部门，由专职人员回复并给予处理；

对于性质类别为咨询的文本个体所包含的问题，可通过连接相关职能类别的知识库获取答案，知识库的建立可以运用群体智能，不同种类的问题由不同专业的人提供相关答案，并且有不同意见者可以修改问题的解决方案。

步骤六：关键词库的更新

关键词库的更新：关键词库的更新是对12345市长热线文本数据的实时反映，将每个时段出现的热词、新词加入到对应的类别中。

本申请通过利用根据实际数据建立的关键词库，使得文本特征向量的维数大大降低、信息集中，克服了文本大数据处理过程中高维-稀疏的问题，便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体，以增强文本分类的准确性。进一步的，本发明在训练支持向量机之前，利用两层模糊分类初步得到其类别，无需提前获知训练数据的类别对于12345热线文本数据，本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案，能充分调动不同领域的专业人士给予解答。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。