CN105389345A

CN105389345A - 一种分类短信文本内容的方法

Info

Publication number: CN105389345A
Application number: CN201510697003.XA
Authority: CN
Inventors: 章宦记; 王建; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2016-03-09

Abstract

本发明涉及一种分类短信文本内容的方法，包括下列方面：采用字典分词，遍历字典中的所有词汇，如果在短信文本中出现某词汇，则该词汇为短信文本的分词的一部分，所有在字典中出现的词汇且在短信文本中出现，为该短信分词的结果；对所有短信分词的结果进行词汇统计，筛选出一批高频词，然后通过人工筛选得到短信文本特征词；对短信文本特征词表示成一组用数字1或0的向量，将输入的新的短信映射为一个短信文本特征词的向量，进行短信文本特征词匹配和欧式距离计算实现分类。本发明能有效挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失，同时能够减少计算量。

Description

一种分类短信文本内容的方法

所属技术领域

本发明是自然语言处理在短信文本方面的应用，通过对短信文本进行分词，提取特征词实现对短信文本的分类。

背景技术

近年来，在自然语言处理领域涌现了各种技术，使得自然语言处理在文本识别方面有了很大的发展。但是对短信文本的分类，即使有了大量的已标记语料，可以通过模型训练的方式来得到对短信文本的分类。但是模型训练需要大量的语料。目前在处理大量的文本信息之前，如果对短信文本进行分类，都需要通过人工去标记一定量的短信文本信息，比如标记该短信文本的类别比如电影，快递，物流等。这样一个过程前期需要很多人工的参与或其他的方式，会得到一部分已标记的短信文本，通过对这一部分数据经过分词得到一个词表将每个文本表示成词向量进行模型训练。最终对新出现的短信文本信息进行分词得到文本向量，然后通过训练的模型进行分类。但是经过分词，新出现短信文本信息有些词汇经常会没有出现在已有的词表中，这个时候这些文本的一些信息会被丢失，词向量就不能完全体现短信文本本身的特性，而且将所有的分词词汇转变成向量维度会过高，带来巨大的计算量。

发明内容

本发明基于短信文本的特点提供一种对短信文本进行分类的方法。技术方案如下：

一种分类短信文本内容的方法，包括下列方面：

分词模块：采用字典分词，遍历字典中的所有词汇，如果在短信文本中出现某词汇，则该词汇为短信文本的分词的一部分，所有在字典中出现的词汇且在短信文本中出现，为该短信分词的结果；

筛选高频词模块：对所有短信分词的结果进行词汇统计，对统计的结果进行倒排即词频越高的排在越前面，设定阈值筛选出一批高频词，然后通过人工筛选去掉一些非该领域高频词，剩下的高频词即为该领域短信文本特征词；

阈值模块：对筛选出的短信文本特征词表示成一组用数字1或0的向量，将输入的新的短信映射为一个短信文本特征词的向量。通过短信文本特征词匹配，如果新的短信中出现短信文本特征词，将短信向量对应该短信文本特征词的位置标记为1否则为0；将短信映射成的向量与短信文本特征词的向量进行欧式距离计算，如果距离小于某阈值，则认为该短信属于某一类别短信。

本发明的有益效果是：本发明根据短信文本自身的特性，采用分词技术并统计短信的高频词，通过对高频词的匹配，转化为计算短信文本与某一类文本间的距离，进而通过计算欧式距离来判断短信文本的类别，有效的挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失，同时能够减少大量的计算。

具体实施方式

下面实施例对本发明进行说明。

现在收集到大量的短信数据如下若干形式：

106123456,【人才管理】邀请您参加校园招聘,2011.05.11。106123456,【人才管理】邀请您参加校园招聘,2011.05.11。…106123456，【人才管理】邀请您参加校园招聘,2011.05.11。共计200条数据

10678456，【人才管理】欢迎您投递飞鸽公司,2011.06.11。10678456，人才管理及时给您校招信息,2011.06.11…10678456,谢谢您来应聘美的公司,2010.05.11。其中有括号短信的200条，无括号短信的200条

对于上面的所有招聘类信息通过分词模块，可以得到分词的结果“人才”，“管理”，“招聘”，“邀请”，“投递”，“校招”，“参加”，“飞鸽”，“欢迎”，“信息”，“及时”等等，但是这些词汇经过高频词筛选模块，只有“人才”，“管理”，“招聘”，“投递”，“校招”这些词汇会成为招聘类信息的高频词，将这些高频词映射为一个5维的向量[1,1,1,1,1],第一个维度表示“人才”，第二个维度表示“管理”，第三个维度表示“招聘”，第四个维度表示“投递”，第五个维度表示“校招”。

如果此时输入一个短信文本，比如10676666，【人才管理】欢迎您投递飞鸽公司的研发岗位，期待您的加入,2011.06.13。该10676666短信通过高频词匹配可以得到一个[1,1,0,1,0]。将得到的向量[1,1,0,1,0]与[1,1,1,1,1]进行欧式距离的计算，得到的结果为如果经过阈值模块取阈值为2，则10676666服务号发送的该条短信内容属于招聘信息类。

如果此时输入一个短信文本，比如106766888，【金鼎物业】欢迎您光临金鼎物业，需要买房请致电8888899999,2011.06.16。该106766888短信通过高频词匹配可以得到一个[0,0,0,0,0]。将得到的向量[0,0,0,0,0]与[1,1,1,1,1]进行欧式距离的计算，得到的结果为如果经过阈值模块取阈值为2，则106766888服务号发送的该条短信内容不属于招聘信息类。但是它属于其他类别的信息，比如物业管理或者房屋买卖类，但是前提是有这一类的已标注信息可以去做分词，去做高频词筛选，只要有一部分该领域该类别的信息，就可以通过分词然后选择高频词，通过匹配进行欧式距离的计算来判断短信文本的类别。

Claims

1.一种分类短信文本内容的方法，包括下列方面：