CN107229753A

CN107229753A - 一种基于word2vec模型的文章地域分类方法

Info

Publication number: CN107229753A
Application number: CN201710514537.3A
Authority: CN
Inventors: 尹青山; 段成德; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-10-03

Abstract

本发明特别涉及一种基于word2vec模型的文章地域分类方法。该基于word2vec模型的文章地域分类方法，针对新闻性文章根据所发生的地域进行分类，结合word2vec模型，将文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。该基于word2vec模型的文章地域分类方法，实现了对新闻性文章的所发生地域分类，弥补了TF‑IDF把文章的每个词看做独立的个体进行处理，忽略了词的意义，词之间的关联关系等因素的缺点，解决了使用关键词匹配的方法进行地域分类准确率和召回率较低的问题，大大提升了新闻类文章的地域分类的准确率和效率。

Description

一种基于word2vec模型的文章地域分类方法

技术领域

本发明涉及文本分类技术领域，特别涉及一种基于word2vec模型的文章地域分类方法。

背景技术

文本分类是指用电脑对文本集或其他实体或物件按照一定的分类体系或标准进行自动分类标记。比如基于分类体系的自动分类或基于资讯过滤和用户兴趣（Profiles）的自动分类。

文本分类问题与其它分类问题没有本质上的区别，其方法可以归结为根据待分类数据的某些特征来进行匹配，当然完全的匹配是不太可能的，因此必须（根据某种评价标准）选择最优的匹配结果，从而完成分类。

词匹配法是最早被提出的分类算法。这种方法仅根据文档中是否出现了与类名相同的词（顶多再加入同义词的处理）来判断文档是否属于某个类别。很显然，这种过于简单机械的方法无法带来良好的分类效果。

后来兴起过一段时间的知识工程的方法则借助于专业人员的帮助，为每个类别定义大量的推理规则，如果一篇文档能满足这些推理规则，则可以判定属于该类别。这里与特定规则的匹配程度成为了文本的特征。由于在系统中加入了人为判断的因素，准确度比词匹配法大为提高。但这种方法的缺点仍然明显，例如分类的质量严重依赖于这些规则的好坏，也就是依赖于制定规则的“人”的好坏；再比如制定规则的人都是专家级别，人力成本大幅上升常常令人难以承受；而知识工程最致命的弱点是完全不具备可推广性，一个针对金融领域构建的分类系统，如果要扩充到医疗或社会保险等相关领域，则除了完全推倒重来以外没有其他办法，常常造成巨大的知识和资金浪费。

基于上述情况，本发明提出了一种基于word2vec模型的文章地域分类方法，对新闻性文章根据所发生的地域进行分类。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于word2vec模型的文章地域分类方法。

本发明是通过如下技术方案实现的：

一种基于word2vec模型的文章地域分类方法，其特征在于：针对新闻性文章根据所发生的地域进行分类，结合word2vec模型，将文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

本发明基于word2vec模型的文章地域分类方法，包括以下步骤：

（1）建立所有省市地区的地名知识图谱；

（2）训练数据收集与清洗；

（3）使用工具对文章分词；

（4）使用word2vec模型对文章进行词向量表示，将文本内容的处理简化为向量空间中的向量运算；

（5）将词向量聚合；

（6）将训练数据集特征进行归一化处理；

（7）在得到处理后的训练数据集特征集合后，进行地域分类判别与预测。

所述步骤（3）中，结合地名知识图谱对文章进行分词，避免分词时把城市名称分开；所述步骤（5）中，使用均值池化Average Pooling方法对词向量聚合；所述步骤（6）中，使用L2范式归一化的方法对特征进行归一化处理；所述步骤（7）中，使用LogisticRegression逻辑回归训练分类器进行地域分类判别与预测。

本发明的有益效果是：该基于word2vec模型的文章地域分类方法，实现了对新闻性文章的所发生地域分类，弥补了TF-IDF把文章的每个词看做独立的个体进行处理，忽略了词的意义，词之间的关联关系等因素的缺点，解决了使用关键词匹配的方法进行地域分类准确率和召回率较低的问题，大大提升了新闻类文章的地域分类的准确率和效率。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该基于word2vec模型的文章地域分类方法，针对新闻性文章根据所发生的地域进行分类，结合word2vec模型，将文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

该基于word2vec模型的文章地域分类方法，包括以下步骤：

（1）建立所有省市地区的地名知识图谱,使用高德地图API，抓取各城市的隶属关系，建立知识图谱。

（2）收集大量的与地理位置相关的文章作为训练数据，对于收集到的所有文章进行去除HTML标签，剔除正文过短文章等清洗操作。

（3）使用jieba分词工具对文章进行分词，分词时候结合知识图谱；

（4）使用word2vec模型对文章进行词向量表示；

（5）使用均值池化（Average Pooling）方法对词向量聚合；

（6）使用L2范式归一化的方法对特征进行归一化处理；

（7）使在得到处理后的训练数据集特征集合后，使用LogisticRegression训练分类器进行地域分类判别与预测。

所述步骤S3中，结合地名知识图谱对文章进行分词，避免分词时把城市名称分开。

Claims

1.一种基于word2vec模型的文章地域分类方法，其特征在于：针对新闻性文章根据所发生的地域进行分类，结合word2vec模型，将文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

2.根据权利要求1所述的基于word2vec模型的文章地域分类方法，其特征在于，包括以下步骤：

（1）建立所有省市地区的地名知识图谱；

（2）训练数据收集与清洗；

（3）使用工具对文章分词；

（5）将词向量聚合；

（6）将训练数据集特征进行归一化处理；

3.根据权利要求2所述的基于word2vec模型的文章地域分类方法，其特征在于：所述步骤（3）中，结合地名知识图谱对文章进行分词，避免分词时把城市名称分开；所述步骤（5）中，使用均值池化Average Pooling方法对词向量聚合；所述步骤（6）中，使用L2范式归一化的方法对特征进行归一化处理；所述步骤（7）中，使用LogisticRegression逻辑回归训练分类器进行地域分类判别与预测。