CN107229753A - 一种基于word2vec模型的文章地域分类方法 - Google Patents
一种基于word2vec模型的文章地域分类方法 Download PDFInfo
- Publication number
- CN107229753A CN107229753A CN201710514537.3A CN201710514537A CN107229753A CN 107229753 A CN107229753 A CN 107229753A CN 201710514537 A CN201710514537 A CN 201710514537A CN 107229753 A CN107229753 A CN 107229753A
- Authority
- CN
- China
- Prior art keywords
- article
- classification
- countries
- word2vec models
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明特别涉及一种基于word2vec模型的文章地域分类方法。该基于word2vec模型的文章地域分类方法,针对新闻性文章根据所发生的地域进行分类,结合word2vec模型,将文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。该基于word2vec模型的文章地域分类方法,实现了对新闻性文章的所发生地域分类,弥补了TF‑IDF把文章的每个词看做独立的个体进行处理,忽略了词的意义,词之间的关联关系等因素的缺点,解决了使用关键词匹配的方法进行地域分类准确率和召回率较低的问题,大大提升了新闻类文章的地域分类的准确率和效率。
Description
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于word2vec模型的文章地域分类方法。
背景技术
文本分类是指用电脑对文本集或其他实体或物件按照一定的分类体系或标准进行自动分类标记。比如基于分类体系的自动分类或基于资讯过滤和用户兴趣(Profiles)的自动分类。
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。
词匹配法是最早被提出的分类 算法。这种方法仅根据文档中是否出现了与类名相同的词(顶多再加入同义词的处理)来判断文档是否属于某个类别。很显然,这种过于简单机械的方法无法带来良好的分类效果。
后来兴起过一段时间的知识工程的方法则借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。这 里与特定规则的匹配程度成为了文本的特征。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。但这种方法的缺点仍然明显,例如分类的质量严重 依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏;再比如制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受;而知识工程最致命的弱 点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的 知识和资金浪费。
基于上述情况,本发明提出了一种基于word2vec模型的文章地域分类方法,对新闻性文章根据所发生的地域进行分类。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于word2vec模型的文章地域分类方法。
本发明是通过如下技术方案实现的:
一种基于word2vec模型的文章地域分类方法,其特征在于:针对新闻性文章根据所发生的地域进行分类,结合word2vec模型,将文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
本发明基于word2vec模型的文章地域分类方法,包括以下步骤:
(1)建立所有省市地区的地名知识图谱;
(2)训练数据收集与清洗;
(3)使用工具对文章分词;
(4)使用word2vec模型对文章进行词向量表示,将文本内容的处理简化为向量空间中的向量运算;
(5)将词向量聚合;
(6)将训练数据集特征进行归一化处理;
(7)在得到处理后的训练数据集特征集合后,进行地域分类判别与预测。
所述步骤(3)中,结合地名知识图谱对文章进行分词,避免分词时把城市名称分开;所述步骤(5)中,使用均值池化Average Pooling方法对词向量聚合;所述步骤(6)中,使用L2范式归一化的方法对特征进行归一化处理;所述步骤(7)中,使用LogisticRegression逻辑回归训练分类器进行地域分类判别与预测。
本发明的有益效果是:该基于word2vec模型的文章地域分类方法,实现了对新闻性文章的所发生地域分类,弥补了TF-IDF把文章的每个词看做独立的个体进行处理,忽略了词的意义,词之间的关联关系等因素的缺点,解决了使用关键词匹配的方法进行地域分类准确率和召回率较低的问题,大大提升了新闻类文章的地域分类的准确率和效率。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于word2vec模型的文章地域分类方法,针对新闻性文章根据所发生的地域进行分类,结合word2vec模型,将文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
该基于word2vec模型的文章地域分类方法,包括以下步骤:
(1)建立所有省市地区的地名知识图谱,使用高德地图API,抓取各城市的隶属关系,建立知识图谱。
(2)收集大量的与地理位置相关的文章作为训练数据,对于收集到的所有文章进行去除HTML标签,剔除正文过短文章等清洗操作。
(3)使用jieba分词工具对文章进行分词,分词时候结合知识图谱;
(4)使用word2vec模型对文章进行词向量表示;
(5)使用均值池化(Average Pooling)方法对词向量聚合;
(6)使用L2范式归一化的方法对特征进行归一化处理;
(7)使在得到处理后的训练数据集特征集合后,使用LogisticRegression训练分类器进行地域分类判别与预测。
所述步骤S3中,结合地名知识图谱对文章进行分词,避免分词时把城市名称分开。
Claims (3)
1.一种基于word2vec模型的文章地域分类方法,其特征在于:针对新闻性文章根据所发生的地域进行分类,结合word2vec模型,将文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
2.根据权利要求1所述的基于word2vec模型的文章地域分类方法,其特征在于,包括以下步骤:
(1)建立所有省市地区的地名知识图谱;
(2)训练数据收集与清洗;
(3)使用工具对文章分词;
(4)使用word2vec模型对文章进行词向量表示,将文本内容的处理简化为向量空间中的向量运算;
(5)将词向量聚合;
(6)将训练数据集特征进行归一化处理;
(7)在得到处理后的训练数据集特征集合后,进行地域分类判别与预测。
3.根据权利要求2所述的基于word2vec模型的文章地域分类方法,其特征在于:所述步骤(3)中,结合地名知识图谱对文章进行分词,避免分词时把城市名称分开;所述步骤(5)中,使用均值池化Average Pooling方法对词向量聚合;所述步骤(6)中,使用L2范式归一化的方法对特征进行归一化处理;所述步骤(7)中,使用LogisticRegression逻辑回归训练分类器进行地域分类判别与预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710514537.3A CN107229753A (zh) | 2017-06-29 | 2017-06-29 | 一种基于word2vec模型的文章地域分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710514537.3A CN107229753A (zh) | 2017-06-29 | 2017-06-29 | 一种基于word2vec模型的文章地域分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107229753A true CN107229753A (zh) | 2017-10-03 |
Family
ID=59935189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710514537.3A Pending CN107229753A (zh) | 2017-06-29 | 2017-06-29 | 一种基于word2vec模型的文章地域分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107229753A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115269851A (zh) * | 2022-08-04 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 文章分类方法、装置、电子设备、存储介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060276996A1 (en) * | 2005-06-01 | 2006-12-07 | Keerthi Sathiya S | Fast tracking system and method for generalized LARS/LASSO |
CN105975478A (zh) * | 2016-04-09 | 2016-09-28 | 北京交通大学 | 一种基于词向量分析的网络文章所属事件的检测方法和装置 |
CN106055673A (zh) * | 2016-06-06 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种基于文本特征嵌入的中文短文本情感分类方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
-
2017
- 2017-06-29 CN CN201710514537.3A patent/CN107229753A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060276996A1 (en) * | 2005-06-01 | 2006-12-07 | Keerthi Sathiya S | Fast tracking system and method for generalized LARS/LASSO |
CN105975478A (zh) * | 2016-04-09 | 2016-09-28 | 北京交通大学 | 一种基于词向量分析的网络文章所属事件的检测方法和装置 |
CN106055673A (zh) * | 2016-06-06 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种基于文本特征嵌入的中文短文本情感分类方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
Non-Patent Citations (1)
Title |
---|
JILEZHOU: "利用word2vec和神经网络构造文章地域分类器(一)", 《HTTPS://BLOG.CSDN.NET/JILEZHOU/ARTICLE/DETAILS/50459623》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115269851A (zh) * | 2022-08-04 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 文章分类方法、装置、电子设备、存储介质及程序产品 |
CN115269851B (zh) * | 2022-08-04 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 文章分类方法、装置、电子设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
CN107506480B (zh) | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 | |
CN103324745B (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
Kamishima et al. | Fairness-aware classifier with prejudice remover regularizer | |
CN107704637B (zh) | 一种面向突发事件的知识图谱构建方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN104462053B (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
Kiela et al. | Exploiting image generality for lexical entailment detection | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
CN106909643A (zh) | 基于知识图谱的社交媒体大数据主题发现方法 | |
CN102629275A (zh) | 面向跨媒体新闻检索的人脸-人名对齐方法及系统 | |
CN104050556B (zh) | 一种垃圾邮件的特征选择方法及其检测方法 | |
CN111831824A (zh) | 一种舆情正负面分类方法 | |
CN110532480B (zh) | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 | |
CN105205163B (zh) | 一种科技新闻的增量学习多层次二分类方法 | |
Li et al. | An approach for understanding offender modus operandi to detect serial robbery crimes | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN109614490A (zh) | 基于lstm的金融新闻倾向性分析方法 | |
CN108170691A (zh) | 关联文书的确定方法和装置 | |
WO2023050652A1 (zh) | 基于文本识别的区域内esg指数确定方法及相关产品 | |
Chen et al. | Using fuzzy clustering with deep learning models for detection of COVID-19 disinformation | |
Sreedhar et al. | An Improved Technique to Identify Fake News on Social Media Network using Supervised Machine Learning Concepts | |
Wei et al. | [Retracted] Analysis and Risk Assessment of Corporate Financial Leverage Using Mobile Payment in the Era of Digital Technology in a Complex Environment | |
CN105337842B (zh) | 一种与内容无关的垃圾邮件过滤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171003 |