CN110717042A - 一种构建文档-关键词异构网络模型方法 - Google Patents
一种构建文档-关键词异构网络模型方法 Download PDFInfo
- Publication number
- CN110717042A CN110717042A CN201910904571.0A CN201910904571A CN110717042A CN 110717042 A CN110717042 A CN 110717042A CN 201910904571 A CN201910904571 A CN 201910904571A CN 110717042 A CN110717042 A CN 110717042A
- Authority
- CN
- China
- Prior art keywords
- word
- document
- text
- keyword
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种构建文档‑关键词异构网络模型方法,包括:获取大量文本语料作为语料库;获取相应停用词语料;对获取的所有文本进行去停用词处理;计算和保存每个单词词频;计算和保存关键词间互信息;计算和保存文档‑词的权重;构建文档‑词异构网络。与现有技术相比,本发明的有益效果是:本发明所提供的一种构建文档‑关键词异构网络模型方法,构建语料库的文本语料和停用词语料容易获取,关键词处理过程简单有效,边缘权重易于计算获得,可将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式,可以将本发明应用于文本特征提取或者文本聚类后端处理领域,从而为人们提供有价值的信息。
Description
技术领域
本发明涉及数据挖掘与自然语言处理技术领域,特别是涉及一种可应用于提取文档向量、文本分类、链路预测等下游任务的构建文档-关键词异构网络模型方法。
背景技术
现如今,文本已经成为众多平台上研究的热点问题,同时由于大多数文本都是非结构化或半结构化数据,文本挖掘已经是面向多领域进行数据挖掘重要的研究角度之一。同时随着互联网的逐渐普及,网络文本的数据规模越来越大,信息量的增长速度也随之逐渐扩大,要从海量数据中知道到用户所需要的信息也逐渐变得越来越困难。
传统的方法,包括有对一篇文档所包含的所有词向量求平均值,运用基于神经网络概率理论对自然语言进行处理的doc2vec模型等。最近,包括卷积神经网络(CNN)和循环神经网络(RNN)等在内的深度学习模型已广泛用于学习文本表示,但由于CNN和RNN优先考虑局部性和序列性,这些深度学习模型虽然可以获取局部连续词序列中的语义和句法信息,但忽略了语料库中非连续的全局词共现和长距离语义。针对这个问题,我们提出一种新的构建文档-关键词异构网络模型方法。
发明内容
本发明的目的是提供一种新的构建文档-关键词异构网络模型方法,将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式,可以将本发明应用于文本特征提取或者文本聚类后端处理领域,从而为人们提供有价值的信息。以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了如下技术方案:
1)获取大量文本语料作为语料库;
2)获取停用词语料;
3)对所有文本进行去停用词处理;
4)计算和保存每个单词词频,所述词频定义为某个单词在某一篇文章中出现的次数,取词频大于等于N的单词作为关键词,所述N为本发明预定义的一个固定的整数值,其数值大于1;
5)计算和保存关键词间互信息PMI(i,j),如下述公式所示:
其中,i和j是步骤4)中作为关键词的单词,#W(i)是语料库中包含单词i的文档的数量,#W(i,j)是同时包含单词i和j的文档的数量,#W是语料库中文档的总数量;PMI(i,j)>0表示语料库中单词的高语义相关性,PMI(i,j)<0表示语料库中很少或没有语义相关性;
6)计算和保存文档-词的权重,如下述公式所示:
TF-IDF=tf(t,Di)×idf(t)
其中,tf(t,Di)为单词t在第i篇文档中的词频,M为文档的总数,nt为文档集中出现单词t的文档数量,IDF表示倒文本频率,倒文本频率是文本频率的倒数,所述文本频率是指某个关键词在整个语料所有文章中出现的次数;
7)构建文档-词异构网络
把每个文档作为网络中的一个节点、每个关键词也作为一个节点,再构建节点间的边,节点i和节点j之间的边缘权重定义为Aij,如下述公式所示:
本发明公开了以下技术效果:本发明公开的构建文档-关键词异构网络模型方法在对文本内容压缩以及转换的过程当中,数据容易获取,关键词处理过程简单有效,边缘权重易于计算获得,然后构建文本-关键词网络,即找到每个文本关键词后对大量文本进行转换成一个异构网络,这可以极大地压缩文本规模,同时尽可能少的丢失文本内基本信息,可将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式,完成对文本文档的分析处理任务,可以将本发明构建的文本-关键词异构网络有效应用于文本特征提取或者文本聚类等后端处理,从而为人们提供有价值的信息。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明构建的文本-关键词异构网络示例图。
其中D7、D10等表示文本节点、cardiac、sarcona等表示单词节点。
图3所示为本发明具体实施方式步骤7中文本-关键词异构网络邻接矩阵示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的原理是:本实施例是以英文文本做例子进行阐述,首先收集大量的英文文本语料,下载英文停用词语料,利用停用词语料对收集的所有文本语料做去停用词处理,然后计算并保存每个文档中词的词频,取词频大于正整数n的词作为关键词,其中n为预定义的值大于1的整数值,其次计算并保存文本关键词权重TF-IDF以及关键词间权重PMI,最后定义网络节点以及节点和节点边缘权重。
参见附图1-3,本发明提供一种构建文档-关键词异构网络模型方法,具体包括:
1)获取大量英文文本语料作为语料库,以数据集“20Newsgroups”为例,其下载地址为:http://qwone.com/jason/20Newsgroups/20news-bydate.tar.gz,其中包括18846个文档,为方便描述,本发明用此数据中的3个文档来构建复杂网络示例,分别用D1、D2、D3表示所述文档;
2)获取英文停用词语料,以新浪用户总结的停用词为例,下载地址为:http://blog.sina.com.cn/s/blog_a19ab3770102wjau.html,其中包括891个停用词,包含“‘about’,‘above’,‘also’,‘I’,‘want’,‘to’,‘the’……”等。本发明用此数据来筛选关键词;
3)用步骤2)获取的英文停用词语料对步骤1)中的英文文本进行去停用词处理,若文本中出现‘about’,‘above’,‘also’,I’,‘want’,‘to’,‘the’……等891个停用词,则在文本中删除这些词,最后得到去停用词以后的文档集合。例如文档D1中包含:“I want to flyin the sky.”,根据停用词顺序删除停用词表中的词,首先在文档中寻找about’,若存在,则删除‘about’;然后在文档中删除‘above’;……直至删除到停用词表中最后一个词。由于“‘I’,‘want’,‘to’,‘in’,‘the’”均为停用词,所以去停用词后的文档D1为“fly sky”。
4)计算和保存步骤3)中得到的单词的词频(TF),所述词频定义为某个单词在某一篇文章中所出现的次数,取词频大于等于5的词作为关键词,则文档D1包含关键词{w1,w2},文档D2包含关键词{w1,w3},文档D3包含关键词{w3,w4};
5)计算和保存关键词间互信息PMI(i,j),如下述公式所示:
其中,i和j是步骤4)中作为关键词的单词,#W(i)是语料库中包含单词i的出现的文档的数量,#W(i,j)是单词i和j同时出现在同一篇文档的文档数量,#W是语料库中文档的总数量,正PMI值表示语料库中作为关键词的单词间的高语义相关性,而负PMI值表示语料库中作为关键词的单词间很小或没有语义相关性。对于示例中的三篇文档,PMI(w1,w2)=0.176,PMI(w1,w3)=-0.125,PMI(w1,w4)=0,PMI(w2,w3)=0,PMI(w2,w4)=0,PMI(w3,w4)=0.176;
6)计算和保存文档-词的权重,如下述公式所示:
TF-IDF=tf(t,Di)×idf(t)
其中,tf(t,Di)为词t在第i篇文档中的词频,M为文档的总数,nt为文档集中出现单词t的文档数,IDF表示计算倒文本频率,文本频率是指某个关键词在整个语料所有文章中出现的次数,倒文本频率是文本频率的倒数,主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。对于所选取的3个数据集,其文档数M为3,对于‘sky’,若其在文档D2中出现的词频数为tf(sky,D2)=5,其在2个文档中为关键词则nsky=2, 计算得到
7)构建文档-词异构网络
把每个文档作为网络中的一个节点、每个关键词也作为一个节点,构建节点间的边,节点i和节点j之间的边缘权重定义为Aij,如下述公式所示;
即对于异构网络邻接矩阵为A:
由于有3个文档和4个关键词,所以邻接矩阵A为7×7的矩阵,顺序为{D1、D2、D3、w1、w2、w3、w4}。
根据上述异构网络临接矩阵A得到的节点间的权重值构建文档-词异构网络图结构,将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式,从而可以将本发明应用于文本特征提取或者文本聚类后端处理领域,为人们提供有价值的信息。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (2)
1.一种构建文档-关键词异构网络模型方法,其特征在于:包括如下步骤:
1)获取文本语料作为语料库;
2)获取停用词语料;
3)用获取的停用词语料对获取的文本语料进行去停用词处理,得到经过去停用词处理后的单词;
4)计算和保存步骤3)中得到的单词的词频,所述词频定义为某个单词在某一篇文章中出现的次数,取词频大于等于N的单词作为关键词,所述N为本发明预定义的一个固定的整数值,其数值大于1;
5)计算和保存关键词间互信息PMI(i,j),如下述公式所示:
其中,i和j是步骤4)中作为关键词的单词,#W(i)是语料库中包含单词i的文档的数量,#W(i,j)是同时包含单词i和j的文档的数量,#W是语料库中文档的总数量;
6)计算和保存文档-词的权重TF-IDF,如下述公式所示:
TF-IDF=tf(t,Di)×idf(t)
其中,tf(t,Di)为单词t在第i篇文档中的词频,M为文档的总数,nt为文档集中出现单词t的文档数量,IDF表示倒文本频率,倒文本频率是文本频率的倒数,所述文本频率是指某个关键词在整个语料所有文章中出现的次数;
7)构建文档-词异构网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910904571.0A CN110717042A (zh) | 2019-09-24 | 2019-09-24 | 一种构建文档-关键词异构网络模型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910904571.0A CN110717042A (zh) | 2019-09-24 | 2019-09-24 | 一种构建文档-关键词异构网络模型方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717042A true CN110717042A (zh) | 2020-01-21 |
Family
ID=69210041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910904571.0A Pending CN110717042A (zh) | 2019-09-24 | 2019-09-24 | 一种构建文档-关键词异构网络模型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717042A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN112307210A (zh) * | 2020-11-06 | 2021-02-02 | 中冶赛迪工程技术股份有限公司 | 一种文档标签预测方法、系统、介质及电子器件 |
CN112597277A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 文档查询方法、装置、存储介质及电子设备 |
CN112733527A (zh) * | 2020-12-15 | 2021-04-30 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及系统 |
CN112860897A (zh) * | 2021-03-12 | 2021-05-28 | 广西师范大学 | 基于改进的ClusterGCN的文本分类方法 |
CN113239190A (zh) * | 2021-04-27 | 2021-08-10 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403007A (zh) * | 2017-07-25 | 2017-11-28 | 北京工商大学 | 一种基于网络的微博消息可信度判别模型的方法 |
CN109992784A (zh) * | 2019-04-08 | 2019-07-09 | 北京航空航天大学 | 一种融合多模态信息的异构网络构建和距离度量方法 |
CN110020214A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合知识的社交网络流式事件检测系统 |
-
2019
- 2019-09-24 CN CN201910904571.0A patent/CN110717042A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403007A (zh) * | 2017-07-25 | 2017-11-28 | 北京工商大学 | 一种基于网络的微博消息可信度判别模型的方法 |
CN109992784A (zh) * | 2019-04-08 | 2019-07-09 | 北京航空航天大学 | 一种融合多模态信息的异构网络构建和距离度量方法 |
CN110020214A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合知识的社交网络流式事件检测系统 |
Non-Patent Citations (2)
Title |
---|
LIANG YAO: ""Graph Convolutional Networks for Text Classification"", 《HTTP://ARXIV.ORG/PDF/1809.05679.PDF》 * |
徐冬冬: ""一种基于类别描述的 TF-IDF 特征选择"", 《现代图书情报技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN112307210A (zh) * | 2020-11-06 | 2021-02-02 | 中冶赛迪工程技术股份有限公司 | 一种文档标签预测方法、系统、介质及电子器件 |
CN112733527A (zh) * | 2020-12-15 | 2021-04-30 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及系统 |
CN112733527B (zh) * | 2020-12-15 | 2024-05-10 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及系统 |
CN112597277A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 文档查询方法、装置、存储介质及电子设备 |
CN112860897A (zh) * | 2021-03-12 | 2021-05-28 | 广西师范大学 | 基于改进的ClusterGCN的文本分类方法 |
CN113239190A (zh) * | 2021-04-27 | 2021-08-10 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113239190B (zh) * | 2021-04-27 | 2024-02-20 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN110705260B (zh) | 一种基于无监督图神经网络结构的文本向量生成方法 | |
CN110717042A (zh) | 一种构建文档-关键词异构网络模型方法 | |
Bengfort et al. | Applied text analysis with Python: Enabling language-aware data products with machine learning | |
CN109255118B (zh) | 一种关键词提取方法及装置 | |
CN109858028B (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
Zheng et al. | Learning to crawl deep web | |
CN103678412B (zh) | 一种文档检索的方法及装置 | |
CN107908698B (zh) | 一种主题网络爬虫方法、电子设备、存储介质、系统 | |
CN103150382B (zh) | 基于开放知识库的短文本语义概念自动化扩展方法及系统 | |
US20100268725A1 (en) | Acquisition of semantic class lexicons for query tagging | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
WO2013049529A1 (en) | Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Torunoğlu et al. | Wikipedia based semantic smoothing for twitter sentiment classification | |
CN109615001A (zh) | 一种识别相似文章的方法和装置 | |
CN106610952A (zh) | 一种混合的文本特征词汇提取方法 | |
Rathod | Extractive text summarization of Marathi news articles | |
Jia et al. | A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth | |
CN110889292A (zh) | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200121 |
|
RJ01 | Rejection of invention patent application after publication |