CN111259150B - 一种基于词频共现分析的文献表示方法 - Google Patents

一种基于词频共现分析的文献表示方法 Download PDF

Info

Publication number
CN111259150B
CN111259150B CN202010065058.XA CN202010065058A CN111259150B CN 111259150 B CN111259150 B CN 111259150B CN 202010065058 A CN202010065058 A CN 202010065058A CN 111259150 B CN111259150 B CN 111259150B
Authority
CN
China
Prior art keywords
frequency
occurrence
word
text
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065058.XA
Other languages
English (en)
Other versions
CN111259150A (zh
Inventor
牛奉高
闫涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202010065058.XA priority Critical patent/CN111259150B/zh
Publication of CN111259150A publication Critical patent/CN111259150A/zh
Application granted granted Critical
Publication of CN111259150B publication Critical patent/CN111259150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于文本挖掘技术领域,具体涉及一种基于词频共现分析的文献表示方法。本发明通过数据收集引入布尔权重,构建VSM,根据CLSVSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次和共现相对强度矩阵,引入指标集,构建CLSVSM,整理文本数据,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型。本发明构建新的文本向量空间从而提升文本分类检索的效果。

Description

一种基于词频共现分析的文献表示方法
技术领域
本发明属于文本挖掘技术领域,具体涉及一种基于词频共现分析的文献表示方法。
背景技术
近几年,大数据观念深入人心,由于信息量的急剧增长,文献资源的丰富在给人们提供巨大便利的同时,数量巨大和种类繁多也带来存储处理和有效检索的困扰,传统文本信息检索方法虽然提高了不同文献的辨识度且起到了一定分类作用,但是并没有挖掘文献之间内在语义联系,耗时长且检索效率不高。因此,其数据化表示和存储也成为了人们关注的焦点,尤其是复杂数据的稀疏化得到了人们的关注。对于文献资源,文献主题聚类再到文献聚类,文献特征向量的表示起着关键作用。文献的数据化表示是文献的抽象表示,能够通过相关数据处理从而深入剖析文献间的关系,进而大大提高了文献资源检索,聚合的效率,同时跟上文本信息更新的大步伐,保证信息处理的时效性。
基于文本特征词共现关系构建的共现潜在语义向量空间模型(CLSVSM)被牛奉高提出,该模型充分提取关键词与文献之间的语义信息,并且对VSM进行改进,引入最大共现强度作为模型权重,以更好地分析关键词与文本之间的共现关系,而文本特征词在文本中词频能很好反应文本内容信息,因此本研究通过先将CLSVSM中文本潜在语义信息用特征项对应词频重新估计,然后再将词频信息赋予共现潜在语义信息,构建了词频加权模型。
发明内容
针对上述问题本发明提供了一种基于词频共现分析的文献表示方法。
为了达到上述目的,本发明采用了下列技术方案:
一种基于词频共现分析的文献表示方法,包括以下步骤:
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建向量空间模型(VSM:Vector Space Model);
步骤3,根据CLSVSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
步骤4,计算特征词之间的共现相对强度矩阵;
步骤5,以Ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合。将关键词共现信息引入向量空间模型中,构建CLSVSM;
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建CLSVSM的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型。
进一步,所述步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建VSM,具体操作为:
di=(ai1,ai2,…,aim)∈RD,i=1,…n,j=1,…m
其中:RD表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0,最终得到文献集的“篇-词”矩阵A=(aij)n×m。该模型挖掘了文本词频信息,并将词频信息加入CLSVSM中,在共现潜在语义信息基础上,剔除了文本冗余的词频信息而构建新的文本向量,对词频特征项进行筛选和充分运用,进一步分析文献信息的相关性,降低文献分类的混乱度,进而提升了文献分类效果和检索效率。
进一步,所述步骤3,根据CLSVSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次,具体操作为:
特征词之间的共现矩阵为:C=AT·A=(cij)m×m
当i=j时,cii为第i个特征词出现的总频次;
当i≠j时,cij表示词i与词j之间的共现频次。
进一步,所述步骤4计算特征词之间的共现相对强度矩阵,具体操作为:
Figure BDA0002375720070000031
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。计算出特征词之间的共现强度,可以通过词之间的关系分析文献的关联度,体现了文献之间的潜在语义关系,进而为更好地构建文献表示空间打下基础。
进一步,所述步骤5以Ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建CLSVSM,具体操作为:
Figure BDA0002375720070000032
其中,
Figure BDA0002375720070000041
bjt表示共现强度;Ii1表示选择指标。用特征词之间的最大共现强度对VSM模型进行补充,充分挖掘了文献潜在语义信息,大大提高了文献分类效果。
进一步,所述步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建CLSVSM的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量,具体操作为:
fi=(ei1,ei2,…,eim)∈RD,i=1,…,n
由向量集可构成文档频数向量空间E=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;RD表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
Figure BDA0002375720070000042
其中,xij表示归一化后的文本词频;然后使用归一化处理后的频次计算。构建该模型以及对词频进行归一化处理,有利于消除特征项出现频次大小的影响,统一量化,减小实验的误差,并且利于处理,和后续模型的构建。
进一步,所述步骤7提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型;
所述构建词频CLSVSM,具体操作为:
对于CLSVSM和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将CLSVSM中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到CLSVSM中,从而构建如下模型:
Figure BDA0002375720070000053
其中:ψ表示词频向量与词频CLSVSM中向量的对应关系;
Figure BDA0002375720070000051
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij
该模型构建运用元素替换法,满足条件的元素引入CLSVSM中,不满足条件的不引入,这种方法使得我们能够选择文本的一部分特征项去表示文本,也有利于文本冗余项的剔除,从而优化文本表示;
所述构建词频加权模型,具体操作为:
为了更好地表示文本,使文本语义信息更加优化表达,更好地进行特征项选择,基于TF-IDF思想,本研究为特征词共现强度赋予相应的词频权重,在优化选取特征项的同时,也重新赋予其权重,含有更多文本语义信息,从而构建模型:
Figure BDA0002375720070000054
其中:τ表示词频向量与词频加权模型中向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
Figure BDA0002375720070000052
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qijij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。该模型将文献词频信息与共现潜在语义信息相结合,将二者综合体现,使特征项代表更多文本信息,剔除冗余信息同时,优化文本表达,提高文本分类效果和检索效率。
与现有技术相比本发明具有以下优点:
结合文本潜在语义信息和词频信息提出了构建文本向量空间的方法,第一种方法是对于词频信息的选择,在保证了提高文本分类性能的同时,也减少了对文献表示的特征项个数,提高了数据存储和相关计算的效率;第二种方法在基于第一种方法的基础上,将词频信息赋予共现潜在语义信息,使特征项所包含的文本信息更多,因为二者相互影响,考虑到这点,平衡信息表达,这种方法既有利于剔除文本冗余信息,同时优化模型表达,赋予特征项更全面的信息,使其更具有代表性,从而提高文本聚类和检索效果。
具体实施方式
实施例1
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建VSM;
di=(ai1,ai2,…,aim)∈RD,i=1,…n,j=1,…m
其中:RD表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0,最终得到文献集的“篇-词”矩阵A=(aij)n×m
步骤3,根据CLSVSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
特征词之间的共现矩阵为:C=AT·A=(cij)m×m,当i=j时,cii为第i个特征词出现的总频次;当i≠j时,cij表示词i与词j之间的共现频次。
步骤4,计算特征词之间的共现相对强度矩阵;
Figure BDA0002375720070000071
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。
步骤5,以Ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建CLSVSM;
Figure BDA0002375720070000072
其中,
Figure BDA0002375720070000073
bjt表示关键词共现强度;Ii1表示选择指标。
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建CLSVSM的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
fi=(ei1,ei2,…,eim)∈RD,i=1,…,n
由向量集可构成文档频数向量空间E=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;RD表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
Figure BDA0002375720070000074
其中,xij表示进行归一化后词频;然后使用归一化处理后的频次计算。
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型。
对于CLSVSM和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将CLSVSM中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到CLSVSM中,从而构建如下模型:
Figure BDA0002375720070000083
其中:ψ表示词频向量与词频CLSVSM中向量的对应关系;
Figure BDA0002375720070000081
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij
构建词频加权模型:
Figure BDA0002375720070000084
其中:τ表示词频向量与词频加权模型中文本向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
Figure BDA0002375720070000082
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qijij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。
中文数据来自CNKI中信息科学下的三个学科“图情”,“科学”,“宏观”,三个学科为三个类别。按照文献被引频次降序排列搜集数据,经过预处理,最后总共收集966篇文献,其中包含“图情”277篇,“科研”344篇,“宏观”355篇,1420个关键词。
实施例2
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建VSM;
di=(ai1,ai2,…,aim)∈RD,i=1,…n,j=1,…m
其中:RD表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0,最终得到文献集的“篇-词”矩阵A=(aij)n×m
步骤3,根据CLSVSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
特征词之间的共现矩阵为:C=AT·A=(cij)m×m,当i=j时,cii为第i个特征词出现的总频次;当i≠j时,cij表示词i与词j之间的共现频次。
步骤4,计算特征词之间的共现相对强度矩阵;
Figure BDA0002375720070000091
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。
步骤5,以Ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建CLSVSM;
Figure BDA0002375720070000092
其中,
Figure BDA0002375720070000101
bjt表示关键词共现强度;Ii1表示选择指标。
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建CLSVSM的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
fi=(ei1,ei2,…,eim)∈RD,i=1,…,n
由向量集可构成文档频数向量空间E=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;RD表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
Figure BDA0002375720070000102
其中,xij表示进行归一化后词频;然后使用归一化处理后的频次计算。
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型。
对于CLSVSM和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将CLSVSM中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到CLSVSM中,从而构建如下模型:
Figure BDA0002375720070000103
其中:ψ表示词频向量与词频CLSVSM中向量的对应关系;
Figure BDA0002375720070000111
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij
构建词频加权模型:
Figure BDA0002375720070000113
其中:τ表示词频向量与词频加权模型中文本向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
Figure BDA0002375720070000112
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qijij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。
英文数据来自web of science中信息科学与图书馆科学分类下的数据,最后经过数据处理得到文献总数332篇,其中,包含计算机科学信息系统118篇,计算机科学各学科间的应用52篇,管理92篇,最终获得不重复关键词1606个。
上述内容对实施例做了详细的说明,但本发明不受上述实施方式和实施例的限制,在不脱离本发明宗旨的前提下,在本领域技术人员所具备的知识范围内还可以对其进行各种变化和改进,这些变化和改进均落入本发明要保护的范围之内。

Claims (6)

1.一种基于词频共现分析的文献表示方法,其特征在于:包括以下步骤:
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建VSM;
步骤3,根据VSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
步骤4,计算特征词之间的共现相对强度矩阵;
步骤5,以Ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建CLSVSM;其中,i表示第i篇文献;aij表示第j个关键词是否出现在第i篇文献中,出现则为1,否则为0;
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建CLSVSM的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型;
所述步骤7提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型;
所述构建词频CLSVSM,具体操作为:
对于CLSVSM和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将CLSVSM中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到CLSVSM中,从而构建如下模型:
Figure FDA0003675202060000021
其中:ψ表示词频向量与词频CLSVSM中向量的对应关系;fi为文本词频向量;
Figure FDA0003675202060000022
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij
所述构建词频加权模型,具体操作为:
Figure FDA0003675202060000023
其中:τ表示词频向量与词频加权模型中文本向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
Figure FDA0003675202060000024
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qijij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。
2.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建VSM,具体操作为:
di=(ai1,ai2,…,aim)∈RD,i=1,…n,j=1,…m
其中:RD表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0,最终得到文献集的“篇-词”矩阵A=(aij)n×m
3.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤3,根据VSM计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次,具体操作为:
特征词之间的共现矩阵为:C=AT·A=(cij)m×m,其中,A=(aij)n×m为“篇-词”矩阵,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0;
当i=j时,cii为第i个特征词出现的总频次;
当i≠j时,cij表示词i与词j之间的共现频次。
4.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤4计算特征词之间的共现相对强度矩阵,具体操作为:
Figure FDA0003675202060000031
其中,A=(aij)n×m为“篇-词”矩阵,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0;
c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。
5.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤5以Ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建CLSVSM,具体操作为:
Figure FDA0003675202060000032
其中,di表示n篇文献中第i篇文献;
Figure FDA0003675202060000041
bjt表示关键词共现强度;Ii1表示选择指标。
6.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建CLSVSM的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量,具体操作为:
fi=(ei1,ei2,…,eim)∈RD,i=1,…,n
由向量集可构成文档频数向量空间E=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;RD表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
Figure FDA0003675202060000042
其中,xij表示进行归一化后词频;然后使用归一化处理后的频次计算。
CN202010065058.XA 2020-01-20 2020-01-20 一种基于词频共现分析的文献表示方法 Active CN111259150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065058.XA CN111259150B (zh) 2020-01-20 2020-01-20 一种基于词频共现分析的文献表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065058.XA CN111259150B (zh) 2020-01-20 2020-01-20 一种基于词频共现分析的文献表示方法

Publications (2)

Publication Number Publication Date
CN111259150A CN111259150A (zh) 2020-06-09
CN111259150B true CN111259150B (zh) 2022-07-19

Family

ID=70950880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065058.XA Active CN111259150B (zh) 2020-01-20 2020-01-20 一种基于词频共现分析的文献表示方法

Country Status (1)

Country Link
CN (1) CN111259150B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186002A (zh) * 2021-12-14 2022-03-15 智博天宫(苏州)人工智能产业研究院有限公司 科技成果数据处理分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Basic Co-Occurrence Latent Semantic Vector Space Model;Feng gao Niu;《Journal of Classification》;20181116;第36卷;277–294 *
Multi label text classification method based on co-occurrence latent semantic vector space;Rujuan Wang 等;《Procedia Computer Science》;20180511;第131卷;757-764 *
三元共现潜在语义向量空间模型;牛奉高 等;《情报科学》;20180105;第36卷(第1期);147-151+157 *
共现潜在语义向量空间模型的进一步研究;牛奉高 等;《情报杂志》;20171218;第36卷(第12期);166-172 *
基于CLSVSM的电影评分预测及其推荐应用研究;牛奉高 等;《山西大学学报(自然科学版)》;20190430;第43卷(第02期);261-266 *

Also Published As

Publication number Publication date
CN111259150A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
Li et al. Text-based image retrieval using progressive multi-instance learning
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Paul et al. Lesicin: A heterogeneous graph-based approach for automatic legal statute identification from indian legal documents
CN110717047A (zh) 一种基于图卷积神经网络的Web服务分类方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Liu et al. Clustering-based Method for Positive and Unlabeled Text Categorization Enhanced by Improved TFIDF.
CN107844493B (zh) 一种文件关联方法及系统
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
Ye et al. A web services classification method based on GCN
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN113297457A (zh) 一种高精准性的信息资源智能推送系统及推送方法
Jing et al. High-order co-clustering text data on semantics-based representation model
CN111259150B (zh) 一种基于词频共现分析的文献表示方法
Majdabadi et al. Twitter trend extraction: a graph-based approach for tweet and hashtag ranking, utilizing no-hashtag tweets
Zhu et al. Chinese texts classification system
CN114117215A (zh) 一种基于混合模式的政务数据个性化推荐系统
Bekkali et al. Web search engine-based representation for Arabic tweets categorization
Rajkumar et al. An efficient feature extraction with subset selection model using machine learning techniques for Tamil documents classification
Rossi et al. Generating features from textual documents through association rules
Schenker et al. Clustering of web documents using graph representations
Schneider et al. Cross-lingual text clustering in a large system
Nagrale et al. Document theme extraction using named-entity recognition
Patra et al. Classification of interviews-A case study on cancer patients
JP7029205B1 (ja) 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant