CN107122352B - 一种基于k-means、word2vec的抽取关键词的方法 - Google Patents

一种基于k-means、word2vec的抽取关键词的方法 Download PDF

Info

Publication number
CN107122352B
CN107122352B CN201710352450.0A CN201710352450A CN107122352B CN 107122352 B CN107122352 B CN 107122352B CN 201710352450 A CN201710352450 A CN 201710352450A CN 107122352 B CN107122352 B CN 107122352B
Authority
CN
China
Prior art keywords
word
keywords
word2vec
keyword
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710352450.0A
Other languages
English (en)
Other versions
CN107122352A (zh
Inventor
蓝科
王纯斌
覃进学
潘小东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201710352450.0A priority Critical patent/CN107122352B/zh
Publication of CN107122352A publication Critical patent/CN107122352A/zh
Application granted granted Critical
Publication of CN107122352B publication Critical patent/CN107122352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明公开了一种基于K‑MEANS、WORD2VEC的抽取关键词的方法,该方法通过归纳全局语义和各分支主题,利用WORD2VEC算法构建出空间向量,使用K‑means算法剔除模糊词,计算质心距,聚类评估后得到高质量的关键词,并且通过提升权重值,实现词库的动态优化,使关键词提取具备学习进化能力。本发明抽取的关键词能够体现文档的内部分类主题,每一个关键字能够很好地的体现该分类,具有最终关键词质量高,适应性更广泛,结果更加准确等特点。

Description

一种基于K-MEANS、WORD2VEC的抽取关键词的方法
技术领域
本发明涉及关键词抽取方法,尤其涉及一种基于K-MEANS和WORD2VEC的抽取关键词方法。
背景技术
文档关键词可让阅读者快速把控文档主旨内容、高效的把控和检索文档,在搜索结果排序、文本摘要、文档分类、文档聚类、用户画像、构建文档关联网络等领域多有应用。
通常新闻稿、学术论文等领域作者会主动提出文档的关键词,但绝大多数已知文档是不具备关键词的。随着信息时代的数据增长,人们对自动处理文档并生成关键词的方法需求与日俱增,目前业界也涌现了大量自动处理文档生成抽取关键词的方法或装置。
但是目前各类方法中关键词会存在语义相近、不能反应整个文档内容全貌、不能反应文档内部内容分类等不足。自动抽取关键词的技术或方法通常会涉及到对文档进行分词处理,分词过程会一定程度上影响到关键词抽取,获取已经分词完毕的文档是后续抽取关键词的基础前置条件。
对于基于词频的关键字抽取算法,是基于词语的出现频率作为抽取该关键词的主要依据,基于这个思路很多算法又进行了优化,例如引入IDF逆向文件频率、引入特定领域词库进行优化。但该类算法很难从主题分类的角度来进行分析文档。
对于基于主题模型关键字抽取算法,引入概率模型,构建整个文档的主题模型。这类算法的代表是LDA(线性判别分析Linear Discriminant Analysis,LDA)。但是这种算法不具备从词语向量空间中反应词语关联度的能力。
判断一个词在一篇文档中是否重要,一个很容易想到的衡量指标就是词频,重要的词往往会在文档中出现多次。但另一方面,不是出现次数多的词就一定重要,因为有些词在各个文档中都反复出现,那么它的重要性肯定远不如那些只在某篇文章中频繁出现的词重要性强。从统计学的角度,那就是给予那些不常见的词以较大的权重,减少常见词的权重。使用k-means算法对文本全局语义和各分支主题进行归纳,实现高质量关键词的提取,并且通过提升权重值,实现词库的动态优化,提取关键词的方法具备学习进化能力,基于k-means算法的关键词抽取方法,不仅可以大幅度文本分类效率,而且分类准确性也能得到很大程度的提高,
综上,现有的关键词抽取方法都不具备能够从全局语义和数类主题分支中分别归纳出每一类关键词的方法,使用基于K-MEANS、WORD2VEC的抽取关键词的方法,不仅能根据全局词义和数类主题分支进行归纳,并且依赖一个可维护文档所在领域的词库,该词库会在使用中动态优化,具备一定的学习进化能力,并且k-means算法作为一种广泛使用的聚类算法,其最大优势就是容易快速实现大型数据集的聚类,使用k-means聚类算法将大幅度提高关键词分析的效率,最终得到的关键词质量也会更高。
发明内容
本发明的目的在于克服现有技术的不足,如现有的关键词抽取方法都还不具备能够从全局语义、从整体、从数类主题分支、从各分支中归纳出每一类的关键词的能力,并且传统关键词抽取方法步骤繁重,就上述缺点,本发明特提供一种能够从整体和分支归纳、文档可维护的领域词库、该词库会在使用中动态优化,具备一定的学习进化能力且步骤简化的高质量关键词抽取方法。
本发明的目的是通过以下技术方案来实现的:
一种基于K-MEANS和WORD2VEC的抽取关键词方法,该方法通过归纳全局语义和各分支主题,利用WORD2VEC算法构建出空间向量,使用K-means算法对多维空间中词语进行聚类,聚类评估并剔除模糊词后得到高质量的关键词,并且通过提升权重值,实现词库的动态优化,使关键词提取具备学习进化能力。
进一步地,一种基于K-MEANS、WORD2VEC的抽取关键词方法,它包括以下步骤:S1:
文本预处理;
S2:构建空间向量;
S3:聚类,使用k-means算法对备选关键词进行聚类处理,计算均值得出中心关键词;
S4:聚类评估,剔除模糊词,得到最终关键词;
其中,所述的文本预处理,它包括如下子步骤:
S11:准备被分析的文本、该文本对应的所属领域的领域词库;;
S12:无关词去噪,结合领域词库对文本进行分词处理,分词后的文本结合领域词库,进行去重过滤,剔除无关词语,获得备选关键词。另外,当某文本尚无对应的所属领域的领域词库,则进行构建词库,所述领域词库中,每个词语包含词语本身及权重系数,其中权重系数默认为1。
所述的空间向量构建,包括如下子步骤:
S21:对每个文档,根据文档所属领域词库进行分词;
S22:利用分词后的文档训练Word2Vec模型,得到所属领域词库的Word2Vec模型;S23:
将每个文档中的每个所属的备选关键词代入所属领域的Word2Vec模型,得到每个文档中所属的备选关键词的多维度的词向量。
所述的聚类,采用k-means算法对多维空间词语聚类时,对选定的关键词数目为k,首先随机的将文档内容进行初步划分,然后采用迭代方法通过将聚类中心不断移动来尝试改进划分,若有指定关键词数目,则在K-means算法中使用该数目作为聚类数目;若没有指定关键词数目,则默认关键词数目为5个。
所述的聚类包括以下步骤:
S31:从n个备选关键词中任意选择k个备选关键词作为初始聚类中心;
S32:根据每个聚类备选关键词的均值得到中心关键词,计算每个备选关键词与这些中心关键词的距离,并且根据最小距离,重新对相应关键词进行再次划分;
S33:重新计算每个聚类关键词的均值,即中心关键词的均值;
S34:循环步骤S32~S33,直到目标函数不再变化。
所述的聚类评估,剔除模糊词,得到最终关键词包括以下子步骤:
S41:剔除模糊词,剔除对多个质心距离均衡的词语点;
S42:在每个聚类中,根据公式:
Figure GDA0002176280410000031
进行计算,其中,Q为该词语在词库的权重,n为空间维度数目,Xi为该点第i维度值,XiZ为质心点的第i维度值,L为修订后的最终距离,取该值最小的词语为该分类中的代表关键词;
S43:取出离质心距离最近的词语,该词语作为最终关键词。
所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,还包括一个词库优化步骤:
S44:将此词语在领域词库中的权重进行提升,优化词库。
本发明的有益效果是:
(1)抽取的关键词能够体现文档的内部分类主题。本发明首先使用WORD2VEC得到整个词语的空间向量,后使用K-MEANS方法对空间数据进行聚类,聚类的过程可以看作将文档分成了若干子分类主题。
(2)每一个关键字能够高质量的体现该分类。在每一分类中,在词语向量空间中选取离空间质心最接近的词语,该词语处于空间中最接近分类中心的位置。此外计算公式中还是受到词库中权重影响,更高质量的确保了该词语的有效性、代表性。
(3)最终关键词质量高。本方法中考虑到了不同领域中不同的词语的具备不同特性,在选取最终关键词的过程中,会使用到关键词领域词库,尤其将权重作为判断关键词的依据。并且使用K-means方法进行聚类效果评估,剔除对多个质心距离均衡的词语点,将剔除定位模糊的词语剔除。这样本方法的适应性更广泛,使结果更加准确。
(4)领域词库具备学习能力。在执行批量抽取关键词的任务过程中,每一次任务的关键词结果均会反馈到领域词库中,影响所属领域词库中词语的权重值,从而影响未来的抽取关键词的任务,使得领域词库具备学习能力,本抽取关键词的方法也具备了学习能力。
附图说明
图1为一种基于K-MEANS、WORD2VEC的抽取关键词的方法流程图。
具体实施方式
下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
一种基于K-MEANS和WORD2VEC的抽取关键词方法,该方法通过归纳全局语义和各分支主题,利用WORD2VEC算法构建出空间向量,使用K-means算法对多维空间中词语进行聚类,聚类评估并剔除模糊词后得到高质量的关键词,并且通过提升权重值,实现词库的动态优化,使关键词提取具备学习进化能力。如图1,所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,它包括以下步骤:
S1:文本预处理;
S2:构建空间向量;
S3:聚类;
S4:聚类评估,剔除模糊词,得到最终关键词。
所述的文本预处理,它包括如下子步骤:
S11:准备被分析的文本、该文本对应的所属领域的领域词库;
S12:无关词去噪,根据所属领域词库对文本进行分词处理,找出文本实体,分词后的文本结合领域词库,进行过滤剔除无关和词语,构建出受控词库。
所述的构建空间向量,使用WORD2VEC构建词语的空间向量,维度应保持在10维度以下,以提升后续步骤中K-means算法的性能,具体包括以下步骤:
S21:对所述文档中的每个文档,根据文档所属领域词库进行分词;
S22:利用分词后的文档训练Word2Vec模型,得到所属领域词库的Word2Vec模型;S23:
将每个文档中的每个所属的备选关键词代入所属领域的Word2Vec模型,得到每个文档中所属的备选关键词的若干维的词向量,具体方法如下:
由于每个词都对应一个词向量,v为维度,假设:
1).两个词的相似度正比于对应词向量的乘积,即:sim(v1,v2)=v1·v2
2).多个词V1~V2组成的一个所属领域词库用C来表示,其中
Figure GDA0002176280410000051
Figure GDA0002176280410000052
域词的中心向量;
3).在所属领域词库中出现备选关键词A,A的概率正比于能量因子e-E(A,C),whereE=-A·C,因此:其中V是整个词汇空间,即文档整体,引入函数:σ(x)=1/(1+e-x),得出:P(G/C)=σ(-(H-G)·C)=σ((G-H)·C),然后继续拆分词汇空间递归的计算下去,最后只需要计算各关键词相似部分的向量差而已,其中每个子节点表示一个备选关键词,每个中间节点G or H的向量作为所有子向量的中心。
所述的K-means聚类,k-means算法对多维空间词语聚类,当有指定关键词数目时,则在K-means算法中使用该数目作为聚类数目;若没有指定关键词数目,则默认关键词数目为5 个,k-means算法描述如下:
输入:关键词词库数目k以及包含n个备选关键词的数据集合;输出:满足目标函数值最小的k个聚类算法流程:
S31:从n个备选关键词中任意选择k个备选关键词作为初始聚类中心;
S32:根据每个聚类备选关键词的均值得到中心关键词,计算每个备选关键词与这些中心关键词的距离,并且根据最小距离,重新对相应关键词进行再次划分;
S33:重新计算每个聚类关键词的均值,即中心关键词的均值;
S34:循环步骤S422~S423,直到目标函数不再变化。
所述的聚类评估,它包括以下步骤:
S41:剔除模糊词,处理过程中会剔除对多个质心距离均衡的词语点;
S42:聚类评估,在每个聚类中,根据k-means算法公式:
Figure GDA0002176280410000053
进行计算。其中:Q为该词语在词库的权重,n为空间维度数目,Xi为该点第i维度值,XiZ为质心点的第i维度值。L为修订后的最终距离,取该值最小的词语为该分类中的代表关键词;
S43:取出离质心距离最近的词语,该词语作为最终关键词。
由于k-means算法会受到单位刻度的影响,首先会对该点的维度值进行标准化,即标准化后的值=(标准化前的值-分量的均值)/分量的标准差,另外选择k-means算法测量的好处是,此算法不会受量纲的影响,两点之间的距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的距离相同,同时此方法测量距离还可以排除变量之间的相关性的干扰。
更进一步地,聚类评估具体算法如下:
基本思路:对选定的关键词数目为k,首先随机的将文档内容进行初步划分,然后采用迭代方法通过将聚类中心不断移动来尝试改进划分:
设备选关键词集合X={x1,x2,…,xn},K个中心关键词分别是z1,z2,…,zk,用wiz(iz =1,2…,,k表)示词语聚类的k个类别,有如下定义:
定义1两个备选关键词之间的欧式距离为:
Figure GDA0002176280410000061
定义2属于同一领域的备选关键词的算术平均为:
Figure GDA0002176280410000062
定义3目标函数为:
Figure GDA0002176280410000063
由定义1.2.3得出质心距公式为:
Figure GDA0002176280410000064
更进一步地,所述的一种基于K-MEANS、WORD2VEC的抽取关键词的方法,还包括一个词库优化步骤包括以下步骤:
S44:将此词语在领域词库中的权重进行提升,优化词库和方法。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,它包括以下步骤:
S1:文本预处理;
S2:利用WORD2VEC算法构建出空间向量;
S3:使用K-means算法对多维空间中词语进行聚类;
S4:聚类评估,剔除模糊词,得到最终关键词;
所述的步骤S4包括以下子步骤:
S41:剔除模糊词,剔除对多个质心距离均衡的词语点;
S42:在每个聚类中,根据公式:
Figure FDA0002176280400000011
进行计算,其中,Q为该词语在词库的权重,n为空间维度数目,Xi为该点第i维度值,XiZ为质心点的第i维度值,L为修订后的最终距离,取该值最小的词语为该分类中的代表关键词;
S43:取出离质心距离最近的词语,该词语作为最终关键词;
S44:将此词语在领域词库中的权重进行提升,优化词库。
2.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的文本预处理包括如下子步骤:
S11:准备被分析的文本、该文本对应的所属领域的领域词库;
S12:无关词去噪,根据领域词库对文本进行分词处理,分词后的文本结合领域词库,进行去重过滤剔除无关词语。
3.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,若某文本尚无对应的所属领域的领域词库,则进行构建词库。
4.根据权利要求2或3所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述领域词库中,每个词语包含词语本身及权重系数,其中权重系数默认为1。
5.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的空间向量构建,包括如下子步骤:
S21:对每个文档,根据文档所属领域词库进行分词;
S22:利用分词后的文档训练Word2Vec模型,得到所属领域词库的Word2Vec模型;S23:将每个文档中的每个所属的备选关键词代入所属领域的Word2Vec模型,得到每个文档中所属的备选关键词的多维度的词向量。
6.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,采用k-means算法对多维空间词语聚类时,若有指定关键词数目,则在K-means算法中使用该数目作为聚类数目;若没有指定关键词数目,则默认关键词数目为5个。
7.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的聚类包括以下步骤:
S31:从n个备选关键词中任意选择k个备选关键词作为初始聚类中心;
S32:根据每个聚类备选关键词的均值得到中心关键词,计算每个备选关键词与这些中心关键词的距离,并且根据最小距离,重新对相应关键词进行再次划分;
S33:重新计算每个聚类关键词的均值,即中心关键词的均值;
S34:循环步骤S32~S33,直到目标函数不再变化。
CN201710352450.0A 2017-05-18 2017-05-18 一种基于k-means、word2vec的抽取关键词的方法 Active CN107122352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710352450.0A CN107122352B (zh) 2017-05-18 2017-05-18 一种基于k-means、word2vec的抽取关键词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710352450.0A CN107122352B (zh) 2017-05-18 2017-05-18 一种基于k-means、word2vec的抽取关键词的方法

Publications (2)

Publication Number Publication Date
CN107122352A CN107122352A (zh) 2017-09-01
CN107122352B true CN107122352B (zh) 2020-04-07

Family

ID=59727714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710352450.0A Active CN107122352B (zh) 2017-05-18 2017-05-18 一种基于k-means、word2vec的抽取关键词的方法

Country Status (1)

Country Link
CN (1) CN107122352B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133045B (zh) * 2018-01-12 2020-07-24 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109189521A (zh) * 2018-07-31 2019-01-11 郑州向心力通信技术股份有限公司 一种大数据分析展示方法及系统
CN109257590A (zh) * 2018-08-30 2019-01-22 杭州行开科技有限公司 一种裸眼3d沙盘显示系统及其方法
CN109344397B (zh) * 2018-09-03 2023-08-08 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109144452A (zh) * 2018-09-03 2019-01-04 杭州行开科技有限公司 一种基于3d显微镜图像的裸眼3d显示系统及其方法
CN109783490B (zh) * 2018-12-25 2021-09-10 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN110110137A (zh) * 2019-03-19 2019-08-09 咪咕音乐有限公司 一种确定音乐特征的方法、装置、电子设备及存储介质
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
CN111782801B (zh) * 2019-05-17 2024-02-06 北京京东尚科信息技术有限公司 一种对关键词进行分组的方法和装置
CN110222747B (zh) * 2019-05-24 2022-08-16 河海大学 一种优化的聚类方法
CN110321424B (zh) * 2019-06-14 2021-07-27 电子科技大学 一种基于深度学习的艾滋病人员行为分析方法
CN110851592B (zh) * 2019-09-19 2022-04-05 昆明理工大学 一种基于聚类的新闻文本最优主题数计算方法
CN110807099B (zh) * 2019-10-30 2022-05-17 云南电网有限责任公司信息中心 一种基于模糊集的文本分析检索方法
CN111104793A (zh) * 2019-12-19 2020-05-05 浙江工商大学 一种短文本主题确定方法
CN111460252B (zh) * 2020-03-16 2023-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统
CN113761905A (zh) * 2020-07-01 2021-12-07 北京沃东天骏信息技术有限公司 一种领域建模词汇表的构建方法和装置
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及系统
CN113807090B (zh) * 2021-08-10 2024-04-30 三峡大学 一种基于词义加权tf-idf疾病表征词提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104063387A (zh) * 2013-03-19 2014-09-24 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法
CN105912524A (zh) * 2016-04-09 2016-08-31 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915347B (zh) * 2012-09-26 2016-10-12 中国信息安全测评中心 一种分布式数据流聚类方法及系统
US10102281B2 (en) * 2014-10-16 2018-10-16 Accenture Global Services Limited Segmentation discovery, evaluation and implementation platform

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063387A (zh) * 2013-03-19 2014-09-24 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法
CN105912524A (zh) * 2016-04-09 2016-08-31 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置

Also Published As

Publication number Publication date
CN107122352A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107122352B (zh) 一种基于k-means、word2vec的抽取关键词的方法
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
US11816888B2 (en) Accurate tag relevance prediction for image search
CN107085585B (zh) 用于图像搜索的准确的标签相关性预测
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
Sundara Vadivel et al. An efficient CBIR system based on color histogram, edge, and texture features
CN112800249A (zh) 基于生成对抗网络的细粒度跨媒体检索方法
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
Tang et al. An angle-based method for measuring the semantic similarity between visual and textual features
Jordan et al. Re-ranking for writer identification and writer retrieval
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN110413985B (zh) 一种相关文本片段搜索方法及装置
Liu et al. Multiview Cross-Media Hashing with Semantic Consistency
JP2013246739A (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Wu et al. Similar image retrieval in large-scale trademark databases based on regional and boundary fusion feature
JP7272846B2 (ja) 文書分析装置および文書分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant