CN103530316A - 一种基于多视图学习的科学主题提取方法 - Google Patents

一种基于多视图学习的科学主题提取方法 Download PDF

Info

Publication number
CN103530316A
CN103530316A CN201310416384.0A CN201310416384A CN103530316A CN 103530316 A CN103530316 A CN 103530316A CN 201310416384 A CN201310416384 A CN 201310416384A CN 103530316 A CN103530316 A CN 103530316A
Authority
CN
China
Prior art keywords
view
destination document
science
data
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310416384.0A
Other languages
English (en)
Other versions
CN103530316B (zh
Inventor
王灿
王哲
卜佳俊
陈纯
于智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310416384.0A priority Critical patent/CN103530316B/zh
Publication of CN103530316A publication Critical patent/CN103530316A/zh
Application granted granted Critical
Publication of CN103530316B publication Critical patent/CN103530316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多视图学习的科学主题提取方法,从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;对每个视图的数据信息进行简单的数据预处理并针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;利用多视图学习的方法,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;对于每一类目标文档,分别提取它们的科学主题,并以多个关键词的形式表示出来。本方法的优点在于,弥补了传统方法只考虑单一方面数据信息的不足,更好的利用多方面的数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的科学主题提取效果。

Description

一种基于多视图学习的科学主题提取方法
技术领域
本发明涉及文本聚类和科学主题提取等技术领域,特别是基于多视图学习的文本聚类方法和主题提取工作。
背景技术
每一篇文章都有自己特定的主题,学术论文更是如此,所有学者和研究人员在进行科学研究和撰写论文之前,都需要对现有的科学主题进行调研,而普通读者在查找资料的时候,也希望首先知道文章的主题。经验丰富的研究人员对自己所在领域的科学主题往往都有很清楚的认识,他们能够很好的发现与自己研究领域相关的论文,理清论文之间的关系,预测某些科学主题的流行程度和发展趋势,而且这些信息对于学者的研究工作以至整个研究领域的发展都起着至关重要的作用。随着互联网的高速发展,信息开始爆棚,凭借经验进行简单的人为处理和分析已经不能解决大数据时代带来的挑战。为了方便普通读者能够更加容易的了解新兴的研究领域,帮助经验不足的研究人员快速掌握各个研究领域的研究成果和代表人物,科学主题的提取工作显得尤为重要。
现有的科学主题提取工作基本上只考虑到论文数据中的单方面数据信息,而忽略了其他可以利用的潜在数据。学术论文主要包括正文,标题,摘要,关键字,共同作者以及参考文献等内容,传统的科学主题提取工作主要依据正文或者摘要等单一方面信息进行处理,很少考虑到多方面数据信息的相互影响和内在联系。因此我们提出了一种基于多视图学习的科学主题提取方法,弥补了传统方法的不足,更好的利用多方面的数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的主题提取效果。
发明内容
为了克服现有的科学主题提取方法只考虑到论文数据中的单方面数据信息,而忽略了其他可以利用的潜在数据的缺点,本发明提出了一种基于多视图学习的科学主题提取方法,以方便普通读者能够更加容易的了解新兴的研究领域,帮助经验不足的研究人员快速掌握各个研究领域的研究成果和代表人物。
本发明所述的一种基于多视图学习的科学主题提取方法:
1、该方法包括以下步骤:
1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;
2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;
3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;
4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;
5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;
6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示。
2、步骤2)中所述的多个视图的数据信息,其特征在于:
1)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据主要包括文章的正文,标题,摘要,关键字,共同作者以及参考文献等多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4。
3、步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,其特征在于:
1)对于论文数据的正文、标题、摘要,去掉所有停止词(a,the,or等使用频率很多但没有特定意义或明显区分价值的字或词,常为冠词、介词、副词或连词等),将单词词干化,即去掉ed,ing等分词形式或ment等词缀,只保留词干形式;
2)对于论文数据的关键字、共同作者和参考文献不需要进行上述操作。
4、步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,其特征在于:
1)共同作者视图、关键字视图和参考文献视图处理方式相同,以共同作者视图为例,遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量
Figure BDA0000380951940000041
j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,
Figure BDA0000380951940000042
取值0或1,如果第i个作者是第j个目标文档的作者之一,
Figure BDA0000380951940000043
取值为1,否则
Figure BDA0000380951940000044
取值为0;
2)论文正文视图、标题视图和摘要视图处理方式相同,以摘要视图为例,遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量
Figure BDA0000380951940000045
j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,表示第i个单词在向量vj中的权重,用它的TF-IDF值表示,即 d i j = num j ( i ) total ( words ) · log ( total ( documents ) dacuments ( t ) ) , 其中numj(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目;
3)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W(i)(i≤t,t为视图个数),W(i)的每一个行向量就是该视图下每一个目标文档j的表示向量 v j = [ d 1 j , d 2 j , · · · , d m j ] .
5、步骤5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,其特征在于:
1)假定我们有t个不同的视图,用W(1),W(2),……W(t)表示,定义下述公式
min F ∈ R n * k , μ ∈ R k tr ( F T ( Σ i = 1 t μ i L sym ( i ) F ) ) + γ | | μ | | 2 s . t . F T F = I k , Σ i = 1 t μ i = 1 , μ i ≥ 0 , i = 1 , . . . , t
其中k为聚类个数(根据实际情况人为设定),D(i)是对角矩阵
Figure BDA0000380951940000053
L(i)=D(i)-W(i)并且
Figure BDA0000380951940000054
tr()是矩阵的迹,运算符号||·||2是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μi(i≤t)代表计算过程中第i个视图在t个视图中的权重,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;
2)使用K-means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
6、步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,其特征在于:
1)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;
2)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照TF-IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序,其中TF-IDF值的计算方法与权利要求4中步骤2)所说明的方法相同;
3)在备选词库中针对不同视图,分别选取前N个关键词(根据实际情况人为设定)来代表这一类论文所属的科学主题,因此描述一类科学主题的关键词可以是一些具有代表性的领域名词、比较有影响力的论文作者,也可以一些经典的引用率较高的核心论文。
本发明提出了一种基于多视图学习的科学主题提取方法:其优点在于:克服了传统科学主题提取工作中只考虑论文数据中单一方面信息的不足,
更好的利用多方面数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的主题提取效果。
附图说明
图1是本发明的方法流程图。
具体实施方式
参照附图,进一步说明本发明:
一种基于多视图学习的科学主题提取方法:
1、该方法包括以下步骤:
1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;
2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;
3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;
4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;
5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;
6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示。
2、步骤2)中所述的多个视图的数据信息,其特征在于:
1)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据主要包括文章的正文,标题,摘要,关键字,共同作者以及参考文献等多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4。
3、步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,其特征在于:
1)对于论文数据的正文、标题、摘要,去掉所有停止词(a,the,or等使用频率很多但没有特定意义或明显区分价值的字或词,常为冠词、介词、副词或连词等),将单词词干化,即去掉ed,ing等分词形式或ment等词缀,只保留词干形式;
2)对于论文数据的关键字、共同作者和参考文献不需要进行上述操作。
4、步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,其特征在于:
1)共同作者视图、关键字视图和参考文献视图处理方式相同,以共同作者视图为例,遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,
Figure BDA0000380951940000082
取值0或1,如果第i个作者是第j个目标文档的作者之一,
Figure BDA0000380951940000083
取值为1,否则
Figure BDA0000380951940000084
取值为0;
2)论文正文视图、标题视图和摘要视图处理方式相同,以摘要视图为例,遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量
Figure BDA0000380951940000091
j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,
Figure BDA0000380951940000094
表示第i个单词在向量vj中的权重,用它的TF-IDF值表示,即 d i j = num j ( i ) total ( words ) · log ( total ( documents ) dacuments ( i ) ) , 其中numj(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目;
3)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W(i)(i≤t,t为视图个数),W(i)的每一个行向量就是该视图下每一个目标文档j的表示向量 v j = [ d 1 j , d 2 j , · · · , d m j ] .
5、步骤5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,其特征在于:
1)假定我们有t个不同的视图,用W(1),W(2),……W(t)表示,定义下述公式
min F ∈ R n * k , μ ∈ R k tr ( F T ( Σ i = 1 t μ i L sym ( i ) F ) ) + γ | | μ | | 2 s . t . F T F = I k , Σ i = 1 t μ i = 1 , μ i ≥ 0 , i = 1 , . . . , t
其中k为聚类个数(根据实际情况人为设定),D(i)是对角矩阵
Figure BDA0000380951940000102
L(i)=D(i)-W(i)并且
Figure BDA0000380951940000103
tr()是矩阵的迹,运算符号||·||2是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μi(i≤t)代表计算过程中第i个视图在t个视图中的权重,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;
2)使用K-means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
6、步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,其特征在于:
1)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;
2)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照TF-IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序,其中TF-IDF值的计算方法与权利要求4中步骤2)所说明的方法相同;
3)在备选词库中针对不同视图,分别选取前N个关键词(根据实际情况人为设定)来代表这一类论文所属的科学主题,因此描述一类科学主题的关键词可以是一些具有代表性的领域名词、比较有影响力的论文作者,也可以一些经典的引用率较高的核心论文。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (6)

1.一种基于多视图学习的科学主题提取方法,该方法的特征在于:
1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;
2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;
3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;
4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;
5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;
6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示。
2.如权利要求1所述的基于多视图学习的科学主题提取方法,步骤2)中所述的多个视图的数据信息,其特征在于:
1)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据主要包括文章的正文,标题,摘要,关键字,共同作者以及参考文献等多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4。
3.如权利要求2所述的基于多视图学习的科学主题提取方法,步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,其特征在于:
1)对于论文数据的正文、标题、摘要,去掉所有停止词(a,the,or等使用频率很多但没有特定意义或明显区分价值的字或词,常为冠词、介词、副词或连词等),将单词词干化,即去掉ed,ing等分词形式或ment等词缀,只保留词干形式;
2)对于论文数据的关键字、共同作者和参考文献不需要进行上述操作。
4.如权利要求3所述的基于多视图学习的科学主题提取方法,步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,其特征在于:
1)共同作者视图、关键字视图和参考文献视图处理方式相同,以共同作者视图为例,遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量
Figure FDA0000380951930000021
j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,
Figure FDA0000380951930000022
取值0或1,如果第i个作者是第j个目标文档的作者之一,
Figure FDA0000380951930000023
取值为1,否则
Figure FDA0000380951930000024
取值为0;
2)论文正文视图、标题视图和摘要视图处理方式相同,以摘要视图为例,遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量
Figure FDA0000380951930000025
j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,
Figure FDA0000380951930000026
表示第i个单词在向量vf中的权重,用它的TF-IDF值表示,即 d i j = num j ( i ) total ( words ) · log ( total ( documents ) dacuments ( t ) ) , 其中numj(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目;
3)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W(i)(1≤t,t为视图个数),W(i)的每一个行向量就是该视图下每一个目标文档j的表示向量 v j = [ d 1 j , d 2 j , · · · , d m j ] .
5.如权利要求4所述的基于多视图学习的科学主题提取方法,步骤5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,其特征在于:
1)假定我们有t个不同的视图,用W(1),W(2),……W(t)表示,定义下述公式
min F ∈ R n * k , μ ∈ R k tr ( F T ( Σ i = 1 t μ i L sym ( i ) F ) ) + γ | | μ | | 2 s . t . F T F = I k , Σ i = 1 t μ i = 1 , μ i ≥ 0 , i = 1 , . . . , t
其中k为聚类个数(根据实际情况人为设定),D(i)是对角矩阵 D ll ( i ) = Σ i = 1 n W lj , L(i)=D(i)-W(i)并且 L sym ( i ) = ( D ( i ) ) - 1 / 2 L ( D ( i ) ) - 1 / 2 ; tr()是矩阵的迹,运算符号||·||2是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μi(i≤t)代表计算过程中第i个视图在t个视图中的权重,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;
2)使用K-means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
6.如权利要求5所述的基于多视图学习的科学主题提取方法,步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,其特征在于:
1)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;
2)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照TF-IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序,其中TF-IDF值的计算方法与权利要求4中步骤2)所说明的方法相同;
3)在备选词库中针对不同视图,分别选取前N个关键词(根据实际情况人为设定)来代表这一类论文所属的科学主题,因此描述一类科学主题的关键词可以是一些具有代表性的领域名词、比较有影响力的论文作者,也可以一些经典的引用率较高的核心论文。
CN201310416384.0A 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法 Active CN103530316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310416384.0A CN103530316B (zh) 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310416384.0A CN103530316B (zh) 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法

Publications (2)

Publication Number Publication Date
CN103530316A true CN103530316A (zh) 2014-01-22
CN103530316B CN103530316B (zh) 2016-06-01

Family

ID=49932327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310416384.0A Active CN103530316B (zh) 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法

Country Status (1)

Country Link
CN (1) CN103530316B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
CN105046286A (zh) * 2015-08-31 2015-11-11 哈尔滨工业大学 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法
CN105138537A (zh) * 2015-07-08 2015-12-09 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN109255122A (zh) * 2018-08-06 2019-01-22 浙江工业大学 一种对论文引用关系分类标记的方法
CN111183442A (zh) * 2017-10-06 2020-05-19 爱思唯尔有限公司 用于提供学术和研究实体推荐的系统和方法
CN112580352A (zh) * 2021-03-01 2021-03-30 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059395A1 (en) * 2000-07-19 2002-05-16 Shih-Ping Liou User interface for online product configuration and exploration
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059395A1 (en) * 2000-07-19 2002-05-16 Shih-Ping Liou User interface for online product configuration and exploration
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAJIB DASGUPTA, ET AL: "Clustering Docements Along Multiple Dimensions", 《PROCEEDINGS OF THE》 *
沈思等: "基于文献时间特征的学科主题演化分析方法研究——以图书情报学领域为例", 《图书情报工作》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
CN105138537A (zh) * 2015-07-08 2015-12-09 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105138537B (zh) * 2015-07-08 2018-12-07 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105046286A (zh) * 2015-08-31 2015-11-11 哈尔滨工业大学 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法
CN105046286B (zh) * 2015-08-31 2018-11-02 哈尔滨工业大学 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN111183442A (zh) * 2017-10-06 2020-05-19 爱思唯尔有限公司 用于提供学术和研究实体推荐的系统和方法
CN109255122A (zh) * 2018-08-06 2019-01-22 浙江工业大学 一种对论文引用关系分类标记的方法
CN109255122B (zh) * 2018-08-06 2023-07-11 浙江工业大学 一种对论文引用关系分类标记的方法
CN112580352A (zh) * 2021-03-01 2021-03-30 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
CN112580352B (zh) * 2021-03-01 2021-06-04 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质

Also Published As

Publication number Publication date
CN103530316B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN103530316A (zh) 一种基于多视图学习的科学主题提取方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN102955856A (zh) 一种基于特征扩展的中文短文本分类方法
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN102289522A (zh) 一种对于文本智能分类的方法
CN104484380A (zh) 个性化搜索方法及装置
Kumar et al. Discovering knowledge landscapes: an epistemic analysis of business and management field in Malaysia
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
CN104361059A (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology
CN105573985A (zh) 基于汉语句义结构模型和主题模型的句子表示方法
Lei et al. Automatically classify chinese judgment documents utilizing machine learning algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant