CN112364141A - 基于图神经网络的科学文献关键内容潜在关联挖掘方法 - Google Patents

基于图神经网络的科学文献关键内容潜在关联挖掘方法 Download PDF

Info

Publication number
CN112364141A
CN112364141A CN202011223846.3A CN202011223846A CN112364141A CN 112364141 A CN112364141 A CN 112364141A CN 202011223846 A CN202011223846 A CN 202011223846A CN 112364141 A CN112364141 A CN 112364141A
Authority
CN
China
Prior art keywords
keywords
scientific literature
neural network
graph
potential association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011223846.3A
Other languages
English (en)
Inventor
王盈辉
焦鹏飞
王文俊
潘林
孙越恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011223846.3A priority Critical patent/CN112364141A/zh
Publication of CN112364141A publication Critical patent/CN112364141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于图神经网络的科学文献关键内容潜在关联挖掘方法,包括以下步骤:S1获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理;S2利用TF‑IDF方法抽取文献内容关键词;S3以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络;S4利用图卷积神经网络学习关键词的向量表示;S5利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系。本发明通过对文章内容抽取出的关键词关系进行建模,利用图卷积神经网络技术,对文献主要关键词的潜在关联进行挖掘,满足对科学文献内容进行分析需求,实现对不同领域科学文献的相关性进行分析,为科学文献的系统分析提供了有效的方法。

Description

基于图神经网络的科学文献关键内容潜在关联挖掘方法
技术领域
本发明涉及文献分析技术领域,尤其涉及基于图神经网络的科学文献关键内容潜在关联挖掘方法。
背景技术
图神经网络目前被逐步应用于自然语言处理领域,如文本分类、信息检索、机器翻译等任务中,科学文献数据作为自然语言中常见的数据集,是指由论文信息及其作者信息构成的数据集,基于科学文献数据提供的论文参考文献以及作者信息,可以建立由科学家、论文构成的二分网,科学家合作网络,科学引文网络以及杂志-论文耦合网络,科研单位-论文耦合网络等。
近年来,随着复杂网络研究的发展,为科学文献的系统分析提供了有效的方法和工具,开发了CiteSpace、Sci2等相关分析软件,可以对上述网络的拓扑结构及演化模式和演化机制等进行分析,除科学文献基本信息外,科学文献自身的文章内容也蕴含了丰富的信息,但现有的文献分析方法并未对其进行充分的利用。
发明内容
本发明的目的在于提供基于图神经网络的科学文献关键内容潜在关联挖掘方法,通过对文章内容抽取出的关键词关系进行建模,利用图卷积神经网络技术,对文献主要关键词的潜在关联进行挖掘,满足对科学文献内容进行分析需求,实现对不同领域科学文献的相关性进行分析。
为了实现上述目的,本发明采用了如下技术方案:基于图神经网络的科学文献关键内容潜在关联挖掘方法,包括以下步骤:
S1:获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理;
S2:利用TF-IDF方法抽取文献内容关键词;
S3:以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络;
S4:利用图卷积神经网络学习关键词的向量表示;
S5:利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系。
作为上述技术方案的进一步描述:
所述步骤S1获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理具体步骤为:
S1.1:文本挖掘,如果要对某一感兴趣的事件相关文献进行分析时,可以在相关数据库中下载包含该事件关键词的相关文献,或者直接使用已存在的公开数据集。
S1.2:文本清洗,得到原始数据后,抽取出文献的摘要和正文内容,如果是中文文本,需要对文本进行分词,然后去除标点、数字、乱码和停止词,减少文本噪声。
作为上述技术方案的进一步描述:
所述步骤S2利用TF-IDF方法抽取文献内容关键词具体方法为:利用TF-IDF方法评估一个词汇对于它所在文本的重要程度,考虑到不同的词汇关键词对辅助决策的帮助不同,对不同词性的关键词赋予了不同的权重,并进行了排序。
作为上述技术方案的进一步描述:
所述步骤S3以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络的具体方法为:抽取文献内容N个关键词后,利用这N个关键词和其在参考文献中的共现情况,构建一个无向有权图。
作为上述技术方案的进一步描述:
所述无向有权图无向有权图表示为G=(V,E),其中V={vi|i=1,2,…,N}为节点集,
Figure BDA0002762995740000031
为边集,N为节点数目,其中,G可以用邻接矩阵A表示,A∈RN×N,其中Aij=wij如果(vi,vj)∈E,否则Aij=0,wij为边(vi,vj)的权重;
所述节点为从文章内容中提取的关键词,边为两个关键词是否时出现在一篇参考文献中,边的权重为两个关键词同时出现在同一篇参考文献中的次数。
作为上述技术方案的进一步描述:
所述步骤S4利用图卷积神经网络学习关键词的向量表示具体为利用word2vec的CBOW模型在的语料库进行训练,所述图结构节点的输入特征矩阵,将图神经网络基本模型和K-means算法进行联合训练,得到关键词共现网络的节点表示。
作为上述技术方案的进一步描述:
所述步骤S5利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系具体方法为,得到每个关键词的向量表示和新的类别,可以通过相似度计算函数来计算两个关键词之间的相关性,或直接可视化网络节点的空间分布以直观地展示所有关键词之间的亲疏关系。
本发明提供了基于图神经网络的科学文献关键内容潜在关联挖掘方法。具备以下有益效果:
该基于图神经网络的科学文献关键内容潜在关联挖掘方法通过对文章内容抽取出的关键词关系进行建模,利用图卷积神经网络技术,对文献主要关键词的潜在关联进行挖掘,满足对科学文献内容进行分析需求,实现对不同领域科学文献的相关性进行分析,为科学文献的系统分析提供了有效的方法,结合文献自身内容,首先对科学文献内容进行相关处理,然后对文献内容的关键词构建浅层关联网络,运用改进的图卷积神经网络算法,挖掘了不同领域文献的关键词之间的潜在关联,充分利用了文献内容的丰富信息,补充了科学文献分析中仅利用文献标题、作者、参考文献等非文献内容分析的不足。
附图说明
图1为本发明提出的基于图神经网络的科学文献关键内容潜在关联挖掘方法的关系发现模型原理示意图;
图2为本发明中文本挖掘和文本清洗模型应用流程图;
图3为本发明中网络构件和关联性挖掘模型应用流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,基于图神经网络的科学文献关键内容潜在关联挖掘方法,包括以下步骤:
S1:获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理;
S2:利用TF-IDF方法抽取文献内容关键词;
S3:以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络;
S4:利用图卷积神经网络学习关键词的向量表示;
S5:利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系。
步骤S1获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理具体步骤为:
S1.1:文本挖掘,如果要对某一感兴趣的事件相关文献进行分析时,可以在相关数据库中下载包含该事件关键词的相关文献,或者直接使用已存在的公开数据集。
S1.2:文本清洗,得到原始数据后,抽取出文献的摘要和正文内容,如果是中文文本,需要对文本进行分词,然后去除标点、数字、乱码和停止词,减少文本噪声。
步骤S2利用TF-IDF方法抽取文献内容关键词具体方法为:利用TF-IDF方法评估一个词汇对于它所在文本的重要程度,考虑到不同的词汇关键词对辅助决策的帮助不同,对不同词性的关键词赋予了不同的权重,并进行了排序。
进一步的,与形容词性关键词相比,名词性关键词更能表达文章内容的主题,每篇文献抽取权重值较大的前50个关键词,最终汇总,统计词频,按词频降序提取前N个所需要的重要关键词。
步骤S3以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络的具体方法为:抽取文献内容N个关键词后,利用这N个关键词和其在参考文献中的共现情况,构建一个无向有权图。
无向有权图无向有权图表示为G=(V,E),其中V={vi|i=1,2,…,N}为节点集,
Figure BDA0002762995740000061
为边集,N为节点数目,其中,G可以用邻接矩阵A表示,A∈RN×N,其中Aij=wij如果(vi,vj)∈E,否则Aij=0,wij为边(vi,vj)的权重;
所述节点为从文章内容中提取的关键词,边为两个关键词是否时出现在一篇参考文献中,边的权重为两个关键词同时出现在同一篇参考文献中的次数。
步骤S4利用图卷积神经网络学习关键词的向量表示具体为利用word2vec的CBOW模型在的语料库进行训练,所述图结构节点的输入特征矩阵,将图神经网络基本模型和K-means算法进行联合训练,得到关键词共现网络的节点表示。
对于模型的输入特征,利用word2vec的CBOW模型在比较全面的语料库(如维基百科)进行训练,模型窗口大小设为5,词向量维度为100,其他参数均设置为默认参数,经过训练,可以得到一个大小为N×100的输入矩阵X。
进一步的,虽然有些关键词由于某些划分属于同一类别,但它们在空间上的位置/关联性并不强,因此挖掘这些关键词之间的潜在关系,即发现属于不同类别但关联度高的关键词,或者区分同一类别中关联度较低的关键词。
图卷积神经网络可以直接作用于图,实现结构化数据的端到端学习,其原理可以理解可区分的消息传递框架的特例:
Figure BDA0002762995740000071
其中
Figure BDA0002762995740000072
为神经网络结构中第l层中节点vi的隐藏状态,dl为本层节点向量表示的维度,gm(·,·)形式的传入消息被累积起来,并通过一个激活函数σ(·)进行转换,Mi为节点vi的传入消息集合,通常为与vi相连的边的集合,gm(·,·)通常为类似神经网络的函数,或者是一个线性变换gm(hi,hj)=Whj,W为参数矩阵。
基于这种思想,定义了如下的两层传播模型来计算无向有权图中节点的前向传播更新:
Figure BDA0002762995740000073
其中
Figure BDA0002762995740000074
Figure BDA0002762995740000075
为图G增加了自连接的邻接矩阵,IN为单位矩阵,
Figure BDA0002762995740000076
W0是从输入层到隐藏层的参数矩阵,W1是从隐藏层到输出层的参数矩阵,ReLU(·)=max(0,·)为激活函数。k为节点类别,是可以预先定义的超参数,X为输入节点的特征矩阵,
Figure BDA0002762995740000081
为属于簇Ci的平均向量,由于μi由原始输入计算得到,与经过积累了两跳相邻节点特征的节点输出矩阵可能存在量纲上的偏差,因此利用函数F(·)来调整μi值的范围,函数F(·)可以根据需要自行定义。
步骤S5利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系具体方法为,得到每个关键词的向量表示和新的类别,可以通过相似度计算函数来计算两个关键词之间的相关性,或直接可视化网络节点的空间分布以直观地展示所有关键词之间的亲疏关系。
其中,相似度计算函数采用的是余弦相似度,且相似度计算函数可以根据需要自行定义。
进一步的,提取的关键词时,如果它所在的句子有参考文献,则可以暂且假设该关键词的标签是参考文献的类别,否则,该关键词的标签就是它所在文章的类别,基于此种假设,通过最小化交叉熵损失函数对模型进行训练:
Figure BDA0002762995740000082
其中Yk是类别为k的节点集合,
Figure BDA0002762995740000083
为第i个标签节点的k组输出,yik是数据的原始类别,wk为类别k的权重,在模型训练过程中,采用梯度下降技术对参数进行优化。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料过着特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,包括以下步骤:
S1:获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理;
S2:利用TF-IDF方法抽取文献内容关键词;
S3:以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络;
S4:利用图卷积神经网络学习关键词的向量表示;
S5:利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系。
2.根据权利要求1所述的基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,所述步骤S1获取某一特定事件相关的科学文献数据,并进行数据清洗和预处理具体步骤为:
S1.1:文本挖掘,如果要对某一感兴趣的事件相关文献进行分析时,可以在相关数据库中下载包含该事件关键词的相关文献,或者直接使用已存在的公开数据集。
S1.2:文本清洗,得到原始数据后,抽取出文献的摘要和正文内容,如果是中文文本,需要对文本进行分词,然后去除标点、数字、乱码和停止词,减少文本噪声。
3.根据权利要求1所述的基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,所述步骤S2利用TF-IDF方法抽取文献内容关键词具体方法为:利用TF-IDF方法评估一个词汇对于它所在文本的重要程度,考虑到不同的词汇关键词对辅助决策的帮助不同,对不同词性的关键词赋予了不同的权重,并进行了排序。
4.根据权利要求1所述的基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,所述步骤S3以句子为单位,对抽取出的关键词和关键词所属参考文献构建词共现网络的具体方法为:抽取文献内容N个关键词后,利用这N个关键词和其在参考文献中的共现情况,构建一个无向有权图。
5.根据权利要求4所述的基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,所述无向有权图无向有权图表示为G=(V,E),其中V={vi|i=1,2,…,N}为节点集,
Figure FDA0002762995730000021
为边集,N为节点数目,其中,G可以用邻接矩阵A表示,A∈RN×N,其中Aij=wij如果(vi,vj)∈E,否则Aij=0,wij为边(vi,vj)的权重;
所述节点为从文章内容中提取的关键词,边为两个关键词是否时出现在一篇参考文献中,边的权重为两个关键词同时出现在同一篇参考文献中的次数。
6.根据权利要求1所述的基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,所述步骤S4利用图卷积神经网络学习关键词的向量表示具体为利用word2vec的CBOW模型在的语料库进行训练,所述图结构节点的输入特征矩阵,将图神经网络基本模型和K-means算法进行联合训练,得到关键词共现网络的节点表示。
7.根据权利要求1所述的基于图神经网络的科学文献关键内容潜在关联挖掘方法,其特征在于,所述步骤S5利用相似度计算函数得到不同关键词之间的相关度,挖掘其潜在的关联关系具体方法为,得到每个关键词的向量表示和新的类别,可以通过相似度计算函数来计算两个关键词之间的相关性,或直接可视化网络节点的空间分布以直观地展示所有关键词之间的亲疏关系。
CN202011223846.3A 2020-11-05 2020-11-05 基于图神经网络的科学文献关键内容潜在关联挖掘方法 Pending CN112364141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011223846.3A CN112364141A (zh) 2020-11-05 2020-11-05 基于图神经网络的科学文献关键内容潜在关联挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011223846.3A CN112364141A (zh) 2020-11-05 2020-11-05 基于图神经网络的科学文献关键内容潜在关联挖掘方法

Publications (1)

Publication Number Publication Date
CN112364141A true CN112364141A (zh) 2021-02-12

Family

ID=74508476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011223846.3A Pending CN112364141A (zh) 2020-11-05 2020-11-05 基于图神经网络的科学文献关键内容潜在关联挖掘方法

Country Status (1)

Country Link
CN (1) CN112364141A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297839A (zh) * 2021-03-03 2021-08-24 浪潮云信息技术股份公司 一种专利技术领域的创新主题挖掘方法
CN114357022A (zh) * 2021-12-23 2022-04-15 北京中视广信科技有限公司 一种基于事件关系发现的媒体内容关联挖掘方法
CN114511027A (zh) * 2022-01-29 2022-05-17 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN115186654A (zh) * 2022-09-07 2022-10-14 太极计算机股份有限公司 一种公文文本摘要生成方法
CN115238679A (zh) * 2022-07-14 2022-10-25 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备
CN116304110A (zh) * 2023-03-30 2023-06-23 重庆工业职业技术学院 使用英语词汇数据构建知识图谱的工作方法
CN117349512A (zh) * 2023-09-04 2024-01-05 广州兴趣岛信息科技有限公司 一种基于大数据的用户标签分类方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
US20170278510A1 (en) * 2016-03-22 2017-09-28 Sony Corporation Electronic device, method and training method for natural language processing
CN108536781A (zh) * 2018-03-29 2018-09-14 武汉大学 一种社交网络情绪焦点的挖掘方法及系统
CN108959378A (zh) * 2018-05-28 2018-12-07 天津大学 文献热点的可视化分析方法
JP2019109758A (ja) * 2017-12-19 2019-07-04 サントリーホールディングス株式会社 テキスト分析装置、テキスト分析方法、及び、テキスト分析プログラム
CN110705260A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于无监督图神经网络结构的文本向量生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
US20170278510A1 (en) * 2016-03-22 2017-09-28 Sony Corporation Electronic device, method and training method for natural language processing
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法
JP2019109758A (ja) * 2017-12-19 2019-07-04 サントリーホールディングス株式会社 テキスト分析装置、テキスト分析方法、及び、テキスト分析プログラム
CN108536781A (zh) * 2018-03-29 2018-09-14 武汉大学 一种社交网络情绪焦点的挖掘方法及系统
CN108959378A (zh) * 2018-05-28 2018-12-07 天津大学 文献热点的可视化分析方法
CN110705260A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于无监督图神经网络结构的文本向量生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐冰冰等: "图卷积神经网络综述", 《计算机学报》 *
李雪等: "基于科技期刊数据的学科出版信息挖掘与可视化研究", 《科技与出版》 *
黄莉等: "网络信息计量学研究主题分析――基于共词可视化方法", 《中国科技资源导刊》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297839B (zh) * 2021-03-03 2023-04-21 浪潮云信息技术股份公司 一种专利技术领域的创新主题挖掘方法
CN113297839A (zh) * 2021-03-03 2021-08-24 浪潮云信息技术股份公司 一种专利技术领域的创新主题挖掘方法
CN114357022A (zh) * 2021-12-23 2022-04-15 北京中视广信科技有限公司 一种基于事件关系发现的媒体内容关联挖掘方法
CN114357022B (zh) * 2021-12-23 2024-05-07 北京中视广信科技有限公司 一种基于事件关系发现的媒体内容关联挖掘方法
CN114511027A (zh) * 2022-01-29 2022-05-17 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN114511027B (zh) * 2022-01-29 2022-11-11 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN115238679A (zh) * 2022-07-14 2022-10-25 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备
CN115186654B (zh) * 2022-09-07 2022-11-22 太极计算机股份有限公司 一种公文文本摘要生成方法
CN115186654A (zh) * 2022-09-07 2022-10-14 太极计算机股份有限公司 一种公文文本摘要生成方法
CN116304110A (zh) * 2023-03-30 2023-06-23 重庆工业职业技术学院 使用英语词汇数据构建知识图谱的工作方法
CN116304110B (zh) * 2023-03-30 2023-09-08 重庆工业职业技术学院 使用英语词汇数据构建知识图谱的工作方法
CN117349512A (zh) * 2023-09-04 2024-01-05 广州兴趣岛信息科技有限公司 一种基于大数据的用户标签分类方法及系统
CN117349512B (zh) * 2023-09-04 2024-03-12 广州兴趣岛信息科技有限公司 一种基于大数据的用户标签分类方法及系统

Similar Documents

Publication Publication Date Title
CN112364141A (zh) 基于图神经网络的科学文献关键内容潜在关联挖掘方法
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN107038229B (zh) 一种基于自然语义分析的用例提取方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN101777042B (zh) 信息检索领域中基于神经网络和标签库的语句相似度算法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Gómez-Adorno et al. Automatic authorship detection using textual patterns extracted from integrated syntactic graphs
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN110569920A (zh) 一种多任务机器学习的预测方法
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
Zhan et al. Survey on event extraction technology in information extraction research area
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
Nahar et al. Sentiment analysis and emotion extraction: A review of research paradigm
Biggers et al. A deep semantic matching approach for identifying relevant messages for social media analysis
CN113963748A (zh) 一种蛋白质知识图谱向量化方法
Campbell et al. Content+ context networks for user classification in twitter
CN113821590A (zh) 一种文本类别的确定方法、相关装置以及设备
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
Liu A comparative study of vector space language models for sentiment analysis using reddit data
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质
Tao et al. The Text modeling method of Tibetan text combining Word2vec and improved TF-IDF
Angdresey et al. Classification and Sentiment Analysis on Tweets of the Ministry of Health Republic of Indonesia
Putri et al. Bahasa Indonesia pre-trained word vector generation using word2vec for computer and information technology field
Eick et al. Hardware accelerated algorithms for semantic processing of document streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212

RJ01 Rejection of invention patent application after publication