CN110209822A - 基于深度学习的学术领域数据相关性预测方法、计算机 - Google Patents

基于深度学习的学术领域数据相关性预测方法、计算机 Download PDF

Info

Publication number
CN110209822A
CN110209822A CN201910500836.0A CN201910500836A CN110209822A CN 110209822 A CN110209822 A CN 110209822A CN 201910500836 A CN201910500836 A CN 201910500836A CN 110209822 A CN110209822 A CN 110209822A
Authority
CN
China
Prior art keywords
learning
sphere
data
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910500836.0A
Other languages
English (en)
Other versions
CN110209822B (zh
Inventor
隗公程
万洪波
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201910500836.0A priority Critical patent/CN110209822B/zh
Publication of CN110209822A publication Critical patent/CN110209822A/zh
Application granted granted Critical
Publication of CN110209822B publication Critical patent/CN110209822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机网络数据预测技术领域,公开了一种基于深度学习的学术领域数据相关性预测方法、计算机,收集公开的通用数据、学术领域的论文和专利数据;利用深度学习的词向量技术在学术语料上训练学术领域词向量;对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。本发明的系统包括:数据收集模块,用于收集公开的数据;词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量;学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。本发明通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。

Description

基于深度学习的学术领域数据相关性预测方法、计算机
技术领域
本发明属于计算机网络数据预测技术领域,尤其涉及一种基于深度学习的学术领域数据相关性预测方法、计算机。
背景技术
目前,最接近的现有技术:
随着科学研究在学术界和工业界广泛进行,学者们创造出源源不断的大量科研成果,于是学术大数据应运而生。学术大数据中存在不同的学术主体以及它们之间形成的各种各样的学术关系,其中学者之间的合作关系最为普遍和重要,尤其在交叉学科问题的研究中,来自不同领域的学者之间的合作日益增多,这使得对于合作关系预测的研究变得越来越重要。
但在现有的技术中,大多数解决方法都是基于同构信息网络的,而且预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。现有的科技情报挖掘和分析中的领域相关性预测问题,主要包括:(1)学术数据语料的收集;(2)基于深度学习的学术领域词向量模型训练;(3)相关领域的预测方法。现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低的问题。
综上所述,现有技术存在的问题是:现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低。
解决上述技术问题的难度:现有的预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。
解决上述技术问题的意义:本发明通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的学术领域数据相关性预测方法、计算机。
本发明是这样实现的,一种基于深度学习的学术领域数据相关性预测方法,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:
第一步,收集公开的通用数据、学术领域的论文和专利数据。
第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量。
第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
进一步,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据。在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略。对大规模持续爬取中的反爬策略采取购买匿名代理池的方式。
公开的通用数据收集,爬取了基于英文维基百科的数据。经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别。
在学术数据集上,从多个论文数据库和专利数据库中爬取降低收集的数据中的噪音。
进一步,所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型。模型中,每一个Trm是一个Transformer模型。通过遮挡语言模型Masked LM和预测下一个句子两种方式进行模型训练。Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。
在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇。原子词汇表示一个英文单词可以被切分的最小单元。将句子里面的词进行切分,然后在词表中找到该词对应的ID。BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。
进一步,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256。对于每次输入的句子长度不足128时,进行补0处理。当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子。在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1。[PAD]是表示句子长度小于128时进行的补0操作。[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇。
构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入。训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。
进一步,所述Transformer编码是由12层Transformer组成。
Transformer编码器内部是由多重注意力机制层和前馈层组成。层与层之间使用残差网络连接,并对每层的输出使用层正则化表示。多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
Where headi=Attention(QWi Q,KWi K,VWi V)。
其中Q,K,V的值是由Token Embedding、Segment Embedding和PositionEmbedding两者的值拼接。
将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含上下文语义信息。然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中。分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型。模型经过上万次的迭代后,训练出新的语言模型。
进一步,所述第三步构造给定领域的词向量通过特征提取的方式获得句子和单词的向量表示。当参数确定后,给BERT模型输入一个句子,输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致。通过对该句子中所有的词的向量进行平均池化操作,以获得句子的向量表示。
进一步,所述基于深度学习的学术领域数据相关性预测方法将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域。具体分为。
首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,与学术论文和专利中的关键词进行合并,得到学术领域的主题词库。根据主题词库的标题、摘要和关键词中的共现,构造一个词共现网络。对词共现网络进行聚类。
然后对于给定的学术领域S,一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合。
最后在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出。
所述聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛。第一阶段结束后,将社群编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社群间的边权重之和计算而得。(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关。初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数。每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。
本发明的另一目的在于提供一种应用所述基于深度学习的学术领域数据相关性预测方法的基于深度学习的学术领域数据相关性预测系统,所述基于深度学习的学术领域数据相关性预测系统包括:
数据收集模块,用于收集公开的通用数据、学术领域的论文和专利数据。
词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量。
学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
本发明的另一目的在于提供一种实现所述基于深度学习的学术领域数据相关性预测方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于深度学习的学术领域数据相关性预测方法的信息数据处理终端。
综上所述,本发明的优点及积极效果为:本发明提出一种新型的学术领域相关性预测方法,通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。
附图说明
图1是本发明实施例提供的基于深度学习的学术领域数据相关性预测方法流程图。
图2是本发明实施例提供的基于深度学习的学术领域数据相关性预测系统结构示意图;
图中:1、数据收集模块;2、词向量训练模块;3、学术领域预测模块。
图3是本发明实施例提供的词向量模型训练过程示意图。
图4是本发明实施例提供的训练模型中的Transformer结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明可用于解决科技情报挖掘和分析中相关领域学者、论文、专利的自动推荐等应用;首先,收集学术领域论文和专利等数据;然后,利用深度学习的词向量技术在学术语料上训练学术领域词向量;最后,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
下面结合附图对本发明的技术方案作详细的描述。
如图1所示,本发明实施例提供的基于深度学习的学术领域数据相关性预测方法包括以下步骤:
S101:收集公开的通用数据、学术领域的论文和专利数据。
S102:利用深度学习的词向量技术在学术语料上训练学术领域词向量。
S103:对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
如图2所示,本发明实施例提供的基于深度学习的学术领域数据相关性预测系统包括:
数据收集模块1,用于收集公开的通用数据、学术领域的论文和专利数据。
词向量训练模块2,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量。
学术领域预测模块3,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
下面结合附图对本发明的技术方案作进一步的描述。
本发明实施例提供的基于深度学习的学术领域数据相关性预测方法主要包括4个步骤:(1)学术领域的大规模数据收集和整理。(2)基于深度学习的学术领域词向量训练。(3)构造给定领域的词向量。(4)预测相关学术领域。具体的技术方案和过程描述如下。
1.学术领域的大规模数据收集和整理
本发明收集和整理的数据包括两类:(1)公开的通用数据。(2)学术领域的论文和专利数据。数据收集的方法是根据数据源开发相应的爬虫程序,自动获取大量的数据。在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略。对大规模持续爬取中的反爬策略采取购买匿名代理池的方式进行解决。
在公开的通用数据收集上,爬取了基于英文维基百科(25亿词汇)的数据。维基百科数据是半结构化的数据,经过解析获取其中的数据内容,并去除对本发明无用的链接、多媒体、词条类别等。英文维基百科在本发明中用于提供通用的语料。
在学术数据集上,从多个论文数据库和专利数据库中爬取了1亿个学者的基本信息、2亿篇论文的基本信息、8000万个专利的全文信息。对这些学术数据的主要处理是解决其中的作者名消歧,以降低收集的数据中的噪音。
本发明中的上述数据收集和处理方法适用于多种语言的数据源,并不局限于英文语料数据。
2.基于深度学习的学术领域词向量训练
本发明引入了最先进的BERT预训练技术来完成词向量的训练,训练过程基于上一阶段收集的大量语料。训练BERT模型使用的语料不需要做额外的标记工作。训练语料包括已收集的大量的英文百科词条描述文本和论文数据,其中不仅包含了常识知识,还包含论文的标题、摘要和关键词等与学术领域密切相关的文本。在语料库构建中,需要对重复的文档进行去重,并将训练语料划分为多份,每份训练语料包含1000份文档,文档与文档之间通过空行分割,以满足大规模的并行训练需要。
词向量的训练过程如图3所示。在语言模型预训练的阶段,采用BERT模型。模型中,每一个Trm是一个Transformer模型。通过遮挡语言模型(Masked LM)和预测下一个句子两种方式进行模型训练。Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在这15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。模型的任务是正确预测带有[MASK]标签的词。相比于传统的语言模型,Masked LM可以从任何方向去预测这些带有[MASK]标签的词。除此之外,传统语言模型并没有考虑句子间的关系,为了让模型能够学习到句子间的关系,BERT模型在语言模型预训练阶段加入了预测下一个句子这样的目标任务,其实质上就是一个二分类的任务,有50%的概率输入一个句子和下一个句子的拼接,标签属于正例。另外50%的概率输入一个句子和非下一个随机句子的拼接,标签为负例。最后整个预训练的目标函数是对这个任务取和求最大似然。
本发明在模型训练中提供一个词表。该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇。原子词汇表示一个英文单词可以被切分的最小单元。例如,“johanson”可以切分为“johan”和“son”两个词,那么词表里面就会存储“johan”和“##son”,其中“##”后面的词可以作为一个单词的后缀。训练模型的第一步就是将句子里面的词进行切分,然后在词表中找到该词对应的ID。BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。
由于BERT模型是基于Transformer搭建的,而Transformer目前无法处理变长的句子,故需要在训练模型前将句子的长度设置为固定值,本发明在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256。对于每次输入的句子长度不足128时,进行补0处理。当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子。在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1。[PAD]是表示句子长度小于128时进行的补0操作。[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇。
构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入。由于Transformer内部是基于Self-Attention机制构建的,不同于RNN/LSTM结构可以表示句子中词的位置信息,Self-Attention本身是无法表示句子中词的位置信息的,故需要加入额外的位置向量,即位置嵌入。因为输入的两个句子总长度是固定的,即长度为512,那么可以定义一个参数矩阵P用于在模型训练过程中学习最合适的位置向量,该矩阵在模型训练前先随机初始化,。由于模型的输入包含了两个句子,而模型中预测下一个句子的任务需要明确区分输入的两个句子,仅仅通过位置嵌入也无法区分两个句子,因此就引入了分段嵌入,构建方法类似于位置嵌入。经过上述一些列的预处理,训练模型的输入是标识嵌入、分段嵌入和位置嵌入等各个维度累加求和。本发明的训练模型中,Transformer编码(Encoder)是由12层Transformer组成,如图4所示,每一层的结构相同。
Transformer编码器内部是由多重注意力机制(Multi-HeadAttention)层和前馈(FeedForward)层组成。层与层之间使用残差网络连接,并对每层的输出使用层正则化表示。多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
where headi=Attention(QWi Q,KWi K,VWi V)。
其中Q,K,V的值是由Token Embedding、Segment Embedding和PositionEmbedding两者的值拼接。
将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含了丰富的上下文语义信息。然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中。分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型。模型经过上万次的迭代后,可以训练出新的语言模型。
3.构造给定领域的词向量
由于基于深度学习模型训练得到的向量是单个词的向量,而学术领域的描述则有1个或多个词构成的,因此需要在单个词向量的基础上通过向量拼接处理得到相应领域词汇的词向量。
当模型训练完成后,该模型不仅可以通过精细调整(Fine-tune)的方式用于学术特定领域内的下游任务,这里通过特征提取的方式来获得句子和单词的向量表示。这里的特征指的就是训练语言模型时更新的Transformer编码层的参数信息。当参数确定后,给BERT模型输入一个句子,会输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致,都是768维。通过对该句子中所有的词的向量进行平均池化(AveragePooling)操作,以获得句子的向量表示。这种池化操作解决了词组或句子向量的拼接问题。该方法的优点是在词向量维度不变的前提下,可以将上下文相关的多个词映射到对应的语义空间。
4.相关领域预测
在上述工作基础上,本发明将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域。该过程具体分为两步:(1)候选领域的快速聚类。(2)相关领域的相似计算。
首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,然后与学术论文和专利中的关键词进行合并,得到学术领域的主题词库。根据主题词库在论文或专利中的标题、摘要和关键词中的共现,构造一个词共现网络。那么,越是相关的领域,其对应的主题词在词共现网络中越是相邻。然而,这个词共现网络规模过大,对于输入的领域,很难在线快速预测其相关的领域,因此,还需要对词共现网络进行聚类。本发明采用的聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛。第一阶段结束后,将社群编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社群间的边权重之和计算而得。(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关。因此初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数。而每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。因此该算法能快速处理超大规模词共现网路的快速聚类。
对于给定的学术领域S,它一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合。通常,为了控制候选领域的规模,聚类结果的规模最大设置为200。
在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出。
下面结合仿真对本发明的技术效果作详细的描述。
输入“machine learning”,预测其相关的领域。
采用本发明的技术,可预测得到如下与machine learning相关领域的预测结果,并根据其词向量相似度进行了排序。该结果经过领域专家的评测,符合对输入研究领域的预测结果期望,说明本发明的方法能有效解决学术领域相关领域的自动预测。
表1
领域(Machine Learning) 相似度
artificial intelligence 0.937118351
data mining 0.929277162
computer vision 0.926777318
cluster analysis 0.923623551
supervised learning 0.920800881
pattern recognition 0.912429916
natural language process 0.901629759
computer science 0.897996906
support vector machine 0.894984441
bayesian 0.889178309
big data 0.886852643
regression 0.869864036
fluent python 0.86384349
deep learning 0.863297165
algorithm 0.861298713
bioinformatics 0.856363344
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:
第一步,收集公开的通用数据、学术领域的论文和专利数据;
第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量;
第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
2.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据;在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略;对大规模持续爬取中的反爬策略采取购买匿名代理池的方式;
公开的通用数据收集,爬取了基于英文维基百科的数据;经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别;
在学术数据集上,从多个数据库中爬取降低收集的数据中的噪音。
3.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型;模型中,每一个Trm是一个Transformer模型;通过遮挡语言模型Masked LM和预测下一个句子两种方式进行模型训练;Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理;
在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇;原子词汇表示一个英文单词可以被切分的最小单元;将句子里面的词进行切分,然后在词表中找到该词对应的ID;BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。
4.如权利要求3所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256;对于每次输入的句子长度不足128时,进行补0处理;当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子;在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1;[PAD]是表示句子长度小于128时进行的补0操作;[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇;
构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入;训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。
5.如权利要求3所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述Transformer编码是由12层Transformer组成;
Transformer编码器内部是由多重注意力机制层和前馈层组成;层与层之间使用残差网络连接,并对每层的输出使用层正则化表示;多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
where headi=Attention(QWi Q,KWi K,VWi V);
其中Q,K,V的值是由Token Embedding、Segment Embedding和Position Embedding两者的值拼接;
将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含上下文语义信息;然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中;分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型;模型经过上万次的迭代后,训练出新的语言模型。
6.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第三步构造给定领域的词向量通过特征提取的方式获得句子和单词的向量表示;当参数确定后,给BERT模型输入一个句子,输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致;通过对该句子中所有的词的向量进行平均池化操作,以获得句子的向量表示。
7.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域;具体分为;
首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,与学术论文和专利中的关键词进行合并,得到学术领域的主题词库;根据主题词库的标题、摘要和关键词中的共现,构造一个词共现网络;对词共现网络进行聚类;
然后对于给定的学术领域S,一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合;
最后在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出;
所述聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛;第一阶段结束后,将社群编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社群间的边权重之和计算而得;(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关;初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数;每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。
8.一种应用权利要求1所述基于深度学习的学术领域数据相关性预测方法的基于深度学习的学术领域数据相关性预测系统,其特征在于,所述基于深度学习的学术领域数据相关性预测系统包括:
数据收集模块,用于收集公开的通用数据、学术领域的论文和专利数据;
词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量;
学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
9.一种实现权利要求1~7任意一项所述基于深度学习的学术领域数据相关性预测方法的计算机程序。
10.一种实现权利要求1~7任意一项所述基于深度学习的学术领域数据相关性预测方法的信息数据处理终端。
CN201910500836.0A 2019-06-11 2019-06-11 基于深度学习的学术领域数据相关性预测方法、计算机 Active CN110209822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500836.0A CN110209822B (zh) 2019-06-11 2019-06-11 基于深度学习的学术领域数据相关性预测方法、计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500836.0A CN110209822B (zh) 2019-06-11 2019-06-11 基于深度学习的学术领域数据相关性预测方法、计算机

Publications (2)

Publication Number Publication Date
CN110209822A true CN110209822A (zh) 2019-09-06
CN110209822B CN110209822B (zh) 2021-12-21

Family

ID=67791910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500836.0A Active CN110209822B (zh) 2019-06-11 2019-06-11 基于深度学习的学术领域数据相关性预测方法、计算机

Country Status (1)

Country Link
CN (1) CN110209822B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782008A (zh) * 2019-10-16 2020-02-11 北京百分点信息科技有限公司 深度学习模型的训练方法、预测方法和装置
CN110825872A (zh) * 2019-09-11 2020-02-21 成都数之联科技有限公司 一种提取和分类诉讼请求信息的方法及系统
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN112528650A (zh) * 2020-12-18 2021-03-19 恩亿科(北京)数据科技有限公司 一种Bert模型预训练方法、系统及计算机设备
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法
CN112990388A (zh) * 2021-05-17 2021-06-18 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN113298265A (zh) * 2021-05-22 2021-08-24 西北工业大学 一种基于深度学习的异构传感器潜在相关性学习方法
CN113312898A (zh) * 2020-02-26 2021-08-27 深信服科技股份有限公司 语料处理方法、设备、存储介质及装置
CN113486395A (zh) * 2021-07-02 2021-10-08 南京大学 一种采用多元信息融合的科研数据匿名化方法及系统
CN113569553A (zh) * 2021-07-28 2021-10-29 广州芳禾数据有限公司 基于改进Adaboost算法的句子相似性判断方法
US11468239B2 (en) 2020-05-22 2022-10-11 Capital One Services, Llc Joint intent and entity recognition using transformer models

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325757A1 (en) * 2012-06-05 2013-12-05 Sap Ag Cascading learning system as semantic search
US20140201103A1 (en) * 2013-01-14 2014-07-17 National Cheng Kung University System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106126581A (zh) * 2016-06-20 2016-11-16 复旦大学 基于深度学习的手绘草图图像检索方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
US20180247549A1 (en) * 2017-02-21 2018-08-30 Scriyb LLC Deep academic learning intelligence and deep neural language network system and interfaces
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325757A1 (en) * 2012-06-05 2013-12-05 Sap Ag Cascading learning system as semantic search
US20140201103A1 (en) * 2013-01-14 2014-07-17 National Cheng Kung University System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106126581A (zh) * 2016-06-20 2016-11-16 复旦大学 基于深度学习的手绘草图图像检索方法
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法
US20180247549A1 (en) * 2017-02-21 2018-08-30 Scriyb LLC Deep academic learning intelligence and deep neural language network system and interfaces
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825872A (zh) * 2019-09-11 2020-02-21 成都数之联科技有限公司 一种提取和分类诉讼请求信息的方法及系统
CN110782008A (zh) * 2019-10-16 2020-02-11 北京百分点信息科技有限公司 深度学习模型的训练方法、预测方法和装置
CN110782008B (zh) * 2019-10-16 2022-05-13 北京百分点科技集团股份有限公司 深度学习模型的训练方法、预测方法和装置
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
CN110837733B (zh) * 2019-10-31 2023-12-29 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及电子设备
CN113312898A (zh) * 2020-02-26 2021-08-27 深信服科技股份有限公司 语料处理方法、设备、存储介质及装置
CN113312898B (zh) * 2020-02-26 2024-03-01 深信服科技股份有限公司 语料处理方法、设备、存储介质及装置
US11468239B2 (en) 2020-05-22 2022-10-11 Capital One Services, Llc Joint intent and entity recognition using transformer models
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111563166B (zh) * 2020-05-28 2024-02-13 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111651605B (zh) * 2020-06-04 2022-07-05 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN112528650B (zh) * 2020-12-18 2024-04-02 恩亿科(北京)数据科技有限公司 一种Bert模型预训练方法、系统及计算机设备
CN112528650A (zh) * 2020-12-18 2021-03-19 恩亿科(北京)数据科技有限公司 一种Bert模型预训练方法、系统及计算机设备
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法
CN112990388B (zh) * 2021-05-17 2021-08-24 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN112990388A (zh) * 2021-05-17 2021-06-18 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN113298265B (zh) * 2021-05-22 2024-01-09 西北工业大学 一种基于深度学习的异构传感器潜在相关性学习方法
CN113298265A (zh) * 2021-05-22 2021-08-24 西北工业大学 一种基于深度学习的异构传感器潜在相关性学习方法
CN113486395A (zh) * 2021-07-02 2021-10-08 南京大学 一种采用多元信息融合的科研数据匿名化方法及系统
CN113569553A (zh) * 2021-07-28 2021-10-29 广州芳禾数据有限公司 基于改进Adaboost算法的句子相似性判断方法

Also Published As

Publication number Publication date
CN110209822B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN110209822A (zh) 基于深度学习的学术领域数据相关性预测方法、计算机
US11580415B2 (en) Hierarchical multi-task term embedding learning for synonym prediction
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
US11625540B2 (en) Encoder, system and method for metaphor detection in natural language processing
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
CN112487206B (zh) 一种自动构建数据集的实体关系抽取方法
Zhang et al. n-BiLSTM: BiLSTM with n-gram Features for Text Classification
CN112395393A (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN112883714A (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN114330338A (zh) 融合关联信息的程式语识别系统及方法
Gamal et al. Hybrid Algorithm Based on Chicken Swarm Optimization and Genetic Algorithm for Text Summarization.
Han et al. A survey of unsupervised dependency parsing
Lagutina et al. A survey of models for constructing text features to classify texts in natural language
Ahmad et al. Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法
Dong et al. Knowledge graph construction of high-performance computing learning platform
Kuttiyapillai et al. Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques
Xiao et al. Chapter-level entity relationship extraction method based on joint learning
Liu Supervised ensemble learning for Vietnamese tokenization
Lazemi et al. Persian Semantic Role Labeling B ased on Dependency Tree.
Li et al. A Novel Document Classification Algorithm Based on Statistical Features and Attention Mechanism
Jin et al. Representation and Extraction of Diesel Engine Maintenance Knowledge Graph with Bidirectional Relations Based on BERT and the Bi-LSTM-CRF Model
Ding et al. A Deep Learning Entity Extraction Model for Chinese Government Documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant