CN110209822B - 基于深度学习的学术领域数据相关性预测方法、计算机 - Google Patents
基于深度学习的学术领域数据相关性预测方法、计算机 Download PDFInfo
- Publication number
- CN110209822B CN110209822B CN201910500836.0A CN201910500836A CN110209822B CN 110209822 B CN110209822 B CN 110209822B CN 201910500836 A CN201910500836 A CN 201910500836A CN 110209822 B CN110209822 B CN 110209822B
- Authority
- CN
- China
- Prior art keywords
- academic
- word
- data
- field
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机网络数据预测技术领域,公开了一种基于深度学习的学术领域数据相关性预测方法、计算机,收集公开的通用数据、学术领域的论文和专利数据;利用深度学习的词向量技术在学术语料上训练学术领域词向量;对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。本发明的系统包括:数据收集模块,用于收集公开的数据;词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量;学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。本发明通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。
Description
技术领域
本发明属于计算机网络数据预测技术领域,尤其涉及一种基于深度学习的学术领域数据相关性预测方法、计算机。
背景技术
目前,最接近的现有技术:
随着科学研究在学术界和工业界广泛进行,学者们创造出源源不断的大量科研成果,于是学术大数据应运而生。学术大数据中存在不同的学术主体以及它们之间形成的各种各样的学术关系,其中学者之间的合作关系最为普遍和重要,尤其在交叉学科问题的研究中,来自不同领域的学者之间的合作日益增多,这使得对于合作关系预测的研究变得越来越重要。
但在现有的技术中,大多数解决方法都是基于同构信息网络的,而且预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。现有的科技情报挖掘和分析中的领域相关性预测问题,主要包括:(1)学术数据语料的收集;(2)基于深度学习的学术领域词向量模型训练;(3)相关领域的预测方法。现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低的问题。
综上所述,现有技术存在的问题是:现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低。
解决上述技术问题的难度:现有的预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。
解决上述技术问题的意义:本发明通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的学术领域数据相关性预测方法、计算机。
本发明是这样实现的,一种基于深度学习的学术领域数据相关性预测方法,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:
第一步,收集公开的通用数据、学术领域的论文和专利数据。
第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量。
第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
进一步,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据。在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略。对大规模持续爬取中的反爬策略采取购买匿名代理池的方式。
公开的通用数据收集,爬取了基于英文维基百科的数据。经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别。
在学术数据集上,从多个论文数据库和专利数据库中爬取降低收集的数据中的噪音。
进一步,所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型。模型中,每一个Trm是一个Transformer模型。通过遮挡语言模型Masked LM和预测下一个句子两种方式进行模型训练。Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。
在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇。原子词汇表示一个英文单词可以被切分的最小单元。将句子里面的词进行切分,然后在词表中找到该词对应的ID。BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。
进一步,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256。对于每次输入的句子长度不足128时,进行补0处理。当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子。在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1。[PAD]是表示句子长度小于128时进行的补0操作。[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇。
构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入。训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。
进一步,所述Transformer编码是由12层Transformer组成。
Transformer编码器内部是由多重注意力机制层和前馈层组成。层与层之间使用残差网络连接,并对每层的输出使用层正则化表示。多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo。
Where headi=Attention(QWi Q,KWi K,VWi V)。
其中Q,K,V的值是由Token Embedding、Segment Embedding和PositionEmbedding两者的值拼接。
将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含上下文语义信息。然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中。分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型。模型经过上万次的迭代后,训练出新的语言模型。
进一步,所述第三步构造给定领域的词向量通过特征提取的方式获得句子和单词的向量表示。当参数确定后,给BERT模型输入一个句子,输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致。通过对该句子中所有的词的向量进行平均池化操作,以获得句子的向量表示。
进一步,所述基于深度学习的学术领域数据相关性预测方法将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域。具体分为。
首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,与学术论文和专利中的关键词进行合并,得到学术领域的主题词库。根据主题词库的标题、摘要和关键词中的共现,构造一个词共现网络。对词共现网络进行聚类。
然后对于给定的学术领域S,一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合。
最后在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出。
所述聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛。第一阶段结束后,将社群编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社群间的边权重之和计算而得。(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关。初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数。每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。
本发明的另一目的在于提供一种应用所述基于深度学习的学术领域数据相关性预测方法的基于深度学习的学术领域数据相关性预测系统,所述基于深度学习的学术领域数据相关性预测系统包括:
数据收集模块,用于收集公开的通用数据、学术领域的论文和专利数据。
词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量。
学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
本发明的另一目的在于提供一种实现所述基于深度学习的学术领域数据相关性预测方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于深度学习的学术领域数据相关性预测方法的信息数据处理终端。
综上所述,本发明的优点及积极效果为:本发明提出一种新型的学术领域相关性预测方法,通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。
附图说明
图1是本发明实施例提供的基于深度学习的学术领域数据相关性预测方法流程图。
图2是本发明实施例提供的基于深度学习的学术领域数据相关性预测系统结构示意图;
图中:1、数据收集模块;2、词向量训练模块;3、学术领域预测模块。
图3是本发明实施例提供的词向量模型训练过程示意图。
图4是本发明实施例提供的训练模型中的Transformer结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明可用于解决科技情报挖掘和分析中相关领域学者、论文、专利的自动推荐等应用;首先,收集学术领域论文和专利等数据;然后,利用深度学习的词向量技术在学术语料上训练学术领域词向量;最后,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
下面结合附图对本发明的技术方案作详细的描述。
如图1所示,本发明实施例提供的基于深度学习的学术领域数据相关性预测方法包括以下步骤:
S101:收集公开的通用数据、学术领域的论文和专利数据。
S102:利用深度学习的词向量技术在学术语料上训练学术领域词向量。
S103:对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
如图2所示,本发明实施例提供的基于深度学习的学术领域数据相关性预测系统包括:
数据收集模块1,用于收集公开的通用数据、学术领域的论文和专利数据。
词向量训练模块2,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量。
学术领域预测模块3,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
下面结合附图对本发明的技术方案作进一步的描述。
本发明实施例提供的基于深度学习的学术领域数据相关性预测方法主要包括4个步骤:(1)学术领域的大规模数据收集和整理。(2)基于深度学习的学术领域词向量训练。(3)构造给定领域的词向量。(4)预测相关学术领域。具体的技术方案和过程描述如下。
1.学术领域的大规模数据收集和整理
本发明收集和整理的数据包括两类:(1)公开的通用数据。(2)学术领域的论文和专利数据。数据收集的方法是根据数据源开发相应的爬虫程序,自动获取大量的数据。在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略。对大规模持续爬取中的反爬策略采取购买匿名代理池的方式进行解决。
在公开的通用数据收集上,爬取了基于英文维基百科(25亿词汇)的数据。维基百科数据是半结构化的数据,经过解析获取其中的数据内容,并去除对本发明无用的链接、多媒体、词条类别等。英文维基百科在本发明中用于提供通用的语料。
在学术数据集上,从多个论文数据库和专利数据库中爬取了1亿个学者的基本信息、2亿篇论文的基本信息、8000万个专利的全文信息。对这些学术数据的主要处理是解决其中的作者名消歧,以降低收集的数据中的噪音。
本发明中的上述数据收集和处理方法适用于多种语言的数据源,并不局限于英文语料数据。
2.基于深度学习的学术领域词向量训练
本发明引入了最先进的BERT预训练技术来完成词向量的训练,训练过程基于上一阶段收集的大量语料。训练BERT模型使用的语料不需要做额外的标记工作。训练语料包括已收集的大量的英文百科词条描述文本和论文数据,其中不仅包含了常识知识,还包含论文的标题、摘要和关键词等与学术领域密切相关的文本。在语料库构建中,需要对重复的文档进行去重,并将训练语料划分为多份,每份训练语料包含1000份文档,文档与文档之间通过空行分割,以满足大规模的并行训练需要。
词向量的训练过程如图3所示。在语言模型预训练的阶段,采用BERT模型。模型中,每一个Trm是一个Transformer模型。通过遮挡语言模型(Masked LM)和预测下一个句子两种方式进行模型训练。Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在这15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。模型的任务是正确预测带有[MASK]标签的词。相比于传统的语言模型,Masked LM可以从任何方向去预测这些带有[MASK]标签的词。除此之外,传统语言模型并没有考虑句子间的关系,为了让模型能够学习到句子间的关系,BERT模型在语言模型预训练阶段加入了预测下一个句子这样的目标任务,其实质上就是一个二分类的任务,有50%的概率输入一个句子和下一个句子的拼接,标签属于正例。另外50%的概率输入一个句子和非下一个随机句子的拼接,标签为负例。最后整个预训练的目标函数是对这个任务取和求最大似然。
本发明在模型训练中提供一个词表。该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇。原子词汇表示一个英文单词可以被切分的最小单元。例如,“johanson”可以切分为“johan”和“son”两个词,那么词表里面就会存储“johan”和“##son”,其中“##”后面的词可以作为一个单词的后缀。训练模型的第一步就是将句子里面的词进行切分,然后在词表中找到该词对应的ID。BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。
由于BERT模型是基于Transformer搭建的,而Transformer目前无法处理变长的句子,故需要在训练模型前将句子的长度设置为固定值,本发明在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256。对于每次输入的句子长度不足128时,进行补0处理。当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子。在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1。[PAD]是表示句子长度小于128时进行的补0操作。[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇。
构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入。由于Transformer内部是基于Self-Attention机制构建的,不同于RNN/LSTM结构可以表示句子中词的位置信息,Self-Attention本身是无法表示句子中词的位置信息的,故需要加入额外的位置向量,即位置嵌入。因为输入的两个句子总长度是固定的,即长度为512,那么可以定义一个参数矩阵P用于在模型训练过程中学习最合适的位置向量,该矩阵在模型训练前先随机初始化,。由于模型的输入包含了两个句子,而模型中预测下一个句子的任务需要明确区分输入的两个句子,仅仅通过位置嵌入也无法区分两个句子,因此就引入了分段嵌入,构建方法类似于位置嵌入。经过上述一些列的预处理,训练模型的输入是标识嵌入、分段嵌入和位置嵌入等各个维度累加求和。本发明的训练模型中,Transformer编码(Encoder)是由12层Transformer组成,如图4所示,每一层的结构相同。
Transformer编码器内部是由多重注意力机制(Multi-HeadAttention)层和前馈(FeedForward)层组成。层与层之间使用残差网络连接,并对每层的输出使用层正则化表示。多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo。
where headi=Attention(QWi Q,KWi K,VWi V)。
其中Q,K,V的值是由Token Embedding、Segment Embedding和PositionEmbedding两者的值拼接。
将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含了丰富的上下文语义信息。然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中。分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型。模型经过上万次的迭代后,可以训练出新的语言模型。
3.构造给定领域的词向量
由于基于深度学习模型训练得到的向量是单个词的向量,而学术领域的描述则有1个或多个词构成的,因此需要在单个词向量的基础上通过向量拼接处理得到相应领域词汇的词向量。
当模型训练完成后,该模型不仅可以通过精细调整(Fine-tune)的方式用于学术特定领域内的下游任务,这里通过特征提取的方式来获得句子和单词的向量表示。这里的特征指的就是训练语言模型时更新的Transformer编码层的参数信息。当参数确定后,给BERT模型输入一个句子,会输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致,都是768维。通过对该句子中所有的词的向量进行平均池化(AveragePooling)操作,以获得句子的向量表示。这种池化操作解决了词组或句子向量的拼接问题。该方法的优点是在词向量维度不变的前提下,可以将上下文相关的多个词映射到对应的语义空间。
4.相关领域预测
在上述工作基础上,本发明将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域。该过程具体分为两步:(1)候选领域的快速聚类。(2)相关领域的相似计算。
首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,然后与学术论文和专利中的关键词进行合并,得到学术领域的主题词库。根据主题词库在论文或专利中的标题、摘要和关键词中的共现,构造一个词共现网络。那么,越是相关的领域,其对应的主题词在词共现网络中越是相邻。然而,这个词共现网络规模过大,对于输入的领域,很难在线快速预测其相关的领域,因此,还需要对词共现网络进行聚类。本发明采用的聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛。第一阶段结束后,将社群编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社群间的边权重之和计算而得。(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关。因此初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数。而每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。因此该算法能快速处理超大规模词共现网路的快速聚类。
对于给定的学术领域S,它一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合。通常,为了控制候选领域的规模,聚类结果的规模最大设置为200。
在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出。
下面结合仿真对本发明的技术效果作详细的描述。
输入“machine learning”,预测其相关的领域。
采用本发明的技术,可预测得到如下与machine learning相关领域的预测结果,并根据其词向量相似度进行了排序。该结果经过领域专家的评测,符合对输入研究领域的预测结果期望,说明本发明的方法能有效解决学术领域相关领域的自动预测。
表1
领域(Machine Learning) | 相似度 |
artificial intelligence | 0.937118351 |
data mining | 0.929277162 |
computer vision | 0.926777318 |
cluster analysis | 0.923623551 |
supervised learning | 0.920800881 |
pattern recognition | 0.912429916 |
natural language process | 0.901629759 |
computer science | 0.897996906 |
support vector machine | 0.894984441 |
bayesian | 0.889178309 |
big data | 0.886852643 |
regression | 0.869864036 |
fluent python | 0.86384349 |
deep learning | 0.863297165 |
algorithm | 0.861298713 |
bioinformatics | 0.856363344 |
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:
第一步,收集公开的通用数据、学术领域的论文和专利数据;
第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量;所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型;模型中,每一个Trm是一个Transformer模型;通过遮挡语言模型Masked LM和预测下一个句子两种方式进行模型训练;Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理;
在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇;原子词汇表示一个英文单词可以被切分的最小单元;将句子里面的词进行切分,然后在词表中找到该词对应的ID;BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示;
第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
2.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据;在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略;对大规模持续爬取中的反爬策略采取购买匿名代理池的方式;
公开的通用数据收集,爬取了基于英文维基百科的数据;经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别;
在学术数据集上,从多个数据库中爬取降低收集的数据中的噪音。
3.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256;对于每次输入的句子长度不足128时,进行补0处理;当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子;在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1;[PAD]是表示句子长度小于128时进行的补0操作;[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇;
构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入;训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。
4.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述Transformer编码是由12层Transformer组成;
Transformer编码器内部是由多重注意力机制层和前馈层组成;层与层之间使用残差网络连接,并对每层的输出使用层正则化表示;多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo;
where headi=Attention(QWi Q,KWi K,VWi V);
其中Q,K,V的值是由Token Embedding、Segment Embedding和Position Embedding两者的值拼接;
将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含上下文语义信息;然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中;分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型;模型经过上万次的迭代后,训练出新的语言模型。
5.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第三步构造给定领域的词向量通过特征提取的方式获得句子和单词的向量表示;当参数确定后,给BERT模型输入一个句子,输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致;通过对该句子中所有的词的向量进行平均池化操作,以获得句子的向量表示。
6.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域;具体分为;
首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,与学术论文和专利中的关键词进行合并,得到学术领域的主题词库;根据主题词库的标题、摘要和关键词中的共现,构造一个词共现网络;对词共现网络进行聚类;
然后对于给定的学术领域S,一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合;
最后在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出;
所述聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛;第一阶段结束后,将社群编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社群间的边权重之和计算而得;(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关;初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数;每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。
7.一种应用权利要求1所述基于深度学习的学术领域数据相关性预测方法的基于深度学习的学术领域数据相关性预测系统,其特征在于,所述基于深度学习的学术领域数据相关性预测系统包括:
数据收集模块,用于收集公开的通用数据、学术领域的论文和专利数据;
词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量;
学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
8.一种实现权利要求1~6任意一项所述基于深度学习的学术领域数据相关性预测方法的计算机程序。
9.一种实现权利要求1~6任意一项所述基于深度学习的学术领域数据相关性预测方法的信息数据处理终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910500836.0A CN110209822B (zh) | 2019-06-11 | 2019-06-11 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910500836.0A CN110209822B (zh) | 2019-06-11 | 2019-06-11 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209822A CN110209822A (zh) | 2019-09-06 |
CN110209822B true CN110209822B (zh) | 2021-12-21 |
Family
ID=67791910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910500836.0A Active CN110209822B (zh) | 2019-06-11 | 2019-06-11 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209822B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825872B (zh) * | 2019-09-11 | 2023-05-23 | 成都数之联科技股份有限公司 | 一种提取和分类诉讼请求信息的方法及系统 |
CN110782008B (zh) * | 2019-10-16 | 2022-05-13 | 北京百分点科技集团股份有限公司 | 深度学习模型的训练方法、预测方法和装置 |
CN110837733B (zh) * | 2019-10-31 | 2023-12-29 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及电子设备 |
CN113312898B (zh) * | 2020-02-26 | 2024-03-01 | 深信服科技股份有限公司 | 语料处理方法、设备、存储介质及装置 |
US11468239B2 (en) | 2020-05-22 | 2022-10-11 | Capital One Services, Llc | Joint intent and entity recognition using transformer models |
CN111563166B (zh) * | 2020-05-28 | 2024-02-13 | 浙江学海教育科技有限公司 | 一种针对数学问题分类的预训练模型方法 |
CN111651605B (zh) * | 2020-06-04 | 2022-07-05 | 电子科技大学 | 基于多标签分类的肺癌前沿趋势预测方法 |
CN112528650B (zh) * | 2020-12-18 | 2024-04-02 | 恩亿科(北京)数据科技有限公司 | 一种Bert模型预训练方法、系统及计算机设备 |
CN112860889A (zh) * | 2021-01-29 | 2021-05-28 | 太原理工大学 | 一种基于bert的多标签分类方法 |
CN112990388B (zh) * | 2021-05-17 | 2021-08-24 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN113298265B (zh) * | 2021-05-22 | 2024-01-09 | 西北工业大学 | 一种基于深度学习的异构传感器潜在相关性学习方法 |
CN113486395B (zh) * | 2021-07-02 | 2024-07-23 | 南京大学 | 一种采用多元信息融合的科研数据匿名化方法及系统 |
CN113569553A (zh) * | 2021-07-28 | 2021-10-29 | 广州芳禾数据有限公司 | 基于改进Adaboost算法的句子相似性判断方法 |
CN114201581B (zh) * | 2021-11-29 | 2024-06-14 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN106815297A (zh) * | 2016-12-09 | 2017-06-09 | 宁波大学 | 一种学术资源推荐服务系统与方法 |
CN108549634A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN109753664A (zh) * | 2019-01-21 | 2019-05-14 | 广州大学 | 一种面向领域的概念抽取方法、终端设备及存储介质 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325757A1 (en) * | 2012-06-05 | 2013-12-05 | Sap Ag | Cascading learning system as semantic search |
US20140201103A1 (en) * | 2013-01-14 | 2014-07-17 | National Cheng Kung University | System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof |
CN106569993A (zh) * | 2015-10-10 | 2017-04-19 | 中国移动通信集团公司 | 一种挖掘领域术语间上下位关系的方法及装置 |
CN105760507B (zh) * | 2016-02-23 | 2019-05-03 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106126581B (zh) * | 2016-06-20 | 2019-07-05 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
US20180247549A1 (en) * | 2017-02-21 | 2018-08-30 | Scriyb LLC | Deep academic learning intelligence and deep neural language network system and interfaces |
CN108363716B (zh) * | 2017-12-28 | 2020-04-24 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
-
2019
- 2019-06-11 CN CN201910500836.0A patent/CN110209822B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815297A (zh) * | 2016-12-09 | 2017-06-09 | 宁波大学 | 一种学术资源推荐服务系统与方法 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN108549634A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN109753664A (zh) * | 2019-01-21 | 2019-05-14 | 广州大学 | 一种面向领域的概念抽取方法、终端设备及存储介质 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110209822A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209822B (zh) | 基于深度学习的学术领域数据相关性预测方法、计算机 | |
Chalkidis et al. | Deep learning in law: early adaptation and legal word embeddings trained on large corpora | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
US11580415B2 (en) | Hierarchical multi-task term embedding learning for synonym prediction | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
Wang et al. | Convolutional neural networks for expert recommendation in community question answering | |
CN114911892A (zh) | 用于搜索、检索和排序的交互层神经网络 | |
Ferrando et al. | Improving accuracy and speeding up document image classification through parallel systems | |
CN117151220B (zh) | 一种基于实体链接与关系抽取的行业知识库系统及方法 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN116595195A (zh) | 一种知识图谱构建方法、装置及介质 | |
El Desouki et al. | A hybrid model for paraphrase detection combines pros of text similarity with deep learning | |
Dawar et al. | Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook | |
Mueller et al. | Deepcause: Hypothesis extraction from information systems papers with deep learning for theory ontology learning | |
Liu et al. | Using convolutional neural networks to support insertion of new concepts into SNOMED CT | |
Advaith et al. | Parts of Speech Tagging for Kannada and Hindi Languages using ML and DL models | |
Delmonte | What’s wrong with deep learning for meaning understanding | |
Chraibi et al. | A deep learning framework for automated icd-10 coding | |
Devkota et al. | Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity | |
Phuc et al. | Apply deep learning to improve the question analysis model in the Vietnamese question answering system | |
Tang et al. | Automatic semantic annotation using machine learning | |
Prajapati et al. | Automatic Question Tagging using Machine Learning and Deep learning Algorithms | |
Rajapaksha et al. | SigmaLaw PBSA-A Deep Learning Approach For Aspect Based Sentiment Analysis in Legal Opinion Texts. | |
Liang et al. | Named Entity Recognition Method Based on BERT-whitening and Dynamic Fusion Model | |
Syed et al. | Helium@ CL-SciSumm-19: Transfer learning for effective scientific research comprehension. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |