CN109657055A - 基于层次混合网络的标题党文章检测方法及联邦学习策略 - Google Patents
基于层次混合网络的标题党文章检测方法及联邦学习策略 Download PDFInfo
- Publication number
- CN109657055A CN109657055A CN201811332621.4A CN201811332621A CN109657055A CN 109657055 A CN109657055 A CN 109657055A CN 201811332621 A CN201811332621 A CN 201811332621A CN 109657055 A CN109657055 A CN 109657055A
- Authority
- CN
- China
- Prior art keywords
- title
- platform
- vector
- network
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 238000004088 simulation Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 26
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000007246 mechanism Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 240000000233 Melia azedarach Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于层次混合网络的标题党文章检测模型及联邦策略,所述模型包括:标题编码器,用于对文章标题进行特征提取,将文章标题文本有效地编码成标题向量;内容编码器,用于对内容文本进行特征提取,将内容文本有效地编码成文档向量;关联信息提取器,用于使用机器阅读理解相关技术,对所述标题向量及文档向量进行关联,从而得到两者的关联向量;分类网络,用于基于标题特征向量、文档向量以及关联向量进行标题党分类,本发明通过利用文档标题与文档内容之间的关联信息,可取得更好的标题党检测效果。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于层次混合网络的标题党文章检测方法及联邦学习策略。
背景技术
目前大多数互联网媒体的收入依赖于用户点击量。由于竞争激烈,为吸引用户的关注,某些媒体会在撰写文章的时候会采用一个夸张而又引人注目的标题。而当用户被标题吸引,点击进去观看文章内容时往往会大失所望。这种标题与内容有着较大落差的文章,称为标题党。
为减少标题党的传播,人们开始研究如何使用机器学习技术进行标题党检测。学术界及工业界的通用做法是将标题党检测处理成文本分类问题。其中大部分做法都是针对标题部分的文本,进行短文本分类。少数做法会考虑内容部分信息,与标题部分的文本综合到一起,进行长文本分类。
而人类在进行标题党审核时,往往会综合考虑标题与内容之间的联系。由此可见,在标题党检测任务上,标题与内容之间的关联信息是十分重要的。而目前学术界及工业界的标题党检测做法中无一考虑到标题与内容的联系。
目前常见的标题党检测做法是将其处理成文本分类任务。传统的文本分类任务的做法是人工提取文本中的相关特征,然后将相应特征输入到支持向量机,决策树等分类器中进行分类。随着深度学习的蓬勃发展,现今大部分文本分类任务的做法基于深度神经网络,目前最先进的文本分类方法为基于多层注意力机制的双向递归神经网络的文档分类方法,这种基于多层注意力机制的双向递归神经网络的文档分类方法一般先利用带有注意力机制的双向递归神经网络以词为粒度(以相应的词向量作为输入),将一个句子编码成向量;再类似地利用另一个带有注意力机制的双向递归神经网络以句子为粒度(利用上述编码的句子向量作为输入),最终便将一篇文章编码成一个向量。基于该文档向量,再进行相关分类,由于基于多层注意力机制的双向递归神经网络的文档分类方法的结构设计十分先进,其充分利用到了文档的结构信息,故在大部分文档分类任务中,该方法都取得了十分优异的效果。
由于人类在进行标题党审核时,往往会综合考虑标题与内容之间的联系,由此可见,在标题党检测任务上,标题与内容的关联信息是十分重要的。然而,基于多层注意力机制的双向递归神经网络的文档分类方法虽然在大部分文档分类任务上表现优异,但其在进行文档分类时,并没有利用到这部分重要的信息,而这也是基于多层注意力机制的双向递归神经网络的文档分类方法的最大缺陷。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于层次混合网络的标题党文章检测方法及联邦学习策略,以有效地利用到文档标题与文档内容之间的关联信息,从而取得更好的标题党检测效果。
为达上述及其它目的,本发明提出一种基于层次混合网络的标题党文章检测模型,包括:
标题编码器,用于对文章标题进行特征提取,将文章标题文本有效地编码成标题向量;
内容编码器,用于对内容文本进行特征提取,将内容文本有效地编码成文档向量;
关联信息提取器,用于使用机器阅读理解相关技术,对所述标题向量及文档向量进行关联,从而得到两者的关联向量;
分类网络,用于基于标题特征向量、文档向量以及关联向量进行标题党分类,获得预测结果。
优选地,所述标题编码器与内容编码器通过卷积神经网络或递归申请网络针对文章标题与文章内容的特点,提取出文章标题及文章内容中的特征,将文章标题文本及文章内容文本分别有效地编码成所述标题向量及文档向量。
优选地,所述关联信息提取器利用卷积神经网络去卷积文档向量与标题向量,从而得到两者之间的关联向量。
优选地,所述关联信息提取器将文档向量与标题向量进行点积,将点积结果作为两者之间的关联向量。
为达到上述目的,本发明还提供一种基于层次混合网络的标题党文章检测模型的联邦学习策略,应用于两个平台之间,其中一个平台方基于所述基于层次混合网络的标题党文章检测模型且标注了标签,所述联邦学习策略包括:
步骤S1,平台双方各自初始化一个用于提取特征的神经网络以得到各自的特征向量;
步骤S2,无标签方平台将其特征向量传递到有标签方平台,所述有标签方平台利用无标签方平台传递过来的特征向量,与自身的特征向量结合,得到最终的预测结果,并以此计算得到损失值;
步骤S3,所述有标签方平台利用该损失值更新自身的网络,并将该损失值传递给所述无标签方平台,所述无标签方平台利用该传递过来的损失值更新自身的网络;
步骤S4,重复上述训练过程,直至所述损失值小于预设阈值,以完成联邦学习过程。
优选地,于步骤S1中,所初始化的网络不包括所述标题党文章检测模型的分类网络部分及最后的激活函数。
优选地,于步骤S3中,所述有标签方平台利用该损失值更新自身的特征提取网络及分类网络,所述无标签方平台利用该损失值更新自身的特征提取网络。
为达到上述目的,本发明还提供一种基于层次混合网络的标题党文章检测模型的联邦学习策略,应用于两个平台之间,其中一个平台方基于所述基于层次混合网络的标题党文章检测模型且标注了标签,包括:
步骤S1,有标签方的平台将拥有的标签传递为无标签方平台,使得双方平台共享标签;
步骤S2,双方平台各自进行标题党文章检测模型训练,直至模型收敛,得到各自的模型,所述无标签方平台所训练的标题党文章检测模型为利用CNN以及分类网络构成的简单的标题党文章检测模型;
步骤S3,双方平台各自随机初始化一个用于模拟对方的特征向量的神经网络,并互传特征向量,训练各自的模拟模型直至收敛;
步骤S4,双方平台利用各自的标题党文章检测模型与模拟模型进行重组,并新建一个新的分类网络进行训练,最终各自得到不依赖对方平台的输入,只依赖自身输入的联邦模型。
优选地,于步骤S3中,在每一训练步骤中,将其中一平台中的输入经由上述训练好的模型中的提取特征部分的结果传递给另一平台。
优选地,于步骤S4中,对于某一平台,取其标题党检测模型中提取特征部分与其模拟模型进行组合,再将它们的结果进行连接,输入到一个新建的分类网络中得到预测结果,由此得到最终的损失值,并以此优化分类网络。
与现有技术相比,本发明一种基于层次混合网络的标题党文章检测方法及其联邦学习策略利用标题编码器和内容编码器根据文章标题与文章内容的特点,利用递归神经网络进行特征提取,从而能够有效地提取出文章标题及文章内容中的特征,并将文章标题文本及文章内容文本分别有效地编码成标题向量及文档向量,然后再使用机器阅读理解相关技术得到两者关联向量,最后基于标题特征向量,文档向量,关联向量进行标题党分类,这样既考虑到了文章标题文本本身的措辞,结构等特征,又考虑到了文章标题与文章内容之间的关联信息,同时本发明还通过实现基于标题党检测的联邦学习策略,可以使得各平台在不进行数据交流的情况下,也能够利用上互相的数据,进而训练得到一个效果更优的标题党检测模型。
附图说明
图1为本发明一种基于层次混合网络的标题党文章检测模型的系统架构图;
图2为本发明具体实施例中采用的带注意力机制的双向递归神经网络模型架构图;
图3为本发明具体实施例中用于提取标题与内容间关联信息的卷积神经网络模型架构图;
图4为本发明具体实施李中用于提取标题与内容间关联信息的多层注意力机制模型的架构图;
图5为本发明一种基于层次混合网络的标题党文章检测模型的联邦学习策略之第一实施例的步骤流程图;
图6为本发明一种基于层次混合网络的标题党文章检测模型的联邦学习策略之第二实施例的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
在介绍本发明之前,先对本发明所涉及的缩略语和关键术语定义如下:
文本分类(Text Classification):文本分类是自然语言处理中的一个经典任务。其目标是为文本序列自动分配一个或多个的预定义类别。文本分类有着广泛的应用:如情感分类,垃圾邮件分类,标题党文章检测等。传统的文本分类方法包括人工特征提取及分类器分类。近年来,随着深度学习的发展,相关的深度学习模型纷纷应用到文本分类任务上,并取得了优异的成果。
机器阅读理解(Machine Reading Comprehension):机器阅读理解是自然语言处理中的核心任务之一。其目标是让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。机器阅读理解在海量数据搜索领域有着巨大的应用潜力。
联邦学习(Federated Learning):如何在保护数据隐私,满足合法合规要求的前提下继续进行机器学习,是联邦学习研究的主要议题。联邦学习旨在满足数据不共享的前提下,利用双方的数据实现模型的效果增长。
深度学习(Deep Learning):深度学习是由Hinton等人于2006年提出,是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别图像、文字等数据。
图1为本发明一种基于层次混合网络的标题党文章检测模型的系统架构图。如图1所示,本发明一种基于层次混合网络的标题党文章检测模型,包括如:
标题编码器10,用于根据文章标题特征,利用递归神经网络进行特征提取,从而能够有效地提取出文章标题的特征,并将文章标题文本有效地编码成标题向量。也就是说,标题编码器10的作用是充分提取标题文本的特征,并将标题文本编码成对应的标题向量。在本发明具体实施例中,标题编码器10可以由一个卷积神经网络组成,也可以由一个递归神经网络组成。本发明选择使用实验效果最好的带注意力机制的双向递归神经网络实现,如图2所示,由于本发明中的标题编码器的实现与现有技术采用的技术相同,在此不予赘述。
内容编码器20,用于根据内容文本的特征,利用递归神经网络进行特征提取,从而能够有效地提取出内容文本的特征,并将内容文本有效地编码成文档向量。也就是说,内容编码器20的作用是充分提取内容文本的特征,并将内容文本编码成对应的文档向量,在本发明具体实施例中,内容编码器20可以由一个卷积神经网络组成,也可以由一个递归神经网络组成,本发明选择使用实验效果最好的带注意力机制的双向递归神经网络组成,如图2所示,由于本发明中的内容编码器的实现与现有技术采用的技术相同,在此不予赘述。
这里需说明的是,不同于基于多层注意力机制的双向递归神经网络先以词为粒度,再以句为粒度编码文章,由于实验结果表明文档的结构信息在标题党检测任务上贡献不大,故本发明中,内容编码器20的实现是直接将文章中所有的词作为输入,然后直接以词为粒度编码文章,得到文档向量,也就是说其并没有利用到句子的结构信息。
关联信息提取器30,用于使用机器阅读理解相关技术,对标题向量及文档向量进行关联,从而得到两者的关联向量。
在本发明具体实施例中,关联信息提取器30有如下两种实现方式:
1、利用卷积神经网络去卷积文档向量与标题向量,从而得到两者之间的关联向量,如图3所示。
2、将文档向量与标题向量进行点积,将点积结果作为两者之间的关联向量,如图4所示。
由于具体的卷积神经网络以及向量之间的卷积采用的是现有技术,在此不予赘述。
分类网络40,基于标题向量、文档向量以及关联向量进行标题党分类,获得预测结果。其中,分类网络由一个全连接网络和一个softmax激活函数组成。训练过程中将标题向量、文档向量以及关联向量输入到分类网络中,从而得到预测结果,分类网络的训练和之前的网络训练是端到端的。
随着欧盟通过了数据隐私保护条例,越来越多的公司不再进行数据交流。因此,如何在不共享数据的情况下,利用到多方的数据,训练得到一个效果优良的模型成为了越来越多人关注的课题。
图5为本发明一种基于层次混合网络的标题党文章检测模型的联邦学习策略之第一实施例的步骤流程图。如图5所示,本发明一种基于层次混合网络的标题党文章检测模型的联邦学习策略,用于两个平台之间,包括如下步骤:
步骤S1,平台双方各自初始化一个用于提取特征的神经网络以得到各自的特向量,其中有标签方平台利用上述基于层次混合网络的模型,无标签方平台则采用其他神经网络。
在本发明具体实施例,假设有两个内容平台A,B,平台A标注了部分数据(是否属于标题党),且利用标注数据(文章的标题t,正文b,以及标签得到的标签l)Xa(Xa为[t;b])训练了一个标题党检测模型A,平台B没有标签,其数据Xb有标题t,摘要描述d,配图i,关键字k,即Xb为[t;d;i;k],若平台A与平台B想进行合作(平台B没有标签),共同训练一个(相比模型A)效果更优的模型C,但由于数据隐私保护规定,双方无法共享各自的数据。因此,首先分别在平台A及平台B中,各自随机初始化一个用于提取特征的神经网络,在本发明具体实施例中,假设平台A采用上述层次混合网络的标题党检测模型,即经过网络Wa(网络Wa可认为是层次混合网络的标题编码器部分,内容编码器部分,以及关联信息提取器部分的集合)得到特征向量Va,Va则是由Vt(经过层次混合网络的标题编码器得到的标题的特征向量),Vb(经过层次混合网络的内容编码器得到的内容的特征向量),Vc(经过层次混合网络的关联信息提取器得到的关联向量)组成的,即Va=[Vt,Vb,Vc],平台B经过网络Wb得到的特征向量Vb是由Vtb,Vd,Vi,Vk组成的,这里可以认为是t,d,i,k都各自经过一个卷积神经网络得到对应的特征向量Vtb,Vd,Vi,Vk。
步骤S2,无标签(Label)方平台将其特征向量传递到有标签(Label)平台,有标签(Label)方平台则利用无标签方平台传递过来的特征向量,与自身的特征向量结合,得到最终的预测结果。并以此计算得到损失值。
也就是说,无标签方平台,及平台B将其特征向量传递给给有标签方平台,即平台A,平台A则将两者向量连接起来,输入到最后的分类网络中,以得到预测结果,并基于此计算得到最终的损失。
步骤S3,有标签(Label)方平台利用该损失值更新自身的网络(即更新特征提取网络及分类网络),并将该损失值传递给无标签(Label)方平台,无标签(Label)方平台则利用该传递过来的损失值更新自身的网络(即更新特征提取网络),也就是说,无标签方由于没有标签,故没办法训练标题党检测模型,其没有分类网络,无标签方平台需要依赖有标签方的分类网络得到最终预测结果。
步骤S4,重复上述训练过程,直至所述损失值(loss)小于预设阈值,以完成联邦学习过程。
最终作为有标签方的平台A能够得到一个效果更好联邦标题党分类模型C;而作为无标签方的平台B在没有标签的情况下也能够得到一个联邦标题党分类模型C,从而得到标题党检测功能。这里需说明的是,在本实施例中,该联邦学习策略不仅需要平台双方合作才能训练,还需要平台双方合作才能进行检测分类。
以下将通过一具体实施例来说明本发明之基于层次混合网络的标题党文章检测模型的联邦学习策略第一实施例:
在本发明具体实施例中,考虑以下场景:有两个内容平台A,B。平台A为传播传统文章的内容平台,假设平台A标注了部分数据(是否属于标题党),数据有标题t,文章内容b以及标注出来得到的标签l,即平台A的数据Xa一直为[t,b],平台A利用有标签的数据训练了一个前述层次混合网络的标题党检测模型,即经过网络Wa(网络Wa可认为是层次混合网络的标题编码器部分,内容编码器部分,以及关联信息提取器部分的集合)得到特征向量Va,Va则是由Vt(经过层次混合网络的标题编码器得到的标题的特征向量),Vb(经过层次混合网络的内容编码器得到的内容的特征向量),Vc(经过层次混合网络的关联信息提取器得到的关联向量)组成的,即Va=[Vt,Vb,Vc];平台B为类似微博这样的平台,数据有标题t,摘要描述d,配图i,关键字k,即平台B的向量Xb一直都是[t;d;i;k],经过网络Wb得到的特征向量Vb是由Vtb,Vd,Vi,Vk组成的。这里可以认为是t,d,i,k都各自经过一个卷积神经网络得到对应的特征Vtb,Vd,Vi,Vk。
具体地说,平台A与平台B想进行合作(平台B没有标签),共同训练一个(相比模型A)效果更优的模型C。但由于数据隐私保护规定,双方无法共享各自的数据,因此,双方采用如下联邦学习策略:
步骤一,双方各自初始化一个用于提取特征的神经网络。
也就是说,首先分别在平台A及平台B中,各自随机初始化一个用于提取特征的神经网络,分别记作Wa,Wb(Wa为前述层次混合网络的标题编码器部分,内容编码器部分,以及关联信息提取器部分的集合,不包括最后的分类网络部分及最后的激活函数,Wb为其他神经网络),且平台双方互不知道对方的网络结构,因此无法反推对方的输入,从而满足了数据隐私保护规定),平台双方分别经过神经网络Wa,Wb,可以得到各自的特征向量(平台A的数据Xa为[t;b],平台B的数据Xb为[t;d;i;k]):平台A的特征向量Va=Wa*Xa,即Va=[Vt,Vb,Vc],;平台B的特征向量Vb=Wb*Xb,即Vb=[Vtb,Vd,Vi,Vk]。
步骤二,无标签(Label)方将其自身对应数据输入到其用于提取特征的神经网络中,得到对应的特征向量,并将该向量传递到有标签(Label)方。
也就是说,由于标签(label)在平台A中,故此时平台B需要将其特征向量Vb传递到平台A中。
步骤三,有标签(Label)方利用上述传递过来的特征向量,与自身的特征向量结合,得到最终的预测结果。并以此计算得到损失值,于此同时,有标签(Label)方利用该损失值更新自身的网络,即特征提取网络及分类网络。
也就是说,作为有标签方的平台A将两者向量连接起来,输入到最后的分类网络中,便能得到预测结果,然后基于此计算得到最终的损失值,即:Y=f(Wc*[Va;Vb]),Loss=0.5*(Y-Label)^2,然后,平台A首先利用这个损失值Loss更新网络Wa及分类网络Wc。
步骤四,有标签(Label)方将损失值传递给无标签(Label)方,无标签(Label)方利用该传递过来的损失值更新自身的网络,即特征提取网络。
也就是说,平台A会将该损失Loss值传递给平台B,使得平台B能够更新网络Wb。
如此不断重复上述训练过程,便能完成联邦学习过程。最终,平台A能够得到一个效果更好的联邦标题党分类模型C,平台B也能够在没有标签的情况下得到一个联邦标题党分类模型C,从而得到标题党检测功能。该联邦模型不仅需要双方合作才能训练,还需要双方合作才能进行检测分类。
由于前述联邦学习策略得到的联邦标题党检测模型在进行每次预测时,需要平台A,B双方的共同输入。为了减少模型对双方的依赖,即,使得在平台A中的联邦模型FA,不依赖平台B中的输入,同时在平台B中的联邦模型FB,不依赖平台A中的输入,本发明还提出以下另一种联邦学习策略。
图6为本发明一种基于层次混合网络的标题党文章检测模型的联邦学习策略之第二实施例的步骤流程图。如图6所示,本发明一种基于层次混合网络的标题党文章检测模型的联邦学习策略,用于两个平台之间,包括如下步骤:
步骤S1,有标签方的平台将拥有的标签传递为无标签方平台,使得双方平台共享标签(label)。
由于本策略依赖于双方都拥有一致的Label的前提,故在不满足双方拥有一致的Label的情况下,需要拥有标签Label的平台A先将所有对应的Label传递给平台B。
步骤S2,双方平台各自进行标题党文章检测模型训练,直至模型收敛,得到各自的模型。
由于双方此时都有标签Label,所以可以各自进行标题党模型训练,直至模型收敛,得到各自的模型A,模型B。具体地,由于双方平台都有标签,所以A平台可以用标题,文章内容,以及标签训练一个标题党检测模型,同时,B平台可以用标题,描述,配图,以及标签训练另一个简单的标题党检测模型。这里需说明的,在本发明具体实施例中,平台A的标题党文章检测模型采用的是前述的基于层次混合网络的标题党文章检测模型,而平台B训练的标题党检测模型只是类似TextCNN的简单分类模型,即采用简单的CNN(卷积神经网络)与分类网络构成的简单的标题党检测模型。
步骤S3,双方平台各自随机初始化一个用于模拟对方的特征向量的神经网络,并互传特征向量,训练各自的模拟模型直至收敛。
也就是说,当双方模型训练完毕,此时再分别在平台A及平台B中,各自随机初始化一个用于模拟对方的特征向量的神经网络Wai,Wbi。Wai的作用在于为平台A模拟对应在平台B中的特征向量,Wbi的作用在于为平台B模拟对应在平台A中的特征向量。要训练网络Wai及Wbi,需要在每一训练步中,将平台A中的输入经由上述训练好的模型A中的提取特征部分的结果传递给平台B;同时将平台B中的输入经由上述训练好的模型B中的提取特征部分的结果传递给平台A。
步骤S4,双方平台利用各自的标题党文章检测模型与模拟模型进行重组,并新建一个新的分类网络进行训练,最终各自得到不依赖对方平台的输入,只依赖自身输入的联邦模型。
具体地,以平台A为例,取其标题党检测模型A中提取特征部分与模拟模型进行组合,再将它们的结果进行连接,输入到一个新建的分类网络中得到预测结果,由此得到最终的损失值,并以此优化分类网络。
以下将通过一具体实施例来说明本发明之基于层次混合网络的标题党文章检测模型的联邦学习策略第二实施例:
同样,在本发明具体实施例中,考虑以下场景:假设有两个内容平台A,B,平台A为传播传统文章的内容平台,假设平台A标注了部分数据(是否属于标题党),数据有标题t,文章内容以及标注出来得到的标签l,即平台A的数据Xa一直为[t,b],;平台B为类似微博这样的平台,数据有标题t,摘要描述d,配图i,关键字k,即平台B的向量Xb一直都是[t;d;i;k]。
具体地说,平台A与平台B想进行合作(平台B没有标签),共同训练一个(相比模型A)效果更优的模型C。但由于数据隐私保护规定,双方无法共享各自的数据,此时平台A与平台B想进行合作(平台B没有标签),共同训练一个(相比模型A)效果更优的模型C,本实施例的目的如何得到一个在平台A中的联邦模型FA,只依赖平台A中的输入,同时得到一个在平台B中的联邦模型FB,只依赖平台B中的输入,其具体过程如下:
步骤一:双方平台分享标签Label。
由于本实施例依赖于双方都拥有一致的标签Label的前提,故在不满足双方拥有一致的Label的情况下,需要拥有标签Label的平台A先将所有对应的Label传递给平台B。
步骤二:双方各自训练模型A及模型B。
由于双方此时都有Label,所以可以各自进行标题党模型训练,直至模型收敛,得到各自的模型A,模型B,在本实施例中,平台A使用的是基于层次混合网络的标题党文章检测模型,而平台B使用的是利用四个简单的CNN以及分类网络构成的简单的标题党文章检测模型,记模型A,模型B中用于提取特征的神经网络为Wa,Wb(该网络不包括最后的分类网络部分及最后的激活函数),则有各自的特征向量(Xa为[t;b],Xb为[t;d;i;k]):Va=Wa*Xa;Vb=Wb*Xb。即,对于平台A,Xa经过网络Wa(网络Wa可认为是层次混合网络的标题编码器部分,内容编码器部分,以及关联信息提取器部分的集合)得到特征向量Va,Va则是由Vt(经过层次混合网络的标题编码器得到的标题的特征向量),Vb(经过层次混合网络的内容编码器得到的内容的特征向量),Vc(经过层次混合网络的关联信息提取器得到的关联向量)组成的,即Va=[Vt,Vb,Vc],平台B经过网络Wb利用四个简单的CNN进行特征提取,得到特征向量Vb是由Vtb,Vd,Vi,Vk组成的,这里可以认为是t,d,i,k都各自经过一个卷积神经网络得到对应的特征Vtb,Vd,Vi,Vk。
步骤三:双方互传特征向量,用于训练各自的模拟模型Ai,模拟模型Bi当双方模型训练完毕,此时,再分别在平台A及平台B中,各自随机初始化一个用于模拟对方的特征向量的神经网络Wai,Wbi。Wai的作用在于为平台A模拟对应在平台B中的特征向量Vb,Wbi的作用在于为平台B模拟对应在平台A中的特征向量Va。要训练网络Wai及Wbi,需要在每一训练步骤中,将平台A中的输入Xa经由上述训练好的模型A中的提取特征部分的结果Va(Va=Wa*Xa)传递给平台B;同时将平台B中的输入Xb经由上述训练好的模型B中的提取特征部分的结果Vb(Vb=Wb*Xb)传递给平台A。
对于平台A中的网络Wai,其输入为Xa,期望输出为Vb(即Vai=Wai*Xa,Lossai=0.5*(Vai-Vb)^2)。同理,对于平台B中的网络Wbi,其输入为Xb,期望输出为Va(即Vbi=Wbi*Xb,Lossbi=0.5*(Vbi-Va)^2)。如上不断地进行训练直至模拟模型Ai与模拟模型Bi收敛。
步骤四:双方各利用原分类模型以及模拟模型进行重组,并新建一个新的分类模型进行训练,最终各自得到不依赖对方平台的输入,只依赖自身输入的联邦模型。
也就是说,在平台A中,取模型A中提取特征部分与模拟模型Ai进行组合,再将它们的结果进行连接,输入到一个新建的分类网络Wac中得到预测结果。由此得到最终的损失值,并以此优化分类网络Wac(不再更改Wa及Wai)。
上述过程即:Va=Wa*Xa,Vai=Wai*Xa,Ya=f(Wac*[Va;Vai]),Lossac=0.5*(Ya-Label)^2。
同理,在平台B中用同样的方式新建分类网络Wbc,并优化该分类网络Wbc。该过程同上:Vb=Wb*Xb,Vbi=Wbi*Xb,Yb=f(Wbc*[Vb;Vbi]),Lossbc=0.5*(Yb-Label)^2。
在本发明中,由于得到额外有用信息,故理论上利用联邦策略得到的联邦模型FA,FB的效果会优于原本的模型A,模型B,又由于模拟网络的输出最优只是逼近实际的Va,Vb,所以理论上利用第二实施例的策略得到的联邦模型FA,FB的效果会逊于利用第一实施例策略得到的联邦模型C,根据以上讨论结果,联邦模型C的效果会稍逊于理想情况下的模型I。
综上所述,本发明一种基于层次混合网络的标题党文章检测方法及其联邦学习策略利用标题编码器和内容编码器根据文章标题与文章内容的特点,利用递归神经网络进行特征提取,从而能够有效地提取出文章标题及文章内容中的特征,并将文章标题文本及文章内容文本分别有效地编码成标题向量及文档向量,然后再使用机器阅读理解相关技术得到两者关联向量,最后基于标题特征向量,文档向量,关联向量进行标题党分类,这样既考虑到了文章标题文本本身的措辞,结构等特征,又考虑到了文章标题与文章内容之间的关联信息,同时本发明还通过实现基于标题党检测的联邦学习策略,可以使得各平台在不进行数据交流的情况下,也能够利用上互相的数据,进而训练得到一个效果更优的标题党检测模型。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于层次混合网络的标题党文章检测模型,包括:
标题编码器,用于对文章标题进行特征提取,将文章标题文本有效地编码成标题向量;
内容编码器,用于对内容文本进行特征提取,将内容文本有效地编码成文档向量;
关联信息提取器,用于使用机器阅读理解技术,对所述标题向量及文档向量进行关联,从而得到两者的关联向量;
分类网络,用于基于标题向量、文档向量以及关联向量进行标题党分类,获得预测结果。
2.如权利要求1所述的一种基于层次混合网络的标题党文章检测模型,其特征在于:所述标题编码器与内容编码器通过卷积神经网络或递归申请网络针对文章标题与文章内容的特点,提取出文章标题及文章内容中的特征,将文章标题文本及文章内容文本分别有效地编码成所述标题向量及文档向量。
3.如权利要求1所述的一种基于层次混合网络的标题党文章检测模型,其特征在于:所述关联信息提取器利用卷积神经网络去卷积文档向量与标题向量,从而得到两者之间的关联向量。
4.如权利要求1所述的一种基于层次混合网络的标题党文章检测模型,其特征在于:所述关联信息提取器将文档向量与标题向量进行点积,将点积结果作为两者之间的关联向量。
5.一种基于层次混合网络的标题党文章检测模型的联邦学习策略,应用于两个平台之间,其中一个平台方基于所述基于层次混合网络的标题党文章检测模型且标注了标签,所述联邦学习策略包括:
步骤S1,平台双方各自初始化一个用于提取特征的神经网络以得到各自的特征向量;
步骤S2,无标签方平台将其特征向量传递到有标签方平台,所述有标签方平台利用无标签方平台传递过来的特征向量,与自身的特征向量结合,得到最终的预测结果,并以此计算得到损失值;
步骤S3,所述有标签方平台利用该损失值更新自身的网络,并将该损失值传递给所述无标签方平台,所述无标签方平台利用该传递过来的损失值更新自身的网络;
步骤S4,重复上述训练过程,直至所述损失值小于预设阈值,以完成联邦学习过程。
6.如权利要求5所述的一种基于层次混合网络的标题党文章检测模型的联邦学习策略,其特征在于:于步骤S1中,所初始化的网络不包括所述标题党文章检测模型的分类网络部分及最后的激活函数。
7.如权利要求5所述的一种基于层次混合网络的标题党文章检测模型的联邦学习策略,其特征在于:于步骤S3中,所述有标签方平台利用该损失值更新自身的特征提取网络及分类网络,所述无标签方平台利用该损失值更新自身的特征提取网络。
8.一种基于层次混合网络的标题党文章检测模型的联邦学习策略,应用于两个平台之间,其中一个平台方基于所述基于层次混合网络的标题党文章检测模型且标注了标签,包括:
步骤S1,有标签方的平台将拥有的标签传递为无标签方平台,使得双方平台共享标签;
步骤S2,双方平台各自进行标题党文章检测模型训练,直至模型收敛,得到各自的模型,所述无标签方平台所训练的标题党文章检测模型为利用CNN以及分类网络构成的简单的标题党文章检测模型;
步骤S3,双方平台各自随机初始化一个用于模拟对方的特征向量的神经网络,并互传特征向量,训练各自的模拟模型直至收敛;
步骤S4,双方平台利用各自的标题党文章检测模型与模拟模型进行重组,并新建一个新的分类网络进行训练,最终各自得到不依赖对方平台的输入,只依赖自身输入的联邦模型。
9.如权利要求8所述的一种基于层次混合网络的标题党文章检测模型的联邦学习策略,其特征在于:于步骤S3中,在每一训练步骤中,将其中一平台中的输入经由上述训练好的模型中的提取特征部分的结果传递给另一平台。
10.如权利要求8所述的一种基于层次混合网络的标题党文章检测模型的联邦学习策略,其特征在于:于步骤S4中,对于某一平台,取其标题党检测模型中提取特征部分与其模拟模型进行组合,再将它们的结果进行连接,输入到一个新建的分类网络中得到预测结果,由此得到最终的损失值,并以此优化分类网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811332621.4A CN109657055A (zh) | 2018-11-09 | 2018-11-09 | 基于层次混合网络的标题党文章检测方法及联邦学习策略 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811332621.4A CN109657055A (zh) | 2018-11-09 | 2018-11-09 | 基于层次混合网络的标题党文章检测方法及联邦学习策略 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109657055A true CN109657055A (zh) | 2019-04-19 |
Family
ID=66110775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811332621.4A Pending CN109657055A (zh) | 2018-11-09 | 2018-11-09 | 基于层次混合网络的标题党文章检测方法及联邦学习策略 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657055A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275938A (zh) * | 2019-05-29 | 2019-09-24 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN110309923A (zh) * | 2019-07-03 | 2019-10-08 | 深圳前海微众银行股份有限公司 | 横向联邦学习方法、装置、设备及计算机存储介质 |
CN110598046A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN110942154A (zh) * | 2019-11-22 | 2020-03-31 | 深圳前海微众银行股份有限公司 | 基于联邦学习的数据处理方法、装置、设备及存储介质 |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
WO2020248538A1 (zh) * | 2019-06-10 | 2020-12-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN112131430A (zh) * | 2020-09-24 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 视频聚类方法、装置、存储介质和电子设备 |
WO2021022717A1 (zh) * | 2019-08-02 | 2021-02-11 | 深圳前海微众银行股份有限公司 | 联邦学习中特征相关性分析方法、装置及可读存储介质 |
CN112417237A (zh) * | 2020-11-16 | 2021-02-26 | 中信银行股份有限公司 | 文档处理方法、装置、电子设备及计算机可读存储介质 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN113947211A (zh) * | 2021-10-11 | 2022-01-18 | 京东科技控股股份有限公司 | 联邦学习模型的训练方法、装置、电子设备和存储介质 |
CN113961702A (zh) * | 2021-10-25 | 2022-01-21 | 南京邮电大学 | 一种文章标题层次结构的提取方法 |
CN114402301A (zh) * | 2019-09-20 | 2022-04-26 | 国际商业机器公司 | 在共享检测模型系统中维护数据隐私 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176985A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种及时高效的互联网信息爬取方法 |
CN107871160A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 通信高效联合学习 |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
-
2018
- 2018-11-09 CN CN201811332621.4A patent/CN109657055A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176985A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种及时高效的互联网信息爬取方法 |
CN107871160A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 通信高效联合学习 |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
马晨峰: "混合深度学习模型在新闻文本分类中的应用", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275938A (zh) * | 2019-05-29 | 2019-09-24 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN110275938B (zh) * | 2019-05-29 | 2021-09-17 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
WO2020248538A1 (zh) * | 2019-06-10 | 2020-12-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110309923A (zh) * | 2019-07-03 | 2019-10-08 | 深圳前海微众银行股份有限公司 | 横向联邦学习方法、装置、设备及计算机存储介质 |
CN110309923B (zh) * | 2019-07-03 | 2024-04-26 | 深圳前海微众银行股份有限公司 | 横向联邦学习方法、装置、设备及计算机存储介质 |
WO2021022717A1 (zh) * | 2019-08-02 | 2021-02-11 | 深圳前海微众银行股份有限公司 | 联邦学习中特征相关性分析方法、装置及可读存储介质 |
CN110598046A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN110598046B (zh) * | 2019-09-17 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN114402301A (zh) * | 2019-09-20 | 2022-04-26 | 国际商业机器公司 | 在共享检测模型系统中维护数据隐私 |
CN110942154B (zh) * | 2019-11-22 | 2021-07-06 | 深圳前海微众银行股份有限公司 | 基于联邦学习的数据处理方法、装置、设备及存储介质 |
CN110942154A (zh) * | 2019-11-22 | 2020-03-31 | 深圳前海微众银行股份有限公司 | 基于联邦学习的数据处理方法、装置、设备及存储介质 |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN112131430A (zh) * | 2020-09-24 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 视频聚类方法、装置、存储介质和电子设备 |
CN112417237A (zh) * | 2020-11-16 | 2021-02-26 | 中信银行股份有限公司 | 文档处理方法、装置、电子设备及计算机可读存储介质 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN112966103B (zh) * | 2021-02-05 | 2022-04-19 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN113947211A (zh) * | 2021-10-11 | 2022-01-18 | 京东科技控股股份有限公司 | 联邦学习模型的训练方法、装置、电子设备和存储介质 |
CN113961702A (zh) * | 2021-10-25 | 2022-01-21 | 南京邮电大学 | 一种文章标题层次结构的提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657055A (zh) | 基于层次混合网络的标题党文章检测方法及联邦学习策略 | |
Chandra | Competition and collaboration in cooperative coevolution of Elman recurrent neural networks for time-series prediction | |
CN107038159A (zh) | 一种基于无监督领域自适应的神经网络机器翻译方法 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
Barton et al. | Evolutionary theory in archaeological explanation | |
CN110309300B (zh) | 一种识别理科试题知识点的方法 | |
CN110807509A (zh) | 一种基于贝叶斯神经网络的深度知识追踪方法 | |
Min et al. | Multidimensional team communication modeling for adaptive team training: A hybrid deep learning and graphical modeling framework | |
Rao et al. | Ensemble based learning style identification using VARK | |
CN112487799B (zh) | 利用外积注意力的众包任务推荐方法 | |
CN111767949B (zh) | 一种基于特征和样本对抗共生的多任务学习方法及其系统 | |
Pande et al. | Robust team communication analytics with transformer-based dialogue modeling | |
Bodrunov et al. | Beyond the Global Crisis: Noonomy, Creativity, Geopolitical Economy | |
Zhang et al. | Topological order discovery via deep knowledge tracing | |
Mishra et al. | Deep machine learning and neural networks: an overview | |
García-Pedrajas et al. | Immune network based ensembles | |
CN111062484A (zh) | 基于多任务学习的数据集选取方法及装置 | |
Kai et al. | Using an ensemble classifier on learning evaluation for e-learning system | |
Im et al. | Cross-active connection for image-text multimodal feature fusion | |
Siu | Automatic induction of neural network decision tree algorithms | |
Li et al. | A dual-population evolutionary algorithm adapting to complementary evolutionary strategy | |
Shimmei et al. | Learning association between learning objectives and key concepts to generate pedagogically valuable questions | |
Liang et al. | Deep latent position model for node clustering in graphs | |
Kim et al. | Knowledge Transfer by Discriminative Pre-training for Academic Performance Prediction | |
Erişlik et al. | Estimation of the sectors of the investments made on venture capital companies with artificial neural networks and multiple logistic regression analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190419 |