CN109635111A

CN109635111A - 一种基于网络迁移的新闻点击诱饵检测方法

Info

Publication number: CN109635111A
Application number: CN201811476645.7A
Authority: CN
Inventors: 郑锦坤; 朱启琨; 李敏; 梁良; 丁瑜; 肖子洋
Original assignee: Information And Communication Branch Of Jiangxi Electric Power Co Ltd; State Grid Corp of China SGCC
Current assignee: Information And Communication Branch Of Jiangxi Electric Power Co Ltd; State Grid Corp of China SGCC
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-04-16

Abstract

本发明公开了一种基于网络迁移的新闻点击诱饵检测方法，具体的实施步骤分解如下：步骤1：当一个句子或者一条新闻到来时，需要对其进行预处理；步骤2：预训练词向量，通过度大量的语料进行表示学习，得到每个单词的词向量表示；步骤3：在源领域进行训练，通过训练卷积神经网络和适配层的参数模型，使得模型在源领域取得最优效果；步骤4：在目标领域进行训练，通过微调适配层，使得模型能够利用源领域的先验知识；步骤5：分类，当一条新闻到来时，经过分词预处理。本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能，表明了模型的有效性和鲁棒性，解决了人工标注的点击诱饵数据集既费时又费力的问题。

Description

一种基于网络迁移的新闻点击诱饵检测方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于网络迁移的新闻点击诱饵检测方法。

背景技术

句子的分类，其目的是把句子分成不同的类别，是自然语言处理中的的基本任务之一。随着万维网的发展，人们更喜欢在互联网上获取最新新闻的知识。因为他们通常更快，比传统的纸质媒体内容更丰富多彩，这也带来了聚合网站聚合不同新闻源，如雅虎新闻和谷歌新闻。通常，大多数新闻源对读者免费，他们的主要收入来自于他们的网页显示广告。因此，点击量对他们来说非常重要。因此，一些新闻媒体来为他们的新闻标题提供非常有吸引力的名字，这通常会让人失望的读者。

点击诱饵的显著特点是它们非常吸引人，而且隐藏了读者的部分事实。点击诱饵是互联网上的一种特殊现象，在不同的语言中臭名远扬。点击诱饵阻止读者获得有用的信息，长此以往会伤害新闻聚合器的影响力和媒体公信力。以前在点击诱饵检测工作主要集中在英语，因为英语是在互联网上使用最广泛的语言。然而，点击诱饵在其他语言中也很普遍，比如汉语。在汉语上检测点击点击的一种自然方法是训练英语模型并将其应用于汉语。然而，以往关于英语的研究利用了汉语和日语等其他语言所不具备的许多词汇和句法特征，它们的语言特异性限制了它们在其他语言上泛化能力。另一种方法是在汉语中标注点击语料库，这既费时又费力。

发明内容

发明的目的在于提供一种基于网络迁移的新闻点击诱饵检测方法，，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于网络迁移的新闻点击诱饵检测方法，从最开始的新闻输入，到最终的点击诱饵与正常新闻的检测，具体的实施步骤分解如下：

步骤1：当一个句子或者一条新闻到来时，需要对其进行预处理，将完整的句子切分为一个个独立的词，将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理；

步骤2：预训练词向量，模型接收的是数值化的输入，需要将单词进行向量化表示，表示连续而稠密，隐含了词语的语义信息，并且能够更好地与表现能力更强的神经网络进行结合，通过度大量的语料进行表示学习，得到每个单词的词向量表示，从而获得词的语义信息和上下文信息；

步骤3：在源领域进行训练，通过训练卷积神经网络和适配层的参数模型，使得模型在源领域取得最优效果；

步骤4：在目标领域进行训练，通过微调适配层，使得模型能够利用源领域的先验知识，同时通过微调的方法更好地拟合目标领域的数据，通过这种方式，训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型；

步骤5：分类，当一条新闻到来时，经过分词预处理，查找对应的词向量等操作，将其转换成为模型能够接受的连续的数值型数据，分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵，通过一个逻辑斯蒂回归，得到新闻标题为正常新闻或者点击诱饵的概率，认为概率大于0.5时为点击诱饵，否则为正常新闻。

进一步地，模型的框架由卷积神经网络层和适配层组成，卷积网络层将可变长度的输入映射到向量表示中，从而捕获句子的语义，适配器层使源域的模型适应于目标域。

进一步地，将单词进行向量化表示，社交媒体数据集上预先训练的词向量，通过函数查找L找到对应的给定词的词向量。

进一步地，具有不同滤波器尺寸的多个滤波器的卷积神经网络能够捕获不同级别的特征，给定句子中各个词,s＝{w₁，w₂，…，w_n},获得它们的词向量用e_i：i+n-1表示n个词向量的拼接，对于滤波器w∈R^h×k，其中h表示窗口大小，k表示词向量的维度，特征c_i可由如下公式获得：

c_i＝f(w·e_i:i+n-1+b)

其中b是偏置，f是非线性激活函数，采用RELU，通过不断的卷积操作，得到了特征集合c＝{c₁，c₂，…，c_i-h+1}，通过最大池化操作，得到了使用了多个不同大小的窗口。

进一步地，适配层执行以下数学运算：

其中f是一个非线性激活函数。

与现有技术相比，本发明的有益效果是：本发明提出的基于网络迁移的新闻点击诱饵检测方法，本发明使用转移学习来将关于点击饵检测的模型从源语言转移到只有很少注释的其他语言，在英语语料库上训练语源模型，并将其转换成汉语语料库，实验结果表明，本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能，表明了模型的有效性和鲁棒性，解决了人工标注的点击诱饵数据集既费时又费力的问题。

附图说明

图1为本发明的流程图；

图2为本发明的步骤1的程序代码图；

图3为本发明的步骤2的程序代码图；

图4为本发明的步骤3的程序代码图；

图5为本发明的步骤4的程序代码图；

图6为本发明的步骤5的程序代码图；

图7为本发明的两种语言在向量空间示意图；

图8为本发明的模型的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于网络迁移的新闻点击诱饵检测方法，流程如图1，从最开始的新闻输入，到最终的点击诱饵与正常新闻的检测，具体的实施步骤分解如下：

步骤1：当一个句子或者一条新闻到来时，需要对其进行预处理，将完整的句子切分为一个个独立的词，将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理(程序代码如图2)；

步骤2：预训练词向量，模型接收的是数值化的输入，需要将单词进行向量化表示，表示连续而稠密，隐含了词语的语义信息，并且能够更好地与表现能力更强的神经网络进行结合，通过度大量的语料进行表示学习，得到每个单词的词向量表示，从而获得词的语义信息和上下文信息(程序代码如图3)；

步骤3：在源领域进行训练，由于在目标领域只有少量的数据，为了能更好的迁移源领域的知识到目标领域，需要更充分将模型与源领域的数据相适应。由于神经网络模型包含卷积神经网络层和适配层，卷积神经网络的主要目的是自动地提取特征，而适配层则是获得更高层次的抽象，以适应具体的目标领域。通过训练卷积神经网络和适配层的参数模型，使得模型在源领域取得最优效果(程序代码如图4)；

步骤4：在目标领域进行训练，在源领域训练得到卷积神经网络的参数后，固定卷积神经网络层，因为卷积网络的主要作用是抽取通用的特征。要适配目标领域，通过微调适配层，使得模型能够利用源领域的先验知识，同时通过微调的方法更好地拟合目标领域的数据。通过这种方式，训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型(程序代码如图5)；

步骤5：分类，当一条新闻到来时，经过分词预处理，查找对应的词向量等操作，将其转换成为模型能够接受的连续的数值型数据，分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵，通过一个逻辑斯蒂回归，得到新闻标题为正常新闻或者点击诱饵的概率，认为概率大于0.5时为点击诱饵，否则为正常新闻(程序代码如图6)。

点击诱饵在各种语言上都十分普遍，然而，以往的工作主要集中在互联网上使用最广泛的语言，即英语，很少有其他语言。认知科学家和心理学家从认知的角度研究点击诱饵。根据著名的信息缺口理论，点击诱饵制造了一个已经知道的和想知道的缺口。如果没有填补这个空缺，人们会感到焦虑和分心。机器学习界将点击诱饵检测作为一个分类任务，将标题分类为点击诱饵和非点击诱饵。波特斯特等是最早在社交媒体上进行点击检测研究的人之一，主要集中在Twitter平台上。然而，其方法使用了一些英语独有的信息，如大写，复数等，这在其他语言中，如中文和日语，并不常见。比亚尼等利用非正式性的度量，即标题包含多少信息。我们的工作不同于以前的工作。首先，我们的目标是开发一个通用模型，它可以应用于所有语言，所以本发明不使用任何语言特定的特征。其次，本发明利用网络，利用少量人工标注的语料就能达到以往模型相同的性能。

如图7，以英语和法语为例，来自不同语言的具有相似含义的单词(如名词和形容词)在向量空间中很接近。因此，可以将模型从一种语言适应到另一种语言，本发明使用迁移学习将大量英语语料库中训练好的模型迁移到只有很少注释的汉语语料库中，这将，大大降低传输模型到不同语言的成本。在英语中对源模型进行训练，然后将其转换成中文语料库，以适应不同领域的模型。实验结果表明，与具有迁移学习的模型相比，本发明的模型需要更少的注释数据，表明了本发明的模型在不同语言中的有效性和鲁棒性。

模型的框架如图8，模型的框架由卷积神经网络层和适配层组成，卷积网络层将可变长度的输入映射到向量表示中，从而捕获句子的语义，适配器层使源域的模型适应于目标域。

1.词向量表示

作为模型的输入，需要将单词进行向量化表示，相对于传统的稀疏离散的“单热”表示方法，这种表示连续而稠密，隐含了词语的语义信息。并且能够更好地与表现能力更强的神经网络进行结合，社交媒体数据集上预先训练的词向量，通过函数查找L找到对应的给定词的词向量。

2.卷积神经网络

卷积神经网络(CNN)是一种前馈神经网络，它最早应用于计算视觉。最近，它也显示了自然语言处理任务的能力，如情感分析。CNN的内在特性允许在本地多个词之间进行权重共享和全局汇集，这使得它能够捕获本地特征和全局特征，具有不同滤波器尺寸的多个滤波器的卷积神经网络能够捕获不同级别的特征，给定句子中各个词,s＝{w₁，w₂，…，w_n},获得它们的词向量用e_{i：i＝i+n-1}表示n个词向量的拼接，对于滤波器w∈R^h×k，其中h表示窗口大小，k表示词向量的维度，特征c_i可由如下公式获得：

c_i＝f(w·e_i:i+n-1+b)

3.适配层

适配层是一个完全连接的层，被设计成捕获语言特定的特征。给定卷积神经网络层的输出，适配层执行以下数学运算：

其中f是一个非线性激活函数，使用非线性函数tanh，对于源域中的训练，卷积神经网络层和适配器层都被训练。然而，当将它应用到目标域时，保持卷积神经网络层的参数固定，因为卷积神经网络层捕获不依赖于语言的点击诱饵的共同特征，并更新适配器层的参数。通过这些设计，将模型从源域适应到目标域。

综上所述，本发明提出的基于网络迁移的新闻点击诱饵检测方法，本发明使用转移学习来将关于点击饵检测的模型从源语言转移到只有很少注释的其他语言，在英语语料库上训练语源模型，并将其转换成汉语语料库，实验结果表明，本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能，表明了模型的有效性和鲁棒性，解决了人工标注的点击诱饵数据集既费时又费力的问题。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于网络迁移的新闻点击诱饵检测方法，其特征在于，从最开始的新闻输入，到最终的点击诱饵与正常新闻的检测，具体的实施步骤分解如下：

步骤5：分类，当一条新闻到来时，经过分词预处理，查找对应的词向量操作，将其转换成为模型能够接受的连续的数值型数据，分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵，通过一个逻辑斯蒂回归，得到新闻标题为正常新闻或者点击诱饵的概率，认为概率大于0.5时为点击诱饵，否则为正常新闻。

2.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法，其特征在于，模型的框架由卷积神经网络层和适配层组成，卷积网络层将可变长度的输入映射到向量表示中，从而捕获句子的语义，适配器层使源域的模型适应于目标域。

3.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法，其特征在于，将单词进行向量化表示，社交媒体数据集上预先训练的词向量，通过函数查找L找到对应的给定词的词向量。

4.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法，其特征在于，具有不同滤波器尺寸的多个滤波器的卷积神经网络能够捕获不同级别的特征，给定句子中各个词,s＝{w₁，w₂，…，w_n},获得它们的词向量用e_i：i+n-1表示n个词向量的拼接，对于滤波器w∈R^h×k，其中h表示窗口大小，k表示词向量的维度，特征c_i可由如下公式获得：

c_i＝f(w·e_i：i+n-1+b)

其中b是偏置，f是非线性激活函数，采用RELU，通过不断的卷积操作，得到了特征集合c＝{c₁，c₂，…c_i-h+1}，通过最大池化操作，得到了使用了多个不同大小的窗口。

5.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法，其特征在于，适配层执行以下数学运算：

其中f是一个非线性激活函数。