CN107103071A

CN107103071A - 一种基于直接优化pauc算法的新闻信息分类方法

Info

Publication number: CN107103071A
Application number: CN201710266425.0A
Authority: CN
Inventors: 程凡; 宋栋栋; 张闯; 张兴义; 岳千里; 章霞
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2017-08-29
Anticipated expiration: 2037-04-21
Also published as: CN107103071B

Abstract

本发明公开了一种基于直接优化PAUC算法的新闻信息分类方法，其特征是按如下步骤进行：1、采集新闻信息的数据集，并将数据集S按照样本的类别划分为相关新闻信息集合S₊与非相关新闻信息集合S_‑；2、从所述相关信息集合S₊和不相关信息集合S_‑选取新闻信息特征x_T；3、通过新闻信息特征x_T得到第T次迭代的自适应梯度4、利用自适应梯度更新预测模型w_T。本发明能高效的在海量的新闻信息中筛选出符合用户喜好的新闻，提高了用户对新闻信息的搜索效率，提升了用户体验。

Description

一种基于直接优化PAUC算法的新闻信息分类方法

技术领域

本发明涉及统计学习分类技术领域，更具体地说是一种基于随机梯度下降法的直接优化PAUC的新闻主题分类方法。

背景技术

当今社会急速发展，科技日新月异，人们每时每刻的生活都被大量的数据所环绕，毫无疑问，这是社会进步的象征。网上浏览新闻作为一种喜闻乐见的放松方式，不仅能够增长人们的见识，同时能够加深人们对事物的认知。但若无法在海量的新闻信息中甄别出对用户关注的信息，那么数量如此庞大的信息必定会严重影响我们的工作以及学习效率。

在海量的新闻信息中，用户感兴趣的信息少之又少，因此如何提取其中用户关注的信息显得极为重要。对于此类在众多的数据中提取少量有效信息的案例，正是使用了机器学习中对于不平衡数据集的分类算法。而PAUC(partial area under curve)评估标准，能很好的度量不平衡二分类算法的整体性能，因此在机器学习中受到广泛关注。基于此，本发明提出了基于直接优化PAUC算法的新闻信息分类方法

PAUC的概念最早在医疗领域提出，并迅速被众多学者所认可，此后在生物信息方面得到了广泛使用。PAUC在科学研究中具有十分深刻的意义，值得人们在学习生活中不断地使用和推广。目前针对PAUC的分类问题，主要有两种经典的处理方案：批学习求解和随机学习求解。其中，批学习求解中最为高效的案例是：2013年，HarikrishnaNarasimhan将PAUC从生物信息领域拓展到更广泛的应用空间，提出一种“通用”的直接优化PAUC的算法。在此基础上，2014年，Purushottam Kar首次提出了基于Mini-batch的随机PAUC优化算法，为保证较快的运行时间，训练过程中只使用了部分正样本。但此前的算法效果在处理大规模数据集时，都存在“耗时长”的弊端，不能满足当前“数据爆炸”的趋势。

发明内容

本发明为克服现有技术存在的不足之处，提出一种基于直接优化PAUC算法的新闻信息分类方法，以期能在大规模新闻信息数据中迅速筛选出用户感兴趣的新闻信息，从而提高分类精度。

为了达到上述目的，本发明所采用的技术方案为：

本发明一种基于直接优化PAUC算法的新闻信息分类方法特点是按如下步骤进行：

步骤1、采集新闻信息，记为x_i表示第i个新闻信息，x_i∈R^d；R^d表示实数的d维空间，d表示新闻信息包含的主题词个数；y_i表示新闻信息的相关性，且y_i∈{+1,-1}；当y_i＝+1时，表示第i个新闻信息x_i为用户感兴趣信息，当y_i＝-1时，表示第i个新闻信息x_i非用户感兴趣信息；1≤i≤n；

将所有用户感兴趣信息作为相关信息集合S₊＝{(x^₊,+1)}；且表示第i个相关信息，1≤i≤n^₊，其余信息作为不相关信息集合S_-＝{(x^-,-1)}，且表示第j个不相关信息；1≤j≤n^-，n⁺+n^-＝n；

步骤2、从所述相关信息集合S₊和不相关信息集合S_-选取新闻信息特征x_T；

步骤2.1、定义迭代次数为T，初始化T＝1；定义最大迭代次数为T_max，定义迭代过程中的排序间隔数为k，并有t＝T mod k；

初始化第T次迭代的预测模型w为一个d维的零向量，记为w_T；

步骤2.2、判断t＝0是否成立，若成立，则执行步骤2.3；否则，将赋值给再执行步骤2.5；

步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合

步骤2.4、对所述决策函数集合降序排序，并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值；

步骤2.5、从所述相关信息集合S₊中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算，得到第T次迭代的新闻信息特征

步骤3、通过新闻信息特征x_T得到第T次迭代的自适应梯度

步骤3.1、利用式(2)定义损失函数为：

步骤3.2、对所述损失函数求偏导，利用随机梯度下降法得到第T次迭代的梯度g_T；

步骤3.3、对前T次迭代的梯度求二范数的平方M_T，得到第T次迭代的自适应步长其中θ为常数；

步骤3.4、利用式(3)更新第T次迭代的梯度g_T以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度

步骤4、利用式(4)更新第T次迭代的预测模型w_T：

式(4)中，η为全局步长；

步骤5、将T+1赋值给T，并返回步骤2.2，直到T＞T_max为止，从而得到全局预测模型

步骤6、使用全局预测模型对其他新闻信息集合进行分类，从而得到用户感兴趣信息。

与已有技术相比，本发明的有益效果体现在：

1.本发明提出一种基于直接优化PAUC算法的分类方法，并应用于互联网新闻信息筛选过程中，利用随机梯度下降法能够高效的根据用户关注的主题对海量的新闻信息进行有效的筛选，保证了海量新闻信息筛选过程的高效性；从而提高了搜索的效率，并提升了用户体验；同时在信息的筛选过程中，选择的迭代样本具有较强的针对性，从而有效的避免了随机样本选择出单个不相关信息对预测模型的负面干扰；在梯度更新过程中，使用了自适应的梯度，使梯度更加科学合理，更有利于在较短的时间内得到令人满意的新闻信息的预测模型，从而提高了新闻信息的分类精度。

2.本发明在迭代训练过程中，使用相关与不相关信息特征向量的差值得到的新的迭代训练特征向量参与迭代，避免了单个不相关信息对预测模型的干扰，从而保证了每一次的迭代过程对于预测模型的优化都有意义。

3.本发明在不相关信息特征向量的选择过程中，引入参数k，对不相关信息特征向量采取间隔k次迭代过程排序一次的方式，避免了此前研究每次迭代过程都对所有不相关信息都进行排序的过程，进而大幅度的节省了迭代训练时间，保证对海量新闻信息的检索更加高效。

4.本发明在梯度的更新过程中使用了自适应更新的梯度，该梯度能够尽可能提取出历史梯度的相关信息，分析历史梯度间的关联，保证了构建出的梯度更加科学合理。同时该梯度包含了当前特征的每一维自适应得到的“相对较好”的步长，避免了手动调试步长的过程，使预测模型的构建过程更加迅速。

附图说明

图1是本发明方法流程图。

具体实施方式

本实施例中，一种基于直接优化PAUC算法的新闻信息分类方法，该方法是应用到互联网新闻信息的筛选以及推荐过程中，该方法能够根据用户对新闻的查看情况，筛选出用户关注新闻的“主题特征”，进而以此特征对此后所有的新闻进行筛选，从而将筛选过后符合用户喜好的新闻提供给用户，具体的说，如图1所示，是按如下过程进行：

步骤1、用户每天都会浏览新闻，但新闻的内容覆盖生活的方方面面，比如：“NBA”、“CBA”、“中超”、“NCAA”、“世界杯预选赛”等等。但用户在浏览的过程中，只会浏览自己感兴趣的新闻信息，例如“NBA”的相关信息。由此，利用网络爬虫软件采集网络上的新闻信息，具体的讲，首先获取网页的统一资源定位符URL，然后对URL进行解析从而得到新闻信息的数据，记为x_i表示第i个新闻信息，x_i∈R^d；R^d表示实数的d维空间，d表示新闻信息包含的主题词个数，各个主题词分别对应：时间、地点、人物、事件的起因、经过、结果等等，从而对新闻信息的内容进行具体阐述；y_i表示新闻信息的相关性，且y_i∈{+1,-1}；当y_i＝+1时，表示第i个新闻信息x_i为用户感兴趣信息，当y_i＝-1时，表示第i个新闻信息x_i非用户感兴趣信息；1≤i≤n；

众所周知，浏览器中检索到的海量信息，仅有一小部分与“NBA”相关。首先将检索到的所有新闻信息根据其与用户兴趣(比如此处的“NBA”)的相关性进行分类，将所有用户感兴趣信息作为相关信息集合S₊＝{(x⁺,+1)}；且表示第i个相关信息，1≤i≤n⁺，其余信息作为不相关信息集合S_-＝{(x^-,-1)}，且表示第j个不相关信息；1≤j≤n^-，n⁺+n^-＝n；

步骤2、从相关信息集合S₊和不相关信息集合S_-选取新闻信息特征x_T；

步骤2.1、定义迭代次数为T，初始化T＝1；定义最大迭代次数为T_max，定义迭代过程中的排序间隔数为k，并有t＝T mod k；相对于此前的分类算法，本发明引入参数k，避免了每次迭代过程中对所有的不相关信息都进行排序的过程，使得面对同等数量的信息时迭代训练过程更加迅速；

初始化第T次迭代的预测模型w为一个d维的零向量，记为w_T；

步骤2.2、判断t＝0是否成立，若成立，则执行步骤2.3；否则，将赋值给保证对不相关信息不排序时，可以使用上次排序生成的不相关信息集合，再执行步骤2.5；

步骤2.4、对不相关信息对应的决策函数集合降序排序，并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值；之所以选择决策函数值较大的不相关信息参与训练是因为这些决策函数值较大的不相关信息更容易被错误识别为相关信息，因此，相对于其他的不相关信息他们显得更为重要，通过引入这些决策函数值较大的不相关信息，可以保证训练出的预测模型w_T具有更高的容错性；

步骤2.5、从相关信息集合S₊中随机选择第T次迭代的相关信息从第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算，得到第T次迭代的新闻信息特征x_T的每维数据综合了相关信息与不相关信息各个主题词的特征，正是基于此，使用x_T参与迭代相对于单独使用或者更具迭代训练意义，保证了通过迭代得到的预测模型w_T适用于所有的新闻数据；

步骤3、通过新闻信息特征x_T得到第T次迭代的自适应梯度

步骤3.1、利用式(2)定义损失函数为：

步骤3.2、对损失函数求偏导，利用随机梯度下降法得到第T次迭代的梯度g_T；

步骤3.3、对前T次迭代的梯度求二范数的平方M_T，得到第T次迭代的自适应步长其中θ为常数；前T次迭代过程的梯度的使用，能够得到一个自适应的步长，不必像之前的分类算法必须手动调试才能够选到合适的步长，从而一定程度上节省了对海量新闻信息的迭代训练时间；

此梯度相对于其他优化算法的梯度，在对预测模型w_T的优化方面更加突出，从而能够尽快的得到筛选新闻信息所需的预测模型w_T；

步骤4、利用式(4)更新第T次迭代的预测模型w_T，该模型的各个维度值对用户关注的新闻进行了合理量化：

式(4)中，η为全局步长；

步骤6、使用全局预测模型对其他新闻信息集合进行分类，将用户感兴趣的新闻信息快速筛选出来，从而提高搜索效率。

针对本发明方法进行实验论证，具体包括：

1)准备标准数据集

本发明使用a9a数据集作为标准数据集验证直接优化PAUC的新闻筛选方法的有效性，a9a数据集是广泛应用于不平衡分类的基准数据集。在a9a数据集中，包含32561条数据即对应采集到的32561条新闻信息，训练集和测试集采用80％/20％的规则进行分割，即随机选择26049个评分作为训练集，6512个评分作为测试集。

2)评价指标

采用PAUC作为本实施例的评价指标，用来评测分类精度。分类精度值越高，表示分类效果越好。

3)在标准数据集上进行实验

为了验证本发明所提方法的有效性，将本发明的AdaOPauc算法与此前经典的割平面算法CPM同基于随机的Mini-batch算法在a9a数据集上进行建模和预测，并将三者的预测结果进行比较。实验结果如表2所示：

表2对比实验结果

从上表中可以看到在不平衡数据集a9a中，本发明的AdaOPauc算法相对于其他两者的算法，不仅耗费的时间少，而且获得了较高的分类精度，进而体现出本发明的有效性。在信息量日益庞大的今天，数据处理的高效性越来越重要，只有在尽量短的时间内提取到有效的信息，才能够真正发挥有效信息的意义。而本发明所提方法正是基于此，在海量的信息中根据用户的喜好更高效的筛选出用户感兴趣的新闻信息，提高了用户对新闻的搜索效率，使用户浏览新闻的过程更加快捷、方便。

Claims

1.一种基于直接优化PAUC算法的新闻信息分类方法，其特征是按如下步骤进行：

将所有用户感兴趣信息作为相关信息集合S₊＝{(x⁺,+1)}；且表示第i个相关信息，1≤i≤n⁺，其余信息作为不相关信息集合S_-＝{(x^-,-1)}，且表示第j个不相关信息；1≤j≤n^-，n⁺+n^-＝n；

步骤2.1、定义迭代次数为T，初始化T＝1；定义最大迭代次数为T_max，定义迭代过程中的排序间隔数为k，并有t＝Tmodk；

初始化第T次迭代的预测模型w为一个d维的零向量，记为w_T；

步骤3、通过新闻信息特征x_T得到第T次迭代的自适应梯度

步骤3.1、利用式(2)定义损失函数为：

<mrow> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>T</mi> </msub> <mo>,</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>w</mi> <mi>T</mi> </msub> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>+</mo> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>g</mi> <mi>T</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <msqrt> <mrow> <msub> <mi>M</mi> <mi>T</mi> </msub> <mo>+</mo> <mi>&theta;</mi> </mrow> </msqrt> </mfrac> <msub> <mi>g</mi> <mi>T</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

步骤4、利用式(4)更新第T次迭代的预测模型w_T：

式(4)中，η为全局步长；