CN107103071A - 一种基于直接优化pauc算法的新闻信息分类方法 - Google Patents

一种基于直接优化pauc算法的新闻信息分类方法 Download PDF

Info

Publication number
CN107103071A
CN107103071A CN201710266425.0A CN201710266425A CN107103071A CN 107103071 A CN107103071 A CN 107103071A CN 201710266425 A CN201710266425 A CN 201710266425A CN 107103071 A CN107103071 A CN 107103071A
Authority
CN
China
Prior art keywords
information
mrow
msubsup
msub
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710266425.0A
Other languages
English (en)
Other versions
CN107103071B (zh
Inventor
程凡
宋栋栋
张闯
张兴义
岳千里
章霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201710266425.0A priority Critical patent/CN107103071B/zh
Publication of CN107103071A publication Critical patent/CN107103071A/zh
Application granted granted Critical
Publication of CN107103071B publication Critical patent/CN107103071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:1、采集新闻信息的数据集,并将数据集S按照样本的类别划分为相关新闻信息集合S+与非相关新闻信息集合S;2、从所述相关信息集合S+和不相关信息集合S选取新闻信息特征xT;3、通过新闻信息特征xT得到第T次迭代的自适应梯度4、利用自适应梯度更新预测模型wT。本发明能高效的在海量的新闻信息中筛选出符合用户喜好的新闻,提高了用户对新闻信息的搜索效率,提升了用户体验。

Description

一种基于直接优化PAUC算法的新闻信息分类方法
技术领域
本发明涉及统计学习分类技术领域,更具体地说是一种基于随机梯度下降法的直接优化PAUC的新闻主题分类方法。
背景技术
当今社会急速发展,科技日新月异,人们每时每刻的生活都被大量的数据所环绕,毫无疑问,这是社会进步的象征。网上浏览新闻作为一种喜闻乐见的放松方式,不仅能够增长人们的见识,同时能够加深人们对事物的认知。但若无法在海量的新闻信息中甄别出对用户关注的信息,那么数量如此庞大的信息必定会严重影响我们的工作以及学习效率。
在海量的新闻信息中,用户感兴趣的信息少之又少,因此如何提取其中用户关注的信息显得极为重要。对于此类在众多的数据中提取少量有效信息的案例,正是使用了机器学习中对于不平衡数据集的分类算法。而PAUC(partial area under curve)评估标准,能很好的度量不平衡二分类算法的整体性能,因此在机器学习中受到广泛关注。基于此,本发明提出了基于直接优化PAUC算法的新闻信息分类方法
PAUC的概念最早在医疗领域提出,并迅速被众多学者所认可,此后在生物信息方面得到了广泛使用。PAUC在科学研究中具有十分深刻的意义,值得人们在学习生活中不断地使用和推广。目前针对PAUC的分类问题,主要有两种经典的处理方案:批学习求解和随机学习求解。其中,批学习求解中最为高效的案例是:2013年,HarikrishnaNarasimhan将PAUC从生物信息领域拓展到更广泛的应用空间,提出一种“通用”的直接优化PAUC的算法。在此基础上,2014年,Purushottam Kar首次提出了基于Mini-batch的随机PAUC优化算法,为保证较快的运行时间,训练过程中只使用了部分正样本。但此前的算法效果在处理大规模数据集时,都存在“耗时长”的弊端,不能满足当前“数据爆炸”的趋势。
发明内容
本发明为克服现有技术存在的不足之处,提出一种基于直接优化PAUC算法的新闻信息分类方法,以期能在大规模新闻信息数据中迅速筛选出用户感兴趣的新闻信息,从而提高分类精度。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种基于直接优化PAUC算法的新闻信息分类方法特点是按如下步骤进行:
步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;
将所有用户感兴趣信息作为相关信息集合S+={(x + ,+1)};且表示第i个相关信息,1≤i≤n + ,其余信息作为不相关信息集合S-={(x-,-1)},且 表示第j个不相关信息;1≤j≤n-,n++n-=n;
步骤2、从所述相关信息集合S+和不相关信息集合S-选取新闻信息特征xT
步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=T mod k;
初始化第T次迭代的预测模型w为一个d维的零向量,记为wT
步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给再执行步骤2.5;
步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合
步骤2.4、对所述决策函数集合降序排序,并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值;
步骤2.5、从所述相关信息集合S+中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算,得到第T次迭代的新闻信息特征
步骤3、通过新闻信息特征xT得到第T次迭代的自适应梯度
步骤3.1、利用式(2)定义损失函数为:
步骤3.2、对所述损失函数求偏导,利用随机梯度下降法得到第T次迭代的梯度gT
步骤3.3、对前T次迭代的梯度求二范数的平方MT,得到第T次迭代的自适应步长其中θ为常数;
步骤3.4、利用式(3)更新第T次迭代的梯度gT以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度
步骤4、利用式(4)更新第T次迭代的预测模型wT
式(4)中,η为全局步长;
步骤5、将T+1赋值给T,并返回步骤2.2,直到T>Tmax为止,从而得到全局预测模型
步骤6、使用全局预测模型对其他新闻信息集合进行分类,从而得到用户感兴趣信息。
与已有技术相比,本发明的有益效果体现在:
1.本发明提出一种基于直接优化PAUC算法的分类方法,并应用于互联网新闻信息筛选过程中,利用随机梯度下降法能够高效的根据用户关注的主题对海量的新闻信息进行有效的筛选,保证了海量新闻信息筛选过程的高效性;从而提高了搜索的效率,并提升了用户体验;同时在信息的筛选过程中,选择的迭代样本具有较强的针对性,从而有效的避免了随机样本选择出单个不相关信息对预测模型的负面干扰;在梯度更新过程中,使用了自适应的梯度,使梯度更加科学合理,更有利于在较短的时间内得到令人满意的新闻信息的预测模型,从而提高了新闻信息的分类精度。
2.本发明在迭代训练过程中,使用相关与不相关信息特征向量的差值得到的新的迭代训练特征向量参与迭代,避免了单个不相关信息对预测模型的干扰,从而保证了每一次的迭代过程对于预测模型的优化都有意义。
3.本发明在不相关信息特征向量的选择过程中,引入参数k,对不相关信息特征向量采取间隔k次迭代过程排序一次的方式,避免了此前研究每次迭代过程都对所有不相关信息都进行排序的过程,进而大幅度的节省了迭代训练时间,保证对海量新闻信息的检索更加高效。
4.本发明在梯度的更新过程中使用了自适应更新的梯度,该梯度能够尽可能提取出历史梯度的相关信息,分析历史梯度间的关联,保证了构建出的梯度更加科学合理。同时该梯度包含了当前特征的每一维自适应得到的“相对较好”的步长,避免了手动调试步长的过程,使预测模型的构建过程更加迅速。
附图说明
图1是本发明方法流程图。
具体实施方式
本实施例中,一种基于直接优化PAUC算法的新闻信息分类方法,该方法是应用到互联网新闻信息的筛选以及推荐过程中,该方法能够根据用户对新闻的查看情况,筛选出用户关注新闻的“主题特征”,进而以此特征对此后所有的新闻进行筛选,从而将筛选过后符合用户喜好的新闻提供给用户,具体的说,如图1所示,是按如下过程进行:
步骤1、用户每天都会浏览新闻,但新闻的内容覆盖生活的方方面面,比如:“NBA”、“CBA”、“中超”、“NCAA”、“世界杯预选赛”等等。但用户在浏览的过程中,只会浏览自己感兴趣的新闻信息,例如“NBA”的相关信息。由此,利用网络爬虫软件采集网络上的新闻信息,具体的讲,首先获取网页的统一资源定位符URL,然后对URL进行解析从而得到新闻信息的数据,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数,各个主题词分别对应:时间、地点、人物、事件的起因、经过、结果等等,从而对新闻信息的内容进行具体阐述;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;
众所周知,浏览器中检索到的海量信息,仅有一小部分与“NBA”相关。首先将检索到的所有新闻信息根据其与用户兴趣(比如此处的“NBA”)的相关性进行分类,将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且 表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S-={(x-,-1)},且 表示第j个不相关信息;1≤j≤n-,n++n-=n;
步骤2、从相关信息集合S+和不相关信息集合S-选取新闻信息特征xT
步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=T mod k;相对于此前的分类算法,本发明引入参数k,避免了每次迭代过程中对所有的不相关信息都进行排序的过程,使得面对同等数量的信息时迭代训练过程更加迅速;
初始化第T次迭代的预测模型w为一个d维的零向量,记为wT
步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给保证对不相关信息不排序时,可以使用上次排序生成的不相关信息集合,再执行步骤2.5;
步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合
步骤2.4、对不相关信息对应的决策函数集合降序排序,并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值;之所以选择决策函数值较大的不相关信息参与训练是因为这些决策函数值较大的不相关信息更容易被错误识别为相关信息,因此,相对于其他的不相关信息他们显得更为重要,通过引入这些决策函数值较大的不相关信息,可以保证训练出的预测模型wT具有更高的容错性;
步骤2.5、从相关信息集合S+中随机选择第T次迭代的相关信息从第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算,得到第T次迭代的新闻信息特征xT的每维数据综合了相关信息与不相关信息各个主题词的特征,正是基于此,使用xT参与迭代相对于单独使用或者更具迭代训练意义,保证了通过迭代得到的预测模型wT适用于所有的新闻数据;
步骤3、通过新闻信息特征xT得到第T次迭代的自适应梯度
步骤3.1、利用式(2)定义损失函数为:
步骤3.2、对损失函数求偏导,利用随机梯度下降法得到第T次迭代的梯度gT
步骤3.3、对前T次迭代的梯度求二范数的平方MT,得到第T次迭代的自适应步长其中θ为常数;前T次迭代过程的梯度的使用,能够得到一个自适应的步长,不必像之前的分类算法必须手动调试才能够选到合适的步长,从而一定程度上节省了对海量新闻信息的迭代训练时间;
步骤3.4、利用式(3)更新第T次迭代的梯度gT以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度
此梯度相对于其他优化算法的梯度,在对预测模型wT的优化方面更加突出,从而能够尽快的得到筛选新闻信息所需的预测模型wT
步骤4、利用式(4)更新第T次迭代的预测模型wT,该模型的各个维度值对用户关注的新闻进行了合理量化:
式(4)中,η为全局步长;
步骤5、将T+1赋值给T,并返回步骤2.2,直到T>Tmax为止,从而得到全局预测模型
步骤6、使用全局预测模型对其他新闻信息集合进行分类,将用户感兴趣的新闻信息快速筛选出来,从而提高搜索效率。
针对本发明方法进行实验论证,具体包括:
1)准备标准数据集
本发明使用a9a数据集作为标准数据集验证直接优化PAUC的新闻筛选方法的有效性,a9a数据集是广泛应用于不平衡分类的基准数据集。在a9a数据集中,包含32561条数据即对应采集到的32561条新闻信息,训练集和测试集采用80%/20%的规则进行分割,即随机选择26049个评分作为训练集,6512个评分作为测试集。
2)评价指标
采用PAUC作为本实施例的评价指标,用来评测分类精度。分类精度值越高,表示分类效果越好。
3)在标准数据集上进行实验
为了验证本发明所提方法的有效性,将本发明的AdaOPauc算法与此前经典的割平面算法CPM同基于随机的Mini-batch算法在a9a数据集上进行建模和预测,并将三者的预测结果进行比较。实验结果如表2所示:
表2对比实验结果
从上表中可以看到在不平衡数据集a9a中,本发明的AdaOPauc算法相对于其他两者的算法,不仅耗费的时间少,而且获得了较高的分类精度,进而体现出本发明的有效性。在信息量日益庞大的今天,数据处理的高效性越来越重要,只有在尽量短的时间内提取到有效的信息,才能够真正发挥有效信息的意义。而本发明所提方法正是基于此,在海量的信息中根据用户的喜好更高效的筛选出用户感兴趣的新闻信息,提高了用户对新闻的搜索效率,使用户浏览新闻的过程更加快捷、方便。

Claims (1)

1.一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:
步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;
将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且 表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S-={(x-,-1)},且 表示第j个不相关信息;1≤j≤n-,n++n-=n;
步骤2、从所述相关信息集合S+和不相关信息集合S-选取新闻信息特征xT
步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=Tmodk;
初始化第T次迭代的预测模型w为一个d维的零向量,记为wT
步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给再执行步骤2.5;
步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合
<mrow> <msubsup> <mi>f</mi> <mrow> <mi>T</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>-</mo> </msubsup> <mo>=</mo> <msub> <mi>w</mi> <mi>T</mi> </msub> <msubsup> <mi>x</mi> <mi>j</mi> <mo>-</mo> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
步骤2.4、对所述决策函数集合降序排序,并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值;
步骤2.5、从所述相关信息集合S+中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算,得到第T次迭代的新闻信息特征
步骤3、通过新闻信息特征xT得到第T次迭代的自适应梯度
步骤3.1、利用式(2)定义损失函数为:
<mrow> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>T</mi> </msub> <mo>,</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>w</mi> <mi>T</mi> </msub> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>+</mo> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>T</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
步骤3.2、对所述损失函数求偏导,利用随机梯度下降法得到第T次迭代的梯度gT
步骤3.3、对前T次迭代的梯度求二范数的平方MT,得到第T次迭代的自适应步长其中θ为常数;
步骤3.4、利用式(3)更新第T次迭代的梯度gT以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度
<mrow> <msubsup> <mi>g</mi> <mi>T</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <msqrt> <mrow> <msub> <mi>M</mi> <mi>T</mi> </msub> <mo>+</mo> <mi>&amp;theta;</mi> </mrow> </msqrt> </mfrac> <msub> <mi>g</mi> <mi>T</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
步骤4、利用式(4)更新第T次迭代的预测模型wT
<mrow> <msub> <mi>w</mi> <mrow> <mi>T</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msub> <mi>w</mi> <mi>T</mi> </msub> <mo>-</mo> <msubsup> <mi>&amp;eta;g</mi> <mi>T</mi> <mo>*</mo> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
式(4)中,η为全局步长;
步骤5、将T+1赋值给T,并返回步骤2.2,直到T>Tmax为止,从而得到全局预测模型
步骤6、使用全局预测模型对其他新闻信息集合进行分类,从而得到用户感兴趣信息。
CN201710266425.0A 2017-04-21 2017-04-21 一种基于直接优化pauc算法的新闻信息分类方法 Active CN107103071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710266425.0A CN107103071B (zh) 2017-04-21 2017-04-21 一种基于直接优化pauc算法的新闻信息分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710266425.0A CN107103071B (zh) 2017-04-21 2017-04-21 一种基于直接优化pauc算法的新闻信息分类方法

Publications (2)

Publication Number Publication Date
CN107103071A true CN107103071A (zh) 2017-08-29
CN107103071B CN107103071B (zh) 2019-08-02

Family

ID=59656303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710266425.0A Active CN107103071B (zh) 2017-04-21 2017-04-21 一种基于直接优化pauc算法的新闻信息分类方法

Country Status (1)

Country Link
CN (1) CN107103071B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943916A (zh) * 2017-11-20 2018-04-20 安徽大学 一种基于在线分类的网页异常检测方法
CN109255370A (zh) * 2018-08-20 2019-01-22 安徽大学 一种基于pauc算法的农田智能喷药方法
CN110569436A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种基于高维辅助信息的网络媒体新闻推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902980A (zh) * 2012-09-13 2013-01-30 中国科学院自动化研究所 一种基于线性规划模型的生物特征图像分析与识别方法
CN103310101A (zh) * 2013-06-07 2013-09-18 北京师范大学 一种二元分类评价方法
JP2014238763A (ja) * 2013-06-10 2014-12-18 ヤフー株式会社 分類精度推定装置、分類精度推定方法、およびプログラム
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
CN105095368A (zh) * 2015-06-29 2015-11-25 北京金山安全软件有限公司 一种对新闻信息进行排序的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902980A (zh) * 2012-09-13 2013-01-30 中国科学院自动化研究所 一种基于线性规划模型的生物特征图像分析与识别方法
CN103310101A (zh) * 2013-06-07 2013-09-18 北京师范大学 一种二元分类评价方法
JP2014238763A (ja) * 2013-06-10 2014-12-18 ヤフー株式会社 分類精度推定装置、分類精度推定方法、およびプログラム
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
CN105095368A (zh) * 2015-06-29 2015-11-25 北京金山安全软件有限公司 一种对新闻信息进行排序的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943916A (zh) * 2017-11-20 2018-04-20 安徽大学 一种基于在线分类的网页异常检测方法
CN107943916B (zh) * 2017-11-20 2020-02-14 安徽大学 一种基于在线分类的网页异常检测方法
CN109255370A (zh) * 2018-08-20 2019-01-22 安徽大学 一种基于pauc算法的农田智能喷药方法
CN109255370B (zh) * 2018-08-20 2021-07-27 安徽大学 一种基于pauc算法的农田智能喷药方法
CN110569436A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种基于高维辅助信息的网络媒体新闻推荐方法

Also Published As

Publication number Publication date
CN107103071B (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN103714084B (zh) 推荐信息的方法和装置
CN107273490A (zh) 一种基于知识图谱的组合错题推荐方法
CN109299380B (zh) 在线教育平台中基于多维特征的习题个性化推荐方法
CN110489755A (zh) 文本生成方法和装置
CN109241255A (zh) 一种基于深度学习的意图识别方法
US20100023508A1 (en) Search engine enhancement using mined implicit links
CN107220277A (zh) 基于手绘草图的图像检索算法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN107133436A (zh) 一种多重抽样模型训练方法及装置
CN106355446B (zh) 一种网络和手机游戏的广告推荐系统
CN107391659A (zh) 一种基于信誉度的引文网络学术影响力评价排序方法
CN108573041A (zh) 基于加权信任关系的概率矩阵分解推荐方法
CN107103071A (zh) 一种基于直接优化pauc算法的新闻信息分类方法
CN110222173A (zh) 基于神经网络的短文本情感分类方法及装置
CN111523055A (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN105183748A (zh) 一种基于内容和评分的组合预测方法
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN106980651A (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN111079018A (zh) 习题个性化推荐方法、装置、设备、计算机可读存储介质
CN106354852A (zh) 基于人工智能的搜索方法及装置
CN110414581A (zh) 图片检测方法和装置、存储介质及电子装置
CN111078859B (zh) 一种基于引用次数的作者推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant