CN110532556A

CN110532556A - 文本新闻的处理方法、设备和存储介质

Info

Publication number: CN110532556A
Application number: CN201910805703.4A
Authority: CN
Inventors: 陈誉; 龚朝辉; 陈汝龙
Original assignee: Suzhou Long Mobile Network Technology Co Ltd
Current assignee: Suzhou Long Mobile Network Technology Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-03
Also published as: WO2021035955A1

Abstract

本发明揭示了一种文本新闻的处理方法、设备和存储介质，所述方法包括：对历史文本新闻进行主题训练得到主题模型，并生成新闻主题列表；获取用户对所有新闻主题的多个维度的访问偏好数据；根据所述多个维度的访问偏好数据，计算每个新闻主题的分值，形成新闻主题分值表。与现有技术相比，本发明的文本新闻的处理方法，将大量的历史文本新闻进行主题训练生成新闻主题列表，然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分，形成新闻主题分值表，从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分，从而根据分值的高低实现文本新闻的过滤和推荐，或者为企业关联高质量的文本新闻信息。

Description

文本新闻的处理方法、设备和存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种文本新闻的处理方法、设备和存储介质。

背景技术

伴随着全球化进程的不断深化和互联网的迅速发展，文本新闻数据呈现出爆炸式的增长。当我们想要在这数目繁多的文本新闻中，找到想要看的有意义的文本新闻时由于不知道各个文本新闻的新闻质量，查找效率极其低下。

文本新闻质量评估方法的建立可以对数量繁多的文本新闻实现新闻的过滤和推荐，可以为用户推荐出高质量的文本新闻信息、或者为企业关联高质量的文本新闻信息。

但是目前还没有比较成熟的文本新闻质量评估的方法。

发明内容

本发明的目的在于提供一种文本新闻的处理方法、设备和存储介质。

为实现上述发明目的之一，本发明一实施方式提供一种文本新闻的处理方法，所述方法包括：

对历史文本新闻进行主题训练得到主题模型，并生成新闻主题列表；

获取用户对所有新闻主题的多个维度的访问偏好数据；

根据所述多个维度的访问偏好数据，计算每个新闻主题的分值，形成新闻主题分值表。

作为本发明一实施方式的进一步改进，所述“根据所述多个维度的访问偏好数据，计算每个新闻主题的分值”具体包括：

赋予每个维度的访问偏好数据相应的权重f；

将每个维度的访问偏好数据在每个新闻主题上进行归一化处理，得到归一化的结果x；

新闻主题的分值y＝x1*f1+x2*f2+…+xn*fn，其中n表示所述访问偏好数据的维度数，xn表示在一个维度上所述新闻主题归一化后的分值，fn表示所述维度相应的权重。

作为本发明一实施方式的进一步改进，所述方法还包括：

根据所述新闻主题分值表，对多篇文本新闻进行评分；

根据所述评分的结果，重新调整所述新闻主题分值表中各个新闻主题的分值。

作为本发明一实施方式的进一步改进，所述“根据所述评分的结果，重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括：

获取评分排名前数名的文本新闻；

分析所述评分排名前数名的文本新闻的类别，对于不需要的类别的文本新闻，降低所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。

获取评分排名前数名的文本新闻；

分析所述评分排名前数名的文本新闻的类别，对于需要的类别的文本新闻，提高所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。

作为本发明一实施方式的进一步改进，所述方法还包括：

通过所述新闻主题分值表，对最近一段时间的多篇文本新闻进行评分，获取评分排名前数名的文本新闻进行推送。

作为本发明一实施方式的进一步改进，所述方法还包括：

通过所述新闻主题分值表，计算一篇文本新闻的分值z＝y1*g1+y2*g2+…+ym*gm，其中，m表示所述文本新闻包括的新闻主题个数，y表示新闻主题的评分，g表示新闻主题在所述文本新闻中的占比。

作为本发明一实施方式的进一步改进，所述“新闻主题的多个维度的访问偏好数据”具体包括：

包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数和被用户查看的总时长。

为实现上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述文本新闻的处理方法中的步骤。

为实现上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任意一项所述文本新闻的处理方法中的步骤。

与现有技术相比，本发明的文本新闻的处理方法，将大量的历史文本新闻进行主题训练生成新闻主题列表，然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分，形成新闻主题分值表，从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分，从而根据分值的高低实现文本新闻的过滤和推荐，或者为企业关联高质量的文本新闻信息。

附图说明

图1是本发明的文本新闻的处理方法的流程示意图。

图2是图1中步骤S3的流程示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，本发明的文本新闻的处理方法包括：

步骤S1：对历史文本新闻进行主题训练得到主题模型，并生成新闻主题列表。

在介绍本步骤之前，先简单介绍一下主题模型。主题模型是以非监督学习的方式对文本的隐含语义结构进行聚类的统计模型。主题模型主要被用于自然语言处理中的语义分析和文本挖掘问题，例如按主题对文本进行收集、分类和降维等。常用的主题模型有隐含狄利克雷分布(Latent Dirichlet Allocation)，简称LDA。

LDA是一种基于贝叶斯算法模型，利用先验分布对数据进行似然估计并最终得到后验分布的一种方式。LDA假设文档主题是多项分布，多项分布的参数(先验分布)是服从Dirichlet分布，换言之，LDA是一种三层的贝叶斯模型。LDA是一种无监督的机器学习方法，它基于Dirichlet分布对文档和主题进行建模，其中每个文档被认为是对各种主题的分布，并且每个主题被建模为对单词的分布。因此，给定一组文档，LDA输出一组主题，每个主题与一组单词相关联。为了对分布进行建模，LDA还需要主题的数量(通常用k表示)作为输入。例如，以下是从随机文本集合中提取的主题，其中k＝3：

主题1：{伟大，白天，快乐，周末，今晚，积极体验}

主题2：{食物，葡萄酒，啤酒，午餐，美味，餐饮}

主题3：{家庭，房地产，房子，小费，抵押贷款，房地产}

在本步骤中，通过对千万数量级别的文本新闻进行LDA主题训练得到主题模型，利用此模型对千万数量级别的文本新闻生成新闻主题列表，比如生成2000个新闻主题形成新闻主题列表。

需要说明的是，本发明中，文本新闻是指存在文本信息的新闻，可以是纯文本的新闻，也可以是文本加图片的新闻。

步骤S2：获取用户对所有新闻主题的多个维度的访问偏好数据。

用户的访问偏好数据，是指用户对各个新闻的访问偏好形成的数据，对新闻主题的访问偏好数据包括各个维度，比如包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数、或者被用户查看的总时长，或者用户对包括有所述新闻主题的文本新闻在具体的时间段内的点赞量或者点评量等。

本发明新闻主题的用户偏好数据优选采用两个维度：包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数、和被用户查看的总时长(后续这两个温度简称点击次数和观看时长)。

另外需要说明的是，所述用户的访问偏好数据，不是单指分析某个用户的访问偏好而得到的数据，而是分析所有对历史文本新闻进行访问的用户偏好而得到的数据。

步骤S3：根据所述多个维度的访问偏好数据，计算每个新闻主题的分值，形成新闻主题分值表。

对于步骤1中的新闻主题列表中的各个新闻主题，分别根据多个维度的访问偏好数据，计算其分值，具体包括如下步骤：

步骤S31：赋予每个维度的访问偏好数据相应的权重f；

总共有n个维度(n为正整数)，分别赋予第1至第n个维度的权重为f1至fn，其中f1+…+fn＝1。

步骤S32：将每个维度的访问偏好数据在每个新闻主题上进行归一化处理，得到归一化的结果x；

归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。对于k个新闻主题，在具体某个维度的访问偏好数据进行归一化处理后得到的结果为x1至xk，其中x1+…+xk＝1。

比如对于3个新闻主题，获取到用户在新闻主题1、2、3上点击次数分别为100次、120次、60次，这样进行归一化后的结果为x1＝0.357，x2＝0.429，x3＝0.214。

步骤S33：新闻主题的分值y＝x1*f1+x2*f2+…+xn*fn，其中n表示所述访问偏好数据的维度数，xn表示在一个维度上所述新闻主题归一化后的分值，fn表示所述维度相应的权重。

为了便于理解，这里举一个简单的实施例进一步说明此计算过程：

文本新闻1包括新闻主题1(占比50％)和新闻主题2(占比50％)，获取到的用户偏好数据为点击次数100次，观看时长60分钟。

文本新闻2包括新闻主题1(占比30％)和新闻主题3(占比70％)，获取到的用户偏好数据为点击次数150次，观看时长80分钟。

经计算，新闻主题1的用户行为数据为：点击次数95次，观看时长54分钟；新闻主题2的用户行为数据为：点击次数50次，观看时长30分钟；新闻主题3的用户行为数据为：点击次数105次，观看时长56分钟。

在点击次数的维度进行归一化后的新闻主题1至3的结果分别为：0.38、0.2、0.42。在观看时长的维度进行归一化后的新闻主题1至3的结构分别为：0.386、0.214、0.4。

按照历史经验，赋予点击次数这个维度的权重为40％，赋予观看时长这个维度的权重为60％。最后计算每个新闻主题的分值分别为(保留3位小数)：

y(新闻主题1)＝0.38*40％+0.386*60％＝0.384

y(新闻主题2)＝0.2*40％+0.214*60％＝0.208

y(新闻主题3)＝0.42*40％+0.4*60％＝0.408

根据习惯，我们可以将所有的新闻主题的分值乘以某个倍数，在这个实施例中，我们将全部主题(总共3个)都乘以10倍，得到的新闻主题1至3的分值分别为：3.84、2.08、4.08。由此得到主题分值表：{新闻主题1：3.84；新闻主题2：2.08；新闻主题3：4.08}。

本发明的文本新闻的处理方法，将大量的历史文本新闻进行主题训练生成新闻主题列表，然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分，形成新闻主题分值表，从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分，从而根据分值的高低实现文本新闻的过滤和推荐，或者为企业关联高质量的文本新闻信息。

在一个优选的实施方式中，所述文本新闻的处理方法还包括：

步骤S4：通过所述新闻主题分值表，计算一篇文本新闻的分值z＝y1*g1+y2*g2+…+ym*gm，其中，m表示所述文本新闻包括的新闻主题个数，y表示新闻主题的评分，g表示新闻主题在所述文本新闻中的占比。

例如，根据前一个具体实施例得到的新闻主题分值表，计算文本新闻3(新闻主题1占比30％、新闻主题2占比50％、新闻主题3占比20％)的分值为：

z(文本新闻3)＝3.84*30％+2.08*50％+4.08*20％＝3.008

在另一个优选的实施方式中，所述文本新闻的处理方法还包括：

步骤S5：根据所述新闻主题分值表，对多篇文本新闻进行评分。

步骤S6：根据所述评分的结果，重新调整所述新闻主题分值表中各个新闻主题的分值。

很多时候，我们需要的高质量的新闻不是针对所有类型的，而可能是针对具体某一类的，比如企业相关类的新闻，此时获取评分排名前数名的文本新闻中，很大概率包括有其它类型的新闻，比如娱乐类的。因此可以分析所述评分排名前数名的文本新闻的类别，对于不需要的类别的文本新闻，降低所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。或者对于需要的类别的文本新闻，提高所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。

在又一个优选的实施方式中，所述文本新闻的处理方法还包括：

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本新闻的处理方法中的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本新闻的处理方法中的步骤。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种文本新闻的处理方法，其特征在于，所述方法包括：

获取用户对所有新闻主题的多个维度的访问偏好数据；

2.根据权利要求1所述的文本新闻的处理方法，其特征在于，所述“根据所述多个维度的访问偏好数据，计算每个新闻主题的分值”具体包括：

赋予每个维度的访问偏好数据相应的权重f；

3.根据权利要求1所述的文本新闻的处理方法，其特征在于，所述方法还包括：

根据所述新闻主题分值表，对多篇文本新闻进行评分；

4.根据权利要求3所述的文本新闻的处理方法，其特征在于，所述“根据所述评分的结果，重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括：

获取评分排名前数名的文本新闻；

5.根据权利要求3所述的文本新闻的处理方法，其特征在于，所述“根据所述评分的结果，重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括：

获取评分排名前数名的文本新闻；

6.根据权利要求1所述的文本新闻的处理方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的文本新闻的处理方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的文本新闻的处理方法，其特征在于，所述“新闻主题的多个维度的访问偏好数据”具体包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任意一项所述文本新闻的处理方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任意一项所述文本新闻的处理方法中的步骤。