CN115688707B

CN115688707B - 一种多语言混合的新闻价值排序方法

Info

Publication number: CN115688707B
Application number: CN202211568519.0A
Authority: CN
Inventors: 吴林; 周亭; 吴治伟; 王士奇; 李伟; 蓝星
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-06-16
Anticipated expiration: 2042-12-08
Also published as: CN115688707A

Abstract

本发明提供一种多语言混合的新闻价值排序方法，属于信息处理技术领域，具体包括：将多语言混合的新闻文本转换为固定语言的新闻文本内容，基于文本内容真实性评估算法得到所述新闻的真实性评估数据；基于新闻主体可信度评估算法得到所述新闻发布主体的可信度评估数据；基于新闻吸引力评估算法得到所述新闻的吸引力评估数据；基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据，并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序，从而结合多方面因素实现对新闻价值的定量评价，进而实现了更加准确的推荐顺序排序。

Description

一种多语言混合的新闻价值排序方法

技术领域

本发明属于信息处理技术领域，尤其涉及一种多语言混合的新闻价值排序方法。

背景技术

如今，大量新闻网站和应用程序为用户提供了丰富的信息资源，人们通过互联网上发布的新闻以了解世界各地的信息，缩短了与他人的距离。然而，海量新闻信息也给用户带来了新的问题和挑战。一方面，世界各地的新闻来源不计其数，使得用户难以定位与其个人兴趣相匹配的新闻。另一方面，不同的新闻网站和应用程序具有不同的资源和背景，导致新闻内容混乱。个性化新闻推荐技术在新闻领域使用个性化推荐技术，它致力于帮助用户从互联网上的大量新闻信息中快速有效地匹配最适合用户的新闻，通过挖掘用户潜在的阅读兴趣，为其提供个性化推荐服务，从而帮助用户节省时间和精力，提高用户的满意度。

中国发明授权专利公开号CN101694659B《基于多主题追踪的个性化网络新闻推送方法》公开了一种基于多主题追踪的个性化网络新闻推送方法，包括以下步骤：获取用户浏览过的新闻网页，划分成多个用户子兴趣模型；根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新；判断子兴趣模型的个数是否超过预设阈值，若是，则寻找偏离用户兴趣最远的子兴趣模型，将其删除；寻找待推送的新闻与所有子兴趣模型之间的最高相似度；计算新闻报道的排序值将排序值从大到小进行排序，将排序后的新闻列表推送给用户。本发明具有能够涵盖用户的多种兴趣特征，推荐准确率高，系统后续维护负担较轻的优点。

因此可见，目前，商业媒体平台利用机器学习、深度神经网络、个性化推荐技术等手段，以用户历史浏览行为和新闻内容相似性作为个性化推荐和搜索排序的依据。然而，这种方式一方面极易造成信息茧房及圈层固化，另一方面，由于缺乏对新闻价值的综合评估，导致难以快速准确的甄别出有价值的新闻。目前对新闻价值的分析主要以定性分析为主，或者仅对某一因素进行定量分析，缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法。

针对上述技术问题，本发明提供了一种多语言混合的新闻价值排序方法与系统。

发明内容

为实现本发明目的，本发明采用如下技术方案：

根据本发明的一个方面，提供了一种多语言混合的新闻价值排序方法。

一种多语言混合的新闻价值排序方法，具体包括：

S11将多语言混合的新闻文本转换为固定语言的新闻文本内容，基于文本内容真实性评估算法对所述新闻进行真实性评价，并得到所述新闻的真实性评估数据；

S12基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价，并得到所述新闻发布主体的可信度评估数据；

S13基于新闻吸引力评估算法对所述新闻进行吸引力评价，并得到所述新闻的吸引力评估数据；

S14 基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据，并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。

针对多语言的新闻文本，首先将其转换为固定语言的新闻文本内容，并通过文本内容真实性评估算法对所述新闻进行真实性评价，得到真实性评估数据，再所述新闻的新闻发布主体进行可信度评价，并得到所述新闻发布主体的可信度评估数据，接着对所述新闻进行吸引力评价，并得到所述新闻的吸引力评估数据，基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据，从而解决了原有的仅仅依靠机器学习、深度神经网络、个性化推荐技术等手段，造成的信息茧房及圈层固化的技术问题，同时也解决了缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法，仅仅依靠某一因素进行定量分析的缺点，从而使得能够更加准确的对新闻进行推荐排序，并通过定量的方式实现对新闻价值的确定，进一步提升了新闻推荐排序的可靠性。

通过基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据，并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序，从而实现了对新闻价值的量化评估，并为新闻价值进行评分，解决了原有的推荐算法可能导致的信息茧房及圈层固化的技术问题，同时也解决了单一性的量化导致的准确率交底的问题，为新闻的排序提供高质量的排序结果，实现了对新闻文本真实性与主体可信度的有效评估。

进一步的技术方案在于，所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。

传播内容要素包括内容维度特征与写作风格维度特征，受众因素为互动者的身份特征，传播效果因素包括互动者的语言以及反馈的情绪倾向特征，从而实现了从多维度的角度对文本内容的真实性进行定量的评价，为进一步实现对新闻的精准排序和推荐奠定了基础，并结合互动者的情绪反馈以及身份特征，进一步提升了完备性和可靠性，构建出完善的文本内容真实性判断模型，减少低可信度新闻的推荐次数，缓解虚假新闻对阅读者的干扰。

进一步的技术方案在于，所述新闻主体可信度评估算法采集基于粒神经网络的算法。

粒神经网络是粒计算与神经网络的结合，通过粒度分配机制，可提高模型的泛化能力，改善新闻主体可信度评估的可解释性。

进一步的技术方案在于，所述新闻发布主体的可信度评估数据的评估步骤为：

S21提取影响所述新闻发布主体的特征量，所述新闻的情感倾向属性；

S22将所述特征量、所述情感倾向属性传输至基于所述粒神经网络的数据模型中，得到评估结果；

S23 基于所述评估结果得到所述新闻发布主体的可信度评估数据。

新闻发布主体的特征量包括是否属于稿源单位、主体认证类型、主体影响力、内容主题明确度、评论情感倾向，通过主题模型、情感分析等操作实现对主体可信度影响特征的量化，得到影响媒体主体可信度的特征排序。

进一步的技术方案在于，所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。

进一步的技术方案在于，所述新闻的吸引力评价基于所述新闻的时效性进行确定，所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。

具体的举个例子，其确定过程如公式（1）所示：

其中，

为新闻吸引力评分， />

为各种新闻的价值权重， />

为该类新闻吸引力低到一定阈值，可视为无吸引力的最终时间， />

表示该新闻已持续时间，

为时间差倍数权重。

具体做法为：在训练新闻吸引力模型时，将新闻的发布时长与新闻种类以及人工标注的吸引力值构建成一个完整的数据集，利用LSTM算法的神经网络模型进行预先训练，得到公式（1）中的关键参数

以及该类新闻对应的参数 />

。在使用阶段时，模型通过提取到的发布时间参数以及新闻种类参数，根据公式（1）得到该新闻的吸引力评分。

新闻往往具有时效性，本产品还可通过新闻学专业人士，将新闻对时效性的依赖进行等级划分，并按照不同等级进行加权，以实现产品对新闻吸引力价值的动态评估，帮助媒体平台减少推送用户不感兴趣的新闻。

进一步的技术方案在于，所述新闻的新闻价值评估数据的评估具体步骤为：

S31基于所述新闻的真实性、时效性、相似性的基础属性，根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点，提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据；

S32 基于所述基础属性，所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集，并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果；

S33基于所述价值评估结果得到此时的新闻价值评估数据。

不同新闻评估特征对真实性、时效性、相似性这三种基础属性的要求不同，比如吸引力对时效性的要求较高，而对另外两种要求较低。得到由不同基础属性组成的对应评价特征后，送入不同评价属性的模型中进行评价，得到对应评价值，最后汇总得到新闻最终的价值。

S41基于所述新闻的真实性、时效性、相似性的基础属性，提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据；

S42 基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到价值评估结果，评估函数如公式（2）所示：

其中

、 />

、 />

分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值， />

、 />

分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值， />

代表价值评估结果，softmax函数为归一化指数函数。

所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定；

S43基于所述价值评估结果得到此时的新闻价值评估数据。

进一步的技术方案在于，当所述基础属性小于第一属性阈值时，此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值；

当所述基础属性大于或者等于第一属性阈值时，此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值；

当所述基础属性大于或者等于第二属性阈值时，此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。

进一步的技术方案在于，所述新闻价值评估数据还需要考虑用户的状态，所述用户的状态包括活跃态与静默态两种，所述新闻价值评估数据还需要考虑用户互动数据。

产品通过将用户划分为活跃态与静默态两种状态，并将两类用户对于新闻的关注度用于新闻价值评估中。同时为避免出现用户“持续静默”使产品对新闻价值判断出现错误预估，产品会根据用户关注度以及新闻自身价值以某种概率分布进行动态转换用户的状态分类，以丰富用户对新闻价值评估的影响产品，通过新闻媒体平台获取大量的新闻数据与用户点赞、转发等互动信息，将其用于新闻价值评估，使产品获得动态的生命力，满足媒体平台对于新闻价值随时间变化的判断需求。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1是根据实施例1的一种多语言混合的新闻价值排序方法的流程图。

图2是根据实施例1的新闻发布主体的可信度评估数据的评估步骤的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。

实施例1

为解决上述问题，根据本发明的一个方面，如图1所示，提供了一种多语言混合的新闻价值排序方法。

一种多语言混合的新闻价值排序方法，具体包括：

在另外一种可能的实施例中，所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。

在传播内容要素方面，该算法模型会提取文章时效性关键词、主体观点以及情感倾向。在受众要素方面该算法模型会提取受众用户评论的主体观点以及情感倾向。在传播效果因素方面，该算法模型会根据传播者的权威性以及短时间内新闻传播量进行评估。综合而言，当文章内容出现“自我矛盾”的情况，或文章情感具有煽动性且受众评论情感出现“一边倒”的极性评价分布，或文章内容传播者权威性较低且短时间传播量较少等，可初步判断该新闻文章真实度较低，进而降低文章的价值度。

在另外一种可能的实施例中，所述新闻主体可信度评估算法采集基于粒神经网络的算法。

粒计算-神经网络是粒计算与神经网络的结合，简称粒神经网络。它通过粒度分配机制，可提高模型的泛化能力，改善新闻主体可信度评估的可解释性。

在另外一种可能的实施例中，如图2所示，所述新闻发布主体的可信度评估数据的评估步骤为：

在另外一种可能的实施例中，所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。

在另外一种可能的实施例中，所述新闻的吸引力评价基于所述新闻的时效性进行确定，所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。

在另外一种可能的实施例中，所述新闻的新闻价值评估数据的评估具体步骤为：

S33基于所述价值评估结果得到此时的新闻价值评估数据。

其中

、/>

、/>

、 />

代表价值评估结果，softmax函数为归一化指数函数。

当数据类型属性因子较高时，其权值也会进行相应提高。属性权重的确定可分为人工划分与模型自动划分。人工划分需要大量专业人员按照新闻类别分别确定不同属性数据所占权重大小。自动划分则根据SoftMax函数，按照属性因子的大小自动为其分配权重，在保证高属性因子数据有高权重的同时，缩小了各个属性间的权重差距，避免出现单一类型数据控制新闻价值走向的情况出现。本模型采用了第二种权重划分方式，即模型自动划分权重方式.

S43基于所述价值评估结果得到此时的新闻价值评估数据。

在另外一种可能的实施例中，当所述基础属性小于第一属性阈值时，此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值；

在使用SoftMax函数进行自动划分权重的同时，本算法模型还为权重的划分按照属性阈值添加了边界。模型根据大量已人工标注的新闻数据进行训练，得到新闻价值与属性因子的关系，按照第一档、第二档、第三档的权重划分方式，得到第一阈值、第二阈值。（按照大量人工标注语料，模型自动训练得到第一阈值）

在另外一种可能的实施例中，所述新闻价值评估数据还需要考虑用户的状态，所述用户的状态包括活跃态与静默态两种，所述新闻价值评估数据还需要考虑用户互动数据。

静默态用户的互动对新闻价值评估的贡献度权重较低，而活跃态用户对新闻价值评估的贡献度权重则较高。同时用户互动数据不仅仅局限于点赞、收藏等常规手段。用户评论也是一个重要的评估数据。用户评论数据的分析可分为“文章认同度”以及“情感相似度”。“文章认同度”往往与文章价值呈正向分布，其评估方法主要来源于用户评论中的肯定词汇以及评论主题词和摘要的提取。“情感相似度”则较为复杂，如果新闻中出现了煽动性情感词汇，而用户评论情感又呈现与文章情感相同的“一边倒”的极性分布或用户评论之间出现“两极分化”的矛盾现象，则该文章大概率为价值较低的虚假新闻。如果新闻文章并未出现煽动性情感词汇，且用户总体评论较为温和，则该文章大概率为价值较高的真实新闻。

在本发明实施例中，术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可折卸连接，或一体地连接。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明实施例中的具体含义。

本发明实施例的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本发明实施例的限制。

在本说明书的描述中，术语“一个实施例”、“一个优选实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明实施例的优选实施例而已，并不用于限制本发明实施例，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。