CN115688707B - 一种多语言混合的新闻价值排序方法 - Google Patents

一种多语言混合的新闻价值排序方法 Download PDF

Info

Publication number
CN115688707B
CN115688707B CN202211568519.0A CN202211568519A CN115688707B CN 115688707 B CN115688707 B CN 115688707B CN 202211568519 A CN202211568519 A CN 202211568519A CN 115688707 B CN115688707 B CN 115688707B
Authority
CN
China
Prior art keywords
news
evaluation
evaluation data
data
authenticity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211568519.0A
Other languages
English (en)
Other versions
CN115688707A (zh
Inventor
吴林
周亭
吴治伟
王士奇
李伟
蓝星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202211568519.0A priority Critical patent/CN115688707B/zh
Publication of CN115688707A publication Critical patent/CN115688707A/zh
Application granted granted Critical
Publication of CN115688707B publication Critical patent/CN115688707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种多语言混合的新闻价值排序方法,属于信息处理技术领域,具体包括:将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法得到所述新闻的真实性评估数据;基于新闻主体可信度评估算法得到所述新闻发布主体的可信度评估数据;基于新闻吸引力评估算法得到所述新闻的吸引力评估数据;基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而结合多方面因素实现对新闻价值的定量评价,进而实现了更加准确的推荐顺序排序。

Description

一种多语言混合的新闻价值排序方法
技术领域
本发明属于信息处理技术领域,尤其涉及一种多语言混合的新闻价值排序方法。
背景技术
如今,大量新闻网站和应用程序为用户提供了丰富的信息资源,人们通过互联网上发布的新闻以了解世界各地的信息,缩短了与他人的距离。然而,海量新闻信息也给用户带来了新的问题和挑战。一方面,世界各地的新闻来源不计其数,使得用户难以定位与其个人兴趣相匹配的新闻。另一方面,不同的新闻网站和应用程序具有不同的资源和背景,导致新闻内容混乱。个性化新闻推荐技术在新闻领域使用个性化推荐技术,它致力于帮助用户从互联网上的大量新闻信息中快速有效地匹配最适合用户的新闻,通过挖掘用户潜在的阅读兴趣,为其提供个性化推荐服务,从而帮助用户节省时间和精力,提高用户的满意度。
中国发明授权专利公开号CN101694659B《基于多主题追踪的个性化网络新闻推送方法》公开了一种基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:获取用户浏览过的新闻网页,划分成多个用户子兴趣模型;根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新;判断子兴趣模型的个数是否超过预设阈值,若是,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找待推送的新闻与所有子兴趣模型之间的最高相似度;计算新闻报道的排序值将排序值从大到小进行排序,将排序后的新闻列表推送给用户。本发明具有能够涵盖用户的多种兴趣特征,推荐准确率高,系统后续维护负担较轻的优点。
因此可见,目前,商业媒体平台利用机器学习、深度神经网络、个性化推荐技术等手段,以用户历史浏览行为和新闻内容相似性作为个性化推荐和搜索排序的依据。然而,这种方式一方面极易造成信息茧房及圈层固化,另一方面,由于缺乏对新闻价值的综合评估,导致难以快速准确的甄别出有价值的新闻。目前对新闻价值的分析主要以定性分析为主,或者仅对某一因素进行定量分析,缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法。
针对上述技术问题,本发明提供了一种多语言混合的新闻价值排序方法与系统。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种多语言混合的新闻价值排序方法。
一种多语言混合的新闻价值排序方法,具体包括:
S11将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;
S12基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;
S13基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;
S14 基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
针对多语言的新闻文本,首先将其转换为固定语言的新闻文本内容,并通过文本内容真实性评估算法对所述新闻进行真实性评价,得到真实性评估数据,再所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据,接着对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据,基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,从而解决了原有的仅仅依靠机器学习、深度神经网络、个性化推荐技术等手段,造成的信息茧房及圈层固化的技术问题,同时也解决了缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法,仅仅依靠某一因素进行定量分析的缺点,从而使得能够更加准确的对新闻进行推荐排序,并通过定量的方式实现对新闻价值的确定,进一步提升了新闻推荐排序的可靠性。
通过基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而实现了对新闻价值的量化评估,并为新闻价值进行评分,解决了原有的推荐算法可能导致的信息茧房及圈层固化的技术问题,同时也解决了单一性的量化导致的准确率交底的问题,为新闻的排序提供高质量的排序结果,实现了对新闻文本真实性与主体可信度的有效评估。
进一步的技术方案在于,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。
传播内容要素包括内容维度特征与写作风格维度特征,受众因素为互动者的身份特征,传播效果因素包括互动者的语言以及反馈的情绪倾向特征,从而实现了从多维度的角度对文本内容的真实性进行定量的评价,为进一步实现对新闻的精准排序和推荐奠定了基础,并结合互动者的情绪反馈以及身份特征,进一步提升了完备性和可靠性,构建出完善的文本内容真实性判断模型,减少低可信度新闻的推荐次数,缓解虚假新闻对阅读者的干扰。
进一步的技术方案在于,所述新闻主体可信度评估算法采集基于粒神经网络的算法。
粒神经网络是粒计算与神经网络的结合,通过粒度分配机制,可提高模型的泛化能力,改善新闻主体可信度评估的可解释性。
进一步的技术方案在于,所述新闻发布主体的可信度评估数据的评估步骤为:
S21提取影响所述新闻发布主体的特征量,所述新闻的情感倾向属性;
S22将所述特征量、所述情感倾向属性传输至基于所述粒神经网络的数据模型中,得到评估结果;
S23 基于所述评估结果得到所述新闻发布主体的可信度评估数据。
新闻发布主体的特征量包括是否属于稿源单位、主体认证类型、主体影响力、内容主题明确度、评论情感倾向,通过主题模型、情感分析等操作实现对主体可信度影响特征的量化,得到影响媒体主体可信度的特征排序。
进一步的技术方案在于,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
进一步的技术方案在于,所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。
具体的举个例子,其确定过程如公式(1)所示:
Figure 797658DEST_PATH_IMAGE001
其中,
Figure 15013DEST_PATH_IMAGE002
为新闻吸引力评分, />
Figure 349566DEST_PATH_IMAGE003
为各种新闻的价值权重, />
Figure 994174DEST_PATH_IMAGE004
为该类新闻吸引力低到一定阈值,可视为无吸引力的最终时间, />
Figure 778460DEST_PATH_IMAGE005
表示该新闻已持续时间,
Figure 330664DEST_PATH_IMAGE006
为时间差倍数权重。
具体做法为:在训练新闻吸引力模型时,将新闻的发布时长与新闻种类以及人工标注的吸引力值构建成一个完整的数据集,利用LSTM算法的神经网络模型进行预先训练,得到公式(1)中的关键参数
Figure 251215DEST_PATH_IMAGE007
以及该类新闻对应的参数 />
Figure 597883DEST_PATH_IMAGE008
。在使用阶段时,模型通过提取到的发布时间参数以及新闻种类参数,根据公式(1)得到该新闻的吸引力评分。
新闻往往具有时效性,本产品还可通过新闻学专业人士,将新闻对时效性的依赖进行等级划分,并按照不同等级进行加权,以实现产品对新闻吸引力价值的动态评估,帮助媒体平台减少推送用户不感兴趣的新闻。
进一步的技术方案在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S31基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S32 基于所述基础属性,所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集,并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果;
S33基于所述价值评估结果得到此时的新闻价值评估数据。
不同新闻评估特征对真实性、时效性、相似性这三种基础属性的要求不同,比如吸引力对时效性的要求较高,而对另外两种要求较低。得到由不同基础属性组成的对应评价特征后,送入不同评价属性的模型中进行评价,得到对应评价值,最后汇总得到新闻最终的价值。
进一步的技术方案在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S41基于所述新闻的真实性、时效性、相似性的基础属性,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S42 基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到价值评估结果,评估函数如公式(2)所示:
Figure 87375DEST_PATH_IMAGE009
其中
Figure 912112DEST_PATH_IMAGE010
、 />
Figure 952749DEST_PATH_IMAGE011
、 />
Figure 470318DEST_PATH_IMAGE012
分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值, />
Figure 432458DEST_PATH_IMAGE013
、 />
Figure 795306DEST_PATH_IMAGE014
、 />
Figure 893712DEST_PATH_IMAGE015
分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值, />
Figure 381849DEST_PATH_IMAGE016
代表价值评估结果,softmax函数为归一化指数函数。
所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定;
S43基于所述价值评估结果得到此时的新闻价值评估数据。
进一步的技术方案在于,当所述基础属性小于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值;
当所述基础属性大于或者等于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值;
当所述基础属性大于或者等于第二属性阈值时,此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。
进一步的技术方案在于,所述新闻价值评估数据还需要考虑用户的状态,所述用户的状态包括活跃态与静默态两种,所述新闻价值评估数据还需要考虑用户互动数据。
产品通过将用户划分为活跃态与静默态两种状态,并将两类用户对于新闻的关注度用于新闻价值评估中。同时为避免出现用户“持续静默”使产品对新闻价值判断出现错误预估,产品会根据用户关注度以及新闻自身价值以某种概率分布进行动态转换用户的状态分类,以丰富用户对新闻价值评估的影响产品,通过新闻媒体平台获取大量的新闻数据与用户点赞、转发等互动信息,将其用于新闻价值评估,使产品获得动态的生命力,满足媒体平台对于新闻价值随时间变化的判断需求。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种多语言混合的新闻价值排序方法的流程图。
图2是根据实施例1的新闻发布主体的可信度评估数据的评估步骤的流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
如今,大量新闻网站和应用程序为用户提供了丰富的信息资源,人们通过互联网上发布的新闻以了解世界各地的信息,缩短了与他人的距离。然而,海量新闻信息也给用户带来了新的问题和挑战。一方面,世界各地的新闻来源不计其数,使得用户难以定位与其个人兴趣相匹配的新闻。另一方面,不同的新闻网站和应用程序具有不同的资源和背景,导致新闻内容混乱。个性化新闻推荐技术在新闻领域使用个性化推荐技术,它致力于帮助用户从互联网上的大量新闻信息中快速有效地匹配最适合用户的新闻,通过挖掘用户潜在的阅读兴趣,为其提供个性化推荐服务,从而帮助用户节省时间和精力,提高用户的满意度。
因此可见,目前,商业媒体平台利用机器学习、深度神经网络、个性化推荐技术等手段,以用户历史浏览行为和新闻内容相似性作为个性化推荐和搜索排序的依据。然而,这种方式一方面极易造成信息茧房及圈层固化,另一方面,由于缺乏对新闻价值的综合评估,导致难以快速准确的甄别出有价值的新闻。目前对新闻价值的分析主要以定性分析为主,或者仅对某一因素进行定量分析,缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了一种多语言混合的新闻价值排序方法。
一种多语言混合的新闻价值排序方法,具体包括:
S11将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;
S12基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;
S13基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;
S14 基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
针对多语言的新闻文本,首先将其转换为固定语言的新闻文本内容,并通过文本内容真实性评估算法对所述新闻进行真实性评价,得到真实性评估数据,再所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据,接着对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据,基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,从而解决了原有的仅仅依靠机器学习、深度神经网络、个性化推荐技术等手段,造成的信息茧房及圈层固化的技术问题,同时也解决了缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法,仅仅依靠某一因素进行定量分析的缺点,从而使得能够更加准确的对新闻进行推荐排序,并通过定量的方式实现对新闻价值的确定,进一步提升了新闻推荐排序的可靠性。
通过基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而实现了对新闻价值的量化评估,并为新闻价值进行评分,解决了原有的推荐算法可能导致的信息茧房及圈层固化的技术问题,同时也解决了单一性的量化导致的准确率交底的问题,为新闻的排序提供高质量的排序结果,实现了对新闻文本真实性与主体可信度的有效评估。
在另外一种可能的实施例中,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。
传播内容要素包括内容维度特征与写作风格维度特征,受众因素为互动者的身份特征,传播效果因素包括互动者的语言以及反馈的情绪倾向特征,从而实现了从多维度的角度对文本内容的真实性进行定量的评价,为进一步实现对新闻的精准排序和推荐奠定了基础,并结合互动者的情绪反馈以及身份特征,进一步提升了完备性和可靠性,构建出完善的文本内容真实性判断模型,减少低可信度新闻的推荐次数,缓解虚假新闻对阅读者的干扰。
在传播内容要素方面,该算法模型会提取文章时效性关键词、主体观点以及情感倾向。在受众要素方面该算法模型会提取受众用户评论的主体观点以及情感倾向。在传播效果因素方面,该算法模型会根据传播者的权威性以及短时间内新闻传播量进行评估。综合而言,当文章内容出现“自我矛盾”的情况,或文章情感具有煽动性且受众评论情感出现“一边倒”的极性评价分布,或文章内容传播者权威性较低且短时间传播量较少等,可初步判断该新闻文章真实度较低,进而降低文章的价值度。
在另外一种可能的实施例中,所述新闻主体可信度评估算法采集基于粒神经网络的算法。
粒计算-神经网络是粒计算与神经网络的结合,简称粒神经网络。它通过粒度分配机制,可提高模型的泛化能力,改善新闻主体可信度评估的可解释性。
在另外一种可能的实施例中,如图2所示,所述新闻发布主体的可信度评估数据的评估步骤为:
S21提取影响所述新闻发布主体的特征量,所述新闻的情感倾向属性;
S22将所述特征量、所述情感倾向属性传输至基于所述粒神经网络的数据模型中,得到评估结果;
S23 基于所述评估结果得到所述新闻发布主体的可信度评估数据。
新闻发布主体的特征量包括是否属于稿源单位、主体认证类型、主体影响力、内容主题明确度、评论情感倾向,通过主题模型、情感分析等操作实现对主体可信度影响特征的量化,得到影响媒体主体可信度的特征排序。
在另外一种可能的实施例中,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
在另外一种可能的实施例中,所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。
新闻往往具有时效性,本产品还可通过新闻学专业人士,将新闻对时效性的依赖进行等级划分,并按照不同等级进行加权,以实现产品对新闻吸引力价值的动态评估,帮助媒体平台减少推送用户不感兴趣的新闻。
在另外一种可能的实施例中,所述新闻的新闻价值评估数据的评估具体步骤为:
S31基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S32 基于所述基础属性,所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集,并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果;
S33基于所述价值评估结果得到此时的新闻价值评估数据。
在另外一种可能的实施例中,所述新闻的新闻价值评估数据的评估具体步骤为:
S41基于所述新闻的真实性、时效性、相似性的基础属性,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S42 基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到价值评估结果,评估函数如公式(2)所示:
Figure 34548DEST_PATH_IMAGE009
其中
Figure 201087DEST_PATH_IMAGE010
、/>
Figure 216316DEST_PATH_IMAGE011
、/>
Figure 75688DEST_PATH_IMAGE012
分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值, />
Figure 481261DEST_PATH_IMAGE013
、 />
Figure 513808DEST_PATH_IMAGE014
、 />
Figure 589736DEST_PATH_IMAGE015
分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值, />
Figure 620009DEST_PATH_IMAGE016
代表价值评估结果,softmax函数为归一化指数函数。
所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定;
当数据类型属性因子较高时,其权值也会进行相应提高。属性权重的确定可分为人工划分与模型自动划分。人工划分需要大量专业人员按照新闻类别分别确定不同属性数据所占权重大小。自动划分则根据SoftMax函数,按照属性因子的大小自动为其分配权重,在保证高属性因子数据有高权重的同时,缩小了各个属性间的权重差距,避免出现单一类型数据控制新闻价值走向的情况出现。本模型采用了第二种权重划分方式,即模型自动划分权重方式.
S43基于所述价值评估结果得到此时的新闻价值评估数据。
在另外一种可能的实施例中,当所述基础属性小于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值;
在使用SoftMax函数进行自动划分权重的同时,本算法模型还为权重的划分按照属性阈值添加了边界。模型根据大量已人工标注的新闻数据进行训练,得到新闻价值与属性因子的关系,按照第一档、第二档、第三档的权重划分方式,得到第一阈值、第二阈值。(按照大量人工标注语料,模型自动训练得到第一阈值)
当所述基础属性大于或者等于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值;
当所述基础属性大于或者等于第二属性阈值时,此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。
在另外一种可能的实施例中,所述新闻价值评估数据还需要考虑用户的状态,所述用户的状态包括活跃态与静默态两种,所述新闻价值评估数据还需要考虑用户互动数据。
产品通过将用户划分为活跃态与静默态两种状态,并将两类用户对于新闻的关注度用于新闻价值评估中。同时为避免出现用户“持续静默”使产品对新闻价值判断出现错误预估,产品会根据用户关注度以及新闻自身价值以某种概率分布进行动态转换用户的状态分类,以丰富用户对新闻价值评估的影响产品,通过新闻媒体平台获取大量的新闻数据与用户点赞、转发等互动信息,将其用于新闻价值评估,使产品获得动态的生命力,满足媒体平台对于新闻价值随时间变化的判断需求。
静默态用户的互动对新闻价值评估的贡献度权重较低,而活跃态用户对新闻价值评估的贡献度权重则较高。同时用户互动数据不仅仅局限于点赞、收藏等常规手段。用户评论也是一个重要的评估数据。用户评论数据的分析可分为“文章认同度”以及“情感相似度”。“文章认同度”往往与文章价值呈正向分布,其评估方法主要来源于用户评论中的肯定词汇以及评论主题词和摘要的提取。“情感相似度”则较为复杂,如果新闻中出现了煽动性情感词汇,而用户评论情感又呈现与文章情感相同的“一边倒”的极性分布或用户评论之间出现“两极分化”的矛盾现象,则该文章大概率为价值较低的虚假新闻。如果新闻文章并未出现煽动性情感词汇,且用户总体评论较为温和,则该文章大概率为价值较高的真实新闻。
在本发明实施例中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可折卸连接,或一体地连接。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明实施例中的具体含义。
本发明实施例的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明实施例的限制。
在本说明书的描述中,术语“一个实施例”、“一个优选实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明实施例的优选实施例而已,并不用于限制本发明实施例,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (9)

1.一种多语言混合的新闻价值排序方法,其特征在于,具体包括:
S11、将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;
S12、基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;
S13、基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;
所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长和新闻种类确定,其确定过程如公式(1)所示:
Figure QLYQS_1
其中,
Figure QLYQS_2
为新闻吸引力评分,/>
Figure QLYQS_3
为各种新闻的价值权重,
Figure QLYQS_4
为该类新闻吸引力低到一定阈值,可视为无吸引力的最终时间,/>
Figure QLYQS_5
表示该新闻已持续时间,/>
Figure QLYQS_6
为时间差倍数权重;
在训练新闻吸引力模型时,将新闻的发布时长与新闻种类以及人工标注的吸引力评分构建成一个完整的数据集,利用LSTM算法的神经网络模型进行预先训练,得到公式(1)中的参数;在使用阶段时,模型通过提取到的发布时间参数以及新闻种类参数,根据公式(1)得到该新闻的吸引力评分;
S14、基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
2.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素,对所述新闻的真实性进行评估得到真实性评估数据。
3.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻主体可信度评估算法采用基于粒计算-神经网络。
4.如权利要求3所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻发布主体的可信度评估数据的评估步骤为:
S21、提取影响所述新闻发布主体的特征量、所述新闻的情感倾向属性;
S22、将所述特征量、所述情感倾向属性传输至基于所述粒计算-神经网络的数据模型中,得到评估结果;
S23、基于所述评估结果得到所述新闻发布主体的可信度评估数据。
5.如权利要求4所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
6.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S31、基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点,得到所述新闻的真实性评估数据、可信度评估数据、吸引力评估数据;
S32、基于所述基础属性,所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集,并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果;
S33、基于所述价值评估结果得到此时的新闻价值评估数据。
7.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S41、基于所述新闻的真实性、时效性、相似性的基础属性,分别通过对应模块提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S42、基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到新闻价值评估函数,评估函数如公式(2)所示:
Figure QLYQS_7
其中
Figure QLYQS_8
、/>
Figure QLYQS_9
、/>
Figure QLYQS_10
分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值,/>
Figure QLYQS_11
、/>
Figure QLYQS_12
、/>
Figure QLYQS_13
分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值,/>
Figure QLYQS_14
代表新闻价值,softmax函数为归一化指数函数;
所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定;
S43、基于价值评估结果得到此时的新闻价值评估数据。
8.如权利要求6所述的一种多语言混合的新闻价值排序方法,其特征在于,当所述基础属性小于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值;
当所述基础属性大于或者等于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值;
当所述基础属性大于或者等于第二属性阈值时,此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。
9.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻价值评估数据还需要考虑用户的状态,所述用户的状态包括活跃态与静默态两种,所述新闻价值评估数据还需要考虑用户互动数据。
CN202211568519.0A 2022-12-08 2022-12-08 一种多语言混合的新闻价值排序方法 Active CN115688707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211568519.0A CN115688707B (zh) 2022-12-08 2022-12-08 一种多语言混合的新闻价值排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211568519.0A CN115688707B (zh) 2022-12-08 2022-12-08 一种多语言混合的新闻价值排序方法

Publications (2)

Publication Number Publication Date
CN115688707A CN115688707A (zh) 2023-02-03
CN115688707B true CN115688707B (zh) 2023-06-16

Family

ID=85055549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211568519.0A Active CN115688707B (zh) 2022-12-08 2022-12-08 一种多语言混合的新闻价值排序方法

Country Status (1)

Country Link
CN (1) CN115688707B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846547A (zh) * 2018-05-06 2018-11-20 成都信息工程大学 一种动态调整的企业信用风险评估方法
CN111680153A (zh) * 2019-12-17 2020-09-18 北京嘉遁数据科技有限公司 一种基于知识图谱的大数据鉴真方法与系统
CN114547293A (zh) * 2022-01-13 2022-05-27 山东师范大学 一种跨平台虚假新闻检测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044462A (ja) * 2008-08-08 2010-02-25 Twobytes Corp コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム
CN104636408B (zh) * 2014-08-21 2017-08-08 中国科学院计算技术研究所 基于用户生成内容的新闻认证预警方法及系统
US9923860B2 (en) * 2015-07-29 2018-03-20 International Business Machines Corporation Annotating content with contextually relevant comments
CN106484733B (zh) * 2015-09-01 2019-07-30 中国科学院计算技术研究所 新闻线索个性化推送方法及系统
CN107679550A (zh) * 2017-09-11 2018-02-09 华东理工大学 一种数据集分类可用性的评估方法
CN109800349A (zh) * 2018-12-17 2019-05-24 北京邮电大学 基于用户发布内容量化新闻价值的数据处理方法和装置
CN113158695A (zh) * 2021-05-06 2021-07-23 上海极链网络科技有限公司 一种面向多语言混合文本的语义审核方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846547A (zh) * 2018-05-06 2018-11-20 成都信息工程大学 一种动态调整的企业信用风险评估方法
CN111680153A (zh) * 2019-12-17 2020-09-18 北京嘉遁数据科技有限公司 一种基于知识图谱的大数据鉴真方法与系统
CN114547293A (zh) * 2022-01-13 2022-05-27 山东师范大学 一种跨平台虚假新闻检测方法及系统

Also Published As

Publication number Publication date
CN115688707A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Li et al. Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary
Mirzaalian et al. Exploring destination loyalty: Application of social media analytics in a nature-based tourism setting
US10795919B2 (en) Assisted knowledge discovery and publication system and method
Habibi et al. Keyword extraction and clustering for document recommendation in conversations
US11823074B2 (en) Intelligent communication manager and summarizer
Zhao et al. Personalized reason generation for explainable song recommendation
Geng et al. Understanding the focal points and sentiment of learners in MOOC reviews: A machine learning and SC‐LIWC‐based approach
US20130179423A1 (en) Computer-generated sentiment-based knowledge base
Huddar et al. A survey of computational approaches and challenges in multimodal sentiment analysis
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN103365867A (zh) 一种对用户评价进行情感分析的方法和装置
Mihalcea et al. What men say, what women hear: Finding gender-specific meaning shades
US20130262458A1 (en) Information processing device and program
JP2021163473A (ja) 情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN106126605A (zh) 一种基于用户画像的短文本分类方法
WO2022051000A1 (en) Generating structured data for rich experiences from unstructured data streams
CN114817755A (zh) 一种用户互动内容管理方法、装置和存储介质
JP6932162B2 (ja) 地域に基づくアイテム推薦端末装置及びアイテム推薦情報提供方法。
CN111488453B (zh) 资源分级方法、装置、设备及存储介质
Papaioannou et al. An ensemble model with ranking for social dialogue
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN115688707B (zh) 一种多语言混合的新闻价值排序方法
Jose et al. Finding best answer in community question answering sites: a review
Zhang et al. Characterizing the (perceived) newsworthiness of health science articles: A data-driven approach
Naveed et al. Feature sentiment diversification of user generated reviews: the FREuD approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant