CN115688707B - 一种多语言混合的新闻价值排序方法 - Google Patents
一种多语言混合的新闻价值排序方法 Download PDFInfo
- Publication number
- CN115688707B CN115688707B CN202211568519.0A CN202211568519A CN115688707B CN 115688707 B CN115688707 B CN 115688707B CN 202211568519 A CN202211568519 A CN 202211568519A CN 115688707 B CN115688707 B CN 115688707B
- Authority
- CN
- China
- Prior art keywords
- news
- evaluation
- evaluation data
- data
- authenticity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 231
- 230000008451 emotion Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000002996 emotional effect Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 9
- 230000000644 propagated effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 2
- 238000011158 quantitative evaluation Methods 0.000 abstract description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004445 quantitative analysis Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007711 solidification Methods 0.000 description 4
- 230000008023 solidification Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002757 inflammatory effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多语言混合的新闻价值排序方法,属于信息处理技术领域,具体包括:将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法得到所述新闻的真实性评估数据;基于新闻主体可信度评估算法得到所述新闻发布主体的可信度评估数据;基于新闻吸引力评估算法得到所述新闻的吸引力评估数据;基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而结合多方面因素实现对新闻价值的定量评价,进而实现了更加准确的推荐顺序排序。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种多语言混合的新闻价值排序方法。
背景技术
如今,大量新闻网站和应用程序为用户提供了丰富的信息资源,人们通过互联网上发布的新闻以了解世界各地的信息,缩短了与他人的距离。然而,海量新闻信息也给用户带来了新的问题和挑战。一方面,世界各地的新闻来源不计其数,使得用户难以定位与其个人兴趣相匹配的新闻。另一方面,不同的新闻网站和应用程序具有不同的资源和背景,导致新闻内容混乱。个性化新闻推荐技术在新闻领域使用个性化推荐技术,它致力于帮助用户从互联网上的大量新闻信息中快速有效地匹配最适合用户的新闻,通过挖掘用户潜在的阅读兴趣,为其提供个性化推荐服务,从而帮助用户节省时间和精力,提高用户的满意度。
中国发明授权专利公开号CN101694659B《基于多主题追踪的个性化网络新闻推送方法》公开了一种基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:获取用户浏览过的新闻网页,划分成多个用户子兴趣模型;根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新;判断子兴趣模型的个数是否超过预设阈值,若是,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找待推送的新闻与所有子兴趣模型之间的最高相似度;计算新闻报道的排序值将排序值从大到小进行排序,将排序后的新闻列表推送给用户。本发明具有能够涵盖用户的多种兴趣特征,推荐准确率高,系统后续维护负担较轻的优点。
因此可见,目前,商业媒体平台利用机器学习、深度神经网络、个性化推荐技术等手段,以用户历史浏览行为和新闻内容相似性作为个性化推荐和搜索排序的依据。然而,这种方式一方面极易造成信息茧房及圈层固化,另一方面,由于缺乏对新闻价值的综合评估,导致难以快速准确的甄别出有价值的新闻。目前对新闻价值的分析主要以定性分析为主,或者仅对某一因素进行定量分析,缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法。
针对上述技术问题,本发明提供了一种多语言混合的新闻价值排序方法与系统。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种多语言混合的新闻价值排序方法。
一种多语言混合的新闻价值排序方法,具体包括:
S11将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;
S12基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;
S13基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;
S14 基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
针对多语言的新闻文本,首先将其转换为固定语言的新闻文本内容,并通过文本内容真实性评估算法对所述新闻进行真实性评价,得到真实性评估数据,再所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据,接着对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据,基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,从而解决了原有的仅仅依靠机器学习、深度神经网络、个性化推荐技术等手段,造成的信息茧房及圈层固化的技术问题,同时也解决了缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法,仅仅依靠某一因素进行定量分析的缺点,从而使得能够更加准确的对新闻进行推荐排序,并通过定量的方式实现对新闻价值的确定,进一步提升了新闻推荐排序的可靠性。
通过基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而实现了对新闻价值的量化评估,并为新闻价值进行评分,解决了原有的推荐算法可能导致的信息茧房及圈层固化的技术问题,同时也解决了单一性的量化导致的准确率交底的问题,为新闻的排序提供高质量的排序结果,实现了对新闻文本真实性与主体可信度的有效评估。
进一步的技术方案在于,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。
传播内容要素包括内容维度特征与写作风格维度特征,受众因素为互动者的身份特征,传播效果因素包括互动者的语言以及反馈的情绪倾向特征,从而实现了从多维度的角度对文本内容的真实性进行定量的评价,为进一步实现对新闻的精准排序和推荐奠定了基础,并结合互动者的情绪反馈以及身份特征,进一步提升了完备性和可靠性,构建出完善的文本内容真实性判断模型,减少低可信度新闻的推荐次数,缓解虚假新闻对阅读者的干扰。
进一步的技术方案在于,所述新闻主体可信度评估算法采集基于粒神经网络的算法。
粒神经网络是粒计算与神经网络的结合,通过粒度分配机制,可提高模型的泛化能力,改善新闻主体可信度评估的可解释性。
进一步的技术方案在于,所述新闻发布主体的可信度评估数据的评估步骤为:
S21提取影响所述新闻发布主体的特征量,所述新闻的情感倾向属性;
S22将所述特征量、所述情感倾向属性传输至基于所述粒神经网络的数据模型中,得到评估结果;
S23 基于所述评估结果得到所述新闻发布主体的可信度评估数据。
新闻发布主体的特征量包括是否属于稿源单位、主体认证类型、主体影响力、内容主题明确度、评论情感倾向,通过主题模型、情感分析等操作实现对主体可信度影响特征的量化,得到影响媒体主体可信度的特征排序。
进一步的技术方案在于,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
进一步的技术方案在于,所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。
具体的举个例子,其确定过程如公式(1)所示:
具体做法为:在训练新闻吸引力模型时,将新闻的发布时长与新闻种类以及人工标注的吸引力值构建成一个完整的数据集,利用LSTM算法的神经网络模型进行预先训练,得到公式(1)中的关键参数 以及该类新闻对应的参数 /> 。在使用阶段时,模型通过提取到的发布时间参数以及新闻种类参数,根据公式(1)得到该新闻的吸引力评分。
新闻往往具有时效性,本产品还可通过新闻学专业人士,将新闻对时效性的依赖进行等级划分,并按照不同等级进行加权,以实现产品对新闻吸引力价值的动态评估,帮助媒体平台减少推送用户不感兴趣的新闻。
进一步的技术方案在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S31基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S32 基于所述基础属性,所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集,并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果;
S33基于所述价值评估结果得到此时的新闻价值评估数据。
不同新闻评估特征对真实性、时效性、相似性这三种基础属性的要求不同,比如吸引力对时效性的要求较高,而对另外两种要求较低。得到由不同基础属性组成的对应评价特征后,送入不同评价属性的模型中进行评价,得到对应评价值,最后汇总得到新闻最终的价值。
进一步的技术方案在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S41基于所述新闻的真实性、时效性、相似性的基础属性,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S42 基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到价值评估结果,评估函数如公式(2)所示:
其中 、 />、 />分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值, />、 />、 />分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值, />代表价值评估结果,softmax函数为归一化指数函数。
所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定;
S43基于所述价值评估结果得到此时的新闻价值评估数据。
进一步的技术方案在于,当所述基础属性小于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值;
当所述基础属性大于或者等于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值;
当所述基础属性大于或者等于第二属性阈值时,此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。
进一步的技术方案在于,所述新闻价值评估数据还需要考虑用户的状态,所述用户的状态包括活跃态与静默态两种,所述新闻价值评估数据还需要考虑用户互动数据。
产品通过将用户划分为活跃态与静默态两种状态,并将两类用户对于新闻的关注度用于新闻价值评估中。同时为避免出现用户“持续静默”使产品对新闻价值判断出现错误预估,产品会根据用户关注度以及新闻自身价值以某种概率分布进行动态转换用户的状态分类,以丰富用户对新闻价值评估的影响产品,通过新闻媒体平台获取大量的新闻数据与用户点赞、转发等互动信息,将其用于新闻价值评估,使产品获得动态的生命力,满足媒体平台对于新闻价值随时间变化的判断需求。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种多语言混合的新闻价值排序方法的流程图。
图2是根据实施例1的新闻发布主体的可信度评估数据的评估步骤的流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
如今,大量新闻网站和应用程序为用户提供了丰富的信息资源,人们通过互联网上发布的新闻以了解世界各地的信息,缩短了与他人的距离。然而,海量新闻信息也给用户带来了新的问题和挑战。一方面,世界各地的新闻来源不计其数,使得用户难以定位与其个人兴趣相匹配的新闻。另一方面,不同的新闻网站和应用程序具有不同的资源和背景,导致新闻内容混乱。个性化新闻推荐技术在新闻领域使用个性化推荐技术,它致力于帮助用户从互联网上的大量新闻信息中快速有效地匹配最适合用户的新闻,通过挖掘用户潜在的阅读兴趣,为其提供个性化推荐服务,从而帮助用户节省时间和精力,提高用户的满意度。
因此可见,目前,商业媒体平台利用机器学习、深度神经网络、个性化推荐技术等手段,以用户历史浏览行为和新闻内容相似性作为个性化推荐和搜索排序的依据。然而,这种方式一方面极易造成信息茧房及圈层固化,另一方面,由于缺乏对新闻价值的综合评估,导致难以快速准确的甄别出有价值的新闻。目前对新闻价值的分析主要以定性分析为主,或者仅对某一因素进行定量分析,缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了一种多语言混合的新闻价值排序方法。
一种多语言混合的新闻价值排序方法,具体包括:
S11将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;
S12基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;
S13基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;
S14 基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
针对多语言的新闻文本,首先将其转换为固定语言的新闻文本内容,并通过文本内容真实性评估算法对所述新闻进行真实性评价,得到真实性评估数据,再所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据,接着对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据,基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,从而解决了原有的仅仅依靠机器学习、深度神经网络、个性化推荐技术等手段,造成的信息茧房及圈层固化的技术问题,同时也解决了缺乏依靠新闻文本的真实性、新闻发布主体的可信性和新闻的吸引力三方面综合影响因素的定量分析方法,仅仅依靠某一因素进行定量分析的缺点,从而使得能够更加准确的对新闻进行推荐排序,并通过定量的方式实现对新闻价值的确定,进一步提升了新闻推荐排序的可靠性。
通过基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而实现了对新闻价值的量化评估,并为新闻价值进行评分,解决了原有的推荐算法可能导致的信息茧房及圈层固化的技术问题,同时也解决了单一性的量化导致的准确率交底的问题,为新闻的排序提供高质量的排序结果,实现了对新闻文本真实性与主体可信度的有效评估。
在另外一种可能的实施例中,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素对所述新闻的真实性进行评估得到真实性评估数据。
传播内容要素包括内容维度特征与写作风格维度特征,受众因素为互动者的身份特征,传播效果因素包括互动者的语言以及反馈的情绪倾向特征,从而实现了从多维度的角度对文本内容的真实性进行定量的评价,为进一步实现对新闻的精准排序和推荐奠定了基础,并结合互动者的情绪反馈以及身份特征,进一步提升了完备性和可靠性,构建出完善的文本内容真实性判断模型,减少低可信度新闻的推荐次数,缓解虚假新闻对阅读者的干扰。
在传播内容要素方面,该算法模型会提取文章时效性关键词、主体观点以及情感倾向。在受众要素方面该算法模型会提取受众用户评论的主体观点以及情感倾向。在传播效果因素方面,该算法模型会根据传播者的权威性以及短时间内新闻传播量进行评估。综合而言,当文章内容出现“自我矛盾”的情况,或文章情感具有煽动性且受众评论情感出现“一边倒”的极性评价分布,或文章内容传播者权威性较低且短时间传播量较少等,可初步判断该新闻文章真实度较低,进而降低文章的价值度。
在另外一种可能的实施例中,所述新闻主体可信度评估算法采集基于粒神经网络的算法。
粒计算-神经网络是粒计算与神经网络的结合,简称粒神经网络。它通过粒度分配机制,可提高模型的泛化能力,改善新闻主体可信度评估的可解释性。
在另外一种可能的实施例中,如图2所示,所述新闻发布主体的可信度评估数据的评估步骤为:
S21提取影响所述新闻发布主体的特征量,所述新闻的情感倾向属性;
S22将所述特征量、所述情感倾向属性传输至基于所述粒神经网络的数据模型中,得到评估结果;
S23 基于所述评估结果得到所述新闻发布主体的可信度评估数据。
新闻发布主体的特征量包括是否属于稿源单位、主体认证类型、主体影响力、内容主题明确度、评论情感倾向,通过主题模型、情感分析等操作实现对主体可信度影响特征的量化,得到影响媒体主体可信度的特征排序。
在另外一种可能的实施例中,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
在另外一种可能的实施例中,所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长L和新闻种类R确定。
新闻往往具有时效性,本产品还可通过新闻学专业人士,将新闻对时效性的依赖进行等级划分,并按照不同等级进行加权,以实现产品对新闻吸引力价值的动态评估,帮助媒体平台减少推送用户不感兴趣的新闻。
在另外一种可能的实施例中,所述新闻的新闻价值评估数据的评估具体步骤为:
S31基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S32 基于所述基础属性,所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集,并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果;
S33基于所述价值评估结果得到此时的新闻价值评估数据。
在另外一种可能的实施例中,所述新闻的新闻价值评估数据的评估具体步骤为:
S41基于所述新闻的真实性、时效性、相似性的基础属性,提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S42 基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到价值评估结果,评估函数如公式(2)所示:
其中 、/>、/>分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值, />、 />、 />分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值, />代表价值评估结果,softmax函数为归一化指数函数。
所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定;
当数据类型属性因子较高时,其权值也会进行相应提高。属性权重的确定可分为人工划分与模型自动划分。人工划分需要大量专业人员按照新闻类别分别确定不同属性数据所占权重大小。自动划分则根据SoftMax函数,按照属性因子的大小自动为其分配权重,在保证高属性因子数据有高权重的同时,缩小了各个属性间的权重差距,避免出现单一类型数据控制新闻价值走向的情况出现。本模型采用了第二种权重划分方式,即模型自动划分权重方式.
S43基于所述价值评估结果得到此时的新闻价值评估数据。
在另外一种可能的实施例中,当所述基础属性小于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值;
在使用SoftMax函数进行自动划分权重的同时,本算法模型还为权重的划分按照属性阈值添加了边界。模型根据大量已人工标注的新闻数据进行训练,得到新闻价值与属性因子的关系,按照第一档、第二档、第三档的权重划分方式,得到第一阈值、第二阈值。(按照大量人工标注语料,模型自动训练得到第一阈值)
当所述基础属性大于或者等于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值;
当所述基础属性大于或者等于第二属性阈值时,此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。
在另外一种可能的实施例中,所述新闻价值评估数据还需要考虑用户的状态,所述用户的状态包括活跃态与静默态两种,所述新闻价值评估数据还需要考虑用户互动数据。
产品通过将用户划分为活跃态与静默态两种状态,并将两类用户对于新闻的关注度用于新闻价值评估中。同时为避免出现用户“持续静默”使产品对新闻价值判断出现错误预估,产品会根据用户关注度以及新闻自身价值以某种概率分布进行动态转换用户的状态分类,以丰富用户对新闻价值评估的影响产品,通过新闻媒体平台获取大量的新闻数据与用户点赞、转发等互动信息,将其用于新闻价值评估,使产品获得动态的生命力,满足媒体平台对于新闻价值随时间变化的判断需求。
静默态用户的互动对新闻价值评估的贡献度权重较低,而活跃态用户对新闻价值评估的贡献度权重则较高。同时用户互动数据不仅仅局限于点赞、收藏等常规手段。用户评论也是一个重要的评估数据。用户评论数据的分析可分为“文章认同度”以及“情感相似度”。“文章认同度”往往与文章价值呈正向分布,其评估方法主要来源于用户评论中的肯定词汇以及评论主题词和摘要的提取。“情感相似度”则较为复杂,如果新闻中出现了煽动性情感词汇,而用户评论情感又呈现与文章情感相同的“一边倒”的极性分布或用户评论之间出现“两极分化”的矛盾现象,则该文章大概率为价值较低的虚假新闻。如果新闻文章并未出现煽动性情感词汇,且用户总体评论较为温和,则该文章大概率为价值较高的真实新闻。
在本发明实施例中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可折卸连接,或一体地连接。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明实施例中的具体含义。
本发明实施例的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明实施例的限制。
在本说明书的描述中,术语“一个实施例”、“一个优选实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明实施例的优选实施例而已,并不用于限制本发明实施例,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (9)
1.一种多语言混合的新闻价值排序方法,其特征在于,具体包括:
S11、将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法对所述新闻进行真实性评价,并得到所述新闻的真实性评估数据;
S12、基于新闻主体可信度评估算法对所述新闻的新闻发布主体进行可信度评价,并得到所述新闻发布主体的可信度评估数据;
S13、基于新闻吸引力评估算法对所述新闻进行吸引力评价,并得到所述新闻的吸引力评估数据;
所述新闻的吸引力评价基于所述新闻的时效性进行确定,所述新闻的时效性基于所述新闻的发布时长和新闻种类确定,其确定过程如公式(1)所示:
在训练新闻吸引力模型时,将新闻的发布时长与新闻种类以及人工标注的吸引力评分构建成一个完整的数据集,利用LSTM算法的神经网络模型进行预先训练,得到公式(1)中的参数;在使用阶段时,模型通过提取到的发布时间参数以及新闻种类参数,根据公式(1)得到该新闻的吸引力评分;
S14、基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序。
2.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述文本内容真实性评估算法基于传播内容要素、受众要素、传播效果因素,对所述新闻的真实性进行评估得到真实性评估数据。
3.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻主体可信度评估算法采用基于粒计算-神经网络。
4.如权利要求3所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻发布主体的可信度评估数据的评估步骤为:
S21、提取影响所述新闻发布主体的特征量、所述新闻的情感倾向属性;
S22、将所述特征量、所述情感倾向属性传输至基于所述粒计算-神经网络的数据模型中,得到评估结果;
S23、基于所述评估结果得到所述新闻发布主体的可信度评估数据。
5.如权利要求4所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的情感倾向属性包括正面感情倾向、无情感倾向、负面情感倾向、极度负面情感倾向。
6.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S31、基于所述新闻的真实性、时效性、相似性的基础属性,根据新闻真实性评估、可信度评估、吸引力评估对上述基础属性要求的不同侧重点,得到所述新闻的真实性评估数据、可信度评估数据、吸引力评估数据;
S32、基于所述基础属性,所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据分别构建新闻特征输入集,并将所述新闻特征输入集送入到基于LSTM算法的神经网络的预测模型中得到各自对应的数据价值评估结果;
S33、基于所述价值评估结果得到此时的新闻价值评估数据。
7.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻的新闻价值评估数据的评估具体步骤为:
S41、基于所述新闻的真实性、时效性、相似性的基础属性,分别通过对应模块提取得到所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据;
S42、基于所述新闻的所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据构建得到新闻价值评估函数,评估函数如公式(2)所示:
其中、/>、/>分别代表真实性评估数据值、可信度评估数据值、吸引力评估数据值,/>、/>、/>分别代表真实性评估数据权值、可信度评估数据权值、吸引力评估数据权值,/>代表新闻价值,softmax函数为归一化指数函数;
所述新闻的真实性评估数据的权值、所述可信度评估数据的权值、所述吸引力评估数据的权值由所述基础属性确定;
S43、基于价值评估结果得到此时的新闻价值评估数据。
8.如权利要求6所述的一种多语言混合的新闻价值排序方法,其特征在于,当所述基础属性小于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第一真实性权值、所述可信度评估数据的权值为第一可信度权值、所述吸引力评估数据的权值为第一吸引力权值;
当所述基础属性大于或者等于第一属性阈值时,此时所述新闻的所述真实性评估数据的权值为第二真实性权值、所述可信度评估数据的权值为第二可信度权值、所述吸引力评估数据的权值为第二吸引力权值;
当所述基础属性大于或者等于第二属性阈值时,此时所述新闻的所述真实性评估数据的权值为第三真实性权值、所述可信度评估数据的权值为第三可信度权值、所述吸引力评估数据的权值为第三吸引力权值。
9.如权利要求1所述的一种多语言混合的新闻价值排序方法,其特征在于,所述新闻价值评估数据还需要考虑用户的状态,所述用户的状态包括活跃态与静默态两种,所述新闻价值评估数据还需要考虑用户互动数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211568519.0A CN115688707B (zh) | 2022-12-08 | 2022-12-08 | 一种多语言混合的新闻价值排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211568519.0A CN115688707B (zh) | 2022-12-08 | 2022-12-08 | 一种多语言混合的新闻价值排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115688707A CN115688707A (zh) | 2023-02-03 |
CN115688707B true CN115688707B (zh) | 2023-06-16 |
Family
ID=85055549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211568519.0A Active CN115688707B (zh) | 2022-12-08 | 2022-12-08 | 一种多语言混合的新闻价值排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688707B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846547A (zh) * | 2018-05-06 | 2018-11-20 | 成都信息工程大学 | 一种动态调整的企业信用风险评估方法 |
CN111680153A (zh) * | 2019-12-17 | 2020-09-18 | 北京嘉遁数据科技有限公司 | 一种基于知识图谱的大数据鉴真方法与系统 |
CN114547293A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 一种跨平台虚假新闻检测方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044462A (ja) * | 2008-08-08 | 2010-02-25 | Twobytes Corp | コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム |
CN104636408B (zh) * | 2014-08-21 | 2017-08-08 | 中国科学院计算技术研究所 | 基于用户生成内容的新闻认证预警方法及系统 |
US9923860B2 (en) * | 2015-07-29 | 2018-03-20 | International Business Machines Corporation | Annotating content with contextually relevant comments |
CN106484733B (zh) * | 2015-09-01 | 2019-07-30 | 中国科学院计算技术研究所 | 新闻线索个性化推送方法及系统 |
CN107679550A (zh) * | 2017-09-11 | 2018-02-09 | 华东理工大学 | 一种数据集分类可用性的评估方法 |
CN109800349A (zh) * | 2018-12-17 | 2019-05-24 | 北京邮电大学 | 基于用户发布内容量化新闻价值的数据处理方法和装置 |
CN113158695A (zh) * | 2021-05-06 | 2021-07-23 | 上海极链网络科技有限公司 | 一种面向多语言混合文本的语义审核方法与系统 |
-
2022
- 2022-12-08 CN CN202211568519.0A patent/CN115688707B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846547A (zh) * | 2018-05-06 | 2018-11-20 | 成都信息工程大学 | 一种动态调整的企业信用风险评估方法 |
CN111680153A (zh) * | 2019-12-17 | 2020-09-18 | 北京嘉遁数据科技有限公司 | 一种基于知识图谱的大数据鉴真方法与系统 |
CN114547293A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 一种跨平台虚假新闻检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115688707A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary | |
Mirzaalian et al. | Exploring destination loyalty: Application of social media analytics in a nature-based tourism setting | |
US10795919B2 (en) | Assisted knowledge discovery and publication system and method | |
US11823074B2 (en) | Intelligent communication manager and summarizer | |
US10217058B2 (en) | Predicting interesting things and concepts in content | |
Zhao et al. | Personalized reason generation for explainable song recommendation | |
Geng et al. | Understanding the focal points and sentiment of learners in MOOC reviews: A machine learning and SC‐LIWC‐based approach | |
Routray et al. | A survey on sentiment analysis | |
CN109408622A (zh) | 语句处理方法及其装置、设备和存储介质 | |
US20130179423A1 (en) | Computer-generated sentiment-based knowledge base | |
Huddar et al. | A survey of computational approaches and challenges in multimodal sentiment analysis | |
CN103365867A (zh) | 一种对用户评价进行情感分析的方法和装置 | |
Mihalcea et al. | What men say, what women hear: Finding gender-specific meaning shades | |
Dinkov et al. | Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information | |
US9208205B2 (en) | Information processing device and program | |
WO2021179455A1 (zh) | 测量旅游景区欢乐指数的科学计量方法 | |
CN112307336B (zh) | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 | |
Kaushik et al. | Automatic sentiment detection in naturalistic audio | |
JP2009099088A (ja) | Snsユーザプロファイル摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置 | |
Liu et al. | Harvesting and summarizing user-generated content for advanced speech-based HCI | |
CN114817755A (zh) | 一种用户互动内容管理方法、装置和存储介质 | |
CN115510326A (zh) | 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法 | |
CN111488453B (zh) | 资源分级方法、装置、设备及存储介质 | |
Papaioannou et al. | An ensemble model with ranking for social dialogue | |
Antici et al. | A corpus for sentence-level subjectivity detection on english news articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |