CN112613296A - 新闻的重要程度获取方法、装置、终端设备及存储介质 - Google Patents
新闻的重要程度获取方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112613296A CN112613296A CN202011418091.2A CN202011418091A CN112613296A CN 112613296 A CN112613296 A CN 112613296A CN 202011418091 A CN202011418091 A CN 202011418091A CN 112613296 A CN112613296 A CN 112613296A
- Authority
- CN
- China
- Prior art keywords
- news
- node
- similarity
- information source
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 241000233805 Phoenix Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241001251094 Formica Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于数据处理技术领域,提供了一种新闻的重要程度获取方法、装置、终端设备及存储介质,所述重要程度获取方法包括:获取针对同一事件的M篇新闻,M为大于1的整数;获取所述M篇新闻组成的N个新闻组各自对应的相似度,一个新闻组包括所述M篇新闻中的两篇新闻,N是指从所述M篇新闻中抽取两篇新闻的组合数,一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度;根据所述N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度;获取所述每篇新闻的信源权威性评分;根据所述每篇新闻的初始重要程度和信源权威性评分,获取所述每篇新闻的最终重要程度。采用上述方法获取的新闻的重要程度,不仅精确度高,且权威性强。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种新闻的重要程度获取方法、装置、终端设备及存储介质。
背景技术
随着互联网技术的不断发展,人们获取新闻信息的渠道大大增加,除了传统的电视、报纸等渠道外,越来越多的人选择从手机、电脑等网络渠道来获取新闻信息。但是网络新闻报道来自各式各样的网站渠道,其内容错综复杂,许多报道出的新闻不能满足真实、重要、时效性强的特点。因此,如何获取众多新闻中每篇新闻的重要程度成为了一个急需解决的重要问题。
发明内容
本申请实施例提供了一种新闻的重要程度获取方法、装置、终端设备及存储介质,可以解决现有技术中难以在众多新闻中获取每篇新闻的重要程度的问题。
本申请实施例的第一方面提供了一种新闻的重要程度获取方法,所述重要程度获取方法包括:
获取针对同一事件的M篇新闻,M为大于1的整数;
获取所述M篇新闻组成的N个新闻组各自对应的相似度,一个新闻组包括所述M篇新闻中的两篇新闻,N是指从所述M篇新闻中抽取两篇新闻的组合数,一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度;
根据所述N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度;
获取所述每篇新闻的信源权威性评分;
根据所述每篇新闻的初始重要程度和信源权威性评分,获取所述每篇新闻的最终重要程度。
本申请实施例的第二方面提供了一种新闻的重要程度获取装置,所述重要程度获取装置包括:
新闻获取模块,用于获取针对同一事件的M篇新闻,M为大于1的整数;
相似度获取模块,用于获取所述M篇新闻组成的N个新闻组各自对应的相似度,一个新闻组包括所述M篇新闻中的两篇新闻,N是指从所述M篇新闻中抽取两篇新闻的组合数,一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度;
初始获取模块,用于根据所述N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度;
评分获取模块,用于获取所述每篇新闻的信源权威性评分;
最终获取模块,根据所述每篇新闻的初始重要程度和信源权威性评分,获取所述每篇新闻的最终重要程度。
本申请实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的新闻的重要程度获取方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的新闻的重要程度获取方法。
本申请实施例的第五方面提供了一种计算机程序产品,当所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述第一方面所述的新闻的重要程度获取方法。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例,针对同一事件的多篇新闻,将多篇新闻之间的任意两篇新闻组成一个新闻组,并计算出每个新闻组中两篇新闻之间的相似度,根据每个新闻组中两篇新闻的相似度,计算出每篇新闻的初始重要程度,由于每篇新闻都来自不同的信源,且不同的信源对应的新闻报道的权威性不同,例如当某一事件为娱乐新闻事件时,若此时多篇新闻中包含有财经新闻信源对该事件的报道,那么相比较于权威的娱乐新闻信源,该财经新闻信源在此次事件中报道的权威性偏低;故可以对每篇新闻的信源进行权威性评分,获取这一事件中每篇新闻的信源权威性评分;最终根据每篇新闻的初始重要程度和信源权威性评分,计算出该事件中每篇新闻的最终重要程度。本实施例基于新闻组的相似度得出新闻的初始重要程度,结合新闻的信源权威性评分获取新闻的最终重要程度,解决了从众多新闻中难以获取每篇新闻的重要程度的问题,且获取到的新闻重要程度不仅精确度高,权威性也较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种新闻的重要程度获取方法的流程示意图;
图2是本申请实施例二提供的一种新闻的重要程度获取方法的流程示意图;
图3是本申请实施例三提供的一种新闻的重要程度获取装置的结构示意图;
图4是本申请实施例四提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供的一种新闻的重要程度获取方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
应理解,本实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请的技术方案,下面通过具体实施例来说明。
参照图1,示出了本申请实施例一提供的一种新闻的重要程度获取方法的流程示意图,该重要程度获取方法应用于终端设备,如图所示该重要程度获取方法可以包括如下步骤:
步骤101,获取针对同一事件的M篇新闻,M为大于1的整数。
在本申请实施例中,获取针对同一事件的M篇新闻,M篇新闻可以是根据聚类结果提取出的针对同一事件的新闻资讯或新闻报道等。
在具体实现中,可以通过网页爬虫或其他形式从各类新闻网站、门户网站抓取大量的新闻资讯或新闻报道,通过对上述大量的新闻资讯或新闻报告进行聚类,获得聚类结果。
通常,为了保证所获取的M篇新闻的事件报道的完整性和权威性,可以根据新闻的发布时间、新闻标题及发布媒体来抓取特定时间段内以及特定媒体发布的新闻资讯或新闻报道,例如抓取两个月内针对“蚂蚁集团IPO/蚂蚁集团上市”这一事件由财经网站发布的新闻资讯或新闻报道,其中财经网站包括但不限于“第一财经,中国证券网,每日经济新闻,同花顺财经”。
具体地,对上述抓取到的新闻资讯或新闻报道进行聚类包括:
首先对抓取得到的新闻资讯以及新闻报道进行分词,对分词结果进行筛选,选择具有代表性的部分分词结果进行特征提取,其中,具有代表性的部分分词结果包括含有语义信息且与新闻资讯或新闻报道相关的词汇。
其次,将提取得到的分词结果向量化,并设为一个数据集合,指定聚类的总类数,在数据集合中随机选取数据对象作为初始的聚类中心,所选取数据对象的数量与聚类的总类数相同。
最后根据距离准则将数据对象分配到距离最接近的类,设置最大迭代次数,将每一类的平均向量作为下次迭代的聚类中心,当满足迭代终止条件即达到最大迭代次数或者聚类结果不再发生变化时,输出聚类结果。其中,根据距离准则将数据对象分配到距离最接近的类包括:计算每个数据对象到聚类中心的距离,将每个数据对象聚类到离该数据对象最近的类中。
示例性地,抓取两个月内针对“蚂蚁集团IPO/蚂蚁集团上市”这一事件由财经网站发布的新闻资讯或新闻报道,对抓取到的新闻资讯或报道新闻进行聚类,设置聚类总类数为1,聚类结果为:[2020-08-25,《蚂蚁集团披露493页招股书,2019年研发投入已超百亿元》,第一财经],[2020-08-25,《蚂蚁集团递交招股文件:拟发行不低于30亿股新股去年净利润超过180亿元》,中国证券网],[2020-09-18,《每经19点丨仅用时25天,蚂蚁集团首发过会》,每日经济新闻],[2020-10-14,《蚂蚁集团“暂缓”IPO,耽误了谁的上市盛宴?》,同花顺财经]等相关新闻。
102,获取该M篇新闻组成的N个新闻组各自对应的相似度。
在本申请实施例中,一个新闻组包括M篇新闻中的任意两篇新闻,N是指从M篇新闻中任意抽取两篇新闻的组合数,且一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度。
具体地,M篇新闻中任意抽取两篇新闻的组合数N可以根据组合数公式计算得到,组合数公式可以表示为:
其中,M是通过步骤101获取的相关新闻报道的数量;M!是M的阶乘。
由于每个新闻组是由两篇新闻组合而成的,可通过计算每个新闻组所包含的两篇新闻之间的相似度,得到每个新闻组对应的相似度,从而获得N个新闻组各自对应的相似度。
可选地,获取M篇新闻组成的N个新闻组各自对应的相似度包括:对于N个新闻组中的第i个新闻组,且第i个新闻组是N个新闻组中的任一新闻组,第i个新闻组包括第一新闻和第二新闻,获取第一新闻的词频字典和第二新闻的词频字典,第一新闻的词频字典包括第一新闻中出现的关键词和该关键词在第一新闻中出现的次数,第二新闻的词频字典包括第二新闻中出现的关键词和该关键词在第二新闻中出现的次数;
根据第一新闻的词频字典和第二新闻的词频字典,检测第一新闻和第二新闻中是否存在相同的关键词;
若第一新闻和第二新闻中不存在相同的关键词,则确定第i个新闻组的相似度为零;若第一新闻和第二新闻中存在相同的关键词,则根据该关键词分别在第一新闻中出现的次数和在第二新闻中出现的次数,计算第i个新闻组的相似度。
在本申请实施例中,针对第i个新闻组中的任一篇新闻,在获取该新闻对应的词频字典时,可以首先提取该新闻的多个关键词。
通常,一篇新闻的新闻标题应当是对整篇新闻所报道内容的概括,而正文应当是对整个新闻内容的详细描述。因此可以从该新闻的新闻标题和正文提取该新闻的多个关键词。
在具体实现中,可以将新闻标题和正文按照顺序合并在一起作为一个新闻文本,对组合后的新闻文本进行分词,其中,对组合后的新闻文本进行分词可选择Python中的jieba库中的pseg.cut()函数,该pseg.cut()函数可进行词性标注,对分词后得到的每个词进行词性标注。然后基于分词后得到的所有词的词性对所有词进行筛选,提取该新闻中的多个关键词。其中,基于分词后得到的所有词的词性对所有词进行筛选包括,删除部分不包含语义信息的词,筛选后未被删除的词作为该新闻的关键词。
需要说明的是,对组合后的新闻文本进行分词及对分词后得到的所有词进行筛选还可以采用其他的文本处理方法,本申请对此不做限定。另外,本申请中在对该新闻的所有词进行筛选,删除部分不包含语义信息的词时,删除的词所具有的词性包括但不限于:非语素字、标点符号、助词、连词、介词、量词、时间词、方位词、副词、数词。
在具体实现中,提取该新闻的多个关键词之后还包括:统计每个关键词在该篇新闻中出现的次数(即该关键词的词频)。将该篇新闻中提取到的所有关键词与对应的词频建立映射关系,得到该篇新闻的词频字典。
需要说明的是,M篇新闻中每篇新闻的词频字典的获取方法均与上述词频字典的获取方法相同。
在本申请实施例中,可以将第一新闻的词频字典和第二新闻的词频字典分别看作一个集合,每个集合都包含有“键”和“值”两个元素,其中,“键”表示为词频字典中的关键词,“值”表示为关键词在该词频字典中出现的次数。例如,第一新闻的词频字典的集合可以为第二新闻的词频字典的集合为其中,和的下标1表示第一新闻;表示第一新闻中第p个关键词;表示第一新闻中第p个关键词对应的词频;和的下标2表示第二新闻;表示第二新闻中第q个关键词;表示第二新闻中第q个关键词对应的词频;“键”和“值”对应关系可以表示为: 且p和q都是大于零的正整数。
在具体实现中,两个“键”的集合的交集可以表示如下:
I=K1∩K2
其中,I是第一新闻和第二新闻之间存在的相同关键词的集合,若I不是空集,则代表第一新闻和第二新闻之间存在相同的关键词,若I是空集,则代表第一新闻和第二新闻之间不存在相同的关键词。
在本申请实施例中,确定第i个新闻组的相似度为零,即表示第一新闻和第二新闻“键”的集合无交集。
103,根据N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度。
在进行新闻初始重要程度的计算时,总的思想为拥有越多相似新闻的新闻重要程度越高,与其他新闻相似度越高的新闻重要程度越高。在进行计算时,可以将获取的M篇新闻以有向图模型的方式进行表示,通过有向图模型计算每篇新闻的初始重要程度。
具体地,将相似度作为两篇新闻之间连接关系的判断标准,即若两篇新闻之间的相似度为零,则两篇新闻之间不存在有向边连接关系;若两篇新闻之间的相似度不为零,则两篇新闻之间存在有向边连接关系。根据以上有向边连接关系的判断,并依据上述N个新闻组各自对应的相似度构建第一有向图模型,第一有向图模型的一个节点表示一篇新闻,计算出第一有向图模型中每个节点的权重值即为该节点对应的新闻的初始重要程度。
可选地,N个新闻组中的任一新闻组包括第一新闻和第二新闻,该新闻组对应的相似度包括第一新闻指向第二新闻的相似度,以及第二新闻指向第一新闻的相似度,根据N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度包括:
根据N个新闻组各自对应的相似度,构建第一有向图模型,第一有向图模型中节点为M篇新闻,第一有向图模型中有向边的起始节点指向终止节点的相似度大于预设相似度;
对于第一有向图模型的任一节点j,根据第一有向图模型,获取节点j的入度节点和该入度节点的出度节点;
根据节点j的入度节点指向节点j的相似度、节点j的入度节点的权重,以及节点j的入度节点指向其出度节点的相似度,更新节点j的权重;
若检测到节点j的权重的更新次数大于第一预设更新次数,或者节点j的权重收敛,则停止更新节点j的权重,并确定停止更新时节点j的权重为节点j对应的新闻的初始重要程度。
在本申请实施例中,一个新闻组对应的相似度包括该新闻组中第一新闻指向第二新闻的相似度,以及该新闻组中第二新闻指向第一新闻的相似度。
具体地,在计算该新闻组中第一新闻指向第二新闻的相似度和该新闻组中第二新闻指向第一新闻的相似度时,以第一新闻和第二新闻的所有相同关键词中的第x个关键词为例进行说明,第x个关键词为上述所有相同关键词中的任一关键词,记第x个关键词在第一新闻中出现的次数为V1[x],记第x个关键词在第二新闻中出现的次数为V2[x],其中V1[x]和V2[x]均为自然数。该新闻组中第一新闻指向第二新闻的相似度的计算公式可以表示如下:
该新闻组中第二新闻指向第一新闻的相似度的计算公式可以表示如下:
其中tanh(·)是双曲正切函数,且作为非线性激活函数的一种可用于将每个关键词分别在两篇新闻中出现的次数的比值映射至0到1之间,round(·)是对于浮点数的四舍五入函数,将数值保留至整数部分,R12是第一新闻指向第二新闻的相似度,R21是第二新闻指向第一新闻的相似度。
在一示例中,针对同一事件的M篇新闻中的任一新闻组i,第i个新闻组包括第一新闻和第二新闻,将第一新闻和第二新闻分别命名为新闻A和新闻B,假设两篇新闻中都包含有“中国”这一关键词,“中国”在新闻A中出现的次数为18,在新闻B出现的次数为3,则新闻A指向新闻B的相似度可以表示为:
新闻B指向新闻A的相似度可以表示为:
在构建第一有向图模型时,可以记新闻A在第一有向图模型中对应的节点为节点A,记新闻B在第一有向图模型中对应的节点为节点B,那么上述RAB可以理解为节点A指向节点B的相似度,RBA可以理解为节点B指向节点A的相似度,根据RAB为零,确定节点A指向节点B无法建立有向边连接,可以判断节点A指向节点B之间为单向连接,且有向边的指向为节点B指向节点A。
在本申请实施例中,上述预设相似度为大于或等于零的数值,即在根据相似度构建第一有向图模型时,若第一有向图模型中的任一起始节点指向终止节点的相似度大于预设相似度,则建立起止节点与终止节点之间的有向边,且有向边的指向为起始节点指向终止节点;若第一有向图模型中的任一起止节点指向其对应的终止节点的相似度小于或等于预设相似度,则确定该起止节点与终止节点之间无连接关系。
需要说明的是,第一有向图模型的节点为针对同一事件的M篇新闻中的任一新闻,且两个节点之间的连接关系可以为双向连接,也可以为单向连接。
示例性的,假设上述两个节点分别为节点e和节点f,若节点e指向节点f的相似度不为零,节点f指向节点e的相似度也不为零,那么可以确定节点e与节点f之间为双向连接;若节点e指向节点f的相似度为零,节点f指向节点e的相似度不为零,那么可以确定节点e与节点f之间为单向连接,且连接方向为节点f指向节点e;若节点f指向节点e的相似度为零,节点e指向节点f的相似度不为零,那么可以确定节点e与节点f之间也为单向连接,连接方向为节点e指向节点f。
在本申请实施例中,通过随机初始化每个节点的初始权重,根据节点之间的相似度,更新每个节点的权重。
在具体实现中,首先随机初始化每个节点的初始权重为T0(D),针对任一节点s,节点s为节点j的任一入度节点,获取节点s的出度相似度总和(即节点s的所有出度节点指向节点s的相似度的总和),其节点s的出度相似度总和的计算公式可以表示如下:
其中,R(s,j)是节点s指向节点j之间的相似度,Out(Ds)是由节点s的所有出度节点构成的集合。
在具体实现中,节点j更新后的权重可以表示如下:
其中,Tk(Dj)是节点j第k次更新后的权重,Tk-1(Ds)是节点s第k-1次更新后的权重,k是大于零的整数,|SumOut(Ds)|是节点s所有出度节点的相似度总和,In(Dj)是由节点j的所有入度节点构成的集合,d是阻尼系数,一般取值为0.85。
在本申请实施例中,第一预设更新次数即为本申请初始重要程度计算过程中的迭代次数,可设置为重复迭代1000次,用户可根据实际需要设置该迭代次数,当达到迭代次数时,确定停止更新,本申请对该迭代次数(即更新次数)不做限定。也可以根据第一有向图中节点的权重是否收敛,确定是否停止更新,若第一有向图中节点的权重在更新时不再变化,则确定该节点的权重收敛,停止更新;若第一有向图中节点的权重在更新时发生变化,则确定该节点的权重未收敛,继续更新该节点的权重。
需要说明的是,依据上述计算节点j对应的新闻的初始重要程度的方法,可以计算出第一有向图模型中每个节点对应的新闻的初始重要程度,从而得到M篇新闻中所有新闻的初始重要程度。
104,获取每篇新闻的信源权威性评分。
在本申请实施例中,由于每篇新闻都有所对应的信源,针对不同的事件,信源的权威性不同。例如,针对财经新闻事件,财经类的信源所报道的新闻权威性比较高,针对娱乐新闻事件,娱乐类的信源所报道的新闻权威性较高。
示例性的,针对某一财经新闻事件,获取多篇新闻,其多篇新闻中的信源包括:“新浪财经”、“凤凰网”、“新浪娱乐”“网易新闻”、“金融界”、“腾讯网”“南方网-财经频道”、“大众娱乐网”“人民网”、“央广天下财经”、“经济日报”、“百度财经”等。根据财经类信源的权威性判断,“新浪财经”、“凤凰网”、“金融界”“南方网-财经频道”、“人民网”、“央广天下财经”、“经济日报”、“百度财经”的信源权威性评分要大于“新浪娱乐”“网易新闻”、“腾讯网”、“大众娱乐网”的信源权威性评分。
在具体实现中,由于信源的权威性不同,考虑信源的权威性评分确定针对同一事件中所报道的新闻来源的权威性,权威性较高,则新闻报道的可信度越高。因此,用户可根据不同事件对不同信源设置固定信源权威性评分。例如,针对财经新闻事件,对“新浪财经”这一信源设置信源权威性评分为1,对“腾讯网”这一信源设置信源权威性评分为0.5,对“大众娱乐网”这一信源设置信源权威性评分为0.2等,由用户设置固定的信源权威性评分。
105,根据每篇新闻的初始重要程度和信源权威性评分,获取每篇新闻的最终重要程度。
在本申请实施例中,当新闻信源的权威性评分相近时,可以设置新闻的初始重要程度在最终重要程度计算时所占比重较高,此时新闻的初始重要程度决定了最终重要程度的分数;当新闻的初始重要程度相近时,可以设置新闻信源的权威性评分在最终重要程度计算时所占比重较高,此时新闻信源的权威性评分决定了最终重要程度的分数。因此对每篇新闻的初始重要程度和信源的权威性评分进行线性加权,可采用加权系数常量控制两者之间的比重大小。
在具体实现中,对每篇新闻的初始重要程度和信源的权威性评分进行线性加权,其第l篇新闻的最终重要程度的计算方法可以表示如下:
F(Dl)=β×T(Dl)+(1-β)×P(Dl)
其中,F(Dl)是所获取的第l篇新闻的最终重要程度,T(Dl)是所获取的第l篇新闻的初始重要程度,P(Dl)是所获取的第l篇新闻的信源的权威性评分,β是加权系数常量。
本实施例基于新闻组的相似度得出新闻的初始重要程度,结合新闻的信源权威性评分获取新闻的最终重要程度,解决了从众多新闻中难以获取每篇新闻的重要程度的问题,不仅获取新闻重要程度的精确度高,且权威性较高。
参照图2,示出了本申请实施例二提供的新闻的重要程度获取方法的流程示意图,该重要程度获取方法应用于终端设备,如图所示该重要程度获取方法可以包括如下步骤:
步骤201,获取针对同一事件的M篇新闻,M为大于1的整数。
步骤202,获取M篇新闻组成的N个新闻组各自对应的相似度。
步骤203,根据N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度。
本实施例步骤201-203与前述实施例中步骤101-103类似,可以相互参阅,本实施例在此不再赘述。
步骤204,获取每篇新闻的信源权威性评分。
本申请实施例中,为了提高信源权威性评分的准确性,可以通过对每篇新闻的信源初始权威性评分进行迭代计算,更新每篇新闻的信源权威性评分,当上述迭代计算完成时,获取停止更新时每篇新闻的信源权威性评分。
可选地,获取每篇新闻的信源权威性评分包括:
获取M篇新闻的信源中的至少一个目标信源,以及每个目标信源链接的至少一个非目标信源;
根据M篇新闻的信源中的至少一个目标信源,以及每个目标信源链接的至少一个非目标信源,构建第二有向图模型,第二有向图模型中有向边的起始节点与终止节点之间存在链接关系,第二有向图模型中节点包括至少一个种子节点以及每个种子节点链接的至少一个非种子节点,种子节点是指目标信源,非种子节点是指非目标信源;
基于第二有向图模型,从至少一个种子节点中的任一种子节点开始游走,在游走到任一节点g时,获取节点g的入度节点,以及该入度节点的出度节点的数量;
检测节点g是否属于种子节点,得到检测结果,检测结果包括节点g属于种子节点和节点g不属于种子节点;
根据节点g的入度节点的权重、该入度节点的出度节点的数量,以及检测结果,更新节点g的权重;
若检测到节点g的权重的更新次数大于第二预设更新次数,或者节点g的权重收敛,则停止更新节点g的权重,并确定停止更新时节点g的权重为节点g对应的信源权威性评分。
在本申请实施例中,获取每篇新闻的信源权威性评分时,首先由用户针对该事件设置目标信源集合,根据该事件所属的新闻类别,取该新闻类别中报道新闻质量较好且权威性较高的信源组成目标信源集合,非目标信源由目标信源链接得到;其次,根据获取的所有信源之间的链接关系(即目标信源中包含能够链接到非目标信源的链接),构建第二有向图模型,并根据第二有向图模型计算得出每篇新闻的信源权威性评分。
具体地,针对不同事件,目标信源不同。例如,针对财经类的新闻,可预设目标信源为“新浪财经”、“凤凰网”、“网易新闻”、“金融界”、“南方网-财经频道”、“人民网”、“央广天下财经”、“经济日报”、“百度财经”等财经圈中较权威的信源,对目标信源预设权重为1,非目标信源的预设权重根据该非目标信源和目标信源的链接关系确定;针对娱乐类的信源,可预设目标信源为“新浪娱乐”、“腾讯娱乐”、“大众娱乐”、“网易娱乐”等娱乐圈中较权威的信源,同样,对该目标信源预设权重为1,非目标信源的预设权重根据该非目标信源和目标信源的链接关系确定。
上述目标信源来源于用户设置的目标信源集合,目标信源集合包含有质量较高、较权威的目标信源,非目标信源为目标信源所链接到的信源。
示例性地,针对金融财经类的新闻,目标信源的挑选可以为“新浪财经”、“凤凰网”、“网易新闻”、“金融界”、“南方网-财经频道”、“人民网”、“央广天下财经”、“经济日报”、“百度财经”等,上述信源可构成一个目标信源集合,同时用户可根据上述信源所链接到的信源设置非目标信源。
在本申请实施例中,第二有向图模型中包括至少一个目标信源以及每个目标信源链接的至少一个非目标信源,其中目标信源的权威性评分最高,默认为目标信源的初始权威性评分为1,由目标信源所指向的非目标信源的初始权威性评分均属于0到1之间的数值。
具体地,根据目标信源的初始权威性评分,可确定非目标信源的初始权威性评分,根据目标信源的初始权威性评分与该目标信源所连接非目标信源数量的比值,可得到非目标信源的初始权威性评分。
在一示例中,若一目标信源链接了5个非目标信源,则每个非目标信源的初始权威性评分为0.2,若一个非目标信源同时被两个目标信源链接,那么该非目标信源的初始权威性评分则根据两个目标信源所链接的非目标信源的个数确定,若第一目标信源所链接的非目标信源的数量为4,第二目标信源链接的非目标信源的数量为5,那么该非目标信源的初始权威性评分为0.25和0.2之和,即初始权威性评分为0.45。
在本申请实施例中,针对第二有向图模型中任一节点g的检测结果,可以为不同的检测结果设置不同的输出值,在更新节点g的权重时,可以根据节点g的入度节点的权重、该入度节点的出度节点的数量进行更新,其中,检测结果的输出值可以用下列计算公式表达:
其中S是种子节点的集合,|S|是种子节点的数量,种子节点的数量是指M篇新闻的所有信源中目标信源的数量。
上述检测结果为:若Dg属于种子节点,则检测结果的输出值为1/|S|;若Dg不属于种子节点,则检测结果的输出值为零。
在本申请实施例中,节点的权重值即为节点所对应信源的权威性评分值,上述节点g的入度节点的初始权重值通过节点是否属于种子节点确定,若该入度节点属于种子节点,则权重值为1,若该入度节点不属于种子节点,则该权重值根据该入度节点的入度节点确定。
在具体实现中,节点g的权重的更新公式可以表示如下:
其中,是节点g第k1次更新后的权重,是节点h第k1-1次更新后的权重,k1是更新次数,|Out(Dh)|是节点h所链接的出度节点的总数量,In(Dg)是由节点g的所有入度节点构成的集合,节点h是In(Dg)中的任一节点,α是衰减因子,用于限制非目标信源节点权重相较于目标信源节点权重的衰减程度,α为0到1之间的值,本申请中取α=0.8。
在本申请实施例中,第二预设更新次数即为本申请信源权威性评分计算过程中的迭代次数,用户可根据实际需要设置该迭代次数,当达到迭代次数时,确定停止更新,本申请对该迭代次数(即更新次数)不做限定。也可以根据第二有向图中节点的权重是否收敛,确定是否停止更新,若第二有向图中节点的权重在更新时不再变化,则确定该节点的权重收敛,停止更新;若第二有向图中节点的权重在更新时发生变化,则确定该节点的权重未收敛,继续更新该节点的权重。
需要说明的是,依据上述计算节点g对应的信源权威性评分的方法,可以计算出第二有向图模型中每个节点对应的信源权威性评分,从而得到M篇新闻中所有新闻的信源权威性评分。
步骤205,根据每篇新闻的初始重要程度和信源权威性评分,获取每篇新闻的最终重要程度。
本实施例步骤205与前述实施例中步骤105类似,可以相互参阅,本实施例在此不再赘述。
步骤207,获取M篇新闻各自的报道时间。
步骤208,将报道时间处于同一时间段的新闻划分为同一类新闻。
在本申请实施例中,由于新闻的时序特征是获取重要新闻的影响因素之一,针对同一事件的多篇新闻,报道的时间可能不同,所处的事件发展阶段也可能不同,为了获取事件发展的清晰脉络,可以将报道时间处于同一时间段的新闻划分为同一类新闻。
在具体实现中,可以将同一事件的多篇新闻按照报道时间划分为三个阶段的新闻,分别为事件起因阶段、经过阶段、结果阶段,处于同一时间段的新闻为同一类新闻。
步骤209,按照最终重要程度由高至低的顺序,对同一类新闻中的所有新闻进行排序。
在对同一类新闻中所有新闻进行排序后,输出结果为针对同一事件的重要新闻列表,可以使用户更直观地获取到该事件在每个发展阶段上的重要程度最高的新闻。
具体地,针对某段时间,将处于起因阶段的新闻划分为一类,根据步骤205得到的处于起因阶段的所有新闻的最终重要程度由高至低进行排序,可以得到处于起因阶段的所有新闻中重要程度最高的新闻。
应理解,分别对事件的经过阶段和结果阶段中的所有新闻按照最终重要程度进行排序,可分别得到事件经过阶段和结果阶段中重要程度最高的新闻。
示例性地,针对蚂蚁集团上市这一事件,按照不同时间段的重要新闻获取结果如下:
2020-7-23-2020-8-27:蚂蚁集团IPO;
[2020-07-22,《蚂蚁集团启动A+H上市计划A股有望迎首个互联网“巨头”》,经济日报];
2020-10-15-2020-10-18:网传蚂蚁集团IPO推迟;
[2020-10-14,《蚂蚁集团IPO推迟?回应:上市流程在两地有序推进,没有预设的时间表》,每日经济新闻];
2020-10-19-2020-10-20:蚂蚁集团香港上市;
[2020-10-19,《蚂蚁集团香港上市:证监会已批准》,百度财经];
本实施例基于新闻组的相似度的得出新闻的初始重要程度,并通过根据信源之间的链接关系建立的有向图模型,获取更优的信源权威性评分,结合初始重要程度获取新闻的最终重要程度,在获取新闻最终重要程度之后对其按照时序进行划分,直接输出不同时间段内的重要新闻列表,上述技术方案可以使用户详细地了解事件的发展脉络,获取到每个发展阶段的重要新闻。
参照图3,示出了本申请实施例三提供的一种新闻的重要程度获取装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,重要程度获取装置具体可以包括如下模块:
新闻获取模块301,用于获取针对同一事件的M篇新闻,M为大于1的整数;
相似度获取模块302,用于获取M篇新闻组成的N个新闻组各自对应的相似度,一个新闻组包括M篇新闻中的两篇新闻,N是指从M篇新闻中抽取两篇新闻的组合数,一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度;
初始获取模块303,用于根据N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度;
评分获取模块304,用于获取每篇新闻的信源权威性评分;
最终获取模块305,根据每篇新闻的初始重要程度和信源权威性评分,获取每篇新闻的最终重要程度。
在本申请实施例中,相似度获取模块302具体可以包括如下子模块:
字典获取子模块,用于针对N个新闻组中的第i个新闻组,第i个新闻组是N个新闻组中的任一新闻组,第i个新闻组包括第一新闻和第二新闻,获取第一新闻的词频字典和第二新闻的词频字典,第一新闻的词频字典包括第一新闻中出现的关键词和该关键词在第一新闻中出现的次数,第二新闻的词频字典包括第二新闻中出现的关键词和该关键词在第二新闻中出现的次数;
检测子模块,用于根据第一新闻的词频字典和第二新闻的词频字典,检测第一新闻和第二新闻中是否存在相同的关键词;
相似度获取子模块,用于针对第一新闻和第二新闻中不存在相同的关键词,则确定第i个新闻组的相似度为零;若第一新闻和第二新闻中存在相同的关键词,则根据该关键词分别在第一新闻中出现的次数和在第二新闻中出现的次数,计算第i个新闻组的相似度。
在本申请实施例中,N个新闻组中的任一新闻组包括第一新闻和第二新闻,该新闻组对应的相似度包括第一新闻指向第二新闻的相似度,以及第二新闻指向第一新闻的相似度,初始获取模块303具体可以包括如下子模块:
第一构建子模块,用于根据N个新闻组各自对应的相似度,构建第一有向图模型,第一有向图模型中节点为M篇新闻,第一有向图模型中有向边的起始节点指向终止节点的相似度大于预设相似度;
节点获取子模块,用于针对第一有向图模型的任一节点j,根据第一有向图模型,获取节点j的入度节点和该入度节点的出度节点;
权重更新子模块,用于根据节点j的入度节点指向节点j的相似度、节点j的入度节点的权重,以及节点j的入度节点指向其出度节点的相似度,更新节点j的权重;
初始获取子模块,用于根据检测到节点j的权重的更新次数大于第一预设更新次数,或者节点j的权重收敛,则停止更新节点j的权重,并确定停止更新时节点j的权重为节点j对应的新闻的初始重要程度。
在本申请实施例中,评分获取模块304具体可以包括如下子模块:
信源获取子模块,获取M篇新闻的信源中的至少一个目标信源,以及每个目标信源链接的至少一个非目标信源;
第二构建子模块,用于根据M篇新闻的信源中的至少一个目标信源,以及每个目标信源链接的至少一个非目标信源,构建第二有向图模型,第二有向图模型中有向边的起始节点与终止节点之间存在链接关系,第二有向图模型中节点包括至少一个种子节点以及每个种子节点链接的至少一个非种子节点,种子节点是指目标信源,非种子节点是指非目标信源;
数量获取子模块,用于基于第二有向图模型,从至少一个种子节点中的任一种子节点开始游走,在游走到任一节点g时,获取节点g的入度节点,以及该入度节点的出度节点的数量;
种子检测子模块,用于检测节点g是否属于种子节点,得到检测结果,检测结果包括节点g属于种子节点和节点g不属于种子节点;
信源权重更新子模块,用于根据节点g的入度节点的权重、该入度节点的出度节点的数量,以及检测结果,更新节点g的权重;
评分获取子模块,用于检测到节点g的权重的更新次数大于第二预设更新次数,或者节点g的权重收敛,则停止更新节点g的权重,并确定停止更新时节点g的权重为节点g对应的信源权威性评分。
在本申请实施例中,最终获取模块305具体用于:
对每篇新闻的初始重要程度和信源的权威性评分进行线性加权,得到每篇新闻的最终重要程度。
在本申请实施例中,上述重要程度获取装置还包括:
时间获取模块,用于获取M篇新闻各自的报道时间;
新闻划分模块,用于将报道时间处于同一时间段的新闻划分为同一类新闻;
第一排序模块,按照最终重要程度由高至低的顺序,对同一类新闻中的所有新闻进行排序。
在本申请实施例中,上述重要程度获取装置还包括:
第二排序模块,用于按照最终重要程度由高至低的顺序,对M篇新闻进行排序。
本申请实施例提供的重要程度获取装置可以应用在前述方法实施例中,详情参见上述方法实施例的描述,在此不再赘述。
图4是本申请实施例四提供的终端设备的结构示意图。如图4所示,该实施例的终端设备4包括:至少一个处理器410(图4中仅示出一个)处理器、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序421,所述处理器410执行所述计算机程序421时实现上述任意各个重要程度获取方法实施例中的步骤。
所述终端设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器410、存储器420。本领域技术人员可以理解,图4仅仅是终端设备400的举例,并不构成对终端设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器410可以是中央处理单元(Central Processing Unit,CPU),该处理器410还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器420在一些实施例中可以是所述终端设备400的内部存储单元,例如终端设备400的硬盘或内存。所述存储器420在另一些实施例中也可以是所述终端设备400的外部存储设备,例如所述终端设备400上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器420还可以既包括所述终端设备400的内部存储单元也包括外部存储设备。所述存储器420用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当所述计算机程序产品在终端设备上运行时,使得所述终端设备执行时实现可实现上述各个方法实施例中的步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种新闻的重要程度获取方法,其特征在于,所述重要程度获取方法包括:
获取针对同一事件的M篇新闻,M为大于1的整数;
获取所述M篇新闻组成的N个新闻组各自对应的相似度,一个新闻组包括所述M篇新闻中的两篇新闻,N是指从所述M篇新闻中抽取两篇新闻的组合数,一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度;
根据所述N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度;
获取所述每篇新闻的信源权威性评分;
根据所述每篇新闻的初始重要程度和信源权威性评分,获取所述每篇新闻的最终重要程度。
2.如权利要求1所述的重要程度获取方法,其特征在于,所述获取所述M篇新闻组成的N个新闻组各自对应的相似度包括:
对于所述N个新闻组中的第i个新闻组,所述第i个新闻组是所述N个新闻组中的任一新闻组,所述第i个新闻组包括第一新闻和第二新闻,获取所述第一新闻的词频字典和所述第二新闻的词频字典,所述第一新闻的词频字典包括所述第一新闻中出现的关键词和该关键词在所述第一新闻中出现的次数,所述第二新闻的词频字典包括所述第二新闻中出现的关键词和该关键词在所述第二新闻中出现的次数;
根据所述第一新闻的词频字典和所述第二新闻的词频字典,检测所述第一新闻和所述第二新闻中是否存在相同的关键词;
若所述第一新闻和所述第二新闻中不存在相同的关键词,则确定所述第i个新闻组的相似度为零;
若所述第一新闻和所述第二新闻中存在相同的关键词,则根据该关键词分别在所述第一新闻中出现的次数和在所述第二新闻中出现的次数,计算所述第i个新闻组的相似度。
3.如权利要求1所述的重要程度获取方法,其特征在于,所述N个新闻组中的任一新闻组包括第一新闻和第二新闻,该新闻组对应的相似度包括所述第一新闻指向所述第二新闻的相似度,以及所述第二新闻指向所述第一新闻的相似度,所述根据所述N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度包括:
根据所述N个新闻组各自对应的相似度,构建第一有向图模型,所述第一有向图模型中节点为所述M篇新闻,所述第一有向图模型中有向边的起始节点指向终止节点的相似度大于预设相似度;
对于所述第一有向图模型的任一节点j,根据所述第一有向图模型,获取所述节点j的入度节点和该入度节点的出度节点;
根据所述节点j的入度节点指向所述节点j的相似度、所述节点j的入度节点的权重,以及所述节点j的入度节点指向其出度节点的相似度,更新所述节点j的权重;
若检测到所述节点j的权重的更新次数大于第一预设更新次数,或者所述节点j的权重收敛,则停止更新所述节点j的权重,并确定停止更新时所述节点j的权重为所述节点j对应的新闻的初始重要程度。
4.如权利要求1所述的重要程度获取方法,其特征在于,所述获取所述每篇新闻的信源权威性评分包括:
获取所述M篇新闻的信源中的至少一个目标信源,以及每个目标信源链接的至少一个非目标信源;
根据所述M篇新闻的信源中的至少一个目标信源,以及每个目标信源链接的至少一个非目标信源,构建第二有向图模型,所述第二有向图模型中有向边的起始节点与终止节点之间存在链接关系,所述第二有向图模型中节点包括至少一个种子节点以及每个种子节点链接的至少一个非种子节点,所述种子节点是指所述目标信源,所述非种子节点是指所述非目标信源;
基于所述第二有向图模型,从所述至少一个种子节点中的任一种子节点开始游走,在游走到任一节点g时,获取所述节点g的入度节点,以及该入度节点的出度节点的数量;
检测所述节点g是否属于所述种子节点,得到检测结果,所述检测结果包括所述节点g属于所述种子节点和所述节点g不属于所述种子节点;
根据所述节点g的入度节点的权重、该入度节点的出度节点的数量,以及所述检测结果,更新所述节点g的权重;
若检测到所述节点g的权重的更新次数大于第二预设更新次数,或者所述节点g的权重收敛,则停止更新所述节点g的权重,并确定停止更新时所述节点g的权重为所述节点g对应的信源权威性评分。
5.如权利要求1所述的重要程度获取方法,其特征在于,在获取所述每篇新闻的最终重要程度之后,还包括:
获取所述M篇新闻各自的报道时间;
将报道时间处于同一时间段的新闻划分为同一类新闻;
按照最终重要程度由高至低的顺序,对同一类新闻中的所有新闻进行排序。
6.如权利要求1所述的重要程度获取方法,其特征在于,所述根据所述每篇新闻的初始重要程度和信源的权威性评分,获取所述每篇新闻的最终重要程度包括:
对所述每篇新闻的初始重要程度和信源的权威性评分进行线性加权,得到所述每篇新闻的最终重要程度。
7.如权利要求1至6任一项所述的重要程度获取方法,其特征在于,在获取所述每篇新闻的最终重要程度之后,还包括:
按照最终重要程度由高至低的顺序,对所述M篇新闻进行排序。
8.一种新闻的重要程度获取装置,其特征在于,所述重要程度获取装置包括:
新闻获取模块,用于获取针对同一事件的M篇新闻,M为大于1的整数;
相似度获取模块,用于获取所述M篇新闻组成的N个新闻组各自对应的相似度,一个新闻组包括所述M篇新闻中的两篇新闻,N是指从所述M篇新闻中抽取两篇新闻的组合数,一个新闻组对应的相似度是指该新闻组所包含的两篇新闻之间的相似度;
初始获取模块,用于根据所述N个新闻组各自对应的相似度,获取每篇新闻的初始重要程度;
评分获取模块,用于获取所述每篇新闻的信源权威性评分;
最终获取模块,根据所述每篇新闻的初始重要程度和信源权威性评分,获取所述每篇新闻的最终重要程度。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418091.2A CN112613296A (zh) | 2020-12-07 | 2020-12-07 | 新闻的重要程度获取方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418091.2A CN112613296A (zh) | 2020-12-07 | 2020-12-07 | 新闻的重要程度获取方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613296A true CN112613296A (zh) | 2021-04-06 |
Family
ID=75229548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011418091.2A Pending CN112613296A (zh) | 2020-12-07 | 2020-12-07 | 新闻的重要程度获取方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613296A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190683A (zh) * | 2021-07-02 | 2021-07-30 | 平安科技(深圳)有限公司 | 基于聚类技术的企业esg指数确定方法及相关产品 |
WO2023050652A1 (zh) * | 2021-09-28 | 2023-04-06 | 平安科技(深圳)有限公司 | 基于文本识别的区域内esg指数确定方法及相关产品 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929928A (zh) * | 2012-09-21 | 2013-02-13 | 北京格致璞科技有限公司 | 基于多维相似度的个性化新闻推荐方法 |
US20130246521A1 (en) * | 2012-03-15 | 2013-09-19 | Keith Schacht | Selectively providing content on a social networking system |
KR20140044162A (ko) * | 2012-10-04 | 2014-04-14 | 한양대학교 에리카산학협력단 | 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법 |
TWI556123B (zh) * | 2015-08-06 | 2016-11-01 | News tracking and recommendation method | |
CN106776841A (zh) * | 2016-11-28 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
CN107748801A (zh) * | 2017-11-16 | 2018-03-02 | 北京百度网讯科技有限公司 | 新闻推荐方法、装置、终端设备及计算机可读存储介质 |
CN108875065A (zh) * | 2018-07-02 | 2018-11-23 | 电子科技大学 | 一种基于内容的印尼新闻网页推荐方法 |
CN110377808A (zh) * | 2019-06-14 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 文档处理方法、装置、电子设备及存储介质 |
CN110399478A (zh) * | 2018-04-19 | 2019-11-01 | 清华大学 | 事件发现方法和装置 |
CN110399464A (zh) * | 2019-07-30 | 2019-11-01 | 广州吉信网络科技开发有限公司 | 一种相似新闻判别方法、系统及电子设备 |
CN111460153A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 热点话题提取方法、装置、终端设备及存储介质 |
CN111552882A (zh) * | 2020-05-09 | 2020-08-18 | 重庆邮电大学 | 一种新闻影响力计算方法、装置、计算机设备及存储介质 |
CN111667023A (zh) * | 2020-06-30 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 获取目标类别的文章的方法和装置 |
CN111898034A (zh) * | 2020-09-29 | 2020-11-06 | 江西汉辰信息技术股份有限公司 | 新闻内容推送方法、装置、存储介质及计算机设备 |
-
2020
- 2020-12-07 CN CN202011418091.2A patent/CN112613296A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246521A1 (en) * | 2012-03-15 | 2013-09-19 | Keith Schacht | Selectively providing content on a social networking system |
CN102929928A (zh) * | 2012-09-21 | 2013-02-13 | 北京格致璞科技有限公司 | 基于多维相似度的个性化新闻推荐方法 |
KR20140044162A (ko) * | 2012-10-04 | 2014-04-14 | 한양대학교 에리카산학협력단 | 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법 |
TWI556123B (zh) * | 2015-08-06 | 2016-11-01 | News tracking and recommendation method | |
CN106776841A (zh) * | 2016-11-28 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
CN107748801A (zh) * | 2017-11-16 | 2018-03-02 | 北京百度网讯科技有限公司 | 新闻推荐方法、装置、终端设备及计算机可读存储介质 |
CN110399478A (zh) * | 2018-04-19 | 2019-11-01 | 清华大学 | 事件发现方法和装置 |
CN108875065A (zh) * | 2018-07-02 | 2018-11-23 | 电子科技大学 | 一种基于内容的印尼新闻网页推荐方法 |
CN110377808A (zh) * | 2019-06-14 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 文档处理方法、装置、电子设备及存储介质 |
CN110399464A (zh) * | 2019-07-30 | 2019-11-01 | 广州吉信网络科技开发有限公司 | 一种相似新闻判别方法、系统及电子设备 |
CN111460153A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 热点话题提取方法、装置、终端设备及存储介质 |
CN111552882A (zh) * | 2020-05-09 | 2020-08-18 | 重庆邮电大学 | 一种新闻影响力计算方法、装置、计算机设备及存储介质 |
CN111667023A (zh) * | 2020-06-30 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 获取目标类别的文章的方法和装置 |
CN111898034A (zh) * | 2020-09-29 | 2020-11-06 | 江西汉辰信息技术股份有限公司 | 新闻内容推送方法、装置、存储介质及计算机设备 |
Non-Patent Citations (4)
Title |
---|
唐朝;: "资源自适应的实时新闻推荐系统", 计算机工程与设计, no. 20, 28 October 2010 (2010-10-28), pages 156 - 159 * |
杨竣辉 等: "基于文本事件网络自动摘要的抽取方法", 《计算机科学》, vol. 42, no. 3, 15 March 2015 (2015-03-15), pages 210 - 213 * |
陈炯 等: "一种基于文档差异度的web突然事件新闻个性化推荐算法", 《计算机应用与软件》, no. 11, 28 January 2011 (2011-01-28), pages 43 - 46 * |
黄贤英;熊李媛;李沁东;: "基于改进协同过滤算法的个性化新闻推荐技术", 四川大学学报(自然科学版), no. 01, 28 January 2018 (2018-01-28), pages 55 - 61 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190683A (zh) * | 2021-07-02 | 2021-07-30 | 平安科技(深圳)有限公司 | 基于聚类技术的企业esg指数确定方法及相关产品 |
CN113190683B (zh) * | 2021-07-02 | 2021-09-17 | 平安科技(深圳)有限公司 | 基于聚类技术的企业esg指数确定方法及相关产品 |
WO2023273295A1 (zh) * | 2021-07-02 | 2023-01-05 | 平安科技(深圳)有限公司 | 基于聚类技术的企业esg指数确定方法及相关产品 |
WO2023050652A1 (zh) * | 2021-09-28 | 2023-04-06 | 平安科技(深圳)有限公司 | 基于文本识别的区域内esg指数确定方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN111400432B (zh) | 事件类型信息处理方法、事件类型识别方法及装置 | |
CN111460798A (zh) | 近义词推送方法、装置、电子设备及介质 | |
US20030074400A1 (en) | Web user profiling system and method | |
CN104573054A (zh) | 一种信息推送方法和设备 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN112650923A (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN112613296A (zh) | 新闻的重要程度获取方法、装置、终端设备及存储介质 | |
CN109635084A (zh) | 一种多源数据文档实时快速去重方法及系统 | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 | |
CN111507090A (zh) | 摘要提取方法、装置、设备及计算机可读存储介质 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN112035449A (zh) | 数据处理方法及装置、计算机设备、存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN110738048B (zh) | 一种关键词提取方法、装置及终端设备 | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
CN116204647A (zh) | 一种目标比对学习模型的建立、文本聚类方法及装置 | |
CN111639250A (zh) | 企业描述信息获取方法、装置、电子设备及存储介质 | |
CN110675205B (zh) | 基于应用的竞品分析方法、装置及存储介质 | |
CN109918661A (zh) | 同义词获取方法及装置 | |
US10552459B2 (en) | Classifying a document using patterns | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
CN110688472A (zh) | 一种自动筛选问题答案的方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |