CN113535886A - 信息处理方法、装置和设备 - Google Patents
信息处理方法、装置和设备 Download PDFInfo
- Publication number
- CN113535886A CN113535886A CN202010293026.5A CN202010293026A CN113535886A CN 113535886 A CN113535886 A CN 113535886A CN 202010293026 A CN202010293026 A CN 202010293026A CN 113535886 A CN113535886 A CN 113535886A
- Authority
- CN
- China
- Prior art keywords
- news
- information
- model
- characteristic information
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 45
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000036651 mood Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 230000008451 emotion Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 241000283690 Bos taurus Species 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种信息处理方法、装置和设备,该方法包括:获取待处理的新闻信息;确定新闻信息的特征信息,特征信息包括所述新闻信息的新闻因素,新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;根据特征信息,确定新闻信息的影响力。提高了新闻影响力的准确度。
Description
技术领域
本发明实施例涉及文本信息处理领域,尤其涉及一种信息处理方法、装置和设备。
背景技术
通常,新闻信息的传播会对社会各机构(如政府、企业等)产生影响,如对政府的舆情监控、企业的危机公关、投资机构的投资决策等产生不同程度的影响。一些情况下,需要分析新闻影响力的因素,从而对新闻影响力作出预测。
现有技术中,通过灰色费尔哈斯Grey Verhulst模型和极限学习机融合的处理方法对新闻影响力的单一因素(如新闻点击量)进行分析,得出新闻影响力。然而,事实上形成新闻影响力的因素并不是单一的,往往由多种因素形成,因此,利用现有技术中的信息处理方法得到的新闻影响力准确度不高。
发明内容
本发明实施例提供一种信息处理方法、装置和设备,以提高新闻影响力的准确度。
第一方面,本发明实施例提供一种信息处理方法,所述方法包括:
获取待处理的新闻信息;
确定所述新闻信息的特征信息,所述特征信息包括所述新闻信息的新闻因素,所述新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;
根据所述特征信息,确定所述新闻信息的影响力。
在一种可能的实施方式中,确定所述新闻信息的特征信息,包括:
通过第一模型对所述新闻信息进行处理,得到所述新闻信息的特征信息;
其中,所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本新闻信息和样本特征信息。
在一种可能的实施方式中,通过第一模型对所述新闻信息进行处理,得到所述新闻信息的特征信息,包括:
对所述新闻信息进行预处理,所述预处理包括:去除所述新闻信息中与预设标签内容一致的文本、分词处理;
通过所述第一模型对预处理后的新闻信息进行处理,得到所述新闻信息的特征信息。
在一种可能的实施方式中,根据所述特征信息,确定所述新闻信息的影响力,包括:
通过第二模型对所述特征信息进行处理,得到所述新闻信息的影响力;其中,所述第二模型为对多组第二样本学习得到的,每组第二样本包括样本特征信息和样本影响力。
在一种可能的实施方式中,所述特征信息还包括所述新闻信息的关键词特征和/或日期特征。
在一种可能的实施方式中,所述第一模型的学习过程包括:
获取多组第一样本和第一待学习模型;
通过所述第一待学习模型分别对每组第一样本中的样本新闻信息进行处理,得到第一特征信息;分别将所述第一特征信息与对应的样本特征信息进行对比,并根据对比结果调整所述第一待学习模型,直至所述第一特征信息与对应的样本特征信息的差小于第一预设阈值时,将调整后的第一待学习模型作为第一模型。
在一种可能的实施方式中,所述第二模型的学习过程包括:
获取多组第二样本和第二待学习模型;
确定每组第二样本中的样本特征信息;
通过所述第二待学习模型分别对每组样本特征信息进行处理,得到第一影响力;分别将所述第一影响力与对应的样本影响力进行对比,并根据对比结果调整所述第二待学习模型,直至所述第一影响力与对应的样本影响力的差小于第二预设阈值时,将调整后的第二待学习模型作为第二模型。
第二方面,本发明实施例提供一种信息处理装置,所述装置包括获取模块、第一确定模块和第二确定模块,其中,
所述获取模块用于,获取待处理的新闻信息;
所述第一确定模块用于,确定所述新闻信息的特征信息,所述特征信息包括所述新闻信息的新闻因素,所述新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;
所述第二确定模块用于,根据所述特征信息,确定所述新闻信息的影响力。
在一种可能的实施方式中,所述第一确定模块具体用于:
通过第一模型对所述新闻信息进行处理,得到所述新闻信息的特征信息;
其中,所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本新闻信息和样本特征信息。
在一种可能的实施方式中,所述第一确定模块具体用于:
对所述新闻信息进行预处理,所述预处理包括:去除所述新闻信息中与预设标签内容一致的文本、分词处理;
通过所述第一模型对预处理后的新闻信息进行处理,得到所述新闻信息的特征信息。
在一种可能的实施方式中,所述第二确定模块具体用于:
通过第二模型对所述特征信息进行处理,得到所述新闻信息的影响力;其中,所述第二模型为对多组第二样本学习得到的,每组第二样本包括样本特征信息和样本影响力。
在一种可能的实施方式中,所述特征信息还包括所述新闻信息的关键词特征和/或日期特征。
在一种可能的实施方式中,所述装置还包括第一生成模块,其中,第一生成模块用于生成第一模型;
所述第一生成模块具体用于:
获取多组第一样本和第一待学习模型;
通过所述第一待学习模型分别对每组第一样本中的样本新闻信息进行处理,得到第一特征信息;分别将所述第一特征信息与对应的样本特征信息进行对比,并根据对比结果调整所述第一待学习模型,直至所述第一特征信息与对应的样本特征信息的差小于第一预设阈值时,将调整后的第一待学习模型作为第一模型。
在一种可能的实施方式中,所述装置还包括第二生成模块,其中,第二生成模块用于生成第二模型;
所述第二生成模块具体用于:
获取多组第二样本和第二待学习模型;
确定每组第二样本中的样本特征信息;
通过所述第二待学习模型分别对每组样本特征信息进行处理,得到第一影响力;分别将所述第一影响力与对应的样本影响力进行对比,并根据对比结果调整所述第二待学习模型,直至所述第一影响力与对应的样本影响力的差小于第二预设阈值时,将调整后的第二待学习模型作为第二模型。
第三方面,本发明实施例提供一种信息处理装置,包括:至少一个处理器和存储器;
所述存储器用于存储计算机执行指令;
所述至少一个处理器用于执行所述存储器中存储的计算机执行指令,使得所述至少一个处理器执行上述第一方面任一项所述的信息处理方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上述第一方面任意一项所述的信息处理方法。
本发明实施例提供的信息处理方法、装置和设备,通过获取待处理的新闻信息;确定新闻信息的特征信息,该特征信息中包括新闻信息的新闻因素,该新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;根据特征信息,确定新闻信息的影响力。这样,结合新闻情绪、新闻价值、新闻阶层、新闻类型多种新闻因素,确定出新闻信息的影响力,可以提高新闻影响力的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的场景示意图;
图2为本发明实施例提供的一种信息处理方法的流程示意图;
图3为本发明实施例提供的第一模型架构示意图;
图4为本发明实施例提供的第一模型学习过程示意图;
图5为本发明实施例提供的第二模型学习过程示意图;
图6为本发明实施例提供的另一种信息处理方法的流程示意图;
图7为本发明实施例提供的新闻信息的关键词获取方法流程示意图;
图8为本发明实施例提供的一种信息处理装置的结构示意图;
图9为本发明实施例提供的另一种信息处理装置的结构示意图;
图10为本发明实施例提供的信息处理装置的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的应用场景示意图。请参见图1,包括电子设备100、第一模型101、第二模型102。
其中,电子设备100可以是手机、电脑等,也可以是信息处理装置。第一模型101可以用于对新闻信息进行处理,得到新闻信息的特征信息,第一模型通过对多组第一样本学习得到,每组第一样本包括样本新闻信息和样本特征信息。第二模型102可以用于对新闻信息的特征信息进行处理,得到新闻信息的影响力,第二模型通过对多组第二样本学习得到,每组第二样本包括样本特征信息和样本影响力。
本申请中,通过获取待处理的新闻信息;将新闻信息输入第一模型,通过第一模型对新闻信息进行处理,输出新闻信息的特征信息;该特征信息包括新闻信息的新闻情绪、新闻价值、新闻阶层、新闻类型等新闻因素;再将该特征信息输入第二模型,通过第二模型对该特征信息进行处理,输出新闻信息的影响力。在该过程中,结合了新闻情绪、新闻价值、新闻阶层、新闻类型等多种新闻因素,确定出新闻信息的影响力,可以提高新闻影响力的准确度。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的一种信息处理方法的流程示意图。请参见图2,该方法包括:
S201:获取待处理的新闻信息。
本发明实施例的执行主体可以为电子设备,也可以为设置在电子设备中的信息处理装置。可选的,电子设备可以为手机、平板电脑等设备。可选的,信息处理装置可以通过软件实现,也可以通过软件和硬件的结合实现。
可选的,新闻信息可以是新闻文本信息、新闻内容信息。
S202:确定新闻信息的特征信息。
可选的,特征信息可以包括新闻信息的新闻因素,新闻因素可以包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型。
其中,新闻情绪可以是在阅读新闻信息的过程中,新闻阅读者的情绪。新闻情绪可以包括高兴(happiness)、惊讶(surprise)、愤怒(anger)、厌恶(disgust)、恐惧(fear)、悲伤(sadness)、共鸣(resonance)和感动(moved)八种。每种新闻情绪的情绪程度不同,分别用0-5分的分值表示新闻情绪的不同情绪程度,情绪程度随分值的增加而递增,比如用0分表示不愤怒,用5分表示最愤怒。
新闻价值可以是在阅读新闻信息的过程中,新闻阅读者对新闻的评价。新闻价值可以包括奇异性(Deviance)、重要性(Significance)、互动性(Interactivity)、趣味性(Interest)和持续性(Continuity)五种,每种新闻价值的价值程度不同,分别用0-5分的分值表示新闻价值的不同价值程度,价值程度随分值的增加而递增,比如用0分表示无重要性,用5分表示重要性最高。
新闻阶层可以是新闻信息中内容信息表述的是某一社会阶层。新闻阶层可以包括高、中和低三种。比如内容信息为扶贫相关的内容,则该新闻信息的新闻阶层为低层。
新闻类型可以是新闻信息中内容信息的类型。新闻类型可以包括暴力、财经、广告、健康、教育、军事、科技、色情、社会、时政、体育、文化、娱乐和其它十四种。
可选的,可以通过第一模型对新闻信息进行处理,得到新闻信息的特征信息。
具体的,可以通过如下方式得到新闻信息的特征信息:
对新闻信息进行预处理;通过第一模型对预处理后的新闻信息进行处理,得到新闻信息的特征信息。
其中,预处理包括:去除新闻信息中与预设标签内容一致的文本、分词处理。预设标签内容可以是新闻信息中对新闻内容的理解影响较低的内容,比如“请转发”、“为我点赞”、img标签内容(如r'<img.*?>')、iframe标签内容(如r'<iframe.*?</iframe>')等内容。分词处理可以是把新闻信息中的句子分词,选取特定词性的词进行处理,特定词性可以包括形容词、副词、习用语、名词、动词、其他专名、副动词或名动词。
第一模型可以为对多组第一样本学习得到的,每组第一样本包括样本新闻信息和样本特征信息。样本特征信息可以通过对样本新闻信息进行人工打标签得到,比如新闻阅读者在阅读样本新闻信息的过程中,感觉该样本新闻信息的新闻情绪中的“高兴”为2分,“惊讶”为0分,“愤怒”为4分,那么,可以标注不同的分值到对应的新闻情绪。样本特征信息可以包括标注好的新闻因素。
下面,对第一模型进行详细说明。
第一模型利用bert(Bidirectional Encoder Representations fromTransformer,来自转换模型的双向编码器表示)模型拼接transformer(转换)模型构建字符向量,再接Bigru(Bidirection gated recurrent unit,双向门控循环单元)模型和attention(注意力)机制,得到文档向量,最后通过softmax算法得到新闻信息的特征信息。
图3为本发明实施例提供的第一模型架构示意图。请参见图3,其中,E1表示第一个字符的字符向量,Trm表示transformer模型,T1表示通过transformer模型转换后的第一个字符向量,E_s1表示第一个句子的句子向量,H1_f表示Bigru中第一个字符向前传的隐藏层,H1_b表示Bigru中向回传到第一个字符的隐藏层,Us表示预设的句子的attention向量,a1表示第一个句子的权重,E_d表示文档向量,softmax表示分类器。
具体的,对新闻信息中的文本信息进行分词,得到该文本的词;经过bert模型,获取transformer模型的输出向量,将该输出向量作为字符向量;把各个句子的字符向量进行累加后求平均值,并经过Bigru模型,得到各个句子的句子向量;根据各个句子的句子向量,计算各个句子在整个文档中的权重;根据该权重,结合对应的attention向量,得到文档向量;利用softmax对该文档向量进行处理,得到新闻信息的特征信息。
其中,在获取transformer模型的输出向量时,由于transformer模型的最后一层的值太接近于目标,且前面几层的值可能语义还未充分学习到,因此,选择transformer模型的倒数第二层的输出作为字符向量。
在把各个句子的字符向量进行累加后求平均值时,如果句子中某位置没有内容,则不纳入计算,实际应用中,可以用mask值表示该位置是否有内容,mask值为0表示该位置无内容,mask值为1表示该位置有内容。比如,假设句子序列的长度为20个字符,有效字符为10个字符,加上[CLS]与[SEP]两个占位符,该句子序列中有8个字符的位置是空的,即有8个位置无内容,可以将该8个位置的mask值设置为0,其他位置的mask值设置为1,将mask值为1的位置纳入计算中。
S203:根据特征信息,确定新闻信息的影响力。
可选的,新闻信息的影响力包括新闻阅读数和新闻点赞数。
其中,新闻阅读数可以是新闻阅读者阅读新闻的次数,新闻点赞数可以是新闻阅读者对新闻点赞的次数。由于新闻阅读数和新闻点赞数可以体现该新闻信息对新闻阅读者的影响范围、影响深度等,因此,可以用新闻阅读数和新闻点赞数来评估新闻信息的影响力。
在确定新闻信息的特征信息后,可以根据该特征信息,确定新闻信息的影响力。可选的,可以通过第二模型对特征信息进行处理,得到新闻信息的影响力。
其中,第二模型为对多组第二样本学习得到的,每组第二样本包括样本特征信息和样本影响力。
第二模型的算法可以通过数值预测模型实现,数值预测模型可以是逻辑回归模型、支持向量机回归模型、梯度增强回归模型、岭回归模型,xgb回归模型、随机森林回归模型或上述模型的集成算法等。实际应用中,在单模情况下,上述各种模型中,支持向量机回归模型达到的效果最高。
本发明实施例提供的信息处理方法,通过获取待处理的新闻信息;确定新闻信息的特征信息,该特征信息中包括新闻信息的新闻因素,该新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;根据特征信息,确定新闻信息的影响力。这样,结合新闻情绪、新闻价值、新闻阶层、新闻类型多种新闻因素,确定出新闻信息的影响力,提高了新闻影响力的准确度。
下面,对第一模型的学习过程和第二模型的学习过程进行详细说明。
图4为本发明实施例提供的第一模型学习过程示意图,请参见图4,第一模型的学习过程如下:
S401:获取多组第一样本和第一待学习模型。
其中,每组第一样本中包括样本新闻信息和样本特征信息。
S402:对每组第一样本中的样本新闻信息进行预处理。
其中,预处理可以包括去除样本新闻信息中与预设标签内容一致的文本、分词处理。
S403:通过第一待学习模型分别对预处理后的每组第一样本中的样本新闻信息进行处理,得到第一特征信息。
S404:分别将第一特征信息与对应的样本特征信息进行对比,并根据对比结果调整第一待学习模型,直至第一特征信息与对应的样本特征信息的差小于第一预设阈值时,将调整后的第一待学习模型作为第一模型。
通过上述方式得到第一模型,利用该第一模型对新闻信息进行处理,可以得到新闻信息的特征信息,根据该特征信息,可以确定新闻信息的影响力。
图5为本发明实施例提供的第二模型学习过程示意图,请参见图5,第二模型的学习过程如下:
S501:获取多组第二样本和第二待学习模型。
其中,每组第二样本中包括样本特征信息和样本影响力。
S502:确定每组第二样本中的样本特征信息。
可选的,可以通过第一模型对第二样本中的样本新闻信息进行处理,得到样本特征信息。
S503:通过第二待学习模型分别对每组样本特征信息进行处理,得到第一影响力。
S504:分别将第一影响力与对应的样本影响力进行对比,并根据对比结果调整第二待学习模型,直至第一影响力与对应的样本影响力的差小于第二预设阈值时,将调整后的第二待学习模型作为第二模型。
通过上述方式得到第二模型,利用该第二模型对特征信息进行处理,可以得到新闻信息的影响力。
在上述实施例的基础上,下面,对另一种信息处理方法进行详细说明。
图6为本发明实施例提供的另一种信息处理方法的流程示意图。请参见图6,该方法中,新闻信息的特征信息还包括新闻信息的关键词特征和/或日期特征,根据新闻因素、关键词特征和/或日期特征,确定新闻信息的影响力。
该方法可以包括:
S601:获取待处理的新闻信息。
新闻信息包括新闻文本信息。
S602:对新闻信息进行预处理,得到新闻文本的词。
可选的,可以对新闻信息的文本进行预处理,得到新闻文本的词。预处理可以包括去除新闻信息中与预设标签内容一致的文本、分词处理。
S603:通过关键词词典抽取新闻文本对应的词的关键词特征。
可选的,可以创建关键词词典,根据关键词词典计算新闻信息的关键词特征。
其中,关键词词典中包括根据不同新闻类型抽取的不同类型的关键词。计算新闻信息的关键词特征可以是统计关键词词典的词语在新闻信息中出现的总次数,所有关键词的总次数的和即为关键词特征值。
比如,假设关键词词典为“金融、牛市、暴跌、国际、反恐、轰炸…”,其中包括上百个词,对新闻信息分词处理后,得到的词语为“金融、金融、暴跌、暴跌、开发、国际”,其中,“金融”在新闻信息中出现的总次数是2次,“暴跌”在新闻信息中出现的总次数是2次,“开发”在新闻信息中出现的总次数是1次,“国际”在新闻信息中出现的总次数是1次,那么,该新闻信息的关键词特征值=“金融”的总次数+“暴跌”的总次数+“国际”的总次数=2+2+1=5。
可选的,可以根据新闻信息中的新闻类型,创建关键词词典。
具体的,分别在每个新闻类型中获取预设数量个关键词,把十四种新闻类型中获取的关键词合并,得到关键词词典。
比如:在财经类型新闻中抽取的关键词为“金融、牛市、暴跌”,军事类型新闻中抽取的关键词为“国际、反恐、轰炸”,把财经类型和军事类型新闻中抽取的关键词合并,得到关键词词典为“金融、牛市、暴跌、国际、反恐、轰炸”。
对于每篇新闻信息,可以通过如下方式在每个新闻类型中获取关键词,请参见图7,图7为本发明实施例提供的新闻信息的关键词获取方法流程示意图。该方法包括:
S701:获取待处理的新闻信息。
S702:对新闻信息进行预处理。
其中,预处理包括去除样本新闻信息中与预设标签内容一致的文本、分词处理。
S703:通过不同的抽取方法对预处理后的新闻信息抽取前M个关键词。
抽取方法可以是tf-idf(term frequency–inverse document frequency,词频-逆文档频率)、textrank、聚类等算法。M的值可以是3、5、10、20等。
S704:对抽取的关键词打分,将抽取的关键词合并,统计每个关键词的总分数。
S705:根据关键词的总分数对关键词降序排序,并选取前N个关键词作为新闻信息的关键词。
其中,N的值可以是3、5、7、10等。
举例来说,针对一篇新闻信息,假设分别通过tf-idf算法和textrank算法获取该新闻信息的前P个关键词,其中P=5。
假设通过tf-idf算法获取的前5个关键词是“游泳队、比赛、总决赛、蛙泳、运动员”,通过textrank算法获取的前5个关键词是“比赛、运动员、游泳队、总决赛、孩子”。
由于关键词的个数P=5,将第一个关键词赋值为5分,后面的关键词的赋值依次递减1分,若关键词的个数P=10,则将第一个关键词赋值为10分,后面的关键词的赋值依次递减1分。
这样,通过tf-idf算法获取的前5个关键词的分数分别为:游泳队=5分,比赛=4分,总决赛=3分,蛙泳=2分,运动员=1分;通过textrank算法获取的前5个关键词的分数分别为:比赛=5分,运动员=4分,游泳队=3分,总决赛=2分,孩子=1分。
将利用不同算法抽取的关键词进行合并,得到合并后的关键词为“游泳队、比赛、总决赛、蛙泳、运动员、孩子”,统计合并后的关键词的总分数,并按总分数将合并后的关键词降序排列,得到关键词的排序为“比赛、游泳队、运动员、总决赛、蛙泳、孩子”。
具体的,请参见表1,表1为本发明实施例提供的关键词与关键词的分数的关系表。
表1:关键词与关键词的分数的关系表
在得到关键词排序后,选取前Q个关键词作为新闻信息的关键词,假设Q=3,那么,新闻信息的关键词为“比赛、游泳队、运动员”。
S604:通过第一模型对新闻文本的词进行处理,得到新闻信息的新闻因素。
可选的,第一模型为对多组第一样本学习得到的,每组第一样本包括样本新闻信息和样本特征信息。新闻因素可以是新闻情绪、新闻价值、新闻阶层和/或新闻类型。
S605:提取新闻文本对应的词的日期特征。
可选的,可以根据新闻信息的发布日期,获取新闻信息的日期特征。
其中,日期特征可以包括新闻信息的发布日期是星期几、新闻信息的发布日期是否周末、新闻信息已发布的时长,新闻信息发布的时间段四种特征。发布时间段可以是0点-5点,5点-11点,11点-18点,18点-24点四个时间段。
S606:通过第二模型对新闻因素、关键词特征和/或日期特征进行处理,得到新闻信息的影响力。
可选的,第二模型为对多组第二样本学习得到的,每组第二样本包括样本特征信息和样本影响力。样本特征信息可以包括样本新闻信息的样本新闻因素、样本关键词特征和样本日期特征。
可选的,可以通过第二模型对新闻因素、关键词特征和日期特征进行处理,得到新闻信息的影响力。由于这种方式结合了多种特征得到新闻信息的影响力,因此,进一步提高了新闻影响力的准确度。
本发明实施例提供的信息处理方法,通过获取待处理的新闻信息;确定新闻信息的新闻因素、关键词特征和/或日期特征,新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;根据新闻因素、关键词特征和/或日期特征,确定新闻信息的影响力。这样,结合新闻情绪、新闻价值、新闻阶层、新闻类型多种新闻因素和关键词特征、日期特征,确定出新闻信息的影响力,进一步提高了新闻影响力的准确度。
在上述信息处理方法的基础上,本发明还提供了信息处理装置,下面对信息处理装置进行说明。
图8为本发明实施例提供的一种信息处理装置的结构示意图。请参见图8,信息处理装置10可以包括获取模块11、第一确定模块12和第二确定模块13,其中,
所述获取模块11用于,获取待处理的新闻信息;
所述第一确定模块12用于,确定新闻信息的特征信息,特征信息包括所述新闻信息的新闻因素,新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;
所述第二确定模块13用于,根据特征信息,确定新闻信息的影响力。
本发明实施例提供的信息处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,第一确定模块12具体用于通过第一模型对新闻信息进行处理,得到新闻信息的特征信息;其中,第一模型为对多组第一样本学习得到的,每组第一样本包括样本新闻信息和样本特征信息。
在一种可能的实施方式中,第一确定模块12具体用于对新闻信息进行预处理,预处理包括:去除新闻信息中与预设标签内容一致的文本、分词处理;通过第一模型对预处理后的新闻信息进行处理,得到新闻信息的特征信息。
在一种可能的实施方式中,第二确定模块13具体用于通过第二模型对特征信息进行处理,得到新闻信息的影响力;其中,第二模型为对多组第二样本学习得到的,每组第二样本包括样本特征信息和样本影响力。
在一种可能的实施方式中,特征信息还包括新闻信息的关键词特征和/或日期特征。
图9为本发明实施例提供的另一种信息处理装置的结构示意图。在图8所示实施例的基础上,请参见图9,信息处理装置10还包括第一生成模块14,其中,第一生成模块14用于生成第一模型;
所述第一生成模块14具体用于:获取多组第一样本和第一待学习模型;通过第一待学习模型分别对每组第一样本中的样本新闻信息进行处理,得到第一特征信息;分别将第一特征信息与对应的样本特征信息进行对比,并根据对比结果调整第一待学习模型,直至第一特征信息与对应的样本特征信息的差小于第一预设阈值时,将调整后的第一待学习模型作为第一模型。
在一种可能的实施方式中,所述装置还包括第二生成模块15;其中,第二生成模块15用于生成第二模型;
所述第二生成模块15具体用于:获取多组第二样本和第二待学习模型;确定每组第二样本中的样本特征信息;通过第二待学习模型分别对每组样本特征信息进行处理,得到第一影响力;分别将第一影响力与对应的样本影响力进行对比,并根据对比结果调整所述第二待学习模型,直至第一影响力与对应的样本影响力的差小于第二预设阈值时,将调整后的第二待学习模型作为第二模型。
本发明实施例提供的信息处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本发明实施例还提供了信息处理装置的硬件结构示意图,请参见图10。该信息处理装置20包括:至少一个处理器21和存储器22。其中,处理器21和存储器22通过总线23连接。
在具体实现过程中,至少一个处理器21执行所述存储器22存储的计算机执行指令,使得至少一个处理器21执行如上的信息处理方法。
处理器21的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图10示出的信息处理装置仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上述任意方法实施例所述的信息处理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例方案的范围。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取待处理的新闻信息;
确定所述新闻信息的特征信息,所述特征信息包括所述新闻信息的新闻因素,所述新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;
根据所述特征信息,确定所述新闻信息的影响力。
2.根据权利要求1所述的方法,其特征在于,确定所述新闻信息的特征信息,包括:
通过第一模型对所述新闻信息进行处理,得到所述新闻信息的特征信息;
其中,所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本新闻信息和样本特征信息。
3.根据权利要求2所述的方法,其特征在于,通过第一模型对所述新闻信息进行处理,得到所述新闻信息的特征信息,包括:
对所述新闻信息进行预处理,所述预处理包括:去除所述新闻信息中与预设标签内容一致的文本、分词处理;
通过所述第一模型对预处理后的新闻信息进行处理,得到所述新闻信息的特征信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述特征信息,确定所述新闻信息的影响力,包括:
通过第二模型对所述特征信息进行处理,得到所述新闻信息的影响力;其中,所述第二模型为对多组第二样本学习得到的,每组第二样本包括样本特征信息和样本影响力。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述特征信息还包括所述新闻信息的关键词特征和/或日期特征。
6.根据权利要求2-3任一项所述的方法,其特征在于,所述第一模型的学习过程包括:
获取多组第一样本和第一待学习模型;
通过所述第一待学习模型分别对每组第一样本中的样本新闻信息进行处理,得到第一特征信息;分别将所述第一特征信息与对应的样本特征信息进行对比,并根据对比结果调整所述第一待学习模型,直至所述第一特征信息与对应的样本特征信息的差小于第一预设阈值时,将调整后的第一待学习模型作为第一模型。
7.根据权利要求4所述的方法,其特征在于,所述第二模型的学习过程包括:
获取多组第二样本和第二待学习模型;
确定每组第二样本中的样本特征信息;
通过所述第二待学习模型分别对每组样本特征信息进行处理,得到第一影响力;分别将所述第一影响力与对应的样本影响力进行对比,并根据对比结果调整所述第二待学习模型,直至所述第一影响力与对应的样本影响力的差小于第二预设阈值时,将调整后的第二待学习模型作为第二模型。
8.一种信息处理装置,其特征在于,包括获取模块、第一确定模块和第二确定模块,其中,
所述获取模块用于,获取待处理的新闻信息;
所述第一确定模块用于,确定所述新闻信息的特征信息,所述特征信息包括所述新闻信息的新闻因素,所述新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;
所述第二确定模块用于,根据所述特征信息,确定所述新闻信息的影响力。
9.一种信息处理装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的信息处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293026.5A CN113535886A (zh) | 2020-04-15 | 2020-04-15 | 信息处理方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293026.5A CN113535886A (zh) | 2020-04-15 | 2020-04-15 | 信息处理方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535886A true CN113535886A (zh) | 2021-10-22 |
Family
ID=78088542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010293026.5A Pending CN113535886A (zh) | 2020-04-15 | 2020-04-15 | 信息处理方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535886A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455155A (zh) * | 2022-11-10 | 2022-12-09 | 中国测绘科学研究院 | 一种政务文本的主题信息提取方法及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657496A (zh) * | 2015-03-09 | 2015-05-27 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
CN107330049A (zh) * | 2017-06-28 | 2017-11-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
JP2018081394A (ja) * | 2016-11-15 | 2018-05-24 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN108876058A (zh) * | 2018-07-27 | 2018-11-23 | 南京航空航天大学 | 一种基于微博的新闻事件影响力预测方法 |
CN110134787A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题检测方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
-
2020
- 2020-04-15 CN CN202010293026.5A patent/CN113535886A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657496A (zh) * | 2015-03-09 | 2015-05-27 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
JP2018081394A (ja) * | 2016-11-15 | 2018-05-24 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN107330049A (zh) * | 2017-06-28 | 2017-11-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN108876058A (zh) * | 2018-07-27 | 2018-11-23 | 南京航空航天大学 | 一种基于微博的新闻事件影响力预测方法 |
CN110134787A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题检测方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
Non-Patent Citations (4)
Title |
---|
SAKURA小樱: "深度学习----NLP关键词抽取的常见算法", pages 1 - 2, Retrieved from the Internet <URL:https://blog.csdn.net/Sakura55/article/details/85122966> * |
王振飞;刘凯莉;郑志蕴;李钝;: "基于逻辑回归模型的微博转发预测", 小型微型计算机系统, no. 08, pages 1651 - 1655 * |
王馨;王煜;王亮;: "基于新词发现的网络新闻热点排名", 图书情报工作, no. 06, pages 68 - 74 * |
胡菊香;吕学强;徐丽萍;: "面向专利的技术主题检测", 计算机工程与设计, no. 12, 16 December 2016 (2016-12-16), pages 128 - 133 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455155A (zh) * | 2022-11-10 | 2022-12-09 | 中国测绘科学研究院 | 一种政务文本的主题信息提取方法及存储介质 |
CN115455155B (zh) * | 2022-11-10 | 2023-03-03 | 中国测绘科学研究院 | 一种政务文本的主题信息提取方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN109543017B (zh) | 法律问题关键词生成方法及其系统 | |
CN108038725A (zh) | 一种基于机器学习的电商产品客户满意度分析方法 | |
Santos et al. | Assessing the impact of contextual embeddings for Portuguese named entity recognition | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
Yao et al. | Unlabeled short text similarity with LSTM encoder | |
CN110263147A (zh) | 推送信息的生成方法及装置 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
Huang et al. | Text classification with document embeddings | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Chernova | Occupational skills extraction with FinBERT | |
CN113673241B (zh) | 一种基于范例学习的文本摘要生成框架系统及方法 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
CN113535886A (zh) | 信息处理方法、装置和设备 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Behere et al. | Text summarization and classification of conversation data between service chatbot and customer | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Shalinda et al. | Hate words detection among sri lankan social media text messages | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
El Kah et al. | Arabic authorship attribution on twitter: what is really matters? | |
CN110766073A (zh) | 一种强化主题注意力机制的移动应用分类方法 | |
Li et al. | A Label Similarity Attention Mechanism for Multi-label Emotion Recognition | |
Sarwar et al. | AGI-P: A Gender Identification Framework for Authorship Analysis Using Customized Fine-Tuning of Multilingual Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |