CN113780832B - 舆情文本评分方法、装置、计算机设备和存储介质 - Google Patents
舆情文本评分方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113780832B CN113780832B CN202111076746.7A CN202111076746A CN113780832B CN 113780832 B CN113780832 B CN 113780832B CN 202111076746 A CN202111076746 A CN 202111076746A CN 113780832 B CN113780832 B CN 113780832B
- Authority
- CN
- China
- Prior art keywords
- information
- score
- text
- titles
- scored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能领域,提供了一种舆情文本评分方法、装置、计算机设备和存储介质,获取待评分文本;将待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定待评分文本中的高质量语句;根据高质量语句确定待评分文本的第一评分;获取预设时间段内的资讯标题;将资讯标题进行分组处理,得到M个资讯分组;按照预设规则确定各个资讯分组的中心资讯标题;根据中心资讯标题确定待评分文本的第二评分;根据第一评分和第二评分计算待评分文本的目标评分。通过本申请提供的舆情文本评分方法、装置、计算机设备和存储介质,根据文章内容质量与舆情热度两方面进行评分,能够更加准确的对舆情资讯进行评分。
Description
技术领域
本申请涉及人工智能的技术领域,特别涉及一种舆情文本评分方法、装置、计算机设备和存储介质。
背景技术
当今社会是一个网络化的时代,随着技术的发展,互联网传播的信息量呈爆炸式增长。各个新媒体平台每天都有大量的信息流出,已经成为越来越多的用户发布和获取信息的重要渠道。新媒体平台成为越来越多的网民获取新闻时事、自我表达以及社会公共舆论的重要平台。由于信息量过于庞大,需要对网民发布的舆情资讯进行评分,便于后续对其进行推送等操作,但目前的评分大多基于舆情资讯所属的话题热度进行评分,忽略了舆情资讯本身的质量问题,导致对舆情资讯的评分不准确。
发明内容
本申请的主要目的为提供一种舆情文本评分方法、装置、计算机设备和存储介质,旨在解决对舆情资讯的评分不准确的技术问题。
为实现上述目的,本申请提供了一种舆情文本评分方法,包括以下步骤:
获取待评分文本;
将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;
根据所述高质量语句确定所述待评分文本的第一评分;
获取预设时间段内的N个资讯标题;
将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;
按照预设规则确定各个所述资讯分组的中心资讯标题;
根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;
根据所述第一评分和所述第二评分计算所述待评分文本的目标评分。
进一步地,所述将所述N个所述资讯标题进行分组处理,得到M个资讯分组的步骤,包括:
将所述资讯标题输入TextRank模型进行计算得到各个所述资讯标题的重要度评分;
根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题;
将各个目标资讯标题作为各个资讯分组的分组中心;
计算各个所述资讯标题与所述分组中心的话题相关度;
根据所述话题相关度对各个所述资讯标题进行分组,得到M个所述资讯分组。
进一步地,所述计算各个所述资讯标题与所述分组中心的话题相关度的步骤,包括:
通过预设的BERT模型构建各个所述资讯标题的语义向量;
根据所述语义向量计算各个所述资讯标题与所述分组中心的相似度;
计算各个所述资讯标题与所述分组中心的字共现比例;
通过TF-IDF提取各个所述资讯标题的关键字,并基于所述关键字计算各个所述资讯标题与所述分组中心的关键词命中比例;
根据所述相似度、字共现比例和所述关键词命中比例计算各个所述资讯标题与所述分组中心的话题相关度。
进一步地,所述根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题的步骤,包括:
根据所述重要度评分将各个所述资讯标题按照从大到小的顺序排序;
根据所述排序将所述重要度评分大于中位数的所述资讯标题输入预设MMR模型进行排序;
根据排序的结果选取前M个所述资讯标题作为目标资讯标题;其中所述M小于输入所述MMR模型的所述资讯标题的个数。
进一步地,所述按照预设规则确定各个所述资讯分组的中心资讯标题的步骤,包括:
计算各个所述资讯分组中所述资讯标题两两之间的相似度;
在同一所述资讯分组中,分别根据各个所述资讯标题与所有其他资讯标题的所述相似度计算各个所述资讯标题的平均相似度;
将同一所述资讯分组中平均相似度最高的所述资讯标题作为该所述资讯分组的所述中心资讯标题。
进一步地,所述根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分的步骤,包括:
提取所述待评分文本的摘要信息;
计算所述摘要信息与各个所述中心资讯标题的相似度;
选择相似度最高的中心资讯标题的预设评分作为所述待评分文本的第二评分。
进一步地,所述根据所述第一评分和所述第二评分计算所述待评分文本的目标评分的步骤,包括:
通过公式Y=aX1+bX2计算所述待评分文本的目标评分;其中,所述Y为所述目标评分,所述X1和所述X2分别为所述第一评分和所述第二评分,所述a和b分别为所述第一评分和所述第二评分的预设权重。
本申请还提供了一种舆情文本评分装置,包括:
第一获取单元,用于获取待评分文本;
第一确定单元,用于将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;
第二确定单元,用于根据所述高质量语句确定所述待评分文本的第一评分;
第二获取单元,用于获取预设时间段内的N个资讯标题;
分组处理单元,用于将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;
第三确定单元,用于按照预设规则确定各个所述资讯分组的中心资讯标题;
第四确定单元,用于根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;
计算单元,用于根据所述第一评分和所述第二评分计算所述待评分文本的目标评分。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的舆情文本评分方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的舆情文本评分方法的步骤。
本申请提供的舆情文本评分方法、装置、计算机设备和存储介质,本申请注重文章内容质量的第一评分和舆情热度的第二评分,更加符合重要舆情资讯人工挑选的逻辑。同时引入自然语言处理深度学习模型,模拟人工挑选高质量内容完成内容质量的第一评分,利用话题聚类及后续算法完成热点内容的第二评分,最后调和平均两个评分,形成唯一的目标评分输出,能够更加准确的对舆情文本进行评分。
附图说明
图1 是本申请一实施例中舆情文本评分方法步骤示意图;
图2 是本申请一实施例中舆情文本评分装置结构框图;
图3 为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
参照图1,本申请一实施例提供一种舆情文本评分方法,包括以下步骤:
步骤S1,获取待评分文本;
步骤S2,将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;
步骤S3,根据所述高质量语句确定所述待评分文本的第一评分;
步骤S4,获取预设时间段内的N个资讯标题;
步骤S5,将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;
步骤S6,按照预设规则确定各个所述资讯分组的中心资讯标题;
步骤S7,根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;
步骤S8,根据所述第一评分和所述第二评分计算所述待评分文本的目标评分。
本实施例中,如上述步骤S1所述,待评分文本是在一定时间段内发表的文章等,这些文章可能是为了贴合某一个话题资讯而创作的。
如上述步骤S2-S3所述,将待评分文本进行拆分,得到多条句子,将每个句子输入预设的质量语句判断模型中计算其是否为高质量语句,即质量语句判断模型的输出结果超过设定阈值(二分类一般设定为0.5)的句子标记为高质量语句。将高质量语句数量除以待评分文本的全文语句数量,归一化为一个0到1的结果作为待评分文本的第一评分。
具体的,质量语句判断模型基于语义模型和关键字模型融合训练得到,语义模型基于BERT(Bidirectional EncoderRepresentations from Transformers)模型训练得到,BERT模型是一个无监督的NLP(Neuro-Linguistic Programming)预训练模型,结构上是Transformer的编码部分,每个block主要由多头self-Attention(自注意力机制)、标准化(Norm)、残差连接、Feed Fordawrd组成。在具体任务中,主要分为模型预训练和模型微调两个阶段。在模型预训练阶段,因为模型参数巨大,通常是上千万乃至上亿的数量级,所以需要大量的数据训练,所幸这时候模型是无监督的,只需要爬取或使用开源数据集即可;在模型微调阶段,需要针对具体的任务来微调模型,已达到较好的效果。
训练语义模型时,对训练语料划分标签,高质量语句标记为1,其他类标注为0,训练语料中的高质量语句的确定是人工根据人为经验确定,这些高质量语句可以是一个具有完整的因果关系的语句,或者通过罗列数据进行论证的语句,或者是带有客观结论的语句。训练时,BERT模型提取标注好的训练语料的语义,并向量化表达语义,最终输出一个是否是高质量语句的概率,该概率越高,是高质量语句的可能性越大。然后利用阈值筛选的方法(由于是2分类问题,基础阈值可以设定为0.5,在有高精度要求的情况下,可以将阈值提升至0.7~0.8甚至是0.9,可以根据实际使用场景决定),输出输入的句子是或者不是高质量语句的结果,根据语义模型确定输入句子的语义得分,当语义模型输出结果为高质量语句时,语义得分为1,反之为0。
关键字模型则预先维护有以下几个词典:
正面词语词典一:包括有逻辑词,例如因为、所以、基于……;
正面词语词典二:包括有客观观点词,例如预计、判断、分析、总结……;
负面词语词典三:包括有主观词或标题党词,例如震惊、匪夷所思……;
输入的句子输入到关键字模型中寻找是否有相关词语,统计相关词语的数量。同时寻找输入的句子中是否含有带有数字罗列,若存在,统计数字的数量。通过寻找的相关词语和统计是数字的数量确定句子的关键字得分,关键字得分为: (逻辑词数量+客观观点词数量+数字数量-主观词或标题党词数量)除以句子分词后词语总数的结果,关键词得分为一个0到1区间内的得分。语句高质量得分=α*语义得分+β*关键词得分;其中的α和β均为0到1区间内的值,可以通过人为设定;当α=1和β=0时,质量语句判断模型退化成语义模型,仅根据语义判断语句是否为高质量语句;在α=0和β=1时,质量语句判断模型退化成关键词模型,仅根据关键词判断语句是否为高质量语句;其余情况,质量语句判断模型均为混合模型,根据语义判断结果和关键词统计结果综合判断输入的句子是否是高质量语句,即将语句高质量得分与高质量阈值进行比较,若语句高质量得分大于等于高质量阈值,则判断输入的句子为高质量语句。如上述步骤S4所述,获取预设时间段内的资讯标题,可以是微博、浏览器等出现的资讯标题。具体的,可以爬取待评分文本发布前一个小时距离当前时间出现的资讯标题。
如上述步骤S5-S7所述,一段时间内会出现很多的资讯标题,有些资讯标题之间是属于同一类的,因此,对资讯标题进行分组处理,得到多个资讯分组,每个资讯分组中包括一个或多个资讯标题,按照预设规则给各个资讯分组确定一个中心资讯标题,中心资讯标题能够代表整个资讯分组,检测待评分文本是否属于某一个中心资讯标题,每个中心资讯标题具有一个预设评分,如各个中心资讯标题的预设评分为1,当待评分文本属于该中心资讯标题,则将该中心资讯标题的预设评分作为待评分文本的第二评分。当待评分文本不属于任一中心资讯标题,则直接将第二评分设置为0,表示待评分文本不属于预设时间段内热点资讯,在舆情热度上的第二评分则较低。
如上述步骤S8所述,根据第一评分和第二评分计算目标评分,具体的,计算第一评分和第二评分之间的算数平均值作为目标评分。在另一实施例中,可根据使用场景,人工设定第一评分和第二评分的权重,计算第一评分和第二评分的加权平均数作为目标评分。
本申请提供的舆情文本评分方法注重在文章内容质量评分与舆情热度评分,更加符合重要舆情资讯人工挑选的逻辑。在文章内容质量评分方面,本申请使用人工标注高质量语句训练高质量语句判断模型,从而得到待评分文本的关于文章内容质量的第一评分。舆情热度评分则是在资讯标题聚类后,选择中心资讯标题赋予较高的分值,忽略其他同类话题资讯,避免相同一个热点话题的舆情资讯同时具有高重要度,从而得到关于舆情热度的第二评分,最后通过调和平均的方法,形成一个目标评分。
在一实施例中,所述将所述N个所述资讯标题进行分组处理,得到M个资讯分组的步骤S5,包括:
步骤S51,将所述资讯标题输入TextRank模型进行计算得到各个所述资讯标题的重要度评分;
步骤S52,根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个资讯标题作为目标资讯标题;
步骤S53,将各个目标资讯标题作为各个资讯分组的分组中心;
步骤S54,计算各个所述资讯标题与所述分组中心的话题相关度;
步骤S55,根据所述话题相关度对各个所述资讯标题进行分组,得到M个所述资讯分组。
本实施例中,如上述步骤S51所述,TextRank模型的基本思想来源于Google的PageRank算法,这是在构建早期的搜索系统原型时提出的一种链接分析算法,基本思想有两条:链接数量:一个网页被越多的其他网页链接,说明这个网页越重要;链接质量:一个网页被一个越高权值的网页链接,也能表明这个网页越重要。
计算各个资讯标题的重要度评分,根据 TextRank 的公式:,是资讯标题i的重要度评分,d是阻尼系数,是存在指向资讯标题i的资讯标题集合。是资讯标题j指向的资讯标题的集合,资讯标题j指向的资讯标题的集合中资讯标题的个数。
如上述步骤S52-S55所述,根据重要度评分进行排序,重要度评分越高的,排序越靠前,选择排序在前M的资讯标题作为分组中心,计算剩余的资讯标题与分组中心的话题相关度,每个分组中心设置一个预设阈值,每个分组中心的预设阈值可以相同,也可以不同,每个资讯标题与分组中心的话题相关度高于该分组中心的预设阈值,归类到该分组中心下。如果同一个资讯标题与多个分组中心的话题相关度均高于对应的预设阈值,则将该资讯标题归于话题相关度最高的那个分组中心下。当资讯标题的话题相关度均不大于各个分组中心的预设阈值,则重新生成一个新的资讯分组,该资讯分组中包括所有话题相关度均不大于各个分组中心的预设阈值的资讯标题,该新的资讯分组不需要参与后续的计算中心资讯标题的步骤。
在一实施例中,所述计算各个所述资讯标题与所述分组中心的话题相关度的步骤S54,包括:
步骤S541,通过预设的BERT模型构建各个所述资讯标题的语义向量;
步骤S542,根据所述语义向量计算各个所述资讯标题与所述分组中心的相似度;
步骤S543,计算各个所述资讯标题与所述分组中心的字共现比例;
步骤S544,通过TF-IDF提取各个所述资讯标题的关键字,并基于所述关键字计算各个所述资讯标题与所述分组中心的关键词命中比例;
步骤S545,根据所述相似度、字共现比例和所述关键词命中比例计算各个所述资讯标题与所述分组中心的话题相关度。
本实施例中,如上述步骤S541- S542所述,通过预设的BERT模型构建每个资讯标题的语义向量,根据语义向量计算每个资讯标题与分组中心的相似度,具体的,可计算余弦相似度,根据余弦相似度公式计算资讯标题与分组中心两个语义向量间的余弦值,余弦值越接近1,就表明两个向量间的夹角越接近0度,也就是两个向量越相似。
如上述步骤S543所述,字共现比例即资讯标题与分组中心两者之间的文字重合比例,通过文字重合的个数除以分组中心的文字个数得到字共现比例。
如上述步骤S544所述,TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆文档频率)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF用于评估一个词在资讯标题中的重要程度,具体公式为。为词w在资讯标题d中出现的次数,表示资讯标题d中所有词的集合;IDF表示逆文档频率,具体公式为:,代表包含词w的资讯标题数目。TF-IDF为TF和IDF的乘积,。
如上述步骤S545所述,话题相关度=0.3*相似度+0.2*字共现比例+0.5*关键词命中比例,在另一实施例中,相似度、字共现比例和关键词命中比例前的权重可根据需要重新设置。
在一实施例中,所述根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题的步骤S52,包括:
步骤S521,根据所述重要度评分将各个所述资讯标题按照从大到小的顺序排序;
步骤S522,根据所述排序将所述重要度评分大于中位数的所述资讯标题输入预设MMR模型进行排序;
步骤S523,根据排序的结果选取前M个所述资讯标题作为目标资讯标题;其中所述M小于输入所述MMR模型的所述资讯标题的个数。
本实施例中,根据重要度评分确定中位数,将重要度评分大于中位数的资讯标题输入到MMR(Maximal Marginal Releuance,最大边界相关算法或最大边缘相关算法)模型中进行排序,MMR模型排序时希望抽取的资讯标题既能表达整个资讯标题的含义,又具备多样性。根据排序的结果选取前M个所述资讯标题作为目标资讯标题。
在一实施例中,所述按照预设规则确定各个所述资讯分组的中心资讯标题的步骤S6,包括:
步骤S61,计算各个所述资讯分组中所述资讯标题两两之间的相似度;
步骤S62,在同一所述资讯分组中,分别根据各个所述资讯标题与所有其他资讯标题的所述相似度计算各个所述资讯标题的平均相似度;
步骤S63,将同一所述资讯分组中平均相似度最高的所述资讯标题作为该所述资讯分组的所述中心资讯标题。
本实施例中,每个资讯分组中包括有一个或多个资讯标题,当资讯标题在两个以上时,计算资讯标题两两之间的相似度,如一个资讯分组中包括有4个资讯标题A、B、C、D,计算两两之间的相似度,即得到6个相似度,计算各个资讯标题的平均相似度,即A的平均相似度是由A-B、A-C、A-D的相似度求算数平均数得到的,A-B代表资讯标题A和资讯标题B,其余同理。将每个资讯分组中平均相似度最高的那个资讯标题组作为中心资讯标题,当有两个资讯标题的平均相似度相等时,任选其一作为中心资讯标题即可,因为同一资讯分组中的资讯标题相似度较高,任选其一作为中心资讯标题也能代表整个资讯分组。
在一实施例中,所述根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分的步骤S7,包括:
步骤S71,提取所述待评分文本的摘要信息;
步骤S72,计算所述摘要信息与各个所述中心资讯标题的相似度;
步骤S73,选择相似度最高的中心资讯标题的预设评分作为所述待评分文本的第二评分。
本实施例中,提取待评分文本的摘要信息,具体的,可通过前面TF-IDF或TextRank提取摘要信息,还可通过预先训练的摘要提取模型提取摘要信息,计算摘要信息与各个中心资讯标题的相似度,可计算余弦相似度、欧几里得距离等作为相似度,每个中心资讯标题都预先设置有一个评分,如1,选择相似度最高的那个中心资讯标题的预设评分作为待评分文本的第二评分。在另一实施例中,可设置一个相似度阈值,现将每个相似度与相似度阈值进行比较后,在大于相似度阈值的相似度中选择最高的那个中心资讯标题的预设评分作为待评分文本的第二评分,当没有相似度大于相似度阈值时,第二评分直接设置为0.
在一实施例中,所述根据所述第一评分和所述第二评分计算所述待评分文本的目标评分的步骤S8,包括:
步骤S81,通过公式Y=aX1+bX2计算所述待评分文本的目标评分;其中,所述Y为所述目标评分,所述X1和所述X2分别为所述第一评分和所述第二评分,所述a和b分别为所述第一评分和所述第二评分的预设权重。
本实施例中,第一评分和第二评分分别设置有一个预设权重a、b,a和b可相等,a和b的具体数值可根据需要进行设置,如设置为0.7和0.3。
本申请一实施例提供一种舆情文本评分装置,包括:
第一获取单元10,用于获取待评分文本;
第一确定单元20,用于将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;
第二确定单元30,用于根据所述高质量语句确定所述待评分文本的第一评分;
第二获取单元40,用于获取预设时间段内的N个资讯标题;
分组处理单元50,用于将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;
第三确定单元60,用于按照预设规则确定各个所述资讯分组的中心资讯标题;
第四确定单元70,用于根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;
计算单元80,用于根据所述第一评分和所述第二评分计算所述待评分文本的目标评分。
在一实施例中,所述分组处理单元50,包括:
第一计算子单元,用于将所述资讯标题输入TextRank模型进行计算得到各个所述资讯标题的重要度评分;
排序子单元,用于根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题;
第一作为子单元,用于将各个目标资讯标题作为各个资讯分组的分组中心;
第二计算子单元,用于计算各个所述资讯标题与所述分组中心的话题相关度;
分组子单元,用于根据所述话题相关度对各个所述资讯标题进行分组,得到M个所述资讯分组。
在一实施例中,所述第二计算子单元,包括:
构建模块,用于通过预设的BERT模型构建各个所述资讯标题的语义向量;
第一计算模块,用于根据所述语义向量计算各个所述资讯标题与所述分组中心的相似度;
第二计算模块,用于计算各个所述资讯标题与所述分组中心的字共现比例;
第三计算模块,用于通过TF-IDF提取各个所述资讯标题的关键字,并基于所述关键字计算各个所述资讯标题与所述分组中心的关键词命中比例;
第四计算模块,用于根据所述相似度、字共现比例和所述关键词命中比例计算各个所述资讯标题与所述分组中心的话题相关度。
在一实施例中,所述排序子单元,包括:
第一排序模块,用于根据所述重要度评分将各个所述资讯标题按照从大到小的顺序排序;
第二排序模块,用于根据所述排序将所述重要度评分大于中位数的所述资讯标题输入预设MMR模型进行排序;
选取模块,用于根据排序的结果选取前M个所述资讯标题作为目标资讯标题;其中所述M小于输入所述MMR模型的所述资讯标题的个数。
在一实施例中,所述第三确定单元60,包括:
第三计算子单元,用于计算各个所述资讯分组中所述资讯标题两两之间的相似度;
第四计算子单元,用于在同一所述资讯分组中,分别根据各个所述资讯标题与所有其他资讯标题的所述相似度计算各个所述资讯标题的平均相似度;
第二作为子单元,用于将同一所述资讯分组中平均相似度最高的所述资讯标题作为该所述资讯分组的所述中心资讯标题。
在一实施例中,所述第四确定单元70,包括:
提取子单元,用于提取所述待评分文本的摘要信息;
第五计算子单元,用于计算所述摘要信息与各个所述中心资讯标题的相似度;
选择子单元,用于选择相似度最高的中心资讯标题的预设评分作为所述待评分文本的第二评分。
在一实施例中,所述计算单元80,包括:
第六计算子单元,用于通过公式Y=aX1+bX2计算所述待评分文本的目标评分;其中,所述Y为所述目标评分,所述X1和所述X2分别为所述第一评分和所述第二评分,所述a和b分别为所述第一评分和所述第二评分的预设权重。
在本实施例中,上述各个单元、子单元、模块的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舆情文本评分方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种舆情文本评分方法。
综上所述,为本申请实施例中提供的舆情文本评分方法、装置、计算机设备和存储介质,获取待评分文本;将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;根据所述高质量语句确定所述待评分文本的第一评分;获取预设时间段内的N个资讯标题;将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;按照预设规则确定各个所述资讯分组的中心资讯标题;根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;根据所述第一评分和所述第二评分计算所述待评分文本的目标评分。本申请提供的舆情文本评分方法、装置、计算机设备和存储介质,注重在文章内容质量评分与舆情热度评分,更加符合重要舆情资讯人工挑选的逻辑。在文章内容质量评分方面,本申请使用人工标注高质量语句训练高质量语句判断模型,从而得到待评分文本的关于文章内容质量的第一评分。舆情热度评分则是在资讯标题聚类后,选择中心资讯标题赋予较高的分值,忽略其他同类话题资讯,避免相同一个热点话题的舆情资讯同时具有高重要度,从而得到关于舆情热度的第二评分,最后通过调和平均的方法,形成一个目标评分,能够准确的大于舆情文本进行评分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种舆情文本评分方法,其特征在于,包括以下步骤:
获取待评分文本;
将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;
根据所述高质量语句确定所述待评分文本的第一评分;
获取预设时间段内的N个资讯标题;
将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;
按照预设规则确定各个所述资讯分组的中心资讯标题;
根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;
根据所述第一评分和所述第二评分计算所述待评分文本的目标评分;
所述将所述N个所述资讯标题进行分组处理,得到M个资讯分组的步骤,包括:
将所述资讯标题输入TextRank模型进行计算得到各个所述资讯标题的重要度评分;
根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题;
将各个目标资讯标题作为各个资讯分组的分组中心;
计算各个所述资讯标题与所述分组中心的话题相关度;
根据所述话题相关度对各个所述资讯标题进行分组,得到M个所述资讯分组。
2.根据权利要求1所述的舆情文本评分方法,其特征在于,所述计算各个所述资讯标题与所述分组中心的话题相关度的步骤,包括:
通过预设的BERT模型构建各个所述资讯标题的语义向量;
根据所述语义向量计算各个所述资讯标题与所述分组中心的相似度;
计算各个所述资讯标题与所述分组中心的字共现比例;
通过TF-IDF提取各个所述资讯标题的关键字,并基于所述关键字计算各个所述资讯标题与所述分组中心的关键词命中比例;
根据所述相似度、字共现比例和所述关键词命中比例计算各个所述资讯标题与所述分组中心的话题相关度。
3.根据权利要求1所述的舆情文本评分方法,其特征在于,所述根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题的步骤,包括:
根据所述重要度评分将各个所述资讯标题按照从大到小的顺序排序;
根据所述排序将所述重要度评分大于中位数的所述资讯标题输入预设MMR模型进行排序;
根据排序的结果选取前M个所述资讯标题作为目标资讯标题;其中所述M小于输入所述MMR模型的所述资讯标题的个数。
4.根据权利要求1所述的舆情文本评分方法,其特征在于,所述按照预设规则确定各个所述资讯分组的中心资讯标题的步骤,包括:
计算各个所述资讯分组中所述资讯标题两两之间的相似度;
在同一所述资讯分组中,分别根据各个所述资讯标题与所有其他资讯标题的所述相似度计算各个所述资讯标题的平均相似度;
将同一所述资讯分组中平均相似度最高的所述资讯标题作为该所述资讯分组的所述中心资讯标题。
5.根据权利要求1所述的舆情文本评分方法,其特征在于,所述根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分的步骤,包括:
提取所述待评分文本的摘要信息;
计算所述摘要信息与各个所述中心资讯标题的相似度;
选择相似度最高的中心资讯标题的预设评分作为所述待评分文本的第二评分。
6.根据权利要求1所述的舆情文本评分方法,其特征在于,所述根据所述第一评分和所述第二评分计算所述待评分文本的目标评分的步骤,包括:
通过公式Y=aX1+bX2计算所述待评分文本的目标评分;其中,所述Y为所述目标评分,所述X1和所述X2分别为所述第一评分和所述第二评分,所述a和b分别为所述第一评分和所述第二评分的预设权重。
7.一种舆情文本评分装置,其特征在于,包括:
第一获取单元,用于获取待评分文本;
第一确定单元,用于将所述待评分文本中的每个句子分别输入预设的质量语句判断模型中确定各个句子是否属于高质量语句,确定所述待评分文本中的高质量语句;其中,预设的质量语句判断模型基于语义模型和关键字模型融合训练得到;
第二确定单元,用于根据所述高质量语句确定所述待评分文本的第一评分;
第二获取单元,用于获取预设时间段内的N个资讯标题;
分组处理单元,用于将所述N个所述资讯标题进行分组处理,得到M个资讯分组;其中,M为大于等于1的正整数,所述M小于等于N;
第三确定单元,用于按照预设规则确定各个所述资讯分组的中心资讯标题;
第四确定单元,用于根据各个所述资讯分组的所述中心资讯标题确定所述待评分文本的第二评分;
计算单元,用于根据所述第一评分和所述第二评分计算所述待评分文本的目标评分;
所述分组处理单元,包括:
第一计算子单元,用于将所述资讯标题输入TextRank模型进行计算得到各个所述资讯标题的重要度评分;
排序子单元,用于根据所述重要度评分对所述资讯标题进行排序,根据所述排序选择M个所述资讯标题作为目标资讯标题;
第一作为子单元,用于将各个目标资讯标题作为各个资讯分组的分组中心;
第二计算子单元,用于计算各个所述资讯标题与所述分组中心的话题相关度;
分组子单元,用于根据所述话题相关度对各个所述资讯标题进行分组,得到M个所述资讯分组。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的舆情文本评分方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的舆情文本评分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076746.7A CN113780832B (zh) | 2021-09-14 | 2021-09-14 | 舆情文本评分方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076746.7A CN113780832B (zh) | 2021-09-14 | 2021-09-14 | 舆情文本评分方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780832A CN113780832A (zh) | 2021-12-10 |
CN113780832B true CN113780832B (zh) | 2023-04-25 |
Family
ID=78843647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111076746.7A Active CN113780832B (zh) | 2021-09-14 | 2021-09-14 | 舆情文本评分方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780832B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522917B (zh) * | 2023-03-06 | 2024-01-26 | 北京麦克斯泰科技有限公司 | 舆情信息热度评分方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111914096A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
CN112650848A (zh) * | 2020-12-30 | 2021-04-13 | 交控科技股份有限公司 | 基于文本语义相关乘客评价的城铁舆情信息分析方法 |
-
2021
- 2021-09-14 CN CN202111076746.7A patent/CN113780832B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
CN111914096A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
CN112650848A (zh) * | 2020-12-30 | 2021-04-13 | 交控科技股份有限公司 | 基于文本语义相关乘客评价的城铁舆情信息分析方法 |
Non-Patent Citations (1)
Title |
---|
韩鹏宇 ; 高盛祥 ; 余正涛 ; 黄于欣 ; 郭军军 ; .基于案件要素指导的涉案舆情新闻文本摘要方法.中文信息学报.2020,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113780832A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
US20080168056A1 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
CN107577671B (zh) | 一种基于多特征融合的主题词提取方法 | |
CN111221944B (zh) | 文本意图识别方法、装置、设备和存储介质 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN112818694A (zh) | 一种基于规则和改进预训练模型的命名实体识别方法 | |
CN111858896B (zh) | 一种基于深度学习的知识库问答方法 | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN111241410B (zh) | 一种行业新闻推荐方法及终端 | |
Rabbimov et al. | Multi-class text classification of uzbek news articles using machine learning | |
CN108509521A (zh) | 一种自动生成文本索引的图像检索方法 | |
CN110866102A (zh) | 检索处理方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN113780832B (zh) | 舆情文本评分方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |