CN109325119A - 新闻情感分析的方法、装置、计算机设备和存储介质 - Google Patents

新闻情感分析的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109325119A
CN109325119A CN201811030521.6A CN201811030521A CN109325119A CN 109325119 A CN109325119 A CN 109325119A CN 201811030521 A CN201811030521 A CN 201811030521A CN 109325119 A CN109325119 A CN 109325119A
Authority
CN
China
Prior art keywords
word
cluster
vector
preset
dimension region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811030521.6A
Other languages
English (en)
Other versions
CN109325119B (zh
Inventor
郑子欧
汪伟
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811030521.6A priority Critical patent/CN109325119B/zh
Publication of CN109325119A publication Critical patent/CN109325119A/zh
Application granted granted Critical
Publication of CN109325119B publication Critical patent/CN109325119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能领域,提供了一种新闻情感分析的方法、装置、计算机设备和存储介质。所述方法包括:获取历史新闻数据中的词语,生成与词语对应的词嵌入向量,根据词嵌入向量,分别获取各预设的维度区域的聚类中心词,根据聚类中心词,确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。采用本方法能够根据聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。

Description

新闻情感分析的方法、装置、计算机设备和存储介质
技术领域
本申请涉及机器学习技术领域,特别是涉及一种新闻情感分析的方法、装置、计算机设备和存储介质。
背景技术
随着机器学习技术的发展,出现了基于机器学习的新闻情感分析技术,通过分析新闻情感来确定用户对新闻的态度。这个技术将常见的基本情绪作为新闻情感成分,对新闻中的新闻情感成分进行分析,根据分析结果确定新闻情感。目前的新闻情感分析方法多采用多维情感分析,多维情感分析指的是以多种基本情绪作为多个维度区域,通过人工定义情感词典来分析新闻情感,获取新闻情感分析结果。
然而,目前的多维情感分析,耗时且效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高多维情感分析效率的新闻情感分析的方法、装置、计算机设备和存储介质。
一种新闻情感分析的方法,所述方法包括:
获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据聚类中心词,确定各预设的维度区域的聚类词集;
根据聚类词集生成聚类词典;
根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
在其中一个实施例中,根据词嵌入向量,分别获取各预设的维度区域的聚类中心词包括:
获取各预设的维度区域的预设的种子词;
根据词嵌入向量,确定与种子词对应的种子词向量;
根据种子词向量,获取各预设的维度区域的聚类中心词。
在其中一个实施例中,根据种子词向量,获取各预设的维度区域的聚类中心词包括:
根据种子词向量确定各预设的维度区域的种子词向量均值;
根据种子词向量均值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在其中一个实施例中,根据种子词向量,获取各预设的维度区域的聚类中心词包括:
根据种子词向量确定各预设的维度区域的种子词的密度峰值;
根据密度峰值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在其中一个实施例中,根据聚类中心词确定各预设的维度区域的聚类词集包括:
根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量;
确定中心词向量与各词嵌入向量之间的距离;
当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词;
将聚类词存入预设的维度区域的聚类词集;
将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。
在其中一个实施例中,根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感包括:
获取待处理新闻数据中包含聚类关键字的句子;
分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序;
根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例;
根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
一种新闻情感分析的装置,所述装置包括:
第一获取模块,用于获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
第二获取模块,用于根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
第一处理模块,用于根据聚类中心词,确定各预设的维度区域的聚类词集;
第二处理模块,用于根据聚类词集生成聚类词典;
分析模块,用于根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
在其中一个实施例中,第二获取模块还用于获取各预设的维度区域的预设的种子词,根据词嵌入向量,确定与种子词对应的种子词向量,根据种子词向量,获取各预设的维度区域的聚类中心词。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据聚类中心词,确定各预设的维度区域的聚类词集;
根据聚类词集生成聚类词典;
根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据聚类中心词,确定各预设的维度区域的聚类词集;
根据聚类词集生成聚类词典;
根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
上述新闻情感分析的方法、装置、计算机设备和存储介质,通过获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,根据词嵌入向量分别获取各预设的维度区域的聚类中心词,根据聚类中心词确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,采用聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。
附图说明
图1为一个实施例中新闻情感分析的方法的应用场景图;
图2为一个实施例中新闻情感分析的方法的流程示意图;
图3为另一个实施例中新闻情感分析的方法的流程示意图;
图4为一个实施例中根据种子词向量,获取各预设的维度区域的聚类中心词的流程示意图;
图5为另一个实施例中根据种子词向量,获取各预设的维度区域的聚类中心词的流程示意图;
图6为一个实施例中根据聚类中心词,确定各预设的维度区域的聚类词集的流程示意图;
图7为一个实施例中根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感的流程示意图;
图8为一个实施例中新闻情感分析的装置的结构框图;
图9为另一个实施例中新闻情感分析的装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的新闻情感分析的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取历史新闻数据中的词语,生成与词语对应的词嵌入向量,根据词嵌入向量,分别获取各预设的维度区域的聚类中心词,根据聚类中心词,确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,根据聚类词典分析来自终端102的待处理新闻数据,根据分析结果确定新闻情感。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种新闻情感分析的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取历史新闻数据中的词语,生成与词语对应的词嵌入向量。
服务器对历史新闻数据进行无监督的训练和学习,获取历史新闻数据中的词语,并生成与词语对应的词嵌入向量。其中,无监督学习是机器学习的一种,无监督学习指的是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,在本实施例中,类别未知(没有被标记)的训练样本即指的是历史新闻数据。历史新闻数据中的词语指的是指代情绪的词语。举例说明,指代情绪的词语包括表示高兴、哀伤、信任(相信、正直、可信赖、稳定、强势)、厌恶(厌恶、厌烦、憎恨)、害怕(害怕忧虑)、恼怒(愤怒、烦恼)、诧异(疑惑、惊讶)、期望。
S204:根据词嵌入向量,分别获取各预设的维度区域的聚类中心词。
各预设的维度区域指的是根据情感轮的多种基本情绪确定的维度区域,常使用情感轮第二圈的八种基本情绪作为八个维度区域,来丰富新闻分析的维度,八个维度区域分别为高兴、信任、害怕、诧异、哀伤、厌恶、恼怒、期望。服务器根据词嵌入向量和预设的种子词,分别获取各预设的维度区域的聚类中心词。其中,预设的种子词的可按照需要自行设置,根据词嵌入向量和预设的种子词,获取预设的种子词的种子词向量,根据种子词向量,获取各预设的维度区域的聚类中心词。各预设的维度区域的聚类中心词指的是能指代各个维度区域的基本情绪的词语。
S206:根据聚类中心词,确定各预设的维度区域的聚类词集。
服务器根据聚类中心词和词嵌入向量,确定与聚类中心词对应的中心词向量,查找与中心词向量在预设的第一距离阈值范围内的词嵌入向量,将符合条件的词嵌入向量对应的词语作为聚类词,将聚类词存入预设的维度区域的聚类词集,将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集,扩充聚类词集。
S208:根据聚类词集生成聚类词典。
服务器根据各个维度区域的聚类词集生成聚类词典,聚类词典中包括了各个维度区域的聚类词集,各个维度区域的聚类词集中包括了能指代各个维度区域的基本情绪的词语。
S210:根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
服务器根据聚类词典扫描待处理新闻数据,获取待处理新闻数据中包含聚类关键字的句子。其中,聚类关键字指的是各个维度区域的聚类词集中包括的能指代各个维度区域的基本情绪的词语。服务器在获取到待处理新闻数据中包含聚类关键字的句子之后,分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序,根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例,根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
上述新闻情感分析的方法,通过获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,根据词嵌入向量分别获取各预设的维度区域的聚类中心词,根据聚类中心词确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,采用聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。
在其中一个实施例中,如图3所示,S204包括:
S302:获取各预设的维度区域的预设的种子词;
S304:根据词嵌入向量,确定与种子词对应的种子词向量;
S306:根据种子词向量,获取各预设的维度区域的聚类中心词。
服务器获取各预设的维度区域的预设的种子词,根据预设的种子词查询词嵌入向量,确定与种子词对应的种子词向量,根据种子词向量获取各预设的维度区域的聚类中心词。其中,预设的种子词可按照需要自行设置,聚类中心词属于预设的种子词,从预设的种子词中挑选获得。
上述实施例,获取各预设的维度区域的预设的种子词,根据词嵌入向量,确定与种子词对应的种子词向量,根据种子词向量获取各预设的维度区域的聚类中心词,通过预设的种子词,实现了对各预设的维度区域的聚类中心词的准确获取。
在其中一个实施例中,如图4所示,S306包括:
S402:根据种子词向量确定各预设的维度区域的种子词向量均值;
S404:根据种子词向量均值匹配种子词向量;
S406:根据匹配结果确定各预设的维度区域的聚类中心词。
服务器根据种子词向量按照预设的向量均值算法确定各预设的维度区域的种子词向量均值,根据种子词向量均值匹配种子词向量,计算种子词向量均值与各种子词向量之间的距离,查找与种子词向量均值距离最接近的种子词向量,将与种子词向量均值距离最接近的种子词向量作为预设的维度区域的聚类中心词。
上述实施例,根据种子词向量确定各预设的维度区域的种子词向量均值,通过种子词向量均值,匹配种子词向量,根据匹配结果实现了对各预设的维度区域的聚类中心词的准确获取。
在其中一个实施例中,如图5所示,S306包括:
S502:根据种子词向量确定各预设的维度区域的种子词的密度峰值;
S504:根据密度峰值匹配种子词向量;
S506:根据匹配结果确定各预设的维度区域的聚类中心词。
服务器根据种子词向量按照预设的密度峰值算法确定各预设的维度区域的种子词的密度峰值,根据种子词的密度峰值匹配种子词向量,确定种子词的密度峰值与各种子词向量之间的关系,查找与种子词的密度峰值最接近的种子词向量,将与种子词的密度峰值最接近的种子词向量作为预设的维度区域的聚类中心词。
上述实施例,根据种子词向量确定各预设的维度区域的种子词的密度峰值,通过密度峰值,匹配种子词向量,根据匹配结果实现了对各预设的维度区域的聚类中心词的准确获取。
在其中一个实施例中,如图6所示,S206包括:
S602:根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量;
S604:确定中心词向量与各词嵌入向量之间的距离;
S606:当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词;
S608:将聚类词存入预设的维度区域的聚类词集;
S610:将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。
服务器根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量,确定中心词向量与各词嵌入向量之间的距离,当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词,将聚类词存入预设的维度区域的聚类词集,将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。其中,聚类词指的是能指代各维度区域的基本情绪的词语,聚类词集指的是能指代各维度区域的基本情绪的词语的集合,第一距离阈值范围和第二距离阈值范围可根据需要自行设置。
上述实施例,根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量,根据中心词向量与各词嵌入向量之间的距离,以及预设的第一距离阈值范围,确定聚类词,并将聚类词存入预设的维度区域的聚类词集,再将聚类词作为备用聚类中心词,在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类次存入预设的维度区域的聚类词集,实现了对聚类词的准确获取和对聚类词集的扩充。
在其中一个实施例中,如图7所示,S210包括:
S702:获取待处理新闻数据中包含聚类关键字的句子;
S704:分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序;
S706:根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例;
S708:根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
服务器获取待处理新闻数据中包含聚类关键字的句子,聚类关键字指的是各个维度区域的聚类词集中包括的能指代各个维度区域的基本情绪的词语。服务器分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序。举例说明,当句子中包含关联词时,根据句子中的关联词分隔的前后句之间的关系对句子中的聚类关键字进行排序。在对各句子中的聚类关键字进行排序之后,服务器根据排序结果,聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例。
服务器根据聚类词集和聚类关键字确定聚类关键字属于哪一个维度区域,在确定聚类关键字归属的维度区域之后,根据排序结果和预设的统计规则,统计各个维度区域占待处理新闻数据的比例。举例说明,可以根据聚类关键字在待处理新闻数据中出现的次数,对各个维度区域进行打分,若某个维度区域对应的聚类关键字没有在待处理新闻数据中出现时,可将该维度区域记为零分。进一步举例说明,若在统计中确定与高兴对应的维度区域、与厌恶对应的维度区域的分数分别为2,与期望对应的维度区域的分数为6,其它维度区域的分数为0(即未在待处理新闻数据中出现),则认为在该新闻情感中高兴的比例为20%,厌恶的比例为20%,期望的比例为60%。
上述实施例,通过获取并分析待处理新闻数据中包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序,根据排序结果、聚类词集以及预设的统计规则,实现了对各个维度区域占待处理新闻数据的比例的统计,根据统计结果实现对新闻情感的确定。
下面通过两个实施例来说明本申请的方案。
在其中一个实施例中,服务器首先获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,获取各预设的维度区域的预设的种子词,根据词嵌入向量,确定与种子词对应的种子词向量。然后根据种子词向量确定各预设的维度区域的种子词向量均值,根据种子词向量均值匹配种子词向量,根据匹配结果确定各预设的维度区域的聚类中心词。然后根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量,确定中心词向量与各词嵌入向量之间的距离,当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词,将聚类词存入预设的维度区域的聚类词集,将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。最后根据聚类词集生成聚类词典,获取待处理新闻数据中包含聚类关键字的句子,分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序,根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例,根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
在其中一个实施例中,服务器首先获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,获取各预设的维度区域的预设的种子词,根据词嵌入向量,确定与种子词对应的种子词向量。然后根据种子词向量确定各预设的维度区域的种子词的密度峰值,根据密度峰值匹配种子词向量,根据匹配结果确定各预设的维度区域的聚类中心词。然后根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量,确定中心词向量与各词嵌入向量之间的距离,当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词,将聚类词存入预设的维度区域的聚类词集,将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。最后根据聚类词集生成聚类词典,获取待处理新闻数据中包含聚类关键字的句子,分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序,根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例,根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种新闻情感分析的装置,包括:第一获取模块802、第二获取模块804、第一处理模块806、第二处理模块808和分析模块810,其中:
第一获取模块802,用于获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
第二获取模块804,用于根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
第一处理模块806,用于根据聚类中心词,确定各预设的维度区域的聚类词集;
第二处理模块808,用于根据聚类词集生成聚类词典;
分析模块810,用于根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
上述新闻情感分析的装置,通过获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,根据词嵌入向量分别获取各预设的维度区域的聚类中心词,根据聚类中心词确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,采用聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。
在其中一个实施例中,如图9所示,第二获取模块804包括中心词获取模块812,中心词获取模块812用于获取各预设的维度区域的预设的种子词,根据词嵌入向量,确定与种子词对应的种子词向量,根据种子词向量,获取各预设的维度区域的聚类中心词。
在其中一个实施例中,如图9所示,中心词获取模块812包括向量均值匹配模块814,向量均值匹配模块814用于根据种子词向量确定各预设的维度区域的种子词向量均值,根据种子词向量均值匹配种子词向量,根据匹配结果确定各预设的维度区域的聚类中心词。
在其中一个实施例中,如图9所示,中心词获取模块812包括密度峰值匹配模块816,密度峰值匹配模块816用于根据种子词向量确定各预设的维度区域的种子词的密度峰值,根据密度峰值匹配种子词向量,根据匹配结果确定各预设的维度区域的聚类中心词。
在其中一个实施例中,如图9所示,第一处理模块806包括存储模块818,存储模块818用于根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量,确定中心词向量与各词嵌入向量之间的距离;当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词,将聚类词存入预设的维度区域的聚类词集,将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。
在其中一个实施例中,如图9所示,分析模块810包括统计模块820,统计模块820用于获取待处理新闻数据中包含聚类关键字的句子,分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序,根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例,根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
关于新闻情感分析的装置的具体限定可以参见上文中对于新闻情感分析的方法的限定,在此不再赘述。上述新闻情感分析的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储聚类词典的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻情感分析的方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据聚类中心词,确定各预设的维度区域的聚类词集;
根据聚类词集生成聚类词典;
根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
上述新闻情感分析的方法、装置、计算机设备和存储介质,通过获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,根据词嵌入向量分别获取各预设的维度区域的聚类中心词,根据聚类中心词确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,采用聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各预设的维度区域的预设的种子词;
根据词嵌入向量,确定与种子词对应的种子词向量;
根据种子词向量,获取各预设的维度区域的聚类中心词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据种子词向量确定各预设的维度区域的种子词向量均值;
根据种子词向量均值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据种子词向量确定各预设的维度区域的种子词的密度峰值;
根据密度峰值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量;
确定中心词向量与各词嵌入向量之间的距离;
当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词;
将聚类词存入预设的维度区域的聚类词集;
将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取待处理新闻数据中包含聚类关键字的句子;
分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序;
根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例;
根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据聚类中心词,确定各预设的维度区域的聚类词集;
根据聚类词集生成聚类词典;
根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
上述新闻情感分析的方法、装置、计算机设备和存储介质,通过获取历史新闻数据中的词语并生成与词语对应的词嵌入向量,根据词嵌入向量分别获取各预设的维度区域的聚类中心词,根据聚类中心词确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,采用聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各预设的维度区域的预设的种子词;
根据词嵌入向量,确定与种子词对应的种子词向量;
根据种子词向量,获取各预设的维度区域的聚类中心词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据种子词向量确定各预设的维度区域的种子词向量均值;
根据种子词向量均值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据种子词向量确定各预设的维度区域的种子词的密度峰值;
根据密度峰值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量;
确定中心词向量与各词嵌入向量之间的距离;
当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词;
将聚类词存入预设的维度区域的聚类词集;
将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取待处理新闻数据中包含聚类关键字的句子;
分析包含聚类关键字的句子,根据分析结果分别对各句子中的聚类关键字进行排序;
根据排序结果、聚类词集以及预设的统计规则,统计各个维度区域占待处理新闻数据的比例;
根据各个维度区域占待处理新闻数据的比例,确定新闻情感。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种新闻情感分析的方法,所述方法包括:
获取历史新闻数据中的词语,生成与所述词语对应的词嵌入向量;
根据所述词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据所述聚类中心词,确定各所述预设的维度区域的聚类词集;
根据所述聚类词集生成聚类词典;
根据所述聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
2.根据权利要求1所述的方法,其特征在于,所述根据所述词嵌入向量,分别获取各预设的维度区域的聚类中心词包括:
获取各所述预设的维度区域的预设的种子词;
根据所述词嵌入向量,确定与所述种子词对应的种子词向量;
根据所述种子词向量,获取各预设的维度区域的聚类中心词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述种子词向量,获取各预设的维度区域的聚类中心词包括:
根据所述种子词向量确定各预设的维度区域的种子词向量均值;
根据所述种子词向量均值匹配所述种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
4.根据权利要求2所述的方法,其特征在于,所述根据所述种子词向量,获取各预设的维度区域的聚类中心词包括:
根据所述种子词向量确定各预设的维度区域的种子词的密度峰值;
根据所述密度峰值匹配所述种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述聚类中心词确定各所述预设的维度区域的聚类词集包括:
根据所述聚类中心词和所述词嵌入向量,确定所述聚类中心词的中心词向量;
确定所述中心词向量与各所述词嵌入向量之间的距离;
当所述中心词向量与所述词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与所述词嵌入向量对应的词语为聚类词;
将所述聚类词存入所述预设的维度区域的聚类词集;
将所述聚类词作为备用聚类中心词,根据所述备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将所述备用聚类词存入所述预设的维度区域的聚类词集。
6.根据权利要求1所述的方法,其特征在于,所述根据所述聚类词典分析待处理新闻数据,根据分析结果确定新闻情感包括:
获取所述待处理新闻数据中包含聚类关键字的句子;
分析所述包含聚类关键字的句子,根据分析结果分别对各句子中的所述聚类关键字进行排序;
根据排序结果、所述聚类词集以及预设的统计规则,统计各个维度区域占所述待处理新闻数据的比例;
根据各个所述维度区域占待处理新闻数据的比例,确定新闻情感。
7.一种新闻情感分析的装置,其特征在于,所述装置包括:
第一获取模块,用于获取历史新闻数据中的词语,生成与所述词语对应的词嵌入向量;
第二获取模块,用于根据所述词嵌入向量,分别获取各预设的维度区域的聚类中心词;
第一处理模块,用于根据所述聚类中心词,确定各所述预设的维度区域的聚类词集;
第二处理模块,用于根据所述聚类词集生成聚类词典;
分析模块,用于根据所述聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块还用于获取各所述预设的维度区域的预设的种子词,根据所述词嵌入向量,确定与所述种子词对应的种子词向量,根据所述种子词向量,获取各预设的维度区域的聚类中心词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201811030521.6A 2018-09-05 2018-09-05 新闻情感分析的方法、装置、计算机设备和存储介质 Active CN109325119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811030521.6A CN109325119B (zh) 2018-09-05 2018-09-05 新闻情感分析的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811030521.6A CN109325119B (zh) 2018-09-05 2018-09-05 新闻情感分析的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109325119A true CN109325119A (zh) 2019-02-12
CN109325119B CN109325119B (zh) 2024-03-15

Family

ID=65263944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811030521.6A Active CN109325119B (zh) 2018-09-05 2018-09-05 新闻情感分析的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109325119B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807323A (zh) * 2019-09-20 2020-02-18 平安科技(深圳)有限公司 情绪向量的生成方法及装置
CN113657108A (zh) * 2021-08-24 2021-11-16 平安国际智慧城市科技股份有限公司 医患关系监控方法、装置、计算机可读存储介质及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析系统
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析系统
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807323A (zh) * 2019-09-20 2020-02-18 平安科技(深圳)有限公司 情绪向量的生成方法及装置
CN113657108A (zh) * 2021-08-24 2021-11-16 平安国际智慧城市科技股份有限公司 医患关系监控方法、装置、计算机可读存储介质及服务器

Also Published As

Publication number Publication date
CN109325119B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112328762B (zh) 基于文本生成模型的问答语料生成方法和装置
CN111340237B (zh) 数据处理和模型运行方法、装置和计算机设备
US11544474B2 (en) Generation of text from structured data
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN111859960A (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN108427707A (zh) 人机问答方法、装置、计算机设备和存储介质
CN110135888B (zh) 产品信息推送方法、装置、计算机设备和存储介质
CN111683274B (zh) 弹幕广告展示方法、装置、设备及计算机可读存储介质
Li et al. Discover and mitigate unknown biases with debiasing alternate networks
CN111046979A (zh) 一种基于小样本学习的badcase发现方法及系统
CN109325119A (zh) 新闻情感分析的方法、装置、计算机设备和存储介质
CN109086386B (zh) 数据处理方法、装置、计算机设备和存储介质
CN113761124B (zh) 文本编码模型的训练方法、信息检索方法及设备
CN108509059B (zh) 一种信息处理方法、电子设备和计算机存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN109359295A (zh) 自然语言的语义解析方法、装置、计算机设备和存储介质
CN111246124B (zh) 一种多媒体数字融合方法和装置
CN113158039A (zh) 应用推荐方法、系统、终端以及存储介质
CN109635286B (zh) 政策热点分析的方法、装置、计算机设备和存储介质
Zhang et al. Are id embeddings necessary? whitening pre-trained text embeddings for effective sequential recommendation
Pan et al. Progressive channel-shrinking network
Li et al. Distant Supervision for E-commerce Query Segmentation via Attention Network
CN112269860B (zh) 自动应答处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant