CN109582967B

CN109582967B - 舆情摘要提取方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109582967B
Application number: CN201811469068.9A
Authority: CN
Inventors: 陈琢; 江旻; 郑少杰; 付勇; 易剑韬; 范增虎
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2023-08-18
Anticipated expiration: 2038-12-03
Also published as: CN109582967A

Abstract

本发明公开了一种舆情摘要提取方法，包括以下步骤：对舆情文档进行词过滤以提取核心词，其中，将所述舆情文档的词以预训练的词向量进行存储；基于所述核心词对应的词向量，从所述舆情文档中提取预设关键词的摘要信息；基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要。本发明还公开了一种舆情摘要提取装置、设备及计算机可读存储介质。本发明实现了多角度提取舆情信息，进而实现用户所期望的舆情摘要。

Description

舆情摘要提取方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及摘要提取技术领域，尤其涉及一种舆情摘要提取方法、装置、设备及计算机可读存储介质。

背景技术

舆情摘要是指通过海量文本中基于某个实体来分析与该实体有关的文本情报信息，并从中提取出关于文本的核心事件、核心描述的技术。针对一个指定的实体(比如企业)，将各类情报信息按照信息量最大的原则，对其包含实体的文章进行内容提炼以便能对粗糙文本进行快速一览，从而使得分析人员能快速掌握实体在情报信息层面的主要状态。

现有舆情摘要提取方式往往只是简单的对文本以一定度量进行排序，然后按照排序选出摘要内容，此类方式虽然过程较为简单，效果也较为直接，但是大多情况下都是对文本的二次复述而已(也即舆情摘要来自于文本本身)，最后输出的舆情摘要也大多集中以副本信息存在，对于一些需要提取的情报定量信息，如关键指标、指向的对象等却较难刻画，进而无法达到情报分析人员所期望的摘要提取要求。

发明内容

本发明的主要目的在于提出一种舆情摘要提取方法、装置、设备及计算机可读存储介质，旨在解决现有技术无法多角度提取舆情信息的技术问题。

为实现上述目的，本发明提供一种舆情摘要提取方法，所述舆情摘要提取方法包括以下步骤：

对舆情文档进行词过滤以提取核心词，其中，将所述舆情文档的词以预训练的词向量进行存储；

基于所述核心词对应的词向量，从所述舆情文档中提取预设关键词的摘要信息；

基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要。

可选地，所述对舆情文档进行词过滤以提取核心词包括：

对所述舆情文档中所有的词进行聚类，得到第一词团集；

对所述第一词团集中词团进行过滤；

将保留下的词团保存为第二词团集，并将所述第二词团集中所有词团的词作为核心词。

可选地，在所述对舆情文档进行词过滤以提取核心词的步骤之前，还包括：

采用主题模型算法对多个舆情文档进行主题聚类，得到每份舆情文档的多个主题关键词；

所述对所述第一词团集中词团进行过滤包括：

以所有舆情文档的所有主题关键词为过滤条件，判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词；

若是，则保留该词团，否则过滤该词团。

可选地，所述基于所述核心词对应的词向量，从所述舆情文档中提取预设关键词的摘要信息包括：

对每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量；

生成每一关键词对应的词向量，并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度；

基于所述相似度，对每一核心词对应的词团进行排序；

取前预设个数词团中的词作为所述关键词的摘要信息。

可选地，在所述对每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量的步骤之前，还包括：

分别计算每一个核心词在所有舆情文档中的TF-IDF值；

将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权；

所述对每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量包括：

对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量。

可选地，所述计算每一合并词向量分别与每一关键词对应的词向量之间的相似度包括：

计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度；

所述基于所述相似度，对每一核心词对应的词团进行排序包括：

基于所述余弦相似度，对每一核心词对应的词团进行排序。

可选地，在所述基于所述相似度，对每一核心词对应的词团进行排序的步骤之后，还包括：

若摘要信息需要以句子形式进行表示，则取前预设个数词团中的词所在舆情文档中的段落作为所述关键词的摘要信息。

可选地，在所述生成每份舆情文档中每一个词对应的多种类型词向量的步骤之前，还包括：

自定义舆情摘要的多个关键词组合，其中，一个关键词组合对应舆情摘要的一个刻画角度，且各刻画角度之间相互独立；一个关键词组合包含多个关键词，同一关键词组合中各关键词之间相互互斥。

进一步地，为实现上述目的，本发明还提供一种舆情摘要提取装置，所述舆情摘要提取装置包括：

第一提取模块，用于对舆情文档进行词过滤以提取核心词，其中，将所述舆情文档的词以预训练的词向量进行存储；

第二提取模块，用于基于所述核心词对应的词向量，从所述舆情文档中提取预设关键词的摘要信息；

构建模块，用于基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要。

可选地，所述第一提取模块具体用于：

对所述舆情文档中所有的词进行聚类，得到第一词团集；

对所述第一词团集中词团进行过滤；

可选地，所述舆情摘要提取装置还包括：

聚类模块，用于采用主题模型算法对多个舆情文档进行主题聚类，得到每份舆情文档的多个主题关键词；

所述第一提取模块还用于：以所有舆情文档的所有主题关键词为过滤条件，判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词；若是，则保留该词团，否则过滤该词团。

可选地，所述第二提取模块具体用于：

基于所述相似度，对每一核心词对应的词团进行排序；

取前预设个数词团中的词作为所述关键词的摘要信息。

可选地，所述第二提取模块还用于：

分别计算每一个核心词在所有舆情文档中的TF-IDF值；

可选地，所述第二提取模块还用于：

计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度；基于所述余弦相似度，对每一核心词对应的词团进行排序。

进一步地，为实现上述目的，本发明还提供一种舆情摘要提取设备，所述舆情摘要提取设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的舆情摘要提取程序，所述舆情摘要提取程序被所述处理器执行时实现如上述任一项所述的舆情摘要提取方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有舆情摘要提取程序，所述舆情摘要提取程序被处理器执行时实现如上述任一项所述的舆情摘要提取方法的步骤。

本发明中，为满足用户所期望的舆情摘要提取要求，预设有多个关键词，以供从多个不同角度来刻画舆情摘要；此外，由于需要多角度提取舆情摘要，因此，将每份舆情文档中每一个词扩展为多种类型的词向量，从而通过词向量以获得更多的词信息；同时进一步对所有词向量进行过滤，以剔除非核心的词向量，然后再基于核心词向量，提取预设关键词的摘要信息，最后再基于关键词的摘要信息，构建舆情文档的舆情摘要。由于提取的摘要信息与关键词对应，而关键词与舆情摘要对应，因此，构建的舆情文档的舆情摘要能够从多角度刻画舆情信息，进而实现用户所期望的舆情摘要。

附图说明

图1为本发明舆情摘要提取设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明舆情摘要提取方法一实施例的流程示意图；

图3为图2中步骤S20一实施例的细化流程示意图；

图4为图2中步骤S30一实施例的细化流程示意图；

图5为本发明舆情摘要提取装置第一实施例的功能模块示意图；

图6为本发明舆情摘要提取装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种舆情摘要提取设备。

参照图1，图1为本发明舆情摘要提取设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，舆情摘要提取设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。需要说明的是，处理器1001采用嵌入式芯片方式安装在舆情摘要提取设备内。

本领域技术人员可以理解，图1中示出的舆情摘要提取设备的硬件结构并不构成对舆情摘要提取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及舆情摘要提取程序。其中，操作系统是管理和控制舆情摘要提取设备与软件资源的程序，支持网络通信模块、用户接口模块、舆情摘要提取程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的舆情摘要提取设备硬件结构中，网络接口1004主要用于连接系统后台，与系统后台进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；舆情摘要提取设备通过处理器1001调用存储器1005中存储的舆情摘要提取程序，并执行以下操作：

进一步地，舆情摘要提取设备通过处理器1001调用存储器1005中存储的舆情摘要提取程序，还执行以下操作：

对所述舆情文档中所有的词进行聚类，得到第一词团集；

对所述第一词团集中词团进行过滤；

若是，则保留该词团，否则过滤该词团。

基于所述相似度，对每一核心词对应的词团进行排序；

取前预设个数词团中的词作为所述关键词的摘要信息。

分别计算每一个核心词在所有舆情文档中的TF-IDF值；

基于所述余弦相似度，对每一核心词对应的词团进行排序。

基于上述实施例中舆情摘要提取设备的设备硬件运行环境，提出本发明舆情摘要提取方法的以下各实施例。

参照图2，图2为本发明舆情摘要提取方法一实施例的流程示意图。本实施例中，所述舆情摘要提取方法包括以下步骤：

步骤S10，对舆情文档进行词过滤以提取核心词，其中，将所述舆情文档的词以预训练的词向量进行存储；

词向量技术是将词转化成为稠密向量，任一词的含义都可以用它的周边词来表示，因而生成词向量可以获得更多的词信息以及词间关系信息，并且对于相似的词，其对应的词向量也相近。词向量的类型很多，例如GloVe词向量、FastText词向量、Word2Vec词向量等，不同类型词向量对应的词向量构造方式不同。

本实施例中，为获得更多的词信息以及词与词之间的信息，因此，进一步生成同一个词对应的多种类型词向量，例如生成每份舆情文档中每一个词对应的GloVe词向量、FastText词向量、Word2Vec词向量，也即每份舆情文档中的词都以GloVe词向量、FastText词向量、Word2Vec词向量进行存储。

此外，为保证舆情信息的时间一致性，因此优选对同一时间节点的多份舆情文档进行舆情摘要提取。舆情文档可以是新闻、杂志、论文等形式。

本实施例中，为降低摘要提取的运算量以提升摘要提取效率，因此需要对所有舆情文档内所有的词进行过滤，以剔除大量非核心词而保留少量的核心词。其中，核心词是舆情文档的关键词、重点词，其能够表述舆情文档的主要内容，因而核心词是舆情摘要的重要组成。本实施例对于提取核心词的方式不限。例如采用TextRank、LDA(Latent DirichletAllocation，文档主题生成模型)等方式从舆情文档中提取核心词。

步骤S20，基于所述核心词对应的词向量，从所述舆情文档中提取预设关键词的摘要信息；

本实施例中，关键词用于从多角度刻画舆情摘要。由于关键词预先设定，因而可基于用户所期望的角度来提取舆情摘要。

可选的，在一实施例中，在执行上述步骤S10之前，先自定义舆情摘要的多个关键词组合。其中，一个关键词组合对应舆情摘要的一个刻画角度，且各刻画角度之间相互独立；一个关键词组合包含多个关键词，同一关键词组合中各关键词之间相互互斥。

例如，用户若期望按照时间、规模、产业竞争力等几个角度来刻画企业的舆情摘要，则可设置时间关键词组合、规模关键词组合、产业竞争力关键词组合，比如时间关键词组合包括：成立时间、运营时间；规模关键词组合包括：员工人数、管理人员人数、产品生产量、产品销售量；产业竞争力关键词：市场占有率、资产负债率、产品利润率。

本实施例中，为能够基于用户所期望的角度来提取舆情摘要，因此，需要提取每一个关键词对应的摘要信息，具体基于核心词向量来提取每一个关键词对应的摘要信息。本实施例对于提取关键词的摘要信息的方式不限，例如基于向量距离、向量相似度等度量方式从核心词中提取与关键词相似的词作为摘要信息。

步骤S30，基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要。

本实施例中，基于提取的关键词的摘要信息，构建舆情文档的舆情摘要。例如，将所有关键词组合中每一关键词对应的摘要信息作为所有舆情文档的舆情摘要。

本实施例中，为满足用户所期望的舆情摘要提取要求，预设有多个关键词，以供从多个不同角度来刻画舆情摘要；此外，由于需要多角度提取舆情摘要，因此，将每份舆情文档中每一个词扩展为多种类型的词向量，从而通过词向量以获得更多的词信息；同时进一步对所有词向量进行过滤，以剔除非核心的词向量，然后再基于核心词向量，提取预设关键词的摘要信息，最后再基于关键词的摘要信息，构建舆情文档的舆情摘要。由于提取的摘要信息与关键词对应，而关键词与舆情摘要对应，因此，构建的舆情文档的舆情摘要能够从多角度刻画舆情信息，进而实现用户所期望的舆情摘要。

参照图3，图3为图2中步骤S20一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S20进一步包括：

步骤S201，对所述舆情文档中所有的词进行聚类，得到第一词团集；

步骤S202，对所述第一词团集中词团进行过滤；

本实施例中，为进一步降低摘要提取的运算量以提升摘要提取效率，因此，对所有舆情文档的词进行聚类，以进行舆情文档之间的聚类以及词团之间的聚类，并将聚类后生成的各词团保存为第一词团集。

本实施例对于聚类方式不限。例如基于密度的聚类算法(DBSCAN)、K-Means(K均值)聚类算法等。

可选的，在一实施例中，具体通过舆情文档的主题关键词，对所有词团进行过滤，步骤S202具体实现过程如下：

(1)在对词团进行过滤之前，采用主题模型算法对多个舆情文档进行主题聚类，得到每份舆情文档的多个主题关键词；

(2)以所有舆情文档的所有主题关键词为过滤条件，判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词；

(3)若词团包含所有舆情文档的所有主题关键词，则保留该词团，否则过滤该词团。

本可选实施例中，主题模型算法(LDA)虽然可以提取出舆情文档中的主题关键词，但其提取过程中损失了很多词信息以及词间信息，进而无法用于构建用户所期望的多角度的舆情摘要。此外，虽然词团保留了更多词信息以及词间信息，但也存在某些词团对于构建舆情摘要没有太大的意义，比如舆情文档中的一些客套话等。

因此，本可选实施例以所有舆情文档的所有主题关键词为过滤条件，对第一词团集中词团进行过滤，从而过滤掉一些对于构建舆情摘要没有太大的意义的词团，同时保留包含有所有主题关键词的词团。由于同一词团之中的不同词之间具有相似性，因此，若词团中包含有主题关键词，则该词团中的其他词与该主题关键词相似，因而可将包含有主题关键词的词团中的所有词作为提取舆情摘要的候选词。

步骤S203，将保留下的词团保存为第二词团集，并将所述第二词团集中所有词团的词作为核心词。

本实施例中，进一步将经过词团过滤后所保留下来的词团保存为第二词团集，以便于后续构建舆情文档的舆情摘要，并且将第二词团集中所有词团的词作为核心词。

本实施例中，先通过聚类算法将词聚类为词团，然后将词过滤转换为词团过滤，从而在保留更多词信息以及词间信息的前提下，可在一定程度上降低从海量舆情文档中提取舆情摘要的运算量，提升舆情摘要的提取效率。

参照图4，图4为图2中步骤S30一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S30进一步包括：

步骤S301，对每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量；

步骤S302，生成每一关键词对应的词向量，并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度；

本实施例中，优选采用向量相似度的度量方式从核心词中提取与关键词相似的词作为摘要信息。

由于本实施例中同一核心词采用多种类型的词向量进行表示，因此需要对每一个核心词对应的多种类型词向量进行加法运算(也即向量加法)，从而得到每一个核心词对应的合并词向量。

此外，为便于进行向量相似度计算，还需进一步生成每一关键词对应的词向量，然后计算每一合并词向量分别与每一关键词对应的词向量之间的相似度。

可选的，在一实施例中，优选通过余弦相似度(也即余弦距离)衡量核心词对应的向量与关键字对应的向量之间的相似度。

步骤S303，基于所述相似度，对每一核心词对应的词团进行排序；

步骤S304，取前预设个数词团中的词作为所述关键词的摘要信息。

本实施例中，在计算出所有核心词对应的向量与同一关键字对应的向量之间的相似度后，需要通过相似度排序的方式挑选出最相似的核心词作为该关键字的摘要信息。

例如，假设有三个核心词的词团：A(a1，a2，a3，a4，a5)、B(b1，b2，b3)、C(c1，c2，c3，c4)，两个关键词组合：D(M1、M2)、E(P1、P2)；则关键词的摘要信息提取方式为：

(1)先计算(a1，a2，a3，a4，a5，b1，b2，b3，c1，c2，c3，c4)中各核心词对应的合并词向量分别与关键词M1对应的向量之间相似度，比如a1与M1的向量相似度为0.5，a2与M1的向量相似度为0.3，a3与M1的向量相似度为0.5，a4与M1的向量相似度为0.4，a5与M1的向量相似度为0.3，b1与M1的向量相似度为0.01，b2与M1的向量相似度为0.05，b3与M1的向量相似度为0.07，c1与M1的向量相似度为0.3，c2与M1的向量相似度为0.7，c3与M1的向量相似度为0.5，c4与M1的向量相似度为0.6。

(2)基于计算得到的相似度，对每一核心词对应的词团进行排序，则核心词的排序为：0.7：c2；0.6：c4；0.5：a1，a3，c3；0.4：a4；0.3：a2，a5，c1；0.07：b3；0.05：b2；0.01：b1；核心词对应的词团排序为：词团C、词团A、词团B；

(3)假设取两个词团，则将词团排序中前2个词团：词团C、词团A中的词作为关键词M1的摘要信息，也即关键词M1的摘要信息为(a1，a2，a3，a4，a5，c1，c2，c3，c4)；

(4)重复上述过程即可分别获得关键词M2、P1、P2的摘要信息。

可选的，在一实施例中，若摘要信息需要以句子形式进行表示，则取前预设个数词团中的词所在舆情文档中的段落作为关键词的摘要信息。例如，将舆情文档中，(a1，a2，a3，a4，a5，c1，c2，c3，c4)这些核心词所在的段落作为关键词M1的摘要信息。

可选的，为进一步区分各核心词，从而提升摘要信息提取的准确性，因此，在一实施例中，先分别计算每一个核心词在所有舆情文档中的TF-IDF值；然后将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权；最后再对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量。

本实施例并不直接提取所有舆情文档的舆情摘要，而是先基于用户自定义的关键词，从舆情文档中提取各关键词的摘要信息，然后基于各关键词的摘要信息构建所有舆情文档的舆情摘要。由于关键词是用户所期望的对舆情文档的刻画角度，因而提取到的各关键词的摘要信息可以从多个角度刻画舆情文档。

本发明还提供一种舆情摘要提取装置。

参照图5，图5为本发明舆情摘要提取装置第一实施例的功能模块示意图。本实施例中，舆情摘要提取装置包括：

第一提取模块10，用于对舆情文档进行词过滤以提取核心词，其中，将所述舆情文档的词以预训练的词向量进行存储；

第二提取模块20，用于基于所述核心词对应的词向量，从所述舆情文档中提取预设关键词的摘要信息；

可选的，在舆情摘要提取装置一实施例中，先自定义舆情摘要的多个关键词组合。其中，一个关键词组合对应舆情摘要的一个刻画角度，且各刻画角度之间相互独立；一个关键词组合包含多个关键词，同一关键词组合中各关键词之间相互互斥。

构建模块30，用于基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要。

进一步地，在本发明舆情摘要提取装置一实施例中，第一提取模块10具体用于：

对所述舆情文档中所有的词进行聚类，得到第一词团集；

对所述第一词团集中词团进行过滤；

参照图6，图6为本发明舆情摘要提取装置第二实施例的功能模块示意图。本实施例中，所述舆情摘要提取装置还包括：

聚类模块40，用于采用主题模型算法对多个舆情文档进行主题聚类，得到每份舆情文档的多个主题关键词；

第一提取模块10还用于：以所有舆情文档的所有主题关键词为过滤条件，判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词；若是，则保留该词团，否则过滤该词团。

本实施例具体通过舆情文档的主题关键词，对所有词团进行过滤，具体实现过程如下：

本实施例中，主题模型算法(LDA)虽然可以提取出舆情文档中的主题关键词，但其提取过程中损失了很多词信息以及词间信息，进而无法用于构建用户所期望的多角度的舆情摘要。此外，虽然词团保留了更多词信息以及词间信息，但也存在某些词团对于构建舆情摘要没有太大的意义，比如舆情文档中的一些客套话等。

因此，本实施例以所有舆情文档的所有主题关键词为过滤条件，对第一词团集中词团进行过滤，从而过滤掉一些对于构建舆情摘要没有太大的意义的词团，同时保留包含有所有主题关键词的词团。由于同一词团之中的不同词之间具有相似性，因此，若词团中包含有主题关键词，则该词团中的其他词与该主题关键词相似，因而可将包含有主题关键词的词团中的所有词作为提取舆情摘要的候选词。

进一步地，在本发明舆情摘要提取装置一实施例中，所述第二提取模块20具体用于：

对每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量；生成每一关键词对应的词向量，并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度；基于所述相似度，对每一核心词对应的词团进行排序；取前预设个数词团中的词作为所述关键词的摘要信息。

(4)重复上述过程即可分别获得关键词M2、P1、P2的摘要信息。

可选的，为进一步区分各核心词，从而提升摘要信息提取的准确性，因此，在一实施例中，第二提取模块20还用于：先分别计算每一个核心词在所有舆情文档中的TF-IDF值；然后将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权；最后再对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有舆情摘要提取程序，所述舆情摘要提取程序被处理器执行时实现如上述任一项实施例中所述的舆情摘要提取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种舆情摘要提取方法，其特征在于，所述舆情摘要提取方法包括以下步骤：

基于所述相似度，对每一核心词对应的词团进行排序；

取前预设个数词团中的词作为所述关键词的摘要信息；

基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要；

所述对舆情文档进行词过滤以提取核心词包括：

对所述舆情文档中所有的词进行聚类，得到第一词团集；

对所述第一词团集中词团进行过滤；

将保留下的词团保存为第二词团集，并将所述第二词团集中所有词团的词作为核心词；

在所述对舆情文档进行词过滤以提取核心词的步骤之前，还包括：

所述对所述第一词团集中词团进行过滤包括：

若是，则保留该词团，否则过滤该词团；

在所述对每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量的步骤之前，还包括：

分别计算每一个核心词在所有舆情文档中的TF-IDF值；

对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算，得到每一个核心词对应的合并词向量；

所述计算每一合并词向量分别与每一关键词对应的词向量之间的相似度包括：

基于所述余弦相似度，对每一核心词对应的词团进行排序。

2.如权利要求1所述的舆情摘要提取方法，其特征在于，在所述基于所述相似度，对每一核心词对应的词团进行排序的步骤之后，还包括：

3.如权利要求1所述的舆情摘要提取方法，其特征在于，在生成每份舆情文档中每一个词对应的多种类型词向量的步骤之前，还包括：

4.一种舆情摘要提取装置，其特征在于，所述舆情摘要提取装置包括：

构建模块，用于基于所述关键词的摘要信息，构建舆情文档的舆情摘要，其中，所述关键词用于从多角度刻画舆情摘要；

所述第二提取模块具体用于：

基于所述相似度，对每一核心词对应的词团进行排序；

取前预设个数词团中的词作为所述关键词的摘要信息；

所述第一提取模块具体用于：

对所述舆情文档中所有的词进行聚类，得到第一词团集；

对所述第一词团集中词团进行过滤；

所述舆情摘要提取装置还包括：

所述第一提取模块还用于：以所有舆情文档的所有主题关键词为过滤条件，判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词；若是，则保留该词团，否则过滤该词团；

所述第二提取模块还用于：

分别计算每一个核心词在所有舆情文档中的TF-IDF值；

所述第二提取模块还用于：

5.一种舆情摘要提取设备，其特征在于，所述舆情摘要提取设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的舆情摘要提取程序，所述舆情摘要提取程序被所述处理器执行时实现如权利要求1-3中任一项所述的舆情摘要提取方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有舆情摘要提取程序，所述舆情摘要提取程序被处理器执行时实现如权利要求1-3中任一项所述的舆情摘要提取方法的步骤。