CN109902099B - 基于图文大数据的舆情跟踪方法、装置和计算机设备 - Google Patents
基于图文大数据的舆情跟踪方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN109902099B CN109902099B CN201910100379.6A CN201910100379A CN109902099B CN 109902099 B CN109902099 B CN 109902099B CN 201910100379 A CN201910100379 A CN 201910100379A CN 109902099 B CN109902099 B CN 109902099B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- data
- text
- picture
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本申请提供了一种基于图文大数据的舆情跟踪方法、装置和计算机设备,涉及数据分析技术领域,方法包括:根据第一预设频率,从第一预设网络平台获取指定公开数据;根据指定公开数据构建公开数据库;在公开数据库中筛选得到预设舆情话题对应的舆情图文数据,并以舆情图文数据为基准,分别根据文本相似性筛选得到舆情文本数据,以及根据图片相似性筛选得到舆情图片数据;根据舆情图文数据、舆情文本数据和舆情图片数据,得到预设舆情话题对应的舆情数据,以根据舆情数据,得到预设舆情话题的热度变化趋势。本申请通过将舆情信息中的文本和图片相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
Description
技术领域
本申请涉及数据分析技术领域,特别涉及一种基于图文大数据的舆情跟踪方法、装置和计算机设备。
背景技术
目前的网络舆情监测方法均是通过关键字匹配或文字OCR识别技术,抓取网络各个平台上相关的新闻、社交动态、网民评论等网络舆情信息。在这种情况下,只有包含相关关键字文本的数据才会被处理,针对只有图片而没有相关关键字的内容却不能被搜索到。例如,越来越多的用户喜欢用图片来表达情感,他们可能没有提及到某些关键词,但却用图片传递了同样的信息。比如,微博真实用户每日所发的图片就达数百万张。目前由于缺乏有效的识别手段,图片数据是长期存在的监测盲区。
发明内容
本申请的主要目的为提供一种基于图文大数据的舆情跟踪方法、装置和计算机设备,旨在解决现有舆情监测方法无法实现对图片进行舆情跟踪的弊端。
为实现上述目的,本申请提供了一种基于图文大数据的舆情跟踪方法,包括:
根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据为所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括仅有文本的单独文本信息、仅有图片的单独图片信息以及图片、文本相关联的图文信息;
根据所述指定公开数据构建公开数据库;
根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据,以根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
本申请还提供了一种基于图文大数据的舆情跟踪装置,包括:
第一获取模块,用于根据第一预设频率,从第一预设网络平台获取指定公开数据;
构建模块,用于根据所述指定公开数据构建公开数据库;
第一筛选模块,用于根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
第二筛选模块,用于根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
第一生成模块,用于根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种基于图文大数据的舆情跟踪方法、装置和计算机设备,通过将舆情信息中的文本和图片相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
附图说明
图1是本申请一实施例中基于图文大数据的舆情跟踪方法步骤示意图;
图2是本申请一实施例中基于图文大数据的舆情跟踪装置整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种基于图文大数据的舆情跟踪方法,包括:
S1:根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据为所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括仅有文本的单独文本信息、仅有图片的单独图片信息以及图片、文本相关联的图文信息;
S2:根据所述指定公开数据构建公开数据库;
S3:根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
S4:根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
S5:根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据,以根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
本实施例中,舆情系统根据开发人员的设定,预先跟第一预设网络平台进行关联,用以获取第一预设网络平台公开发布的信息。其中,第一预设网络平台为可以查询到公开发布的信息的传播路径的网络平台,舆情系统可以同时跟多个第一预设网络平台进行关联,并将各个第一预设网络平台获取的公开数据汇总处理。第一预设网络平台可以为微博,推特等网络社交平台,可以直接查询到用户公开发布的信息,以及该信息的相关评论、转发等传播路径。舆情系统在上线后,根据开发人员的设定,按照第一预设频率,通过网络爬虫从第一预设网络平台上直接获取该时间段内的所有公开数据,即指定公开数据。其中,指定公开数据包括该时间段内所有用户公开发布的公开信息的内容,以及各组公开信息的相关评论和转发,即各组信息内容分别对应的传播路径。舆情系统获取的公开信息包括仅有文本的单独文本、仅有图片的单独图片,以及包括文本和图片相关联的图文信息。舆情系统构建公开数据库,用以存储所有的指定公开数据。其中,公开数据库包括单独文本子数据库、单独图片子数据库和关联图文子数据库。单独文本子数据库为多组单独的文本数据组成的数据库;单独图片子数据库为多组单独的图片数据组成的数据库;关联图文子数据库为多组图片和文本相关联的数据组成的数据库。关联图文子数据中包括图片子数据和文本子数据一一对应的多组数据;单独文本子数据库由多组单独文本数据组成;单独图片子数据库由多组单独图片数据组成。舆情系统内设置有预设舆情话题,预设舆情话题可以为单个的词语,也可以为语句。该预设舆情话题可以由开发人员进行手动输入,也可以是舆情系统自行根据预设设定获得,比如监测微博的话题榜,选择话题榜第一的话题作为预设舆情话题。舆情系统将预设舆情话题输入公开数据库中,首先解析预设舆情话题,根据词性得到该预设舆情话题的第一舆情关键词。舆情系统根据第一舆情关键词从关联图文子数据库中,筛选出文本内容包含有第一舆情关键字的部分图文数据,然后将该部分图文数据中的图片进行归类,统计各张相同图片的出现次数。如果相同图片的出现次数大于预设次数,则舆情系统判定该张相同图片为舆情图片,即舆情图片子数据。舆情系统根据舆情图片子数据以及舆情图片子数据相对应的舆情文本子数据可以得到与舆情话题相关的舆情图文数据。舆情系统以舆情图文数据中的舆情图片子数据为基准,根据图片的相似度,从单独图片数据中筛选出与舆情图片相似的部分单独图片数据作为舆情图片数据。同时,舆情系统将舆情图文数据中的舆情文本子数据与单独文本数据进行比对,通过选取关键词和词性分析相结合,从单独文本数据中筛选与舆情图文数据中的文本数据相似度大于预设值的部分单独文本数据作为舆情文本数据。舆情系统汇总舆情文本数据、舆情图片数据和舆情图文数据得到舆情话题对应的舆情数据。舆情系统通过对舆情数据的解析,可以得到舆情话题的热度变化趋势,具体为:舆情数据包括该时间段内发布的关于舆情话题的所有舆情内容的用户数、舆情内容相关的评论数、舆情内容相关的转发量以及相关的用户位置信息,舆情系统根据用户数、评论数和转发量的数值大小,可以确定舆情话题的关注热度,同时根据用户位置信息可以获知该舆情话题在地域上的扩散程度。舆情系统综合关注热度和地域的扩散程度,可以直观的得到该舆情话题的热度变化趋势。
进一步的,所述公开数据库包括单独文本子数据库、单独图片子数据库和关联图文子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独图片子数据库为多组单独的图片数据组成的数据库,所述关联图文子数据库为多组图片和文本相关联的数据组成的数据库;根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据的步骤中,包括:
S301:在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据,每一个所述舆情图文数据由一条舆情文本子数据和一条舆情图片子数据对应组成;
所述根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似性的舆情图片数据的步骤包括:
S401:在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据;并在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据。
本实施例中,舆情系统获取的公开数据包括仅有文本的单独文本数据、仅有图片的单独图片数据,以及文本和图片相关联的图文数据。因此,公开数据库中分设有单独文本子数据库、单独图片子数据库和关联图文子数据库。其中,单独文本子数据库为多组单独的文本数据组成的数据库;单独图片子数据库为多组单独的图片数据组成的数据库;关联图文子数据库为多组图片和文本相关联的数据组成的数据库。舆情系统首先将预设舆情话题输入关联图文数据库中,根据预设舆情话题的关键字,即第一舆情关键字从关联图文数据库中筛选出文本内容包含有关键字的部分图文数据,然后将该部分图文数据中的图片进行归类,统计各张相同图片的出现次数。如果相同图片的出现次数大于预设次数,则舆情系统判定该张相同图片为舆情图片。舆情系统综合舆情图片以及舆情图片一一对应的文本数据,即得到与舆情话题对应的舆情图文数据。舆情图文数据包括文本、用户公开该文本时附带一起发布的图片,即舆情文本子数据和舆情图片子数据。舆情文本子数据和舆情图片子数据一一对应,并构建有索引关系,以便两者之间可以依靠索引关系相互辨识。比如,文本A对应图片A,两者的索引为1;文本B对应图片B,两者的索引为2。在获得舆情图文数据后,舆情系统将舆情图文数据中的舆情图片子数据输入单独图片子数据库中,以舆情图片子数据为基准,将舆情图片子数据和单独图片子数据库中的单独图片数据均通过预设模型转化为图片向量,并根据预设向量密度,对所有的图片向量进行聚类。即两个图片向量之间的向量距离在预设距离内,则说明两个图片向量属于相似图片,将其识别为相似图片。由此,舆情系统从单独图片数据中筛选出与舆情图片子数据具有图片相似性的部分单独图片数据作为舆情图片数据。然后,舆情系统基于舆情图文数据中的舆情文本子数据,通过词嵌入和词性分析,从舆情文本子数据中筛选出各个文本对应的第二舆情关键词,同时从单独文本数据中筛选出各个文本对应的单独关键词。然后,舆情系统对各个第二舆情关键词和单独关键词进行次数统计。如果两个文本中相同的关键词的出现次数越多,则说明两个文本的相似度越高。舆情系统以此判断两个文本之间的文本相似性,从单独文本数据中筛选与舆情图文数据中的舆情文本子数据相似度大于预设值的部分单独文本数据作为舆情文本数据。
进一步的,所述关联图文子数据中包括图片子数据和文本子数据一一对应的多组数据,所述在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据的步骤中,包括:
S3011:解析所述预设舆情话题,得到至少一个第一舆情关键词;
S3012:根据各所述第一舆情关键词,分别从所述关联图文子数据库中筛选得到包含有第一舆情关键词的至少一组第一舆情图文子数据,所述第一舆情图文子数据由第一舆情文本子数据和第一舆情图片子数据对应组成;
S3013:分别计算各所述第一舆情图片子数据的出现次数;
S3014:调取预设次数,并将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据;
S3015:分别筛选各所述舆情图片子数据对应的文本子数据作为舆情文本子数据;
S3016:将各所述舆情文本子数据和各所述舆情图片子数据分别一一对应,得到多个所述舆情图文数据。
本实施例中,舆情系统基于词性,对预设舆情话题进行分词、去除停用词等解析,得到至少一个第一舆情关键词。舆情系统获取的关联图文子数据库中的关联图文数据中包括多组相关联的文本数据和图片数据,即用户在公开发布的信息中同时包括有相关联的文本信息和图片信息。舆情系统首先根据预设舆情话题的第一舆情关键词,从多组文本数据中筛选出文本内容包含有第一舆情关键词的部分文本数据作为第一舆情文本子数据。进一步,本实施中还可以对第一舆情文本子数据中各个文本的第一舆情关键词的出现次数进行统计,并筛选出现次数超过预设出现次数的第一舆情关键字对应的文本数据作为第一舆情文本子数据,以提高筛选的精确性。由于文本数据与图文数据相关联,因此舆情系统可以从图片数据中筛选出第一舆情文本子数据中的各个文本对应的图片子数据,即第一舆情图片子数据。然后,舆情系统统计各个相同的第一舆情图片子数据的出现次数,然后调取预先设置的预设次数,并将各第一舆情图片子数据的出现次数一一与预设次数进行比较,选择大于预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据。舆情系统再根据上述文本数据和图片数据之间的关联关系,从第一舆情文本子数据中筛选出舆情图片子数据对应的文本子数据。舆情系统将第二舆情文本子数据和舆情图片子数据一一对应关联,生成舆情图文数据。
进一步的,所述单独文本子数据库由多组单独文本数据组成,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据的步骤包括:
S4011:根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,和各所述单独文本数据对应的所述预设数量的单独关键词;
S4012:分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到至少一个相同关键词,所述指定关键词为第二舆情关键词和单独关键词一致的关键词;
S4013:分别统计各所述相同关键词对应的出现次数;
S4014:调取第一预设出现次数,并将各所述出现次数一一与所述第一预设出现次数进行比较,选择大于所述第一预设出现次数的出现次数对应的相同关键词作为指定关键词;
S4015:选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
本实施例中,舆情系统首先基于词性,对舆情文本子数据和单独文本子数据分别进行分词、去除停用词的操作,得到各自对应的舆情词语数据和单独词语数据。其中,分词是指将文本分解为主语、谓语、宾语等单个词语的操作,分词后,根据主语、谓语和宾语原先在文本中的表述关系,建立有对应的关联关系。比如,“我去北京了”这句话里面主语是“我”,谓语是“去”,宾语是“北京”。在进行分词后,三个词语根据原先在文本中的顺序建立有对应的关联,将主语“我”设置为关键词时,在同一句子中的谓语“去”或宾语“北京”也会与其关联在一起,进行组合。而去除停用词则是去除无意义的词语,比如“啊”、“哦”、“呃”之类的无意义词语直接去除。舆情系统分别统计舆情词语数据中各个词语在对应的文本中的词频,即词语在单个文本中出现的次数和该文本总词数的比值。然后,舆情系统分别计算各个词语的逆向文件频率,即舆情词语数据中所有词语对应的所有文本数除以包含该词语的文本的数目,再将得到的商取对数得到。各个词语在单个文本中的权重由该词语的词频乘以逆向文件频率得到。单个词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,即权重越大,重要程度越高。舆情系统将计算后的单个文本中的各个词语的按权重大小降序选择预设数量,作为第二舆情关键词。同时,舆情系统根据上述的相同方式计算单独词语数据库中各词语的权重,并按照权重大小降序从单独词语数据库中筛选到同样预设数量的单独关键词。舆情系统以第二舆情关键词为基准,从单独关键词中筛选出于舆情关键词相同的各个相同关键字,并统计各个相同关键字在对应的单个文本中的出现次数。舆情系统调取第一预设出现次数,并将各个相同关键词的出现次数一一与第一预设出现次数进行比较,选择大于第一预设出现次数的出现次数对应的相同关键词作为指定关键词,再从单独文本数据中筛选出包含有指定关键词的单独文本数据作为舆情文本数据。
进一步的,所述单独图片子数据库由多组单独图片数据组成,所述在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据的步骤,包括:
S4016:分别将各所述舆情图片子数据和各所述单独图片子数据输入预设模型中,转化得到各所述舆情图片子数据一一对应的舆情图片子向量,以及各所述单独图片数据一一对应的单独图片向量,所述预设模型为图片自编码器模型;
S4017:以各所述舆情图片子向量为基准进行聚类,筛选图片向量距离不大于预设距离的至少一个单独图片向量作为舆情图片向量;
S4018:分别将各所述舆情图片向量对应的单独图片数据设置为舆情图片数据。
本实施例中,舆情系统调用预设模型,比如基于CNN+DNN的图像自编码器模型,将所有的舆情图片子数据和单独图片数据作为输入,输入到CNN模型中,进行卷积和池化操作。然后,基于模图片自编码模型的DNN操作,将舆情图片子数据和单独图片子数据分别转化为对应的舆情图片子向量和单独图片子向量。在转化完成后,舆情系统根据各向量之间的密度,即向量之间的距离,对舆情图片子向量和单独图片子向量进行聚类。具体为,舆情系统基于DBSCAN密度聚类模型,以舆情图片子向量为基准,根据各向量之间的距离,将向量距离在预设距离内的向量聚集为同一类。比如,舆情图片子向量为A,单独图片向量为B、C和D,向量密度为0.5,即预设距离为0.5,A和B之间的距离为0.5,即为同一类,在同一个群;B和C之间的距离为0.5,为同一类,在同为一个群,所以A、B、C均在一个群;而D和A、B、C的距离均为1,则D和A、B、C均不属于同一类,不在一个群。经过向量聚类后,舆情系统可以将各向量进行归类,相同的类型分配相同的群索引号。而与舆情图片子向量具有相同的群索引号即表明两者图片相似,舆情系统以此从单独图片向量中筛选得到舆情图片向量,并将舆情图片向量对应的部分单独图片数据设置为舆情图片数据。
进一步的,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
S6:根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
S7:分别从各组所述搜索数据中筛选得到指定搜索数据,所述指定搜索数据中的搜索信息的出现次数大于第二预设出现次数;
S8:将所述指定搜索数据中的搜索信息设定为所述预设舆情话题。
本实施例中,舆情话题可以由开发人员手动输入,也可以由舆情系统自动筛选。舆情系统预先与第二预设网络平台相关联,第二预设网络平台为搜索平台,比如百度、搜狗搜索等。舆情系统根据第二预设频率,从第二预设网络平台获取上次获取时间到当前时间这一时间段内的所有搜索数据。其中,搜索数据包括用户输入的搜索信息以及该搜索信息对应的总的搜索次数。舆情系统调用第二预设次数,并分别将各个搜索信息对应的搜索次数与第二预设次数进行比对,从搜索数据中筛选出搜索次数大于第二预设次数的指定搜索数据。舆情系统自动将指定搜索数据中的搜索信息设置为预设舆情话题。
进一步的,舆情系统也可以与微博、推特等社交网络平台进行关联,并实时监测社交网络平台上的热门话题榜。当热门话题榜上的热门话题上榜时间超过预设时间时,舆情系统自动将该热门话题设置为预设舆情话题。
进一步的,本实施例应用于舆情系统,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据的步骤之后,包括:
S9:解析所述舆情数据,得到所述预设舆情话题的热度变化趋势;
S10:判断所述热度变化趋势是否满足触发自动推送的条件;
S11:若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
S12:生成包含有所述推送舆情数据的推送信息;
S13:将所述推送信息分别发送到各所述预设终端。
本实施例中,舆情系统在解析舆情数据得到舆情话题的热度变化趋势后,根据热度变化趋势中的关注热度和地域的扩散程度,判断舆情话题的热度变化趋势是否满足触发自动推送的条件。如果热度变化趋势中的关注热度超过预设数量,同时地域的扩散程度超过预设范围,比如转发数、评论数大于50万,同时地域的扩散程度超过10万平方公里,则判断该舆情话题的热度变化趋势满足触发自动推送的条件。舆情系统从舆情数据中筛选出包括有文字和图片,同时公开发布的时间与当前时间相隔最短的舆情图文数据作为推送舆情数据。舆情系统生成包含有推送舆情数据的推送信息,并将推送信息自动发送到预设终端,以便让公众可以及时了解当前的人舆情话题。
本实施例提供的一种基于图文大数据的舆情跟踪方法,通过将舆情信息中的文本和图片相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
参照图2,本申请一实施例中还提供了一种基于图文大数据的舆情跟踪装置,包括:
一种基于图文大数据的舆情跟踪装置,包括:
第一获取模块1,用于根据第一预设频率,从第一预设网络平台获取指定公开数据;
构建模块2,用于根据所述指定公开数据构建公开数据库;
第一筛选模块3,用于根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
第二筛选模块4,用于根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
第一生成模块5,用于根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据。
本实施例中,舆情系统根据开发人员的设定,预先跟第一预设网络平台进行关联,用以获取第一预设网络平台公开发布的信息。其中,第一预设网络平台为可以查询到公开发布的信息的传播路径的网络平台,舆情系统可以同时跟多个第一预设网络平台进行关联,并将各个第一预设网络平台获取的公开数据汇总处理。第一预设网络平台可以为微博,推特等网络社交平台,可以直接查询到用户公开发布的信息,以及该信息的相关评论、转发等传播路径。舆情系统在上线后,根据开发人员的设定,按照第一预设频率,通过网络爬虫从第一预设网络平台上直接获取该时间段内的所有公开数据,即指定公开数据。其中,指定公开数据包括该时间段内所有用户公开发布的公开信息的内容,以及各组公开信息的相关评论和转发,即各组信息内容分别对应的传播路径。舆情系统获取的公开信息包括仅有文本的单独文本、仅有图片的单独图片,以及包括文本和图片相关联的图文信息。舆情系统构建公开数据库,用以存储所有的指定公开数据。其中,公开数据库包括单独文本子数据库、单独图片子数据库和关联图文子数据库。单独文本子数据库为多组单独的文本数据组成的数据库;单独图片子数据库为多组单独的图片数据组成的数据库;关联图文子数据库为多组图片和文本相关联的数据组成的数据库。关联图文子数据中包括图片子数据和文本子数据一一对应的多组数据;单独文本子数据库由多组单独文本数据组成;单独图片子数据库由多组单独图片数据组成。舆情系统内设置有预设舆情话题,预设舆情话题可以为单个的词语,也可以为语句。该预设舆情话题可以由开发人员进行手动输入,也可以是舆情系统自行根据预设设定获得,比如监测微博的话题榜,选择话题榜第一的话题作为预设舆情话题。舆情系统将预设舆情话题输入公开数据库中,首先解析预设舆情话题,根据词性得到该预设舆情话题的第一舆情关键词。舆情系统根据第一舆情关键词从关联图文子数据库中,筛选出文本内容包含有第一舆情关键字的部分图文数据,然后将该部分图文数据中的图片进行归类,统计各张相同图片的出现次数。如果相同图片的出现次数大于预设次数,则舆情系统判定该张相同图片为舆情图片,即舆情图片子数据。舆情系统根据舆情图片子数据以及舆情图片子数据相对应的舆情文本子数据可以得到与舆情话题相关的舆情图文数据。舆情系统以舆情图文数据中的舆情图片子数据为基准,根据图片的相似度,从单独图片数据中筛选出与舆情图片相似的部分单独图片数据作为舆情图片数据。同时,舆情系统将舆情图文数据中的舆情文本子数据与单独文本数据进行比对,通过选取关键词和词性分析相结合,从单独文本数据中筛选与舆情图文数据中的文本数据相似度大于预设值的部分单独文本数据作为舆情文本数据。舆情系统汇总舆情文本数据、舆情图片数据和舆情图文数据得到舆情话题对应的舆情数据。舆情系统通过对舆情数据的解析,可以得到舆情话题的热度变化趋势,具体为:舆情数据包括该时间段内发布的关于舆情话题的所有舆情内容的用户数、舆情内容相关的评论数、舆情内容相关的转发量以及相关的用户位置信息,舆情系统根据用户数、评论数和转发量的数值大小,可以确定舆情话题的关注热度,同时根据用户位置信息可以获知该舆情话题在地域上的扩散程度。舆情系统综合关注热度和地域的扩散程度,可以直观的得到该舆情话题的热度变化趋势。
进一步的,所述第一筛选模块3包括:
第一筛选单元,用于在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据;
所述第二筛选模块4包括:
第二筛选单元,用于在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据;
第三筛选单元,用于在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据。
本实施例中,舆情系统获取的公开数据包括仅有文本的单独文本数据、仅有图片的单独图片数据,以及文本和图片相关联的图文数据。因此,公开数据库中分设有单独文本子数据库、单独图片子数据库和关联图文子数据库。其中,单独文本子数据库为多组单独的文本数据组成的数据库;单独图片子数据库为多组单独的图片数据组成的数据库;关联图文子数据库为多组图片和文本相关联的数据组成的数据库。舆情系统首先将预设舆情话题输入关联图文数据库中,根据预设舆情话题的关键字,即第一舆情关键字从关联图文数据库中筛选出文本内容包含有关键字的部分图文数据,然后将该部分图文数据中的图片进行归类,统计各张相同图片的出现次数。如果相同图片的出现次数大于预设次数,则舆情系统判定该张相同图片为舆情图片。舆情系统综合舆情图片以及舆情图片一一对应的文本数据,即得到与舆情话题对应的舆情图文数据。舆情图文数据包括文本、用户公开该文本时附带一起发布的图片,即舆情文本子数据和舆情图片子数据。舆情文本子数据和舆情图片子数据一一对应,并构建有索引关系,以便两者之间可以依靠索引关系相互辨识。比如,文本A对应图片A,两者的索引为1;文本B对应图片B,两者的索引为2。在获得舆情图文数据后,舆情系统将舆情图文数据中的舆情图片子数据输入单独图片子数据库中,以舆情图片子数据为基准,将舆情图片子数据和单独图片子数据库中的单独图片数据均通过预设模型转化为图片向量,并根据预设向量密度,对所有的图片向量进行聚类。即两个图片向量之间的向量距离在预设距离内,则说明两个图片向量属于相似图片,将其识别为相似图片。由此,舆情系统从单独图片数据中筛选出与舆情图片子数据具有图片相似性的部分单独图片数据作为舆情图片数据。然后,舆情系统基于舆情图文数据中的舆情文本子数据,通过词嵌入和词性分析,从舆情文本子数据中筛选出各个文本对应的第二舆情关键词,同时从单独文本数据中筛选出各个文本对应的单独关键词。然后,舆情系统对各个第二舆情关键词和单独关键词进行次数统计。如果两个文本中相同的关键词的出现次数越多,则说明两个文本的相似度越高。舆情系统以此判断两个文本之间的文本相似性,从单独文本数据中筛选与舆情图文数据中的舆情文本子数据相似度大于预设值的部分单独文本数据作为舆情文本数据。
进一步的,所述第一筛选单元包括:
第一解析子单元,用于解析所述预设舆情话题,得到至少一个第一舆情关键词;
第一筛选子单元,用于根据各所述第一舆情关键词,分别从所述关联图文子数据库中筛选得到包含有第一舆情关键词的至少一组第一舆情图文子数据;
计算子单元,用于分别计算各所述第一舆情图片子数据的出现次数;
第一选择子单元,用于调取预设次数,并将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据;
第二筛选子单元,用于分别筛选各所述舆情图片子数据对应的文本子数据作为舆情文本子数据;
对应子单元,用于将各所述舆情文本子数据和各所述舆情图片子数据分别一一对应,得到多个所述舆情图文数据。
本实施例中,舆情系统基于词性,对预设舆情话题进行分词、去除停用词等解析,得到至少一个第一舆情关键词。舆情系统获取的关联图文子数据库中的关联图文数据中包括多组相关联的文本数据和图片数据,即用户在公开发布的信息中同时包括有相关联的文本信息和图片信息。舆情系统首先根据预设舆情话题的第一舆情关键词,从多组文本数据中筛选出文本内容包含有第一舆情关键词的部分文本数据作为第一舆情文本子数据。进一步,本实施中还可以对第一舆情文本子数据中各个文本的第一舆情关键词的出现次数进行统计,并筛选出现次数超过预设出现次数的第一舆情关键字对应的文本数据作为第一舆情文本子数据,以提高筛选的精确性。由于文本数据与图文数据相关联,因此舆情系统可以从图片数据中筛选出第一舆情文本子数据中的各个文本对应的图片子数据,即第一舆情图片子数据。然后,舆情系统统计各个相同的第一舆情图片子数据的出现次数,然后调取预先设置的预设次数,并将各第一舆情图片子数据的出现次数一一与预设次数进行比较,选择大于预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据。舆情系统再根据上述文本数据和图片数据之间的关联关系,从第一舆情文本子数据中筛选出舆情图片子数据对应的文本子数据。舆情系统将第二舆情文本子数据和舆情图片子数据一一对应关联,生成舆情图文数据。
进一步的,所述第二筛选单元还包括:
第二解析子单元,用于根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,和各所述单独文本数据对应的所述预设数量的单独关键词;
第三筛选子单元,用于分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到至少一个相同关键词;
统计子单元,用于分别统计各所述相同关键词对应的出现次数;
第二选择子单元,用于调取第一预设出现次数,并将各所述出现次数一一与所述第一预设出现次数进行比较,选择大于所述第一预设出现次数的出现次数对应的相同关键词作为指定关键词;
第三选择子单元,用于选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
本实施例中,舆情系统首先基于词性,对舆情文本子数据和单独文本子数据分别进行分词、去除停用词的操作,得到各自对应的舆情词语数据和单独词语数据。其中,分词是指将文本分解为主语、谓语、宾语等单个词语的操作,分词后,根据主语、谓语和宾语原先在文本中的表述关系,建立有对应的关联关系。比如,“我去北京了”这句话里面主语是“我”,谓语是“去”,宾语是“北京”。在进行分词后,三个词语根据原先在文本中的顺序建立有对应的关联,将主语“我”设置为关键词时,在同一句子中的谓语“去”或宾语“北京”也会与其关联在一起,进行组合。而去除停用词则是去除无意义的词语,比如“啊”、“哦”、“呃”之类的无意义词语直接去除。舆情系统分别统计舆情词语数据中各个词语在对应的文本中的词频,即词语在单个文本中出现的次数和该文本总词数的比值。然后,舆情系统分别计算各个词语的逆向文件频率,即舆情词语数据中所有词语对应的所有文本数除以包含该词语的文本的数目,再将得到的商取对数得到。各个词语在单个文本中的权重由该词语的词频乘以逆向文件频率得到。单个词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,即权重越大,重要程度越高。舆情系统将计算后的单个文本中的各个词语的按权重大小降序选择预设数量,作为第二舆情关键词。同时,舆情系统根据上述的相同方式计算单独词语数据库中各词语的权重,并按照权重大小降序从单独词语数据库中筛选到同样预设数量的单独关键词。舆情系统以第二舆情关键词为基准,从单独关键词中筛选出于舆情关键词相同的各个相同关键字,并统计各个相同关键字在对应的单个文本中的出现次数。舆情系统调取第一预设出现次数,并将各个相同关键词的出现次数一一与第一预设出现次数进行比较,选择大于第一预设出现次数的出现次数对应的相同关键词作为指定关键词,再从单独文本数据中筛选出包含有指定关键词的单独文本数据作为舆情文本数据。
进一步的,所述第三筛选单元包括:
转化子单元,用于分别将各所述舆情图片子数据和各所述单独图片子数据输入预设模型中,转化得到各所述舆情图片子数据一一对应的舆情图片子向量,以及各所述单独图片数据一一对应的单独图片向量;
聚类子单元,用于以各所述舆情图片子向量为基准进行聚类,筛选图片向量距离不大于预设距离的至少一个单独图片向量作为舆情图片向量;
设置子单元,用于分别将各所述舆情图片向量对应的单独图片数据设置为舆情图片数据。
本实施例中,舆情系统调用预设模型,比如基于CNN+DNN的图像自编码器模型,将所有的舆情图片子数据和单独图片数据作为输入,输入到CNN模型中,进行卷积和池化操作。然后,基于模图片自编码模型的DNN操作,将舆情图片子数据和单独图片子数据分别转化为对应的舆情图片子向量和单独图片子向量。在转化完成后,舆情系统根据各向量之间的密度,即向量之间的距离,对舆情图片子向量和单独图片子向量进行聚类。具体为,舆情系统基于DBSCAN密度聚类模型,以舆情图片子向量为基准,根据各向量之间的距离,将向量距离在预设距离内的向量聚集为同一类。比如,舆情图片子向量为A,单独图片向量为B、C和D,向量密度为0.5,即预设距离为0.5,A和B之间的距离为0.5,即为同一类,在同一个群;B和C之间的距离为0.5,为同一类,在同为一个群,所以A、B、C均在一个群;而D和A、B、C的距离均为1,则D和A、B、C均不属于同一类,不在一个群。经过向量聚类后,舆情系统可以将各向量进行归类,相同的类型分配相同的群索引号。而与舆情图片子向量具有相同的群索引号即表明两者图片相似,舆情系统以此从单独图片向量中筛选得到舆情图片向量,并将舆情图片向量对应的部分单独图片数据设置为舆情图片数据。
进一步的,所述舆情跟踪装置还包括:
第二获取模块6,用于根据第二预设频率,从第二预设网络平台获取多组搜索数据;
第三筛选模块7,用于分别从各组所述搜索数据中筛选得到指定搜索数据;
设定模块8,用于将所述指定搜索数据中的搜索信息设定为所述预设舆情话题。
本实施例中,舆情话题可以由开发人员手动输入,也可以由舆情系统自动筛选。舆情系统预先与第二预设网络平台相关联,第二预设网络平台为搜索平台,比如百度、搜狗搜索等。舆情系统根据第二预设频率,从第二预设网络平台获取上次获取时间到当前时间这一时间段内的所有搜索数据。其中,搜索数据包括用户输入的搜索信息以及该搜索信息对应的总的搜索次数。舆情系统调用第二预设次数,并分别将各个搜索信息对应的搜索次数与第二预设次数进行比对,从搜索数据中筛选出搜索次数大于第二预设次数的指定搜索数据。舆情系统自动将指定搜索数据中的搜索信息设置为预设舆情话题。
进一步的,舆情系统也可以与微博、推特等社交网络平台进行关联,并实时监测社交网络平台上的热门话题榜。当热门话题榜上的热门话题上榜时间超过预设时间时,舆情系统自动将该热门话题设置为预设舆情话题。
进一步的,所述舆情跟踪装置还包括:
解析模块9,用于解析所述舆情数据,得到所述预设舆情话题的热度变化趋势;
判断模块10,用于判断所述热度变化趋势是否满足触发自动推送的条件;
第四筛选模块11,用于从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
第二生成模块12,用于生成包含有所述推送舆情数据的推送信息;
发送模块13,用于将所述推送信息分别发送到各所述预设终端。
本实施例中,舆情系统在解析舆情数据得到舆情话题的热度变化趋势后,根据热度变化趋势中的关注热度和地域的扩散程度,判断舆情话题的热度变化趋势是否满足触发自动推送的条件。如果热度变化趋势中的关注热度超过预设数量,同时地域的扩散程度超过预设范围,比如转发数、评论数大于50万,同时地域的扩散程度超过10万平方公里,则判断该舆情话题的热度变化趋势满足触发自动推送的条件。舆情系统从舆情数据中筛选出包括有文字和图片,同时公开发布的时间与当前时间相隔最短的舆情图文数据作为推送舆情数据。舆情系统生成包含有推送舆情数据的推送信息,并将推送信息自动发送到预设终端,以便让公众可以及时了解当前的人舆情话题。
本实施例提供的一种基于图文大数据的舆情跟踪装置,通过将舆情信息中的文本和图片相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储公开数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图文大数据的舆情跟踪方法。
上述处理器执行上述基于图文大数据的舆情跟踪的步骤:
S1:根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据为所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括仅有文本的单独文本信息、仅有图片的单独图片信息以及图片、文本相关联的图文信息;
S2:根据所述指定公开数据构建公开数据库;
S3:根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
S4:根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
S5:根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据,以根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
进一步的,所述公开数据库包括单独文本子数据库、单独图片子数据库和关联图文子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独图片子数据库为多组单独的图片数据组成的数据库,所述关联图文子数据库为多组图片和文本相关联的数据组成的数据库;根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据的步骤中,包括:
S301:在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据,每一个所述舆情图文数据由一条舆情文本子数据和一条舆情图片子数据对应组成;
所述根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似性的舆情图片数据的步骤包括:
S401:在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据;并在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据。
进一步的,所述关联图文子数据中包括图片子数据和文本子数据一一对应的多组数据,所述在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据的步骤中,包括:
S3011:解析所述预设舆情话题,得到至少一个第一舆情关键词;
S3012:根据各所述第一舆情关键词,分别从所述关联图文子数据库中筛选得到包含有第一舆情关键词的至少一组第一舆情图文子数据,所述第一舆情图文子数据由第一舆情文本子数据和第一舆情图片子数据对应组成;
S3013:分别计算各所述第一舆情图片子数据的出现次数;
S3014:调取预设次数,并将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据;
S3015:分别筛选各所述舆情图片子数据对应的文本子数据作为舆情文本子数据;
S3016:将各所述舆情文本子数据和各所述舆情图片子数据分别一一对应,得到多个所述舆情图文数据。
进一步的,所述单独文本子数据库由多组单独文本数据组成,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据的步骤包括:
S4011:根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,和各所述单独文本数据对应的所述预设数量的单独关键词;
S4012:分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到至少一个相同关键词,所述指定关键词为第二舆情关键词和单独关键词一致的关键词;
S4013:分别统计各所述相同关键词对应的出现次数;
S4014:调取第一预设出现次数,并将各所述出现次数一一与所述第一预设出现次数进行比较,选择大于所述第一预设出现次数的出现次数对应的相同关键词作为指定关键词;
S4015:选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
进一步的,所述单独图片子数据库由多组单独图片数据组成,所述在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据的步骤,包括:
S4016:分别将各所述舆情图片子数据和各所述单独图片子数据输入预设模型中,转化得到各所述舆情图片子数据一一对应的舆情图片子向量,以及各所述单独图片数据一一对应的单独图片向量,所述预设模型为图片自编码器模型;
S4017:以各所述舆情图片子向量为基准进行聚类,筛选图片向量距离不大于预设距离的至少一个单独图片向量作为舆情图片向量;
S4018:分别将各所述舆情图片向量对应的单独图片数据设置为舆情图片数据。
进一步的,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
S6:根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
S7:分别从各组所述搜索数据中筛选得到指定搜索数据,所述指定搜索数据中的搜索信息的出现次数大于第二预设出现次数;
S8:将所述指定搜索数据中的搜索信息设定为所述预设舆情话题。
进一步的,本实施例应用于舆情系统,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据的步骤之后,包括:
S9:解析所述舆情数据,得到所述预设舆情话题的热度变化趋势;
S10:判断所述热度变化趋势是否满足触发自动推送的条件;
S11:若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
S12:生成包含有所述推送舆情数据的推送信息;
S13:将所述推送信息分别发送到各所述预设终端。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于图文大数据的舆情跟踪方法,具体为:
S1:根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据为所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括仅有文本的单独文本信息、仅有图片的单独图片信息以及图片、文本相关联的图文信息;
S2:根据所述指定公开数据构建公开数据库;
S3:根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
S4:根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
S5:根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据,以根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
进一步的,所述公开数据库包括单独文本子数据库、单独图片子数据库和关联图文子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独图片子数据库为多组单独的图片数据组成的数据库,所述关联图文子数据库为多组图片和文本相关联的数据组成的数据库;根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据的步骤中,包括:
S301:在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据,每一个所述舆情图文数据由一条舆情文本子数据和一条舆情图片子数据对应组成;
所述根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似性的舆情图片数据的步骤包括:
S401:在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据;并在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据。
进一步的,所述关联图文子数据中包括图片子数据和文本子数据一一对应的多组数据,所述在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据的步骤中,包括:
S3011:解析所述预设舆情话题,得到至少一个第一舆情关键词;
S3012:根据各所述第一舆情关键词,分别从所述关联图文子数据库中筛选得到包含有第一舆情关键词的至少一组第一舆情图文子数据,所述第一舆情图文子数据由第一舆情文本子数据和第一舆情图片子数据对应组成;
S3013:分别计算各所述第一舆情图片子数据的出现次数;
S3014:调取预设次数,并将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据;
S3015:分别筛选各所述舆情图片子数据对应的文本子数据作为舆情文本子数据;
S3016:将各所述舆情文本子数据和各所述舆情图片子数据分别一一对应,得到多个所述舆情图文数据。
进一步的,所述单独文本子数据库由多组单独文本数据组成,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据的步骤包括:
S4011:根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,和各所述单独文本数据对应的所述预设数量的单独关键词;
S4012:分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到至少一个相同关键词,所述指定关键词为第二舆情关键词和单独关键词一致的关键词;
S4013:分别统计各所述相同关键词对应的出现次数;
S4014:调取第一预设出现次数,并将各所述出现次数一一与所述第一预设出现次数进行比较,选择大于所述第一预设出现次数的出现次数对应的相同关键词作为指定关键词;
S4015:选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
进一步的,所述单独图片子数据库由多组单独图片数据组成,所述在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据的步骤,包括:
S4016:分别将各所述舆情图片子数据和各所述单独图片子数据输入预设模型中,转化得到各所述舆情图片子数据一一对应的舆情图片子向量,以及各所述单独图片数据一一对应的单独图片向量,所述预设模型为图片自编码器模型;
S4017:以各所述舆情图片子向量为基准进行聚类,筛选图片向量距离不大于预设距离的至少一个单独图片向量作为舆情图片向量;
S4018:分别将各所述舆情图片向量对应的单独图片数据设置为舆情图片数据。
进一步的,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
S6:根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
S7:分别从各组所述搜索数据中筛选得到指定搜索数据,所述指定搜索数据中的搜索信息的出现次数大于第二预设出现次数;
S8:将所述指定搜索数据中的搜索信息设定为所述预设舆情话题。
进一步的,本实施例应用于舆情系统,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据的步骤之后,包括:
S9:解析所述舆情数据,得到所述预设舆情话题的热度变化趋势;
S10:判断所述热度变化趋势是否满足触发自动推送的条件;
S11:若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
S12:生成包含有所述推送舆情数据的推送信息;
S13:将所述推送信息分别发送到各所述预设终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (7)
1.一种基于图文大数据的舆情跟踪方法,其特征在于,包括:
根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据为所述第一预设网络平台的所有所述公开数据以及各所述公开数据分别对应的传播路径,所述公开数据包括仅有文本的单独文本信息、仅有图片的单独图片信息以及图片、文本相关联的图文信息;
根据所述指定公开数据构建公开数据库;
根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据,以根据所述舆情数据,得到所述预设舆情话题的热度变化趋势;
所述公开数据库包括单独文本子数据库、单独图片子数据库和关联图文子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独图片子数据库为多组单独的图片数据组成的数据库,所述关联图文子数据库为多组图片和文本相关联的数据组成的数据库;所述根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据的步骤中,包括:
在所述关联图文子数据库中,根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据,每一个所述舆情图文数据由一条舆情文本子数据和一条舆情图片子数据对应组成;
所述根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似性的舆情图片数据的步骤,还包括:
在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据;并在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据;
所述关联图文子数据中包括图片子数据和文本子数据一一对应的多组数据,所述在所述关联图文子数据库中;根据所述预设舆情话题的关键词筛选得到多个所述舆情图文数据的步骤中,还包括:
解析所述预设舆情话题,得到至少一个第一舆情关键词;
根据各所述第一舆情关键词,分别从所述关联图文子数据库中筛选得到包含有第一舆情关键词的至少一组第一舆情图文子数据,所述第一舆情图文子数据由第一舆情文本子数据和第一舆情图片子数据对应组成;
分别计算各所述第一舆情图片子数据的出现次数;
调取预设次数,并将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的第一舆情图片子数据作为舆情图片子数据;
分别筛选各所述舆情图片子数据对应的文本子数据作为舆情文本子数据;
将各所述舆情文本子数据和各所述舆情图片子数据分别一一对应,得到多个所述舆情图文数据;
所述单独文本子数据库由多组单独文本数据组成,所述在所述单独文本子数据库中;根据文本相似性筛选得到与所述舆情文本子数据相似的所述舆情文本数据的步骤,还包括:
根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,和各所述单独文本数据对应的所述预设数量的单独关键词;
分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到至少一个相同关键词,所述相同关键词为第二舆情关键词和单独关键词一致的关键词;
分别统计各所述相同关键词对应的出现次数;
调取第一预设出现次数,并将各所述出现次数一一与所述第一预设出现次数进行比较,选择大于所述第一预设出现次数的出现次数对应的相同关键词作为指定关键词;
选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
2.根据权利要求1所述的基于图文大数据的舆情跟踪方法,其特征在于,所述单独图片子数据库由多组单独图片数据组成,所述在所述单独图片子数据库中,根据图片相似性筛选得到与所述舆情图片子数据相似的所述舆情图片数据的步骤,包括:
分别将各所述舆情图片子数据和各所述单独图片子数据输入预设模型中,转化得到各所述舆情图片子数据一一对应的舆情图片子向量,以及各所述单独图片数据一一对应的单独图片向量,所述预设模型为图片自编码器模型;
以各所述舆情图片子向量为基准进行聚类,筛选图片向量距离不大于预设距离的至少一个单独图片向量作为舆情图片向量;
分别将各所述舆情图片向量对应的单独图片数据设置为舆情图片数据。
3.根据权利要求1所述的基于图文大数据的舆情跟踪方法,其特征在于,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
分别从各组所述搜索数据中筛选得到指定搜索数据,所述指定搜索数据中的搜索信息的出现次数大于第二预设出现次数;
将所述指定搜索数据中的搜索信息设定为所述预设舆情话题。
4.根据权利要求1所述的基于图文大数据的舆情跟踪方法,其特征在于,应用于舆情系统,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据的步骤之后,包括:
解析所述舆情数据,得到所述预设舆情话题的热度变化趋势;
判断所述热度变化趋势是否满足触发自动推送的条件;
若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
生成包含有所述推送舆情数据的推送信息;
将所述推送信息分别发送到各所述预设终端。
5.一种基于图文大数据的舆情跟踪装置,其特征在于,所述基于图文大数据的舆情跟踪装置用于执行根据权利要求1-4中任一项所述的基于图文大数据的舆情跟踪方法,包括:
第一获取模块,用于根据第一预设频率,从第一预设网络平台获取指定公开数据;
构建模块,用于根据所述指定公开数据构建公开数据库;
第一筛选模块,用于根据预设舆情话题,在所述公开数据库中筛选得到所述预设舆情话题对应的舆情图文数据;
第二筛选模块,用于根据文本相似性,在所述公开数据库中筛选与所述舆情图文数据中的文本数据相似的舆情文本数据;以及根据图片相似性,在所述公开数据库中筛选与所述舆情图文数据中的图片数据相似的舆情图片数据;
第一生成模块,用于根据所述舆情图文数据、所述舆情文本数据和所述舆情图片数据,得到所述预设舆情话题对应的舆情数据。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100379.6A CN109902099B (zh) | 2019-01-31 | 2019-01-31 | 基于图文大数据的舆情跟踪方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100379.6A CN109902099B (zh) | 2019-01-31 | 2019-01-31 | 基于图文大数据的舆情跟踪方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902099A CN109902099A (zh) | 2019-06-18 |
CN109902099B true CN109902099B (zh) | 2023-09-26 |
Family
ID=66944663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910100379.6A Active CN109902099B (zh) | 2019-01-31 | 2019-01-31 | 基于图文大数据的舆情跟踪方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902099B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581500A (zh) * | 2020-04-24 | 2020-08-25 | 贵州力创科技发展有限公司 | 一种面向网络舆情的数据分布式定向存储方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015001785A (ja) * | 2013-06-13 | 2015-01-05 | キヤノン株式会社 | 文書表示装置及び方法とそのプログラム及びデータ構造 |
CN104331490A (zh) * | 2014-11-14 | 2015-02-04 | 北京国双科技有限公司 | 网络数据处理方法及装置 |
CN107122450A (zh) * | 2017-04-26 | 2017-09-01 | 广州图匠数据科技有限公司 | 一种网络图片舆情监测方法 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107944019A (zh) * | 2017-12-11 | 2018-04-20 | 中广在线(北京)文化传媒有限公司 | 一种基于爬虫技术的境外舆情监测装置、系统及方法 |
-
2019
- 2019-01-31 CN CN201910100379.6A patent/CN109902099B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015001785A (ja) * | 2013-06-13 | 2015-01-05 | キヤノン株式会社 | 文書表示装置及び方法とそのプログラム及びデータ構造 |
CN104331490A (zh) * | 2014-11-14 | 2015-02-04 | 北京国双科技有限公司 | 网络数据处理方法及装置 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107122450A (zh) * | 2017-04-26 | 2017-09-01 | 广州图匠数据科技有限公司 | 一种网络图片舆情监测方法 |
CN107944019A (zh) * | 2017-12-11 | 2018-04-20 | 中广在线(北京)文化传媒有限公司 | 一种基于爬虫技术的境外舆情监测装置、系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109902099A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AlDayel et al. | Stance detection on social media: State of the art and trends | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US9147154B2 (en) | Classifying resources using a deep network | |
US9208441B2 (en) | Information processing apparatus, information processing method, and program | |
Fang et al. | Topics in tweets: A user study of topic coherence metrics for Twitter data | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
Sharma et al. | NIRMAL: Automatic identification of software relevant tweets leveraging language model | |
Li et al. | A hybrid recommendation system for Q&A documents | |
US20140052445A1 (en) | Voice search and response based on relevancy | |
Kumar et al. | Hashtag recommendation for short social media texts using word-embeddings and external knowledge | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN109933709B (zh) | 视频文本组合数据的舆情跟踪方法、装置和计算机设备 | |
CN113343108B (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
CN111177559A (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
US11275777B2 (en) | Methods and systems for generating timelines for entities | |
Espada et al. | Extracting keywords of educational texts using a novel mechanism based on linguistic approaches and evolutive graphs | |
CN109902099B (zh) | 基于图文大数据的舆情跟踪方法、装置和计算机设备 | |
Stankevich et al. | Analysis of Big Five Personality Traits by Processing of Social Media Users Activity Features. | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
Murtagh | Semantic Mapping: Towards Contextual and Trend Analysis of Behaviours and Practices. | |
Mohamed et al. | Identifying and extracting named entities from wikipedia database using entity infoboxes | |
JP2020067864A (ja) | 知識検索装置、知識検索方法、および、知識検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |