CN109933709A - 视频文本组合数据的舆情跟踪方法、装置和计算机设备 - Google Patents

视频文本组合数据的舆情跟踪方法、装置和计算机设备 Download PDF

Info

Publication number
CN109933709A
CN109933709A CN201910100413.XA CN201910100413A CN109933709A CN 109933709 A CN109933709 A CN 109933709A CN 201910100413 A CN201910100413 A CN 201910100413A CN 109933709 A CN109933709 A CN 109933709A
Authority
CN
China
Prior art keywords
public sentiment
data
video
public
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910100413.XA
Other languages
English (en)
Other versions
CN109933709B (zh
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910100413.XA priority Critical patent/CN109933709B/zh
Priority to PCT/CN2019/089609 priority patent/WO2020155496A1/zh
Publication of CN109933709A publication Critical patent/CN109933709A/zh
Application granted granted Critical
Publication of CN109933709B publication Critical patent/CN109933709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种视频文本组合数据的舆情跟踪方法、装置和计算机设备,涉及数据分析技术领域,方法包括:根据第一预设频率,从第一预设网络平台获取指定公开数据;根据指定公开数据构建公开数据库;在公开数据库中筛选得到舆情话题对应的舆情视频文本组合数据;根据文本相似性,筛选得到与舆情视频文本组合数据相似的舆情文本数据;以及根据视频源地址和视频相似性,筛选得到与舆情视频文本组合数据相同或相似的舆情视频数据;根据舆情视频文本组合数据、舆情文本数据和舆情视频数据得到舆情数据。本申请通过将舆情信息中的文本和视频相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。

Description

视频文本组合数据的舆情跟踪方法、装置和计算机设备
技术领域
本申请涉及数据分析技术领域,特别涉及一种视频文本组合数据的舆情跟踪方法、装置和计算机设备。
背景技术
目前的网络舆情监测方法均是通过关键字匹配或文字OCR识别技术,抓取网络各个平台上相关的新闻、社交动态、网民评论等网络舆情信息。在这种情况下,只有包含相关关键字文本的数据才会被处理,声量只是文字声量,针对只有视频而没有相关关键字的内容却不能被搜索到。现在越来越多的用户喜欢用视频来表达情感,他们可能没有提及到某些关键词,但却用视频传递了同样的信息。比如,微博真实用户每日所发的短视频就达数百万个。目前由于缺乏有效的识别手段,视频数据是长期存在的监测盲区。
发明内容
本申请的主要目的为提供一种视频文本组合数据的舆情跟踪方法、装置和计算机设备,旨在解决现有舆情监测方法无法实现对视频进行舆情跟踪的弊端。
为实现上述目的,本申请提供了一种视频文本组合数据的舆情跟踪方法,包括:
根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据包括所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括只有文本的单独文本信息、只有视频的单独视频信息、视频和文本相关联的视频文本组合信息;
根据所述指定公开数据构建公开数据库;
在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
本申请还提供了一种视频文本组合数据的舆情跟踪装置,包括:
第一获取模块,用于根据第一预设频率,从第一预设网络平台获取指定公开数据;
构建模块,用于根据所述指定公开数据构建公开数据库;
第一筛选模块,用于在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
第二筛选模块,用于根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
第一生成模块,用于根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
解析模块,用于根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种视频文本组合数据的舆情跟踪方法、装置和计算机设备,通过将舆情信息中的文本和视频相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
附图说明
图1是本申请一实施例中视频文本组合数据的舆情跟踪方法步骤示意图;
图2是本申请一实施例中视频文本组合数据的舆情跟踪装置整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种视频文本组合数据的舆情跟踪方法,包括:
S1:根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据包括所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括只有文本的单独文本信息、只有视频的单独视频信息、视频和文本相关联的视频文本组合信息;
S2:根据所述指定公开数据构建公开数据库;
S3:在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
S4:根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
S5:根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
S6:根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
本实施例中,舆情系统根据开发人员的设定,预先跟第一预设网络平台进行关联,用以获取第一预设网络平台中各个平台用户公开发布的信息。其中,第一预设网络平台为可以查询到公开发布的信息的的传播路径,且公开的信息中包括有视频的网络平台,比如微博,抖音等网络社交平台。第一预设网络平台可以直接查询到各个平台用户公开发布的信息,以及该信息对应的相关评论、转发或点赞之类互动动作,并根据这些互动动作查询到该信息对应的所有传播路径。舆情系统可以同时跟多个第一预设网络平台关联,获取公开发布的信息,并整合分析。舆情系统在使用时,根据开发人员的设定,按照第一预设频率,通过网络爬虫从第一预设网络平台直接获取该时间段内的所用公开数据,即指定公开数据。其中,指定公开数据包括该时间段内所有平台用户公开发布的公开信息以及这些公开信息分别对应的传播路径。指定公开数据中的公开信息包括仅有文本的单独文本信息、仅有视频的单独视频信息,以及视频和文本关联发布的视频文本组合信息,比如平台用户在发布文本时附带了一段视频,即为视频文本组合信息。舆情系统构建公开数据库,用以存储所有的指定公开数据。舆情系统设定有预设舆情话题。其中,预设舆情话题可以为单个的词语,也可以为语句。该预设舆情话题可以由开发人员手动输入,也可以是舆情系统自行根据预设设定获得。比如舆情系统监控微博、抖音等社交平台的热门话题榜,选择话题榜第一的话题作为预设舆情话题。舆情系统将预设舆情话题输入公开数据库中,首先根据词性从预设舆情话题中选择得到第一舆情关键词,并根据第一舆情关键词从视频文本组合子数据库中筛选出文本信息包含有第一舆情关键词的部分视频文本组合数据作为视频文本组合子数据。然后将视频文本组合子数据中的相同视频,即各个视频子数据的出现次数进行统计。如果某个视频子数据的出现次数大于预设次数,则舆情系统判定该视频子数据为舆情视频子数据。舆情系统根据舆情视频子数据以及该舆情视频子数据相对应的文本数据,得到与舆情话题相关的舆情视频文本组合数据。舆情系统以舆情视频文本组合数据为基准,分别获取各单独视频数据和舆情视频子数据的原始源地址,即视频源地址,然后分别将各单独视频数据的原始源地址与舆情视频子数据的原始源地址进行比较,将原始源地址一致的单独视频数据作为第一视频数据,并将原始源地址不一致的单独视频数据作为第二视频数据。然后,舆情系统以舆情视频文本组合数据中的舆情视频子数据为基准,根据视频相似性,从第二视频数据中筛选出与舆情视频子数据的视频相似值大于第二预设值的第二视频数据作为第三视频数据。舆情系统综合第一视频数据和第二视频数据,得到舆情视频数据。同时,舆情系统将舆情视频文本组合数据中的舆情文本子数据与单独文本数据进行比对,通过选取关键词和词性分析相结合,从单独文本数据库中筛选与舆情文本子数据的相似度大于第一预设值,比如相似度90%以上的部分单独文本数据作为单独舆情文本数据。舆情系统汇总单独舆情文本数据、单独舆情视频数据、舆情视频文本组合数据,生成舆情数据。舆情系统通过对舆情数据的解析,可以得到预设舆情话题的热度变化趋势,具体为:舆情数据包括该时间段内发布的关于预设舆情话题的所有舆情内容的用户数、舆情内容相关的评论数、舆情内容相关的转发量以及相关的用户位置信息,舆情系统根据用户数、评论数和转发量的数值大小,可以确定舆情话题的关注热度,同时根据用户位置信息可以获知该舆情话题在地域上的扩散程度。舆情系统综合关注热度和地域的扩散程度,可以直观的解析得到该预设舆情话题的热度变化趋势。解析过程具体为:舆情数据包括该时间段内发布的关于预设舆情话题的所有舆情内容的用户数、舆情内容相关的评论数、舆情内容相关的转发量以及相关的用户位置信息,舆情系统根据用户数、评论数和转发量的数值大小,可以确定舆情话题的关注热度,同时根据用户位置信息可以获知该舆情话题在地域上的扩散程度。
进一步的,所述公开数据库包括单独文本子数据库、单独视频子数据库和视频文本组合子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独视频子数据库为多组单独的视频数据组成的数据库,所述视频文本组合子数据库为多组视频和文本一一对应关联的数据组成的数据库;所述在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据的步骤,包括:
S301:在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据,其中,每一个所述舆情视频文本组合数据由一条舆情视频子数据和一条舆情文本子数据对应关联组成;
所述根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据的步骤包括:
S401:在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据,并在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据。
本实施例中,舆情系统获取的视频文本组合信息中的视频信息和文本信息是平台用户在公开时相互对应的,即用户在公开文本信息时附带在同一条信息中一起发布的视频信息。舆情系统构建的公开数据库中包括单独文本子数据库、单独视频子数据库和视频文本组合子数据库。其中,单独文本子数据库为多组单独的文本数据组成的数据库,单独视频子数据库为多组单独的视频数据组成的数据库,视频文本组合子数据库为多组视频和文本一一对应关联的数据组成的数据库。各组数据中包括公开信息和公开信息对应的传播途径。舆情系统将预设舆情话题输入视频文本组合子数据库中,首先解析预设舆情话题,得到至少一个第一舆情关键词,即预设舆情话题的关键词。然后,分别将各第一舆情关键词输入视频文本组合子数据库,筛选出文本信息中包含有第一舆情关键词的部分视频文本组合数据,然后将该部分视频文本组合数据中的相同视频进行归类,并统计各个相同视频的出现次数。如果相同视频的出现次数大于预设次数看,则舆情系统判定该相同视频为舆情视频子数据。舆情系统综合舆情视频子数据和该舆情视频子数据对应的舆情文本数据,生成舆情视频文本组合数据。其中,舆情视频文本数据包括舆情视频子数据和舆情文本子数据,两者之间一一对应,构建有索引关系,以便两者之间根据索引关系相互关联。比如,文本A对应视频a,两者的索引为1;文本B对应视频b,两者之间的索引为2。舆情系统在获得舆情视频文本组合数据后,舆情系统以舆情视频文本组合数据中的舆情视频子数据为基准,将各单独视频数据分别与舆情视频子数据一一比对,筛选得到具有相同原始源地址或视频相似值大于第二预设值的至少一个单独视频数据作为舆情视频数据。单独舆情视频数据由于与舆情视频数据相似,因此单独舆情视频数据与预设舆情话题相对应。同时,舆情系统基于舆情视频文本组合数据中的舆情文本子数据,通过词嵌入和词性分析,从舆情文本子数据中筛选出各个文本对应的第二舆情关键词,同时从单独文本数据中筛选出各个文本对应的单独关键词。然后,舆情系统对各个当前舆情关键词和单独关键词进行次数统计。如果两个文本中相同的关键词的出现次数越多,则说明两个文本的相似度越高。舆情系统以此判断两个文本之间的相似度,从单独文本数据中筛选与舆情视频文本组合数据中的文本信息相似度大于第一预设值的部分单独文本数据作为舆情文本数据。
进一步的,所述在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据的步骤,包括:
S3011:解析所述预设舆情话题,得到至少一个第一舆情关键词;
S3012:在所述视频文本组合子数据库中,筛选得到包含有第一舆情关键词的至少一组视频文本组合数据作为视频文本组合子数据,所述视频文本组合子数据由文本子数据和视频子数据对应组成;
S3013:分别计算各所述视频子数据的出现次数;
S3014:调取预设次数,并分别将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的视频子数据作为舆情视频子数据;
S3015:从所述视频文本组合子数据库中,分别筛选各所述舆情视频子数据对应的文本子数据作为舆情文本子数据;
S3016:分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据。
本实施例中,舆情系统基于词性,对预设舆情话题进行分词、去除停用词等解析,得到至少一个第一舆情关键词。视频文本组合子数据库中包括视频数据和文本数据一一对应的多组数据。舆情系统首先第一舆情关键词属于视频文本组合子数据库中,从多组文本子数据中筛选出文本内容包含有第一舆情关键词的至少一组文本数据作为文本子数据。进一步的,本实施例中还可以对文本子数据中各个文本的第一舆情关键词的出现次数进行统计,并筛选出出现次数超过预设次数的部分文本子数据,以提高文本子数据与舆情话题的关联度。由于文本数据与视频数据相对应,因此舆情系统可以直接从视频数据中筛选出所有文本子数据对应的视频子数据。舆情系统分别统计各个视频子数据出现次数,然后调取预先设置的预设次数,并分别将各个视频子数据对应的出现次数一一与预设次数进行比较,选择大于预设次数的出现次数对应的视频子数据作为舆情视频子数据。最后,舆情系统再次根据视频数据和文本数据之间的对应关系,从各组文本子数据中筛选出舆情视频子数据对应的舆情文本子数据。舆情汇总所有的舆情视频子数据和舆情文本子数据,按照对应关系分别一一关联,生成舆情视频文本组合数据。
进一步的,所述分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据的步骤,包括:
S30161:分别获取各所述舆情文本子数据的公开地址和各所述舆情视频子数据的公开地址;
S30162:将具有同一公开地址的所述舆情文本子数据和所述舆情视频子数据相互关联分组,以实现将各所述舆情文本子数据和各所述舆情视频子数据一一对应;
S30163:根据相互关联分组后的各所述舆情文本子数据和各所述舆情视频子数据,得到所述舆情视频文本组合数据。
本实施例中,舆情系统分别获取各舆情文本子数据的公开地址以及各舆情视频子数据的公开地址,其中,公开地址即公开该数据的原始网络地址。舆情系统根据数据的公开地址区分各舆情文本子数据和各舆情视频子数据之间的对应关系,即具有相同的公开地址的两个数据为同一用户在公开时一起发布的信息。舆情系统将具有同一公开地址的舆情文本子数据和舆情视频子数据进行关联后分为一组。进一步的,若有多个舆情文本子数据和多个舆情视频子数据具有相同的公开地址,则舆情系统获取各个数据的公开时间,根据同一公开地址和同一公开时间将舆情文本子数据和舆情视频子数据相互关联。舆情系统将各舆情文本子数据和各舆情视频子数据关联分组后,即得到舆情视频文本组合数据。
进一步的,所述单独视频子数据库包括多组单独视频数据,所述在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据的步骤中,包括:
S4011:分别获取各所述单独视频数据和所述预设视频子数据的原始源地址;
S4012:分别将各所述单独视频数据的原始源地址与所述舆情视频子数据的原始源地址一一进行比较,选择原始源地址一致的单独视频数据作为第一视频数据,并选择原始源地址不一致的单独视频数据作为第二视频数据;
S4013:分别计算各所述第二视频数据与所述舆情视频子数据之间的视频相似值;
S4014:分别将各所述视频相似值一一与所述第二预设值进行比较,选择大于所述第二预设值的视频相似值对应的第二视频数据作为第三视频数据;
S4015:将所述第一视频数据和所述第三视频数据作为舆情视频数据。
本实施例中,指定公开数据中还包括各公开信息的原始源地址,即原始来源网络地址。单独视频子数据库由多组单独视频数据组成。舆情系统首先从公开数据库中获取各个舆情视频子数据的原始源地址,并根据各个舆情视频子数据的原始源地址构建原始源地址数据库。然后获取单独视频数据的原始源地址,并以原始源地址数据库中的各个原始源地址为基准,将单独视频数据的原始源地址与原始源地址数据库中的各个原始源地址一一进行比对,判断单独视频数据的原始源地址是否包含在原始源地址数据库中。如果包含于原始源地址数据库中,则说明单独视频具有与舆情视频相同的原始源地址,属于同一个视频,即选择原始源地址一致的单独视频数据为第一视频数据。如果不具有与舆情视频子数据相同的原始源地址,则作为第二视频数据。舆情系统按照视频的播放时间,从各个舆情视频子数据中分别选取预设数量的播放帧图片,并将预设数量的播放帧图片与对应的舆情视频子数据对应分组。舆情视频子数据对各组播放帧图片通过聚类模型,比如DBSCAN聚类模型进行聚类形成各个群类,再从各个群类中随机选择一张播放帧图片作为对应的舆情视频子数据的关键帧图片。舆情系统将所有的关键帧图片按照对应的舆情视频子数据进行分组,构建关键帧图片库。比如,关键帧图片库中包含有:舆情视频A,关键帧图片:a1、b2、c3;舆情视频B,关键帧图片:a2、b3、c4。在构建关键帧图片库后,舆情系统按照上述步骤从单独视频数据中选择单独视频的关键帧图片,并将单独视频的关键帧图片与关键帧图片库进行一一比对。根据单独视频的关键帧图片和单组的舆情视频子数据的关键帧图片的相同或相似数量,除以关键帧图片的总数量,即可计算得到两个视频之间的视频相似值。比如,单独视频和舆情视频子数据的关键帧图片均为5张,其中,相同或相似的关键帧图片为3张,则两个视频的视频相似值为60%。关键帧图片之间的相同或相似判断,可以通过DBSCAN聚类模型进行聚类,如果两张关键帧图片在聚类后存在于同一个群类中,则这两张图片为相同或相似图片。舆情系统将各视频相似值分别与预先设置的第二预设值一一进行比较,将大于第二预设值的视频相似值对应的第二视频作为第三视频。即:如果两个视频之间的视频相似值大于第二预设值,舆情系统则判定两个视频相同或相似,将该第二视频数据选择为第三视频数据。其中,第二预设值优选为80%。舆情系统将第一视频数据和第三视频数据汇总,设定为舆情视频数据。
进一步的,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据的步骤中,包括:
S4016:根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,以及各所述单独文本数据对应的所述预设数量的单独关键词;
S4017:分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到相同关键词;
S4018:分别统计各所述相同关键词对应的出现次数;
S4019:分别将各所述出现次数一一与第一阈值进行比较,选择大于所述第一阈值的出现次数对应的相同关键词作为指定关键词;
S40110:选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
本实施例中,舆情文本子数据中包括有多个舆情文本,单独文本数据库中包括有多个单独文本。舆情系统首先基于词性对各个舆情文本和单独文本分别进行分词、去除停用词的操作,得到单个舆情文本对应的舆情词库和单个单独文本对应的单独词库。其中,分词是指将文本分解为主语、谓语、宾语等单个词语的操作,分词后,根据主语、谓语和宾语原先在文本中的表述关系,建立有对应的关联关系。比如,“我去北京了”这句话里面主语是“我”,谓语是“去”,宾语是“北京”。在进行分词后,三个词语根据原先在文本中的顺序建立有对应的关联,将主语“我”设置为关键词时,在同一句子中的谓语“去”或宾语“北京”也会与其关联在一起,进行组合。而去除停用词则是去除无意义的词语,比如“啊”、“哦”、“呃”之类的无意义词语直接去除。舆情系统分别统计舆情词库中各个词语在对应的文本中的词频,即词语在单个文本中出现的次数和该文本总词数的比值。然后,舆情系统分别计算各个词语的逆向文件频率,即舆情词库中所有词语对应的所有文本数除以包含该词语的文本的数目,再将得到的商取对数得到。各个词语在单个文本中的权重由该词语的词频乘以逆向文件频率得到。单个词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,即权重越大,重要程度越高。舆情系统将计算后的单个文本中的各个词语的按权重大小降序选择预设数量,作为第二舆情关键词。同时,舆情系统根据上述的相同方式计算单独词库中各词语的权重,并按照权重大小降序从单独词库中筛选到同样预设数量的单独关键词。舆情系统以第二舆情关键词为基础,从单独关键词中筛选出于第二舆情关键词相同的各个相同关键字,并统计各个相同关键字在对应的单个文本中的出现次数,再从单独文本数据中,筛选出出现次数大于第一阈值的相同关键词,该相同关键词对应的单独文本数据作为舆情文本数据。
进一步的,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
S7:根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
S8:分别将各搜索次数与第二阈值进行比较,将大于所述第二阈值的搜索次数对应的搜索信息作为所述预设舆情话题。
本实施例中,舆情话题可以由开发人员手动输入,也可以由舆情系统自动筛选。舆情系统预先与第二预设网络平台相关联,第二预设网络平台为搜索平台,比如百度、搜狗搜索等。舆情系统根据第二预设频率,从第二预设网络平台获取上次获取时间到当前时间这一时间段内的所有搜索数据。其中,搜索数据包括用户输入的搜索信息以及该搜索信息对应的总的搜索次数。舆情系统调用第二预设次数,并分别将各个搜索信息对应的搜索次数与第二预设次数进行比对,从搜索数据中筛选出搜索次数大于第二预设次数的指定搜索数据。舆情系统自动将指定搜索数据中的搜索信息设置为舆情话题。
进一步的,舆情系统也可以与微博、抖音等社交网络平台进行关联,并实时监测社交网络平台上的热门话题榜。当热门话题榜上的热门话题上榜时间超过预设时间时,舆情系统自动将该热门话题设置为舆情话题。
进一步的,所述指定公开数据包括信息的公开时间,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情数据,得到所述预设舆情话题的热度变化趋势的步骤之后,包括:
S9:判断所述热度变化趋势是否满足触发自动推送的条件;
S10:若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
S11:获取所述推送舆情数据的链接,并生成包含有所述推送舆情数据的链接的推送信息;
S12:将所述推送信息分别发送到各所述预设终端。
本实施例中,舆情系统解析舆情数据,可以得到舆情话题的热度变化趋势。舆情系统综合关注热度和地域的扩散程度,可以直观的得到该预设舆情话题的热度变化趋势。舆情系统根据热度变化趋势中的关注热度和地域的扩散程度,判断舆情话题的热度变化趋势是否满足触发自动推送的条件。如果热度变化趋势中的关注热度超过预设数量,同时地域的扩散程度超过预设范围,比如转发数、评论数大于50万,同时地域的扩散程度超过10万平方公里,则判断该舆情话题的热度变化趋势满足触发自动推送的条件。舆情系统从舆情数据中筛选出包括有文字和视频,同时公开发布的时间与当前时间相隔最短的舆情视频文本组合数据,作为推送舆情数据。舆情系统获取该推送舆情数据的链接,并生成包含有推送舆情数据的链接的推送信息,然后将推送信息自动发送到预设终端,以便让公众可以及时了解当前的人舆情话题。
本实施例提供的一种视频文本组合数据的舆情跟踪方法,通过将舆情信息中的文本和视频相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
参照图2,本申请一实施例中还提供了一种视频文本组合数据的舆情跟踪装置,包括:
第一获取模块1,用于根据第一预设频率,从第一预设网络平台获取指定公开数据;
构建模块2,用于根据所述指定公开数据构建公开数据库;
第一筛选模块3,用于在所述公开数据库中,筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
第二筛选模块4,用于根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
第一生成模块5,用于根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
解析模块6,用于根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
本实施例中,舆情系统根据开发人员的设定,预先跟第一预设网络平台进行关联,用以获取第一预设网络平台中各个平台用户公开发布的信息。其中,第一预设网络平台为可以查询到公开发布的信息的的传播路径,且公开的信息中包括有视频的网络平台,比如微博,抖音等网络社交平台。第一预设网络平台可以直接查询到各个平台用户公开发布的信息,以及该信息对应的相关评论、转发或点赞之类互动动作,并根据这些互动动作查询到该信息对应的所有传播路径。舆情系统可以同时跟多个第一预设网络平台关联,获取公开发布的信息,并整合分析。舆情系统在使用时,根据开发人员的设定,按照第一预设频率,通过网络爬虫从第一预设网络平台直接获取该时间段内的所用公开数据,即指定公开数据。其中,指定公开数据包括该时间段内所有平台用户公开发布的公开信息以及这些公开信息分别对应的传播路径。指定公开数据中的公开信息包括仅有文本的单独文本信息、仅有视频的单独视频信息,以及视频和文本关联发布的视频文本组合信息,比如平台用户在发布文本时附带了一段视频,即为视频文本组合信息。舆情系统构建公开数据库,用以存储所有的指定公开数据。舆情系统设定有预设舆情话题。其中,预设舆情话题可以为单个的词语,也可以为语句。该预设舆情话题可以由开发人员手动输入,也可以是舆情系统自行根据预设设定获得。比如舆情系统监控微博、抖音等社交平台的热门话题榜,选择话题榜第一的话题作为预设舆情话题。舆情系统将预设舆情话题输入公开数据库中,首先根据词性从预设舆情话题中选择得到第一舆情关键词,并根据第一舆情关键词从视频文本组合子数据库中筛选出文本信息包含有第一舆情关键词的部分视频文本组合数据作为视频文本组合子数据。然后将视频文本组合子数据中的相同视频,即各个视频子数据的出现次数进行统计。如果某个视频子数据的出现次数大于预设次数,则舆情系统判定该视频子数据为舆情视频子数据。舆情系统根据舆情视频子数据以及该舆情视频子数据相对应的文本数据,得到与舆情话题相关的舆情视频文本组合数据。舆情系统以舆情视频文本组合数据为基准,分别获取各单独视频数据和舆情视频子数据的原始源地址,即视频源地址,然后分别将各单独视频数据的原始源地址与舆情视频子数据的原始源地址进行比较,将原始源地址一致的单独视频数据作为第一视频数据,并将原始源地址不一致的单独视频数据作为第二视频数据。然后,舆情系统以舆情视频文本组合数据中的舆情视频子数据为基准,根据视频相似性,从第二视频数据中筛选出与舆情视频子数据的视频相似值大于第二预设值的第二视频数据作为第三视频数据。舆情系统综合第一视频数据和第二视频数据,得到舆情视频数据。同时,舆情系统将舆情视频文本组合数据中的舆情文本子数据与单独文本数据进行比对,通过选取关键词和词性分析相结合,从单独文本数据库中筛选与舆情文本子数据的相似度大于第一预设值,比如相似度90%以上的部分单独文本数据作为单独舆情文本数据。舆情系统汇总单独舆情文本数据、单独舆情视频数据、舆情视频文本组合数据,生成舆情数据。舆情系统通过对舆情数据的解析,可以得到预设舆情话题的热度变化趋势,具体为:舆情数据包括该时间段内发布的关于预设舆情话题的所有舆情内容的用户数、舆情内容相关的评论数、舆情内容相关的转发量以及相关的用户位置信息,舆情系统根据用户数、评论数和转发量的数值大小,可以确定舆情话题的关注热度,同时根据用户位置信息可以获知该舆情话题在地域上的扩散程度。舆情系统综合关注热度和地域的扩散程度,可以直观的解析得到该预设舆情话题的热度变化趋势。解析过程具体为:舆情数据包括该时间段内发布的关于预设舆情话题的所有舆情内容的用户数、舆情内容相关的评论数、舆情内容相关的转发量以及相关的用户位置信息,舆情系统根据用户数、评论数和转发量的数值大小,可以确定舆情话题的关注热度,同时根据用户位置信息可以获知该舆情话题在地域上的扩散程度。
进一步的,所述第一筛选模块3,包括:
第一筛选子模块,用于在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据;
所述第二筛选模块4,包括,
第二筛选子模块,用于在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据;
第三筛选子模块,用于在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据。
本实施例中,舆情系统获取的视频文本组合信息中的视频信息和文本信息是平台用户在公开时相互对应的,即用户在公开文本信息时附带在同一条信息中一起发布的视频信息。舆情系统构建的公开数据库中包括单独文本子数据库、单独视频子数据库和视频文本组合子数据库。其中,单独文本子数据库为多组单独的文本数据组成的数据库,单独视频子数据库为多组单独的视频数据组成的数据库,视频文本组合子数据库为多组视频和文本一一对应关联的数据组成的数据库。各组数据中包括公开信息和公开信息对应的传播途径。舆情系统将预设舆情话题输入视频文本组合子数据库中,首先解析预设舆情话题,得到至少一个第一舆情关键词,即预设舆情话题的关键词。然后,分别将各第一舆情关键词输入视频文本组合子数据库,筛选出文本信息中包含有第一舆情关键词的部分视频文本组合数据,然后将该部分视频文本组合数据中的相同视频进行归类,并统计各个相同视频的出现次数。如果相同视频的出现次数大于预设次数看,则舆情系统判定该相同视频为舆情视频子数据。舆情系统综合舆情视频子数据和该舆情视频子数据对应的舆情文本数据,生成舆情视频文本组合数据。其中,舆情视频文本数据包括舆情视频子数据和舆情文本子数据,两者之间一一对应,构建有索引关系,以便两者之间根据索引关系相互关联。比如,文本A对应视频a,两者的索引为1;文本B对应视频b,两者之间的索引为2。舆情系统在获得舆情视频文本组合数据后,舆情系统以舆情视频文本组合数据中的舆情视频子数据为基准,将各单独视频数据分别与舆情视频子数据一一比对,筛选得到具有相同原始源地址或视频相似值大于第二预设值的至少一个单独视频数据作为舆情视频数据。单独舆情视频数据由于与舆情视频数据相似,因此单独舆情视频数据与预设舆情话题相对应。同时,舆情系统基于舆情视频文本组合数据中的舆情文本子数据,通过词嵌入和词性分析,从舆情文本子数据中筛选出各个文本对应的第二舆情关键词,同时从单独文本数据中筛选出各个文本对应的单独关键词。然后,舆情系统对各个当前舆情关键词和单独关键词进行次数统计。如果两个文本中相同的关键词的出现次数越多,则说明两个文本的相似度越高。舆情系统以此判断两个文本之间的相似度,从单独文本数据中筛选与舆情视频文本组合数据中的文本信息相似度大于第一预设值的部分单独文本数据作为舆情文本数据。
进一步的,所述第一筛选子模块,包括:
第一解析单元,用于解析所述预设舆情话题,得到至少一个第一舆情关键词;
第一筛选单元,用于在所述视频文本组合子数据库中,筛选得到包含有第一舆情关键词的至少一组视频文本组合数据作为视频文本组合子数据;
第一计算单元,用于分别计算各所述视频子数据的出现次数;
第一选择单元,用于调取预设次数,并分别将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的视频子数据作为舆情视频子数据;
第二筛选单元,用于从所述视频文本组合子数据库中,分别筛选各所述舆情视频子数据对应的文本子数据作为舆情文本子数据;
对应单元,用于分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据。
本实施例中,舆情系统基于词性,对预设舆情话题进行分词、去除停用词等解析,得到至少一个第一舆情关键词。视频文本组合子数据库中包括视频数据和文本数据一一对应的多组数据。舆情系统首先第一舆情关键词属于视频文本组合子数据库中,从多组文本子数据中筛选出文本内容包含有第一舆情关键词的至少一组文本数据作为文本子数据。进一步的,本实施例中还可以对文本子数据中各个文本的第一舆情关键词的出现次数进行统计,并筛选出出现次数超过预设次数的部分文本子数据,以提高文本子数据与舆情话题的关联度。由于文本数据与视频数据相对应,因此舆情系统可以直接从视频数据中筛选出所有文本子数据对应的视频子数据。舆情系统分别统计各个视频子数据出现次数,然后调取预先设置的预设次数,并分别将各个视频子数据对应的出现次数一一与预设次数进行比较,选择大于预设次数的出现次数对应的视频子数据作为舆情视频子数据。最后,舆情系统再次根据视频数据和文本数据之间的对应关系,从各组文本子数据中筛选出舆情视频子数据对应的舆情文本子数据。舆情汇总所有的舆情视频子数据和舆情文本子数据,按照对应关系分别一一关联,生成舆情视频文本组合数据。
进一步的,所述对应单元包括:
获取子单元,用于分别获取各所述舆情文本子数据的公开地址和各所述舆情视频子数据的公开地址;
关联子单元,用于将具有同一公开地址的所述舆情文本子数据和所述舆情视频子数据相互关联分组,以实现将各所述舆情文本子数据和各所述舆情视频子数据一一对应;
生成子单元,用于根据相互关联分组后的各所述舆情文本子数据和各所述舆情视频子数据,得到所述舆情视频文本组合数据。
本实施例中,舆情系统分别获取各舆情文本子数据的公开地址以及各舆情视频子数据的公开地址,其中,公开地址即公开该数据的原始网络地址。舆情系统根据数据的公开地址区分各舆情文本子数据和各舆情视频子数据之间的对应关系,即具有相同的公开地址的两个数据为同一用户在公开时一起发布的信息。舆情系统将具有同一公开地址的舆情文本子数据和舆情视频子数据进行关联后分为一组。进一步的,若有多个舆情文本子数据和多个舆情视频子数据具有相同的公开地址,则舆情系统获取各个数据的公开时间,根据同一公开地址和同一公开时间将舆情文本子数据和舆情视频子数据相互关联。舆情系统将各舆情文本子数据和各舆情视频子数据关联分组后,即得到舆情视频文本组合数据。
进一步的,所述第三筛选子模块,包括:
获取单元,用于分别获取各所述单独视频数据和所述舆情视频子数据的原始源地址;
第二比较单元,用于分别将各所述单独视频数据的原始源地址与所述舆情视频子数据的原始源地址一一进行比较,选择原始源地址一致的单独视频数据作为第一视频数据,并选择原始源地址不一致的单独视频数据作为第二视频数据;
第二计算单元,用于分别计算各所述第二视频数据与所述舆情视频子数据之间的视频相似值;
第二选择单元,用于调取第二预设值,并分别将各所述视频相似值一一与所述第二预设值进行比较,选择大于所述第二预设值的视频相似值对应的第二视频数据作为第三视频数据;
设置单元,用于将所述第一视频数据和所述第三视频数据作为舆情视频数据。
本实施例中,指定公开数据中还包括各公开信息的原始源地址,即原始来源网络地址。单独视频子数据库由多组单独视频数据组成。舆情系统首先从公开数据库中获取各个舆情视频子数据的原始源地址,并根据各个舆情视频子数据的原始源地址构建原始源地址数据库。然后获取单独视频数据的原始源地址,并以原始源地址数据库中的各个原始源地址为基准,将单独视频数据的原始源地址与原始源地址数据库中的各个原始源地址一一进行比对,判断单独视频数据的原始源地址是否包含在原始源地址数据库中。如果包含于原始源地址数据库中,则说明单独视频具有与舆情视频相同的原始源地址,属于同一个视频,即选择原始源地址一致的单独视频数据为第一视频数据。如果不具有与舆情视频子数据相同的原始源地址,则作为第二视频数据。舆情系统按照视频的播放时间,从各个舆情视频子数据中分别选取预设数量的播放帧图片,并将预设数量的播放帧图片与对应的舆情视频子数据对应分组。舆情视频子数据对各组播放帧图片通过聚类模型,比如DBSCAN聚类模型进行聚类形成各个群类,再从各个群类中随机选择一张播放帧图片作为对应的舆情视频子数据的关键帧图片。舆情系统将所有的关键帧图片按照对应的舆情视频子数据进行分组,构建关键帧图片库。比如,关键帧图片库中包含有:舆情视频A,关键帧图片:a1、b2、c3;舆情视频B,关键帧图片:a2、b3、c4。在构建关键帧图片库后,舆情系统按照上述步骤从单独视频数据中选择单独视频的关键帧图片,并将单独视频的关键帧图片与关键帧图片库进行一一比对。根据单独视频的关键帧图片和单组的舆情视频子数据的关键帧图片的相同或相似数量,除以关键帧图片的总数量,即可计算得到两个视频之间的视频相似值。比如,单独视频和舆情视频子数据的关键帧图片均为5张,其中,相同或相似的关键帧图片为3张,则两个视频的视频相似值为60%。关键帧图片之间的相同或相似判断,可以通过DBSCAN聚类模型进行聚类,如果两张关键帧图片在聚类后存在于同一个群类中,则这两张图片为相同或相似图片。舆情系统将各视频相似值分别与预先设置的第二预设值一一进行比较,将大于第二预设值的视频相似值对应的第二视频作为第三视频。即:如果两个视频之间的视频相似值大于第二预设值,舆情系统则判定两个视频相同或相似,将该第二视频数据选择为第三视频数据。其中,第二预设值优选为80%。舆情系统将第一视频数据和第三视频数据汇总,设定为舆情视频数据。
进一步的,所述第二筛选子模块,还包括:
第二解析单元,用于根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,以及各所述单独文本数据对应的所述预设数量的单独关键词;
比对单元,用于分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到相同关键词;
统计单元,用于分别统计各所述相同关键词对应的出现次数;
第三选择单元,用于分别将各所述出现次数一一与预设的第一阈值进行比较,选择大于所述第一阈值的出现次数对应的相同关键词作为指定关键词;
第四选择单元,用于选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
本实施例中,舆情文本子数据中包括有多个舆情文本,单独文本数据库中包括有多个单独文本。舆情系统首先基于词性对各个舆情文本和单独文本分别进行分词、去除停用词的操作,得到单个舆情文本对应的舆情词库和单个单独文本对应的单独词库。其中,分词是指将文本分解为主语、谓语、宾语等单个词语的操作,分词后,根据主语、谓语和宾语原先在文本中的表述关系,建立有对应的关联关系。比如,“我去北京了”这句话里面主语是“我”,谓语是“去”,宾语是“北京”。在进行分词后,三个词语根据原先在文本中的顺序建立有对应的关联,将主语“我”设置为关键词时,在同一句子中的谓语“去”或宾语“北京”也会与其关联在一起,进行组合。而去除停用词则是去除无意义的词语,比如“啊”、“哦”、“呃”之类的无意义词语直接去除。舆情系统分别统计舆情词库中各个词语在对应的文本中的词频,即词语在单个文本中出现的次数和该文本总词数的比值。然后,舆情系统分别计算各个词语的逆向文件频率,即舆情词库中所有词语对应的所有文本数除以包含该词语的文本的数目,再将得到的商取对数得到。各个词语在单个文本中的权重由该词语的词频乘以逆向文件频率得到。单个词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,即权重越大,重要程度越高。舆情系统将计算后的单个文本中的各个词语的按权重大小降序选择预设数量,作为第二舆情关键词。同时,舆情系统根据上述的相同方式计算单独词库中各词语的权重,并按照权重大小降序从单独词库中筛选到同样预设数量的单独关键词。舆情系统以第二舆情关键词为基础,从单独关键词中筛选出于第二舆情关键词相同的各个相同关键字,并统计各个相同关键字在对应的单个文本中的出现次数,再从单独文本数据中,筛选出出现次数大于第一阈值的相同关键词,该相同关键词对应的单独文本数据作为舆情文本数据。
进一步的,所述舆情跟踪装置还包括:
第二获取模块7,用于根据第二预设频率,从第二预设网络平台获取多组搜索数据;
比较模块8,用于分别将各搜索次数与第二阈值进行比较,将大于所述第二阈值的搜索次数对应的搜索信息作为所述预设舆情话题。
本实施例中,舆情话题可以由开发人员手动输入,也可以由舆情系统自动筛选。舆情系统预先与第二预设网络平台相关联,第二预设网络平台为搜索平台,比如百度、搜狗搜索等。舆情系统根据第二预设频率,从第二预设网络平台获取上次获取时间到当前时间这一时间段内的所有搜索数据。其中,搜索数据包括用户输入的搜索信息以及该搜索信息对应的总的搜索次数。舆情系统调用第二预设次数,并分别将各个搜索信息对应的搜索次数与第二预设次数进行比对,从搜索数据中筛选出搜索次数大于第二预设次数的指定搜索数据。舆情系统自动将指定搜索数据中的搜索信息设置为舆情话题。
进一步的,舆情系统也可以与微博、抖音等社交网络平台进行关联,并实时监测社交网络平台上的热门话题榜。当热门话题榜上的热门话题上榜时间超过预设时间时,舆情系统自动将该热门话题设置为舆情话题。
进一步的,所述舆情跟踪装置还包括:
判断模块9,用于判断所述热度变化趋势是否满足触发自动推送的条件;
第三筛选模块10,用于从所述舆情数据中,筛选距离当前时间最短的公开时间对应的舆情数据作为推送舆情数据;
第二生成模块11,用于获取所述推送舆情数据的链接,并生成包含有所述推送舆情数据的链接的推送信息;
发送模块12,用于将所述推送信息分别发送到各所述预设终端。
本实施例中,舆情系统解析舆情数据,可以得到舆情话题的热度变化趋势。舆情系统综合关注热度和地域的扩散程度,可以直观的得到该预设舆情话题的热度变化趋势。舆情系统根据热度变化趋势中的关注热度和地域的扩散程度,判断舆情话题的热度变化趋势是否满足触发自动推送的条件。如果热度变化趋势中的关注热度超过预设数量,同时地域的扩散程度超过预设范围,比如转发数、评论数大于50万,同时地域的扩散程度超过10万平方公里,则判断该舆情话题的热度变化趋势满足触发自动推送的条件。舆情系统从舆情数据中筛选出包括有文字和视频,同时公开发布的时间与当前时间相隔最短的舆情视频文本组合数据,作为推送舆情数据。舆情系统获取该推送舆情数据的链接,并生成包含有推送舆情数据的链接的推送信息,然后将推送信息自动发送到预设终端,以便让公众可以及时了解当前的人舆情话题。
本实施例提供的一种视频文本组合数据的舆情跟踪装置,通过将舆情信息中的文本和视频相结合进行跟踪,实现对舆情信息的全面覆盖,有效提高对舆情信息的热度变化趋势的解析准确度。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储公开数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频文本组合数据的舆情跟踪方法。
上述处理器执行上述视频文本组合数据的舆情跟踪方法的步骤:
S1:根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据包括所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括只有文本的单独文本信息、只有视频的单独视频信息、视频和文本相关联的视频文本组合信息;
S2:根据所述指定公开数据构建公开数据库;
S3:在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
S4:根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
S5:根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
S6:根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
进一步的,所述公开数据库包括单独文本子数据库、单独视频子数据库和视频文本组合子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独视频子数据库为多组单独的视频数据组成的数据库,所述视频文本组合子数据库为多组视频和文本一一对应关联的数据组成的数据库;所述在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据的步骤,包括:
S301:在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据,其中,每一个所述舆情视频文本组合数据由一条舆情视频子数据和一条舆情文本子数据对应关联组成;
所述根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据的步骤包括:
S401:在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据,并在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据。
进一步的,所述在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据的步骤,包括:
S3011:解析所述预设舆情话题,得到至少一个第一舆情关键词;
S3012:在所述视频文本组合子数据库中,筛选得到包含有第一舆情关键词的至少一组视频文本组合数据作为视频文本组合子数据,所述视频文本组合子数据由文本子数据和视频子数据对应组成;
S3013:分别计算各所述视频子数据的出现次数;
S3014:调取预设次数,并分别将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的视频子数据作为舆情视频子数据;
S3015:从所述视频文本组合子数据库中,分别筛选各所述舆情视频子数据对应的文本子数据作为舆情文本子数据;
S3016:分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据。
进一步的,所述分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据的步骤,包括:
S30161:分别获取各所述舆情文本子数据的公开地址和各所述舆情视频子数据的公开地址;
S30162:将具有同一公开地址的所述舆情文本子数据和所述舆情视频子数据相互关联分组,以实现将各所述舆情文本子数据和各所述舆情视频子数据一一对应;
S30163:根据相互关联分组后的各所述舆情文本子数据和各所述舆情视频子数据,得到所述舆情视频文本组合数据。
进一步的,所述单独视频子数据库包括多组单独视频数据,所述在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据的步骤中,包括:
S4011:分别获取各所述单独视频数据和所述预设视频子数据的原始源地址;
S4012:分别将各所述单独视频数据的原始源地址与所述舆情视频子数据的原始源地址一一进行比较,选择原始源地址一致的单独视频数据作为第一视频数据,并选择原始源地址不一致的单独视频数据作为第二视频数据;
S4013:分别计算各所述第二视频数据与所述舆情视频子数据之间的视频相似值;
S4014:分别将各所述视频相似值一一与所述第二预设值进行比较,选择大于所述第二预设值的视频相似值对应的第二视频数据作为第三视频数据;
S4015:将所述第一视频数据和所述第三视频数据作为舆情视频数据。
进一步的,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据的步骤中,包括:
S4016:根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,以及各所述单独文本数据对应的所述预设数量的单独关键词;
S4017:分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到相同关键词;
S4018:分别统计各所述相同关键词对应的出现次数;
S4019:分别将各所述出现次数一一与第一阈值进行比较,选择大于所述第一阈值的出现次数对应的相同关键词作为指定关键词;
S40110:选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
进一步的,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
S7:根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
S8:分别将各搜索次数与第二阈值进行比较,将大于所述第二阈值的搜索次数对应的搜索信息作为所述预设舆情话题。
进一步的,所述指定公开数据包括信息的公开时间,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据的步骤之后,包括:
S9:判断所述热度变化趋势是否满足触发自动推送的条件;
S10:若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
S11:获取所述推送舆情数据的链接,并生成包含有所述推送舆情数据的链接的推送信息;
S12:将所述推送信息分别发送到各所述预设终端。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种视频文本组合数据的舆情跟踪方法,具体为:
S1:根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据包括所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括只有文本的单独文本信息、只有视频的单独视频信息、视频和文本相关联的视频文本组合信息;
S2:根据所述指定公开数据构建公开数据库;
S3:在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
S4:根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
S5:根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
S6:根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
进一步的,所述公开数据库包括单独文本子数据库、单独视频子数据库和视频文本组合子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独视频子数据库为多组单独的视频数据组成的数据库,所述视频文本组合子数据库为多组视频和文本一一对应关联的数据组成的数据库;所述在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据的步骤,包括:
S301:在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据,其中,每一个所述舆情视频文本组合数据由一条舆情视频子数据和一条舆情文本子数据对应关联组成;
所述根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据的步骤包括:
S401:在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据,并在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据。
进一步的,所述在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据的步骤,包括:
S3011:解析所述预设舆情话题,得到至少一个第一舆情关键词;
S3012:在所述视频文本组合子数据库中,筛选得到包含有第一舆情关键词的至少一组视频文本组合数据作为视频文本组合子数据,所述视频文本组合子数据由文本子数据和视频子数据对应组成;
S3013:分别计算各所述视频子数据的出现次数;
S3014:调取预设次数,并分别将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的视频子数据作为舆情视频子数据;
S3015:从所述视频文本组合子数据库中,分别筛选各所述舆情视频子数据对应的文本子数据作为舆情文本子数据;
S3016:分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据。
进一步的,所述分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据的步骤,包括:
S30161:分别获取各所述舆情文本子数据的公开地址和各所述舆情视频子数据的公开地址;
S30162:将具有同一公开地址的所述舆情文本子数据和所述舆情视频子数据相互关联分组,以实现将各所述舆情文本子数据和各所述舆情视频子数据一一对应;
S30163:根据相互关联分组后的各所述舆情文本子数据和各所述舆情视频子数据,得到所述舆情视频文本组合数据。
进一步的,所述单独视频子数据库包括多组单独视频数据,所述在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据的步骤中,包括:
S4011:分别获取各所述单独视频数据和所述预设视频子数据的原始源地址;
S4012:分别将各所述单独视频数据的原始源地址与所述舆情视频子数据的原始源地址一一进行比较,选择原始源地址一致的单独视频数据作为第一视频数据,并选择原始源地址不一致的单独视频数据作为第二视频数据;
S4013:分别计算各所述第二视频数据与所述舆情视频子数据之间的视频相似值;
S4014:分别将各所述视频相似值一一与所述第二预设值进行比较,选择大于所述第二预设值的视频相似值对应的第二视频数据作为第三视频数据;
S4015:将所述第一视频数据和所述第三视频数据作为舆情视频数据。
进一步的,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据的步骤中,包括:
S4016:根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,以及各所述单独文本数据对应的所述预设数量的单独关键词;
S4017:分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到相同关键词;
S4018:分别统计各所述相同关键词对应的出现次数;
S4019:分别将各所述出现次数一一与第一阈值进行比较,选择大于所述第一阈值的出现次数对应的相同关键词作为指定关键词;
S40110:选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
进一步的,所述根据第一预设频率,从第一预设网络平台获取指定公开数据的步骤之前,包括:
S7:根据第二预设频率,从第二预设网络平台获取多组搜索数据,所述搜索数据包括搜索信息和所述搜索信息对应的搜索次数;
S8:分别将各搜索次数与第二阈值进行比较,将大于所述第二阈值的搜索次数对应的搜索信息作为所述预设舆情话题。
进一步的,所述指定公开数据包括信息的公开时间,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据的步骤之后,包括:
S9:判断所述热度变化趋势是否满足触发自动推送的条件;
S10:若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
S11:获取所述推送舆情数据的链接,并生成包含有所述推送舆情数据的链接的推送信息;
S12:将所述推送信息分别发送到各所述预设终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种视频文本组合数据的舆情跟踪方法,其特征在于,包括:
根据第一预设频率,从第一预设网络平台获取指定公开数据,所述指定公开数据包括所述第一预设网络平台的所有所述公开信息以及各所述公开信息分别对应的传播路径,所述公开信息包括只有文本的单独文本信息、只有视频的单独视频信息、视频和文本相关联的视频文本组合信息;
根据所述指定公开数据构建公开数据库;
在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
2.根据权利要求1所述的视频文本组合数据的舆情跟踪方法,其特征在于,所述公开数据库包括单独文本子数据库、单独视频子数据库和视频文本组合子数据库,所述单独文本子数据库为多组单独的文本数据组成的数据库,所述单独视频子数据库为多组单独的视频数据组成的数据库,所述视频文本组合子数据库为多组视频和文本一一对应关联的数据组成的数据库;所述在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据的步骤,包括:
在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据,其中,每一个所述舆情视频文本组合数据由一条舆情视频子数据和一条舆情文本子数据对应关联组成;
所述根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据的步骤包括:
在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据,并在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据。
3.根据权利要求2所述的视频文本组合数据的舆情跟踪方法,其特征在于,所述在所述视频文本组合子数据库中,根据所述预设舆情话题的关键词筛选得到所述舆情视频文本组合数据的步骤,包括:
解析所述预设舆情话题,得到至少一个第一舆情关键词;
在所述视频文本组合子数据库中,筛选得到包含有第一舆情关键词的至少一组视频文本组合子数据,所述视频文本组合子数据由文本子数据和视频子数据对应组成;
分别计算各所述视频子数据的出现次数;
调取预设次数,并分别将各所述出现次数一一与所述预设次数进行比较,选择大于所述预设次数的出现次数对应的视频子数据作为舆情视频子数据;
从所述视频文本组合子数据库中,分别筛选各所述舆情视频子数据对应的文本子数据作为舆情文本子数据;
分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据。
4.根据权利要求3所述的视频文本组合数据的舆情跟踪方法,其特征在于,所述分别将各所述舆情文本子数据和各所述舆情视频子数据一一对应,得到所述舆情视频文本组合数据的步骤,包括:
分别获取各所述舆情文本子数据的公开地址和各所述舆情视频子数据的公开地址;
将具有同一公开地址的所述舆情文本子数据和所述舆情视频子数据相互关联分组,以实现将各所述舆情文本子数据和各所述舆情视频子数据一一对应;
根据相互关联分组后的各所述舆情文本子数据和各所述舆情视频子数据,得到所述舆情视频文本组合数据。
5.根据权利要求2所述的视频文本组合数据的舆情跟踪方法,其特征在于,所述单独视频子数据库包括多组单独视频数据,所述在所述单独视频子数据库中,根据视频源地址和视频相似性筛选得到与所述舆情视频子数据的相似度高于所述第二预设值的舆情视频数据的步骤中,包括:
分别获取各所述单独视频数据和所述舆情视频子数据的原始源地址;
分别将各所述单独视频数据的原始源地址与所述舆情视频子数据的原始源地址一一进行比较,选择原始源地址一致的单独视频数据作为第一视频数据,并选择原始源地址不一致的单独视频数据作为第二视频数据;
分别计算各所述第二视频数据与所述舆情视频子数据之间的视频相似值;
分别将各所述视频相似值一一与所述第二预设值进行比较,选择大于所述第二预设值的视频相似值对应的第二视频数据作为第三视频数据;
将所述第一视频数据和所述第三视频数据作为舆情视频数据。
6.根据权利要求要求2所述的视频文本组合数据的舆情跟踪方法,其特征在于,所述在所述单独文本子数据库中,根据文本相似性筛选得到与所述舆情文本子数据的相似度高于所述第一预设值的舆情文本数据的步骤中,包括:
根据词性,分别解析各所述舆情文本子数据和各所述单独文本数据,得到各所述舆情文本子数据对应的预设数量的第二舆情关键词,以及各所述单独文本数据对应的所述预设数量的单独关键词;
分别将各所述第二舆情关键词和各所述单独关键词进行比对,筛选得到相同关键词;
分别统计各所述相同关键词对应的出现次数;
分别将各所述出现次数一一与预设的第一阈值进行比较,选择大于所述第一阈值的出现次数对应的相同关键词作为指定关键词;
选择包含有所述指定关键词的单独文本数据作为舆情文本数据。
7.根据权利要求1所述的视频文本组合数据的舆情跟踪方法,其特征在于,所述指定公开数据包括信息的公开时间,所述舆情系统与至少一个预设终端预先关联,所述根据所述舆情数据,得到所述预设舆情话题的热度变化趋势的步骤之后,包括:
判断所述热度变化趋势是否满足触发自动推送的条件;
若满足触发自动推送的条件,则从所述舆情数据中,筛选得到指定的推送舆情数据,所述推送舆情数据是公开时间距离当前时间最短的数据;
获取所述推送舆情数据的链接,并生成包含有所述推送舆情数据的链接的推送信息;
将所述推送信息分别发送到各所述预设终端。
8.一种视频文本组合数据的舆情跟踪装置,其特征在于,包括:
第一获取模块,用于根据第一预设频率,从第一预设网络平台获取指定公开数据;
构建模块,用于根据所述指定公开数据构建公开数据库;
第一筛选模块,用于在所述公开数据库中筛选得到所述预设舆情话题对应的舆情视频文本组合数据;
第二筛选模块,用于根据文本相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的文本数据的相似度高于第一预设值的舆情文本数据;以及根据视频源地址和视频相似性,在所述公开数据库中筛选得到与所述舆情视频文本组合数据的视频数据的相似度高于第二预设值的舆情视频数据;
第一生成模块,用于根据所述舆情视频文本组合数据、所述舆情文本数据和所述舆情视频数据得到舆情数据;
解析模块,用于根据所述舆情数据,得到所述预设舆情话题的热度变化趋势。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910100413.XA 2019-01-31 2019-01-31 视频文本组合数据的舆情跟踪方法、装置和计算机设备 Active CN109933709B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910100413.XA CN109933709B (zh) 2019-01-31 2019-01-31 视频文本组合数据的舆情跟踪方法、装置和计算机设备
PCT/CN2019/089609 WO2020155496A1 (zh) 2019-01-31 2019-05-31 视频文本组合数据的舆情跟踪方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910100413.XA CN109933709B (zh) 2019-01-31 2019-01-31 视频文本组合数据的舆情跟踪方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN109933709A true CN109933709A (zh) 2019-06-25
CN109933709B CN109933709B (zh) 2023-09-26

Family

ID=66985384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910100413.XA Active CN109933709B (zh) 2019-01-31 2019-01-31 视频文本组合数据的舆情跟踪方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN109933709B (zh)
WO (1) WO2020155496A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837581A (zh) * 2019-11-04 2020-02-25 云目未来科技(北京)有限公司 视频舆情分析的方法、装置以及存储介质
CN116737992A (zh) * 2023-08-15 2023-09-12 明麦(南京)科技有限公司 舆情监测数据处理方法及处理系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN113590914B (zh) * 2021-06-23 2024-02-20 北京百度网讯科技有限公司 信息处理方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103186663A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种基于视频的网络舆情监测方法及系统
WO2015091893A1 (en) * 2013-12-19 2015-06-25 Koninklijke Philips N.V. System and method for topic-related detection of the emotional state of a person
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
WO2018023981A1 (zh) * 2016-08-03 2018-02-08 平安科技(深圳)有限公司 舆情分析方法、装置、设备及计算机可读存储介质
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455705A (zh) * 2013-05-24 2013-12-18 中国科学院自动化研究所 网络社会事件的协同关联跟踪及全局态势分析与预测系统
WO2014190351A1 (en) * 2013-05-24 2014-11-27 Gold Zara Arianne System of poll initiation and data collection through a global computer/communication network and methods thereof
CN104915447B (zh) * 2015-06-30 2018-04-20 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN107491499B (zh) * 2017-07-27 2018-09-04 杭州中奥科技有限公司 一种基于非结构化数据的舆情预警方法
CN107633084A (zh) * 2017-09-28 2018-01-26 武汉虹旭信息技术有限责任公司 基于自媒体的舆情管控系统及其方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103186663A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种基于视频的网络舆情监测方法及系统
WO2015091893A1 (en) * 2013-12-19 2015-06-25 Koninklijke Philips N.V. System and method for topic-related detection of the emotional state of a person
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
WO2018023981A1 (zh) * 2016-08-03 2018-02-08 平安科技(深圳)有限公司 舆情分析方法、装置、设备及计算机可读存储介质
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837581A (zh) * 2019-11-04 2020-02-25 云目未来科技(北京)有限公司 视频舆情分析的方法、装置以及存储介质
CN110837581B (zh) * 2019-11-04 2023-05-23 云目未来科技(北京)有限公司 视频舆情分析的方法、装置以及存储介质
CN116737992A (zh) * 2023-08-15 2023-09-12 明麦(南京)科技有限公司 舆情监测数据处理方法及处理系统
CN116737992B (zh) * 2023-08-15 2023-10-13 明麦(南京)科技有限公司 舆情监测数据处理方法及处理系统

Also Published As

Publication number Publication date
CN109933709B (zh) 2023-09-26
WO2020155496A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
Im et al. Still out there: Modeling and identifying russian troll accounts on twitter
Resende et al. Analyzing textual (mis) information shared in WhatsApp groups
CN109933709A (zh) 视频文本组合数据的舆情跟踪方法、装置和计算机设备
Bernstein et al. Eddi: interactive topic-based browsing of social status streams
US20100174813A1 (en) Method and apparatus for the monitoring of relationships between two parties
US20150095320A1 (en) Apparatus, systems and methods for scoring the reliability of online information
Van der Vegt et al. Online influence, offline violence: language use on YouTube surrounding the ‘Unite the Right’rally
CN106921795A (zh) 一种联系人数据管理方法及其系统
CN111552798B (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
Permana et al. Perception analysis of the Indonesian society on twitter social media on the increase in BPJS kesehatan contribution in the Covid 19 pandemic era
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备
Nidhi et al. Twitter-user recommender system using tweets: A content-based approach
Choi et al. Tracing trending topics by analyzing the sentiment status of tweets
KR101480714B1 (ko) 주제 및 이용 의도 기반 검색 시스템, 검색 장치, 검색 방법 및 저장 매체
Lee et al. A semantic network and categorical content analysis of Internet and online media research
Höhn et al. BelElect: a new dataset for bias research from a “dark” platform
CN109902099A (zh) 基于图文大数据的舆情跟踪方法、装置和计算机设备
Hills et al. The news is American but our memories are… C hinese?
CN104462289B (zh) 直达号关键词的推荐方法和装置
CN109344324A (zh) 推送活动的方法、装置、计算机设备和存储介质
Ho et al. “On the left side, there’s nothing right. On the right side, there’s nothing left:” Polarization of Political Opinion by News Media
Yan et al. The Chinese media framing of the 2015’s Tianjin explosion
Waldhör etBlogAnalysis-Analysing tourism Weblogs and forums using statistical and computer linguistic methods for quality control
CN117891839B (zh) 一种智能化检索方法及系统
EP1819130A1 (en) Method and system for evaluating data in a data network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant