CN109740042A - 舆论信息的监控方法、装置及存储介质、计算机设备 - Google Patents

舆论信息的监控方法、装置及存储介质、计算机设备 Download PDF

Info

Publication number
CN109740042A
CN109740042A CN201811428818.8A CN201811428818A CN109740042A CN 109740042 A CN109740042 A CN 109740042A CN 201811428818 A CN201811428818 A CN 201811428818A CN 109740042 A CN109740042 A CN 109740042A
Authority
CN
China
Prior art keywords
text
information
public opinion
media
eigenvector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811428818.8A
Other languages
English (en)
Inventor
王杰
庄伯金
王少军
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811428818.8A priority Critical patent/CN109740042A/zh
Publication of CN109740042A publication Critical patent/CN109740042A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种舆论信息的监控方法、装置及存储介质、计算机设备,所述方法包括:获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本;从所述舆论文本中获取第一文本特征,生成第一文本特征向量;获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本;从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量;根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控。上述方法实现对舆论信息的自动化监控,不需要人工维护情感词典,节约了人工成本。

Description

舆论信息的监控方法、装置及存储介质、计算机设备
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种舆论信息的监控方法、装置及存储介质、计算机设备。
背景技术
互联网技术的快速发展给人们提供了快捷便利的信息沟通,网络信息通过互联网为载体得以快速传播。社会舆论舆情由之前的纸质传播及电视广播转换为如今的网络传播。网络舆情与社会舆情相互依存,网络舆情发展趋势在一定程度上体现了社会舆情的发展趋势。因此,可通过研究网络舆情了解社会舆情导向。
当前的网络舆情监控主要针对社交媒体文本进行关键词检索、情感分析等以实现舆情监控。传统的这种监控形式需要人工维护情感词典,造成人工成本过高。
发明内容
本发明提出一种舆论信息的监控方法、装置及存储介质、计算机设备,以实现对舆论信息的自动化监控,不需要人工维护情感词典,节约了人工成本。
本发明提供以下方案:
一种舆论信息的监控方法,包括:获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本;从所述舆论文本中获取第一文本特征,生成第一文本特征向量;获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本;从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量;根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控。
在一实施例中,所述获取社交媒体平台中的舆论信息,包括:获取多个所述社交媒体平台中公开分享或公共评论的信息,以形成所述舆论信息。
在一实施例中,所述从所述舆论文本中获取第一文本特征,生成第一文本特征向量,包括:利用one-hot独热码方式对所述舆论文本进行编码;通过word2vector算法模型对编码后的所述舆论文本进行训练,以获取所述舆论文本对应的词向量;通过堆叠自编码方式对该词向量进行压缩,并从压缩后词向量中提取包含所述第一文本特征的所述第一文本特征向量。
在一实施例中,所述从所述舆论文本中获取第一文本特征,生成第一文本特征向量之后,还包括:根据所述第一文本特征向量对所述舆论信息对应的用户进行聚类分析;根据所述聚类分析的结果获取所述舆论信息对应的用户群体;根据所述第一文本特征向量获取所述用户群体的中心文本特征向量;所述中心文本特征向量为所述用户群体对应的文本特征生成的文本特征向量;所述根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控,包括:根据余弦相似度算法,分别对每个所述用户群体对应的所述中心文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对所述舆论信息进行监控。
在一实施例中,所述根据计算结果对所述舆论信息进行监控,包括:根据所述计算结果获取不同用户群体对所述官方媒体信息中不同类别信息的关注程度;根据所述关注程度确定所述不同用户群体对所述舆论信息的舆论导向,以对所述舆论信息进行监控。
在一实施例中,所述舆论信息包括所述舆论文本的时间轴信息;所述官方媒体信息包括所述媒体信息文本的时间轴信息;所述根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控,包括:根据所述舆论文本的时间轴信息和所述媒体信息文本的时间轴信息获取时间上对应的每个时间段内的所述第一文本特征向量和所述第二文本特征向量;根据余弦相似度算法,对所述每个时间段内的所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果确定所述舆论信息随时间的变化趋势。
在一实施例中,所述根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控,包括:根据余弦相似度算法计算所述第一文本特征向量和所述第二文本特征向量的余弦相似度值;通过所述余弦相似度值对所述舆论信息与所述官方媒体信息相似情况进行舆情监控;或,将所述余弦相似度值与预设值进行比较,若所述余弦相似度值小于所述预设值,则确定监控到的所述舆论信息与所述官方媒体信息不相似;若所述余弦相似度值大于或等于所述预设值,则确定监控到的所述舆论信息与所述官方媒体信息相似。
一种舆论信息的监控装置,包括:第一获取模块,用于获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本;第一生成模块,用于从所述舆论文本中获取第一文本特征,生成第一文本特征向量;第二获取模块,用于获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本;第二生成模块,用于从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量;监控模块,用于根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆情进行监控。
一种存储介质,其上存储有计算机程序;所述计算机程序适于由处理器加载并执行上述任一实施例所述的舆论信息的监控方法。
一种计算机设备,其包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行根据上述任一实施例所述的舆论信息的监控方法。
上述实施例提供的舆论信息的监控方法,首先从社交媒体平台中获取舆论信息,提取舆论信息的舆论文本,并生成包含该舆论文本的第一文本特征向量。其次,从官方媒体平台中获取官方媒体信息,提取媒体信息文本,并生成包含该媒体信息文本的第二文本特征向量。进一步地,获取第一文本特征向量和第二文本特征向量的余弦相似度值,根据其余弦相似度值可对社交媒体平台的舆论信息进行监控。因此,该舆论信息的监控方法以官方媒体发布的官方媒体信息文本作为参照,对社交媒体平台上的舆论信息进行自动化监控,不需要人工维护情感词典,节约了人工成本。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提供的一种舆论信息的监控方法的应用场景的一实施例中的结构示意图;
图2为本发明提供的一种舆论信息的监控方法的一实施例中的方法流程图;
图3为本发明提供的步骤S200的一实施例中的方法流程图;
图4为本发明提供的一种舆论信息的监控方法的再一实施例中的方法流程图;
图5为本发明提供的一种舆论信息的监控装置的一实施例中的结构框图;
图6为本发明提供的一种计算机设备的一实施例中的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,这里使用的“第一”、“第二”仅用于区别同一技术特征,并不对该技术特征的顺序和数量等加以限定。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明提供的一种舆论信息的监控方法,适用于从各个媒体平台中获取相关的舆论信息,并对舆论信息进行监控的计算机设备。此处的计算机设备可以是舆情监控系统中的服务器,但不排除其他可进行舆情监控的设备。以下先对该基于舆论信息的监控方法的应用环境进行先导性说明:
如图1所示,服务器100与终端位于同一个网络200环境中,服务器100与终端通过网络200进行数据信息的交互。用户终端包括社交媒体平台终端310以及官方媒体平台终端320。网络200可包括无线网络和/或有线网络。服务器100通过网络200从社交媒体平台终端310中获取舆论信息,同时通过网络200从官方媒体平台终端320中获取官方媒体信息。社交媒体平台终端310为多个。官方媒体平台终端320也为多个。数量均不作限定,图1所示只作为示例说明。具体地,服务器100爬取官方网站或其他渠道公开、公示的官方媒体信息文本。服务器100爬取各个社交网站中社交用户相关的舆论信息。将官方媒体信息和舆论信息作为本申请所述的舆论信息的监控方法的语料素材,对舆论信息进行监控。
本发明提供一种舆论信息的监控方法。在一实施例中,如图2所示,该舆论信息的监控方法,包括以下步骤:
S100,获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本。
在本实施例中,系统收集社交媒体平台中的舆论信息,如分享的文本信息或者用户的评论信息。其中,所述获取社交媒体平台中的舆论信息,包括:获取多个所述社交媒体平台中公开分享或公共评论的信息,以形成所述舆论信息。例如,收集微博上各个类型媒体发表的舆论信息,可以是美食类、电影类、新闻类等。另外,也还可收集微博上各个微博用户发表的公开的舆论信息。其中,此处的用户可以是社会中单个个体用户发表的信息,也可以是社会单位注册的以单个用户形式发表的信息。同时还可用户互动的信息,如互相评论的信息,点赞信息等。此外,社交媒体平台还可是用户交互软件类发表信息。如微信、脉脉以及知乎等软件平台上发表的信息。其中,舆论信息包括舆论文本信息,以及舆论文本发表的时间信息等。此处舆论文本可以是平台用户发表的文字组成的文本。
S200,从所述舆论文本中获取第一文本特征,生成第一文本特征向量。
在本实施例中,系统从舆论文本中获取文本特征,作为第一文本特征。文本特征可以是根据舆论文本主题相关的文本内容,还可以是将舆论文本中剔除中性词之后的内容作为所述文本特征。从所述舆论文本中获取第一文本特征的方式可以是,对所述舆论文本进行切词,对切词后的每个分词进行识别,提取具有特征表达的分词作为所述文本特征。或者,对切词后的分词进行词频运算,获取频率达到预设值的分词,将该分词作为所述文本特征。同时,对第一文本特征进行编码训练,得到第一文本特征向量。
在一实施例中,如图3所示,步骤S200,包括:
S210,利用one-hot独热码方式对所述舆论文本进行编码。
S220,通过word2vector算法模型对编码后的所述舆论文本进行训练,以获取所述舆论文本对应的词向量。
S230,通过堆叠自编码方式对该词向量进行压缩,并从压缩后词向量中提取包含所述第一文本特征的所述第一文本特征向量。
在该实施例中,采用one-hot独热码方式对收集到的文本进行编码,然后通过word2vector算法模型对编码后的舆论文本进行训练,以获取所述舆论文本中每一个文字的词向量。进一步地,将得到的舆论文本的词向量组通过堆叠自编码进行压缩,提取低维度、连续空间文本特征向量,将该文本特征向量作为所述第一文本特征向量。
S300,获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本。
在本实施例中,系统从官方媒体平台中获取官方媒体信息,如从官方网站或其他渠道公开、公示的网站中爬取官方媒体信息。例如,收集官方网址中发表的对于社交媒体平台中所述舆论信息对应的信息作为所述官方媒体信息。此处,从官方媒体平台中获取官方媒体信息需与上述社交媒体平台中的舆论信息相对应。
在一具体实施方式中,所述获取官方媒体平台中的官方媒体信息,包括:获取所述舆论信息的主题,根据所述舆论信息的主题获取官方媒体平台中的官方媒体信息。
在该实施方式中,系统从社交媒体平台中获取到舆论信息之后,根据舆论信息的文本内容获取该舆论信息的主题,再根据该主题从官方媒体平台中获取相应的官方媒体信息。
S400,从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量。
在本实施例中,系统从媒体信息文本中获取该文本的文本特征,以生成所述第二文本特征向量。文本特征可以是根据媒体信息文本主题相关的文本内容,还可以是将媒体信息文本中剔除中性词之后的内容作为所述第二文本特征。从媒体信息文本中获取第二文本特征的方式可以是,对媒体信息文本进行切词,对切词后的每个分词进行识别,提取具有特征表达的分词作为所述第二文本特征。或者,对切词后的分词进行词频运算,获取频率达到预设值的分词,将该分词作为第二文本特征。同时,对第二文本特征进行编码训练,得到第二文本特征向量。
S500,根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控。
在本实施例中,根据余弦相似度算法对第一文本特征向量和第二文本特征向量进行余弦相似度计算,根据计算结果对舆情进行监控。
在一实施例中,所述对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆情进行监控包括:周期性对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,获得每个周期的监控数据,向后台管理服务器发送所述每个周期的监控数据。
在该实施例中,系统周期性获取社交媒体平台中的舆论信息以及对应的官方媒体信息,并生成每个周期内的第一文本特征向量和第二文本特征向量。同时,根据余弦相似度算法计算两者的余弦相似度,得到每个周期时间内的监控数据,并将每个周期内的监控数据发送到后台管理服务器,由后台管理服务器根据每个周期的监控数据对舆论信息进行监控。
进一步地,所述向后台管理服务器发送所述每个周期的监控数据,包括:根据每个周期的监控数据分析所述舆论信息的变化趋势,根据所述变化趋势生成变化曲线,向所述后台管理服务器发送所述变化曲线,并控制所述后台管理服务器显示所述变化曲线。具体地,随着时间的变化,社会对于舆论主题的导向也可能随之变化。例如,起初社会对于某个主题的舆论偏向于负面,随着时间的变化,参与该舆论主题讨论的用户越多,以及对于该舆论主题披露的内容越多,社会对于该主题的舆论偏向于正面。或者,随着时间的变化,社会对于该舆论主题的讨论逐渐减弱,导致社会对于该主题的舆论逐渐趋向于零。因此,根据每个周期的监控数据分析所述舆论信息的变化趋势,并显示所述变化曲线,使得用户可以快速掌握所述舆论信息的变化,从而更好地对所述舆论信息进行监控。
上述实施例提供的舆论信息的监控方法,首先从社交媒体平台中获取舆论信息,提取舆论信息的舆论文本,并生成包含该舆论文本的第一文本特征向量。其次,从官方媒体平台中获取官方媒体信息,提取媒体信息文本,并生成包含该媒体信息文本的第二文本特征向量。进一步地,获取第一文本特征向量和第二文本特征向量的余弦相似度值,根据其余弦相似度值可对社交媒体平台的舆论信息进行监控。因此,该舆论信息的监控方法以官方媒体发布的官方媒体信息文本作为参照,对社交媒体平台上的舆论信息进行自动化监控,不需要人工维护情感词典,节约了人工成本。
在一实施例中,步骤S500,包括:根据余弦相似度算法计算所述第一文本特征向量和所述第二文本特征向量的余弦相似度值;通过所述余弦相似度值对所述舆论信息与所述官方媒体信息相似情况进行舆情监控;或,将所述余弦相似度值与预设值进行比较,若所述余弦相似度值小于所述预设值,则确定监控到的所述舆论信息与所述官方媒体信息不相似;若所述余弦相似度值大于或等于所述预设值,则确定监控到的所述舆论信息与所述官方媒体信息相似。
在该实施例中,系统计算第一文本特征向量和第二文本特征向量的余弦相似度值,根据该余弦相似度值可比较直观地确定舆论信息与官方媒体信息的相似度。例如,假设第一文本特征向量和第二文本特征向量的余弦相似度值的范围为0到1之间。系统计算得到的第一文本特征向量和第二文本特征向量的余弦相似度值为0.2,则说明舆论信息和官方媒体信息的相似度较小。系统计算得到的第一文本特征向量和第二文本特征向量的余弦相似度值为0.9,则说明舆论信息和官方媒体信息的相似度比较大。
或者,将计算得到的余弦相似度值与预设值进行比较,若该余弦相似度值小于预设值,则确定监控到的舆论信息与官方媒体信息不相似;若该余弦相似度值大于或等于预设值,则确定监控到的舆论信息与官方媒体信息相似。此处,对于舆论信息的监控方式更加适合频繁的大数据处理环境。例如,服务器每隔N秒从社交媒体平台和官方媒体平台中获取对应的数据,并对获得的数据进行上述余弦相似度计算处理。此处的N秒相对服务器处理数据而言,属于较短时间。因此,服务器需处理大量的数据。为了减轻服务器的压力,可将每次获取的余弦相似度值与系统预设值进行比较。余弦相似度值小于系统预设值,则确定监控到的舆论信息与官方媒体信息不相似。反之,则确定监控到的舆论信息与官方媒体信息相似。
在一实施例中,如图4所示,步骤S200之后,还包括:
S201,根据所述第一文本特征向量对所述舆论信息对应的用户进行聚类分析。
S203,根据所述聚类分析的结果获取所述舆论信息对应的用户群体。
S205,根据所述第一文本特征向量获取所述用户群体的中心文本特征向量;所述中心文本特征向量为所述用户群体对应的文本特征生成的文本特征向量。
此时,步骤S500,包括:
S501,根据余弦相似度算法,分别对每个所述用户群体对应的所述中心文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对所述舆论信息进行监控。
在该实施例中,根据上述方法得到的舆论文本特征向量,对社交媒体平台的用户进行聚类分析,获取情感、意见表达不同的用户群体。进一步地,通过余弦相似度计算不同聚类群体在意见表达、情感等方面与官媒文本的相似度,从而可获取不同用户群体对于所述舆论信息的舆情指数。
进一步地,所述根据计算结果对所述舆论信息进行监控,包括:根据所述计算结果获取不同用户群体对所述官方媒体信息中不同类别信息的关注程度;根据所述关注程度确定所述不同用户群体对所述舆论信息的舆论导向,以对所述舆论信息进行监控。
具体地,将所述舆论信息的用户对象进行分群,不同群体对于舆论的观点取向不一样。如,青少年群体、中年人群体以及老年人群体,因为年纪的不同,对于舆论的观点也会不一样。又如,本科学历的群体、硕士学历的群体以及博士学历的群体,因为教育背景不一样,对于舆论的观点也可能不一样。该实施例将舆论信息的用户对象进行分群,获取不同用户群体对官方媒体信息中不同类别信息的关注程度。此处,所述关注程度可以分为多级。如关注程度分为A级、B级、C级和D级。通过所述关注程度确定不同用户群体对舆论信息的舆论导向,以对所述舆论信息进行监控。如,甲用户群体对于官方媒体信息中的a类别信息的关注程度为A级,乙用户群体对于官方媒体信息中的a类别信息的关注程度为C级,丙用户群体对于官方媒体信息中的a类别信息的关注程度为B级。此时,可根据不同用户群体对于同一类别信息的关注程度,监控该类别信息对应的舆论信息。
在本实施例的一个实施方式中,所述舆论信息包括所述舆论文本的时间轴信息;所述官方媒体信息包括所述媒体信息文本的时间轴信息;步骤S500,包括:根据所述舆论文本的时间轴信息和所述媒体信息文本的时间轴信息获取时间上对应的每个时间段内的所述第一文本特征向量和所述第二文本特征向量;根据余弦相似度算法,对所述每个时间段内的所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果确定所述舆论信息随时间的变化趋势。
在该实施方式中,系统获得的舆论信息包括舆论文本的时间轴信息,也即是对应舆论文本中各个事项的时间信息。例如,微博中发表文章的时间信息,用户对该文章的回复信息等。系统获取的官方媒体信息包括媒体信息文本的时间轴信息,也即是对应媒体信息文本的各事项的时间信息。进一步地,通过获取各个时间段对应的所述舆论文本对应的第一文本特征向量,以及对应时间的所述媒体信息文本相对的第二文本特征向量,并根据余弦相似度算法获取各个时间段的舆情信息,以确定舆情发展的趋势。
本发明还提供一种舆论信息的监控装置。在一实施例中,如图5所示,该舆论信息的监控装置包括第一获取模块10、第一生成模块20、第二获取模块30、第二生成模块40和监控模块50。
第一获取模块10用于获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本。在本实施例中,系统收集社交媒体平台中的舆论信息,如分享的文本信息或者用户的评论信息。例如,收集微博上各个类型媒体发表的舆论信息,可以是美食类、电影类、新闻类等。另外,也还可收集微博上各个微博用户发表的公开的舆论信息。其中,此处的用户可以是社会中单个个体用户发表的信息,也可以是社会单位注册的以单个用户形式发表的信息。同时还可用户互动的信息,如互相评论的信息,点赞信息等。此外,社交媒体平台还可是用户交互软件类发表信息。如微信、脉脉以及知乎等软件平台上发表的信息。其中,舆论信息包括舆论文本信息,以及舆论文本发表的时间信息等。此处舆论文本可以是平台用户发表的文字组成的文本。
第一生成模块20用于从所述舆论文本中获取第一文本特征,生成第一文本特征向量。在本实施例中,系统从舆论文本中获取文本特征,作为第一文本特征。文本特征可以是根据舆论文本主题相关的文本内容,还可以是将舆论文本中剔除中性词之后的内容作为所述文本特征。从所述舆论文本中获取第一文本特征的方式可以是,对所述舆论文本进行切词,对切词后的每个分词进行识别,提取具有特征表达的分词作为所述文本特征。或者,对切词后的分词进行词频运算,获取频率达到预设值的分词,将该分词作为所述文本特征。同时,对第一文本特征进行编码训练,得到第一文本特征向量。
第二获取模块30用于获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本。在本实施例中,系统从官方媒体平台中获取官方媒体信息,如从官方网站或其他渠道公开、公示的网站中爬取官方媒体信息。例如,收集官方网址中发表的对于社交媒体平台中所述舆论信息对应的信息作为所述官方媒体信息。此处,从官方媒体平台中获取官方媒体信息需与上述社交媒体平台中的舆论信息相对应。
第二生成模块40用于从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量。在本实施例中,系统从媒体信息文本中获取该文本的文本特征,以生成所述第二文本特征向量。文本特征可以是根据媒体信息文本主题相关的文本内容,还可以是将媒体信息文本中剔除中性词之后的内容作为所述第二文本特征。从媒体信息文本中获取第二文本特征的方式可以是,对媒体信息文本进行切词,对切词后的每个分词进行识别,提取具有特征表达的分词作为所述第二文本特征。或者,对切词后的分词进行词频运算,获取频率达到预设值的分词,将该分词作为第二文本特征。同时,对第二文本特征进行编码训练,得到第二文本特征向量。
监控模块50用于根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆情进行监控。在本实施例中,根据余弦相似度算法对第一文本特征向量和第二文本特征向量进行余弦相似度计算,根据计算结果对舆情进行监控。
在其他实施例中,本发明提供的舆论信息的监控装置中的各个模块还用于执行本发明所述的舆论信息的监控方法中,对应各个步骤执行的操作,在此不再做详细的说明。
本发明还提供一种存储介质。该存储介质上存储有计算机程序;所述计算机程序被处理器执行时,实现上述任一实施例所述的舆论信息的监控方法。该存储介质可以是存储器。例如,内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储介质包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
本发明还提供一种计算机设备。一种计算机设备包括:一个或多个处理器;存储器;一个或多个应用程序。其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述任一实施例所述的舆论信息的监控方法。
图6为本发明一实施例中的计算机设备的结构示意图。本实施例所述计算机设备可以是服务器、个人计算机以及网络设备。如图6所示,设备包括处理器603、存储器605、输入单元607以及显示单元609等器件。本领域技术人员可以理解,图6示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器605可用于存储应用程序601以及各功能模块,处理器603运行存储在存储器605的应用程序601,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
输入单元607用于接收信号的输入,以及接收用户输入的关键字。输入单元607可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元609可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元609可采用液晶显示器、有机发光二极管等形式。处理器603是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器603内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
在一实施方式中,设备包括一个或多个处理器603,以及一个或多个存储器605,一个或多个应用程序601。其中所述一个或多个应用程序601被存储在存储器605中并被配置为由所述一个或多个处理器603执行,所述一个或多个应用程序601配置用于执行以上实施例所述的舆论信息的监控方法。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括存储器、磁盘或光盘等。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种舆论信息的监控方法,其特征在于,包括:
获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本;
从所述舆论文本中获取第一文本特征,生成第一文本特征向量;
获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本;
从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量;
根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控。
2.根据权利要求1所述的方法,其特征在于,所述获取社交媒体平台中的舆论信息,包括:
获取多个所述社交媒体平台中公开分享或公共评论的信息,以形成所述舆论信息。
3.根据权利要求1所述的方法,其特征在于,所述从所述舆论文本中获取第一文本特征,生成第一文本特征向量,包括:
利用one-hot独热码方式对所述舆论文本进行编码;
通过word2vector算法模型对编码后的所述舆论文本进行训练,以获取所述舆论文本对应的词向量;
通过堆叠自编码方式对该词向量进行压缩,并从压缩后词向量中提取包含所述第一文本特征的所述第一文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述从所述舆论文本中获取第一文本特征,生成第一文本特征向量之后,还包括:根据所述第一文本特征向量对所述舆论信息对应的用户进行聚类分析;根据所述聚类分析的结果获取所述舆论信息对应的用户群体;根据所述第一文本特征向量获取所述用户群体的中心文本特征向量;所述中心文本特征向量为所述用户群体对应的文本特征生成的文本特征向量;
所述根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控,包括:根据余弦相似度算法,分别对每个所述用户群体对应的所述中心文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对所述舆论信息进行监控。
5.根据权利要求4所述的方法,其特征在于,所述根据计算结果对所述舆论信息进行监控,包括:
根据所述计算结果获取不同用户群体对所述官方媒体信息中不同类别信息的关注程度;
根据所述关注程度确定所述不同用户群体对所述舆论信息的舆论导向,以对所述舆论信息进行监控。
6.根据权利要求4所述的方法,其特征在于,所述舆论信息包括所述舆论文本的时间轴信息;所述官方媒体信息包括所述媒体信息文本的时间轴信息;
所述根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控,包括:根据所述舆论文本的时间轴信息和所述媒体信息文本的时间轴信息获取时间上对应的每个时间段内的所述第一文本特征向量和所述第二文本特征向量;根据余弦相似度算法,对所述每个时间段内的所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果确定所述舆论信息随时间的变化趋势。
7.根据权利要求1所述的方法,其特征在于,所述根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆论信息进行监控,包括:
根据余弦相似度算法计算所述第一文本特征向量和所述第二文本特征向量的余弦相似度值;
通过所述余弦相似度值对所述舆论信息与所述官方媒体信息相似情况进行舆情监控;或,
将所述余弦相似度值与预设值进行比较,若所述余弦相似度值小于所述预设值,则确定监控到的所述舆论信息与所述官方媒体信息不相似;若所述余弦相似度值大于或等于所述预设值,则确定监控到的所述舆论信息与所述官方媒体信息相似。
8.一种舆论信息的监控装置,其特征在于,包括:
第一获取模块,用于获取社交媒体平台中的舆论信息,所述舆论信息包括舆论文本;
第一生成模块,用于从所述舆论文本中获取第一文本特征,生成第一文本特征向量;
第二获取模块,用于获取官方媒体平台中的官方媒体信息,所述官方媒体信息包括媒体信息文本;
第二生成模块,用于从所述媒体信息文本中获取第二文本特征,生成第二文本特征向量;
监控模块,用于根据余弦相似度算法,对所述第一文本特征向量和所述第二文本特征向量进行余弦相似度计算,根据计算结果对舆情进行监控。
9.一种存储介质,其特征在于,其上存储有计算机程序;所述计算机程序适于由处理器加载并执行上述权利要求1至7中任一项所述的舆论信息的监控方法。
10.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行根据权利要求1至7任一项所述的舆论信息的监控方法。
CN201811428818.8A 2018-11-27 2018-11-27 舆论信息的监控方法、装置及存储介质、计算机设备 Pending CN109740042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811428818.8A CN109740042A (zh) 2018-11-27 2018-11-27 舆论信息的监控方法、装置及存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811428818.8A CN109740042A (zh) 2018-11-27 2018-11-27 舆论信息的监控方法、装置及存储介质、计算机设备

Publications (1)

Publication Number Publication Date
CN109740042A true CN109740042A (zh) 2019-05-10

Family

ID=66358235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811428818.8A Pending CN109740042A (zh) 2018-11-27 2018-11-27 舆论信息的监控方法、装置及存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN109740042A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN113220823A (zh) * 2020-01-21 2021-08-06 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110140A (zh) * 2011-01-26 2011-06-29 桂林电子科技大学 基于网络离散文本的舆情信息分析方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN107241352A (zh) * 2017-07-17 2017-10-10 浙江鹏信信息科技股份有限公司 一种网络安全事件分类与预测方法及系统
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110140A (zh) * 2011-01-26 2011-06-29 桂林电子科技大学 基于网络离散文本的舆情信息分析方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN107241352A (zh) * 2017-07-17 2017-10-10 浙江鹏信信息科技股份有限公司 一种网络安全事件分类与预测方法及系统
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN113220823A (zh) * 2020-01-21 2021-08-06 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法
CN113220823B (zh) * 2020-01-21 2024-03-01 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法和装置

Similar Documents

Publication Publication Date Title
Nam et al. Harvesting brand information from social tags
WO2017181612A1 (zh) 个性化视频推荐方法及装置
Alhamid et al. Towards context-sensitive collaborative media recommender system
CN106095841B (zh) 一种基于协同过滤的移动互联网广告推荐方法
Jomsri Book recommendation system for digital library based on user profiles by using association rule
CN108388608B (zh) 基于文本感知的情感反馈方法、装置、计算机设备和存储介质
CN104794145B (zh) 基于内容和关系距离来连接人们
JP4898938B2 (ja) 情報提供システム及び情報提供方法
US20130024813A1 (en) Method, system, and means for expressing relative sentiments towards subjects and objects in an online environment
JP6033697B2 (ja) 画像評価装置
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN107894998A (zh) 视频推荐方法及装置
US20130179149A1 (en) Communication processing
CN106537387B (zh) 检索/存储与事件相关联的图像
KR20170107868A (ko) 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템
CN113742567A (zh) 一种多媒体资源的推荐方法、装置、电子设备及存储介质
CN109740042A (zh) 舆论信息的监控方法、装置及存储介质、计算机设备
Tao et al. Dynamic feature weighting based on user preference sensitivity for recommender systems
CN111104583A (zh) 一种直播间推荐方法、存储介质、电子设备及系统
KR101752474B1 (ko) 지식 공유 서비스 제공 장치, 방법 및 컴퓨터 프로그램
Al-Otaibi et al. Cosine similarity-based algorithm for social networking recommendation
CN113961813A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN113469786A (zh) 物品推荐的方法、装置、计算机设备和存储介质
KR101486924B1 (ko) 소셜 네트워크 서비스를 이용한 미디어 콘텐츠 추천 방법
CN106446696B (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination