CN115640439A - 一种网络舆情监控的方法、系统及存储介质 - Google Patents

一种网络舆情监控的方法、系统及存储介质 Download PDF

Info

Publication number
CN115640439A
CN115640439A CN202211182077.6A CN202211182077A CN115640439A CN 115640439 A CN115640439 A CN 115640439A CN 202211182077 A CN202211182077 A CN 202211182077A CN 115640439 A CN115640439 A CN 115640439A
Authority
CN
China
Prior art keywords
text
target webpage
label
content
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211182077.6A
Other languages
English (en)
Inventor
周成阳
蒋洪伟
谢波
单冉冉
曾祥桐
贺诗洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211182077.6A priority Critical patent/CN115640439A/zh
Publication of CN115640439A publication Critical patent/CN115640439A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网络舆情监控的方法、系统及存储介质,可应用于金融领域或其他领域。该方法包括:实时采集包含预设主题的目标网页的文本内容。然后提取多个文本特征并进行向量化表示,获取文本特征向量。接着利用文本特征向量,进行相似文本聚类,获取文本聚类结果。最后根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。如此,通过采实时集文本内容,提取文本特征并进行文本特征向量化,将向量化后的文本特征进行相似文本聚类,利用文本聚类后的结果,挖掘文本的事件主题,进行网络舆情监控,从而实现了对网络舆情的实时监控,进而有效预防和应对了负面网络舆情,提升了银行的社会形象与声誉。

Description

一种网络舆情监控的方法、系统及存储介质
技术领域
本申请涉及在线监控领域,尤其涉及一种网络舆情监控的方法、系统及存储介质。
背景技术
随着互联网的快速发展,网络舆情事件频繁发生。网络舆情是指在一定的社会空间内,通过网络传播的公众对现实生活中某些焦点问题所持有的倾向性言论和观点。负面的网络舆情会给社会和他人造成不良影响,特别是用户群体庞大、覆盖范围广泛的银行,负面的网络舆情会影响银行的社会形象和声誉,阻碍银行的未来发展。因此,有效预防和应对负面网络舆情,提升银行的社会形象与声誉成为亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种网络舆情监控的方法、系统及存储介质,旨在通过包含预设主题的目标网页的文本特征及其文本特征向量,利用相似文本聚类确定的文本聚类结果,确定事件主题进行网络舆情监控,有效预防和应对了负面网络舆情,提升了银行的社会形象和声誉。
第一方面,本申请提供了一种网络舆情监控的方法,所述方法包括:
实时采集目标网页的文本内容,所述目标网页为包含预设主题的网页;
根据所述目标网页的文本内容,提取所述目标网页的多个文本特征;
根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量;
根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果;
根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控。
可选的,所述实时采集目标网页的文本内容之前,所述方法还包括:
获取所述目标网页中多个内容块,所述多个内容块为所述目标网页依照预设布局划分得到的;
基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,实时获取目标网页的文本内容。
可选的,所述基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,包括:
获取并解析所述目标网页中多个内容块的网页源码,确定与所述多个内容块对应的多个标签;
将所述多个标签通过DOM树形式表示;所述DOM树的节点用于表示所述多个标签;
根据预设标签的文本密度值,与标签节点关联子树的文本字符串数和标签数的映射关系,计算所述多个标签中每个标签的文本密度值;
响应于标签的文本密度值小于预设提取阈值,删除所述标签及所述标签下的文本。
可选的,所述将所述多个标签通过DOM树形式表示之后,所述方法还包括:
遍历所述多个标签,判断所述多个标签中每个标签是否为容器标签;
响应于所述标签不是容器标签,删除所述标签及标签下的文本;
响应于所述标签为容器标签,计算所述多个标签中每个标签的文本密度值。
可选的,所述根据所述目标网页的文本内容,提取所述目标网页的多个文本特征,包括:
根据所述目标网页的文本内容和预设触发词词库,提取所述目标网页中基于触发词的多个文本特征;
根据所述目标网页的文本内容,提取多个文本主题信息词;
所述目标网页的多个特征包括所述目标网页中基于触发词的多个文本特征和多个文本主题信息词。
可选的,所述根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量,包括:
基于预设词向量查询库和所述多个文本特征,确定所述多个文本特征对应的多个词向量;
将所述多个词向量等概率累加,获取所述文本特征向量;
其中,所述预设词向量查询库是通过以下得到的:
将词向量语料库中的语料经过文本预处理,生成每个词的词向量,并写入所述词向量查询库,获取预设词向量查询库;所述文本预处理包括前序分词、词性标注和命名实体识别。
可选的,所述根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果,包括:
计算所述文本特征向量与已知聚类库中多个聚类结果的多个相似度;所述已知聚类库用于存储前一次多个文本的聚类结果;
响应于所述多个相似度均低于预设相似度阈值,生成所述文本特征向量对应的新类别;
响应于所述多个相似度中至少一个相似度超过预设相似度阈值,将所述文本特征向量加入最大相似度对应的聚类结果;
所述文本聚类结果包括所述新类别和最大相似度对应的聚类结果中至少一种。
可选的,所述根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控,包括:
根据所述文本聚类结果的统计特征,确定所述文本聚类结果的类分数;所述统计特征包括类中向量数量和类更新时间;
响应于所述类分数大于预设分数阈值,将所述文本聚类结果确定为事件;
计算所述文本聚类结果的多个文本特征的频度,确定频度最高的文本特征为事件标签;
可视化所述事件的事件标签,进行网络舆情监控。
第二方面,本申请提供了一种网络舆情监控的系统,所述系统包括:
数据采集模块,用于采集目标网页的文本内容,所述目标网页为包含预设主题的网页;
数据预处理模块,用于根据所述目标网页的文本内容,提取所述目标网页的多个文本特征;用于根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量;
事件监控模块,用于根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果;根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控。
第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储代码,所述代码被处理器执行时实现如第一方面中任一项网络舆情监控的方法的步骤。
本申请提供了一种网络舆情监控的方法、系统及存储介质,在执行所述方法时:首先实时采集包含预设主题的目标网页的文本内容。然后提取多个文本特征并进行向量化表示,获取文本特征向量。接着利用文本特征向量,进行相似文本聚类,获取文本聚类结果。最后根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。如此,通过采集文本内容,提取文本特征并进行文本特征向量化,将向量化后的文本特征进行相似文本聚类,利用文本聚类后的结果,挖掘文本的事件主题,进行网络舆情监控,从而实现了对网络舆情的实时监控,进而有效预防和应对了负面网络舆情,提升了银行的社会形象与声誉。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络舆情监控的方法流程图;
图2为本申请实施例提供的一种基于文本密度值的网页文本信息抽取算法的方法流程图;
图3为本申请实施例提供的一种提取目标网页的多个文本特征的方法流程图;
图4为本申请实施例提供的一种基于word2vec词向量概率累加的文本向量表示方法流程图;
图5为一种网络舆情监控的系统结构示意图。
具体实施方式
正如前文所述,负面的网络舆情会给用户群体庞大、覆盖范围广的银行造成不良影响,影响银行的社会形象和声誉。现有技术对舆情监测,多使用关键词匹配的方式,即从海量文本中摘取出可能与具体银行相关的信息,此类方法需要输入大量的人工制定的关键词,且需要进行定期的增补;且从海量文本数据中匹配得到的依然是大量的非结构化的文本,需要人力进一步阅读和筛查,才能提取出文本中具体包含何种舆情事件。这导致银行不能即时有效的预防和应对负面网络舆情,给银行的社会形象和声誉造成影响。
基于上述情况,本申请提出了通过实时采集包含预设主题的目标网页的文本内容,提取文本特征和进行文本特征向量化,基于向量化后的文本特征,进行相似文本聚类,获取文本聚类结果,根据文本聚类结果,挖掘事件和事件标签,实现了网络舆情的实时监控。如此,可以使银行即时有效的预防和应对负面网络舆情,避免了银行的社会形象和声誉受影响。
下面将详细描述本说明书的各个方面的特征和示例性实施例,为了使本说明书的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本说明书进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本说明书,并不配置为限定本说明书。对本领域技术人员来说,本说明书可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过是示出本说明书的示例来提供对本说明书更好的理解。
首先,对本申请实施例涉及的术语进行解释。
事件:是指由一个或多个目标实体发出或参与的,在社交网络上产生一定影响的动作或活动。事件包括现实事件和社交媒体事件,现实事件是指在真实世界中确实发生的事件,而社交媒体事件是指在社交媒体上引起事件性的行为变化,可能现实中并未发生,比如流言等。
触发词特征:标识事件发生的词,通常情况下是一些谓语。
文本信息抽取:对非结构化信息进行结构化处理,并抽取出用户需要的信息。
主题性爬虫:按照事先给出的主题,通过分析超链接或者网页内容,预测下一个待抓取的统一资源定位(Uniform Resource Locator,URL)以及当前网页的主题相关度,保证尽可能多的爬取主题相关的网页同时排除无光网页的下载。
Word2vec:为托马斯·米科洛夫在谷歌带领研究团队创造的一款用于训练产生词向量的模型,其可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。
本申请提供的一种网络舆情监控的方法及系统可应用银行处理系统,执行主体为系统服务器。参见图1,为本申请实施例提供的一种网络舆情监控的方法流程图。该方法至少包括以下步骤:
S101:实时采集目标网页的文本内容。
在本申请实施例中,系统服务器首先需要实时采集目标网页的文本内容。其中目标网页为包含预设主题的网页。示例性说明:预设主题为银行,目标网页含有银行的网页。在本申请实施例中,系统服务器可以从微博、论坛、贴吧以及主流媒体网站等,获取目标网页。在本申请实施例中,可以通过人工标注目标网页方式,将目标网页分为包含银行负面信息网页和不包含负面信息网页。
在本申请实施例中,系统服务器可以通过多种方式采集目标网页的文本内容。比如可以通过社交媒体提供的API接口获取数据,并通过主题性爬虫实现。针对传统主题性爬虫从整个网页中的信息进行判断,会把网页中包含广告、导航条信息等网页噪声纳入,会导致实时采集的目标网页的文本内容针对性差,数据内容质量低。在本申请实施例中,可以采用基于文本密度值的网页文本信息抽取算法实时采集目标网页的文本内容。具体实时方式见图2所示,这里不再论述。
S102:根据目标网页的文本内容,提取目标网页的多个文本特征。
在本申请实施例中,系统服务器根据目标网页的文本内容,可以提取目标网页的多个文本特征。其中,文本特征用于表示文本主题内容的词。在本申请实施例中,可以基于触发词和网页特征等提取目标网页的多个文本特征。如此,可以避免仅仅采用触发词提取文本特征存在的稀疏性问题,提高网络舆情监控的准确度。具体提取目标网页的多个文本特征的实现方式详见图3所示,这里不再论述。
S103:根据多个文本特征,将目标网页的文本内容进行向量化表示,获取文本特征向量。
在本申请实施例中,系统服务器获取多个文本特征之后,将目标网页的文本内容基于多个文本特征进行向量化表示,获取文本特征向量。在本申请实施例中,可以通过等概率累加方式获取文本特征向量。此种方式充分考虑了文本特征的上下文语境信息,获取的文本特征向量准确度更高。其中等概率累加是指基于目标网页的文本内容中每个词的词向量累加的平均。
示例性说明:假设目标网页的文本内容中包含n个文本特征,表示为T={w1,w2,…,wn},其中w表示文本特征,已知文本中每个单次的词向量,那么该文本向量为:
Figure BDA0003867244000000071
其中,v(wk)为每个对应文本特征的词向量,v(T)为文本特征向量。
在本申请实施例中,为进一步提升获取文本特征向量的效率和准确性,还可以采用基于word2vec词向量概率累加的文本向量表示方法构建文本特征向量。具体参见图4,这里不再论述。
S104:根据文本特征向量,进行相似文本聚类,确定文本聚类结果。
在本申请实施例中,对于获取的文本特征向量,可以进行相似文本聚类,确定文本聚类结果。其中,相似文本聚类是指将相似度较高的文本进行聚类。
在本申请实施例中,可以计算文本特征向量与已知聚类库中的聚类结果的相似度,当相似度低于预设相似度阈值时,即在已知聚类库中不存在相似类,创建新类别,用于表示文本特征向量。当相似度高于预设相似度阈值时,文本特征向量与已知聚类库中聚类结果相似。其中,已知聚类库用于存储前一次多个文本的聚类结果。在本申请需要计算文本特征向量与已知聚类库中多个聚类结果的相似度。当多个相似度均低于预设相似度阈值时,创建新类别,否则将文本特征向量加入最大相似度对应的聚类结果。
在本申请实施例中,文本聚类结果包括新类别,最大相似度对应的聚类结果中至少一种。
在本申请实施例,考虑到越来越多的向量被聚合,类中心发生改变,以前聚入类中的向量与类中心不再相似。基于此,本申请实施例基于重聚类调整类中成员。具体来讲,对每个类计算类中向量与当前类中心向量的相似度,当相似度与预设阈值时,重新寻找最相似类,并将当前类中向量删除,加入最相似类。
在本申请实施例中,为解决文本聚类聚合性差的问题,可以采用合并相似度的方式进行类合并。具体来讲:类依照由大到小顺序排列,让数量大的类与数量小的类合并,遍历所有类的组合方式,计算类与类之间的相似度,选择相似度最大的组合合并。
在本申请实施例中,针对聚类结果中可能存在噪声的问题,可以通过类修剪方式去除。具体来讲:根据类中心时间,将类从小到大排列,删除超出类失效时间范围。当类总个数超出上限时,将类按照类中向量数量及前序更新时间排序。其中,第一排序规则为类中向量数量按照从小到大排序,第二排序规则为类更新时间依照从小到大排序。最后删除排序靠前的类至类数量低于上限。
S105:根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。
在本申请实施例中,根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。在本申请实施例中,可以根据文本聚类结果的统计特征,确定文本聚类结果的类分数。其中,统计特征包括类中向量数量和类更新时间至少一种。当类分数大于预设分数阈值,将文本聚类结果确定为事件。计算文本聚类结果的多个文本特征的频度,确定频度最高的文本特征为事件标签。可视化所述事件的事件标签,进行网络舆情监控。
在本申请实施例中,将全部类按照类中向量数量从小到大,按类更新时间从后到前排序,依据类中向量数量排序所占权重和类更新时间排序所占权重,确定类分数。
示例性说明:类包括A、B、C、D四类,其中类中向量数据从小到大排序为(B,D,A,C),对应的分值为(10,8,6,4),按类更新时间从后到前排序为(D,A,C,B),对应的分值为(10,8,6,4)。其中类中向量数据所占权重为70%,类更新时间所占权重为30%,则类分数分别为A为6.6、B为8.2、C为4.6、D为8.6。假设预设分数阈值为8.5,则事件为D。
在本申请实施例中,计算文本聚类结果中多个文本特征的频度,从中选取频度最高的文本特征作为事件标签。
参见图2,为本申请实施例提供的一种基于文本密度值的网页文本信息抽取算法的方法流程图。该图包括以下步骤:
S201:获取目标网页中多个内容块。
在本申请实施例中,目标网页中多个内容块是指目标网页中依照预设布局划分得到。预设布局可以为网页视觉布局,比如导航条、正文、广告等。不同区域中的内容构成不同内容块。
S202:基于内容块的文本密度值,从多个内容块中确定并删除噪声内容块,获取目标网页的文本内容。
在本申请实施例中,可以基于内容块的文本密度值,从多个内容块中确定并删除噪声内容块。具体的,当内容块的文本密度值不大于预设提取阈值时,从多个内容块中确定噪声内容块,并进行删除。
在本申请实施例中,可以获取并解析目标网页中多个内容块的网页源码,确定与内容块对应的多个标签。在本申请实施例中,标签可以为HTML标签。将多个标签通过DOM树形式表示,其中DOM树的节点用于表示多个标签。预设标签文本密度值,与标签节点关联子树的文本字符串数和标签数的映射关系,根据该映射关系,计算多个标签中每个标签的文本密度值。
在本申请实施例中,映射关系可以如下所示:
若标签节点用i表示,则该标签节点的文本密度值TDi
Figure BDA0003867244000000091
其中,Ci表示标签节点i关联的DOM子树中的文本字符串数,Ti表示与标签节点i关联的DOM子树中的标签的个数。
在本申请实施例中,预设提取阈值可以为从已经标记中的样本网页中获得各个网页下对应标签的文本密度值平均值。
在本申请实施例中,当标签的文本密度值小于预设提取阈值,删除所述标签及标签下的文本,即删除噪声内容块。
在本申请实施例中,还可以在将多个标签通过DOM树形式表示之后,遍历多个标签,判断多个标签中的每个标签是否为容器标签。如果不是容器标签,则为噪声标签,删除噪声标签集标签下的文本。如果是容器标签,再根据上述映射关系,计算多个标签中每个标签的文本密度值。
在本申请实施例中,容器标签通过为如表1所示的HTML标签。
<dir> <div> <dl> <dt> <filedset> <form>
<h1~h6> <hr> <isindex> <ol> <ul> <table>
<p> <pre> <tr> <td> <blockquote> <center>
噪声标签为<script>、<noscript>、<nav>、<button>、<svg>、<comment>等。
参见图3,为本申请实施例提供的一种提取目标网页的多个文本特征的方法流程图。该方法包括:
S301:根据目标网页的文本内容和预设触发词词库,提取目标网页中基于触发词的多个文本特征。
在本申请实施例中,根据目标网页的文本内容和预设触发词词库,提取基于触发词的多个文本特征。其中预设触发词词汇存储相关主题经常设计的触发词。以银行负面信息触发词为例,示例性说明。
可以从网络中,比如微博、论坛、贴吧和主流媒体等下载含大量负面信息的网页进行文本分析,汇总经常涉及的词频,组成预设触发词词库。比如预设触发词词汇包括(风险、贷款、客户、银保监会、问题、市场、违约、暴雷、诉讼、期货、维权、投资、讨要、说法……)
在本申请实施例中,可以基于分词和去停用词,获取目标网页的文本内容的词,计算所述词与触发词词库的触发词的匹配度。当匹配度大于预设匹配度阈值,该词为目标网页的文本特征,即基于触发词的文本特征。其中,分词是对一段文字进行分词,去停用词为根据中文停用词表去掉字句中含有的词汇。本申请可以采用哈工大停用词词表。
S302:根据所述目标网页的文本内容,提取多个文本主题信息词。
在本申请实施例中,可以将目标网页的文本内容通过分词和去停用词获取多个词。根据TF-IDF算法计算该目标网页的文本中的词频,响应于词频大于预设词频阈值,将该词频作为文本主题信息词,即文本特征。
S303:获取目标网页的多个文本特征。
在本申请实施例中,目标网页的多个文本特征包括所述目标网页中基于触发词的多个文本特征和多个文本主题信息词。
此外,考虑到一些评论或文章如果出现在权威或热门的网页,则比较容易引发网络舆情,因此考虑对网页URL中关键词进行提取,作为目标网页的文本特征。
参见图4,为本申请实施例提供的一种基于word2vec词向量概率累加的文本向量表示方法流程图。该方法包括以下步骤:
S401:基于预设词向量查询库和多个文本特征,确定多个文本特征对应的多个词向量。
在本申请实施例中,预设词向量查询库可以通过以下方式得到:
将词向量语料库中的语料经过文本预处理,生成每个词的word2vec词向量,并该词向量写入词向量查询库,获取预设词向量查询库。其中文本预处理包括前序分词、词性标注、命名实体识别等。
在本申请实施例中,对于非语料库的语料进行相应文本预处理,生成每个词的word2vec词向量。
在本申请实施例中,多个文本特征经过文本预处理之后,输入预设词向量查询库,查询获得与多个文本特征对应的对个词向量。
S402:将多个词向量等概率累加,获取文本特征向量。
具体方式见图1中S103所示,这里不再论述。
在本申请实施例中,文本特征向量中涉及的文本你特征包括基于触发词的文本特征。为判断文本特征向量是否有效,可以采用以下方式判断:
获取目标网页的文本特征向量,和样本网页中正例网页的词频特征向量和负例网页的词频特征向量;
根据余弦距离相似度,计算所述文本特征向量,和正例网页的词频特征向量和负例网页的词频特征向量的平均相似度。当平均相似度大于预设相似度阈值,确定触发词具有较强的主题相关性,文本特征向量有效。否则,文本特征向量无效,网页为无效网页。
本申请提供了一种网络舆情监控的方法,首先实时采集包含预设主题的目标网页的文本内容。然后提取多个文本特征并进行向量化表示,获取文本特征向量。接着利用文本特征向量,进行相似文本聚类,获取文本聚类结果。最后根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。如此,通过采集文本内容,提取文本特征并进行文本特征向量化,将向量化后的文本特征进行相似文本聚类,利用文本聚类后的结果,挖掘文本的事件主题,进行网络舆情监控,从而实现了对网络舆情的实时监控,进而有效预防和应对了负面网络舆情,提升了银行的社会形象与声誉。
此外,本申请实施例还提供了一种网络舆情监控的系统。如图5所示,为本申请实施例提供的一种网络舆情监控的系统500结构示意图。该系统500至少包括:
数据采集模块501,用于采集目标网页的文本内容,所述目标网页为包含预设主题的网页。
数据预处理模块502,用于根据所述目标网页的文本内容,提取所述目标网页的多个文本特征;用于根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量。
事件监控模块503,用于根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果;根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控。
可选的,数据采集模块501还用于获取所述目标网页中多个内容块,所述多个内容块为所述目标网页依照预设布局划分得到的;还用于基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,实时获取目标网页的文本内容。
可选的,数据采集模块501还用于获取并解析目标网页中多个内容块的网页源码,确定与多个内容块对应的多个标签;将多个标签通过DOM树形式表示;DOM树的节点用于表示所述多个标签;根据预设标签的文本密度值,与标签节点关联子树的文本字符串数和标签数的映射关系,计算所述多个标签中每个标签的文本密度值;响应于标签的文本密度值小于预设提取阈值,删除所述标签及所述标签下的文本。
可选的,数据采集模块501还用于遍历所述多个标签,判断所述多个标签中每个标签是否为容器标签;响应于所述标签不是容器标签,删除所述标签及标签下的文本;响应于所述标签为容器标签,计算所述多个标签中每个标签的文本密度值。
可选的,数据预处理模块502包括:文本提取单元,用于根据所述目标网页的文本内容和预设触发词词库,提取所述目标网页中基于触发词的多个文本特征;根据所述目标网页的文本内容,提取多个文本主题信息词;目标网页的多个特征包括所述目标网页中基于触发词的多个文本特征和多个文本主题信息词。
可选的,数据预处理模块502包括:
文本向量化单元,用于基于预设词向量查询库和所述多个文本特征,确定所述多个文本特征对应的多个词向量。将所述多个词向量等概率累加,获取文本特征向量。
其中,预设词向量查询库是通过以下得到的:
将词向量语料库中的语料经过文本预处理,生成每个词的词向量,并写入所述词向量查询库,获取预设词向量查询库;所述文本预处理包括前序分词、词性标注和命名实体识别。
可选的,事件监控模块503包括:
相似度计算单元,用于计算所述文本特征向量与已知聚类库中多个聚类结果的多个相似度;所述已知聚类库用于存储前一次多个文本的聚类结果;
增量聚类单元,用于响应于所述多个相似度均低于预设相似度阈值,生成所述文本特征向量对应的新类别;响应于所述多个相似度中至少一个相似度超过预设相似度阈值,将所述文本特征向量加入最大相似度对应的聚类结果;所述文本聚类结果包括所述新类别和最大相似度对应的聚类结果中至少一种。
可选的,事件监控模块503包括:
事件监控描述单元,用于根据所述文本聚类结果的统计特征,确定所述文本聚类结果的类分数;所述统计特征包括类中向量数量和类更新时间;响应于所述类分数大于预设分数阈值,将所述文本聚类结果确定为事件;计算所述文本聚类结果的多个文本特征的频度,确定频度最高的文本特征为事件标签。
可选的,系统500还包括可视化模块,用于可视化事件标签,进行网络舆情监控。可选的,可视化模块还用于可视化采集目标网页的文本内容和处理获取的文本特征向量。
可选的,系统500还包括数据存储模块,用于存储文本内容的原始数据库和事件数据库。
本申请提供了一种网络舆情监控的系统。其中数据采集模块501实时采集包含预设主题的目标网页的文本内容。数据预处理模块502提取多个文本特征并进行向量化表示,获取文本特征向量。事件监控模块503利用文本特征向量,进行相似文本聚类,获取文本聚类结果。并根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。如此,通过采集文本内容,提取文本特征并进行文本特征向量化,将向量化后的文本特征进行相似文本聚类,利用文本聚类后的结果,挖掘文本的事件主题,进行网络舆情监控,从而实现了对网络舆情的实时监控,进而有效预防和应对了负面网络舆情,提升了银行的社会形象与声誉。
本申请实施例还提供了对应的生成设备以及计算机存储介质,用于实现本申请实施例提供的方案。其中,设备包括存储器和处理器,存储器用于存储指令或代码,处理器用于执行指令或代码,以使设备执行本申请任一实施例的一种网络舆情监控方法。
所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本申请任一实施例所述的方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。

Claims (10)

1.一种网络舆情监控的方法,其特征在于,所述方法包括:
实时采集目标网页的文本内容,所述目标网页为包含预设主题的网页;
根据所述目标网页的文本内容,提取所述目标网页的多个文本特征;
根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量;
根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果;
根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控。
2.根据权利要求1所述方法,其特征在于,所述实时采集目标网页的文本内容之前,所述方法还包括:
获取所述目标网页中多个内容块,所述多个内容块为所述目标网页依照预设布局划分得到的;
基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,实时获取目标网页的文本内容。
3.根据权利要求2所述方法,其特征在于,所述基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,包括:
获取并解析所述目标网页中多个内容块的网页源码,确定与所述多个内容块对应的多个标签;
将所述多个标签通过DOM树形式表示;所述DOM树的节点用于表示所述多个标签;
根据预设标签的文本密度值,与标签节点关联子树的文本字符串数和标签数的映射关系,计算所述多个标签中每个标签的文本密度值;
响应于标签的文本密度值小于预设提取阈值,删除所述标签及所述标签下的文本。
4.根据权利要求3所述方法,其特征在于,所述将所述多个标签通过DOM树形式表示之后,所述方法还包括:
遍历所述多个标签,判断所述多个标签中每个标签是否为容器标签;
响应于所述标签不是容器标签,删除所述标签及标签下的文本;
响应于所述标签为容器标签,计算所述多个标签中每个标签的文本密度值。
5.根据权利要求1所述方法,其特征在于,所述根据所述目标网页的文本内容,提取所述目标网页的多个文本特征,包括:
根据所述目标网页的文本内容和预设触发词词库,提取所述目标网页中基于触发词的多个文本特征;
根据所述目标网页的文本内容,提取多个文本主题信息词;
所述目标网页的多个特征包括所述目标网页中基于触发词的多个文本特征和多个文本主题信息词。
6.根据权利要求1所述方法,其特征在于,所述根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量,包括:
基于预设词向量查询库和所述多个文本特征,确定所述多个文本特征对应的多个词向量;
将所述多个词向量等概率累加,获取所述文本特征向量;
其中,所述预设词向量查询库是通过以下得到的:
将词向量语料库中的语料经过文本预处理,生成每个词的词向量,并写入所述词向量查询库,获取预设词向量查询库;所述文本预处理包括前序分词、词性标注和命名实体识别。
7.根据权利要求1所述方法,其特征在于,所述根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果,包括:
计算所述文本特征向量与已知聚类库中多个聚类结果的多个相似度;所述已知聚类库用于存储前一次多个文本的聚类结果;
响应于所述多个相似度均低于预设相似度阈值,生成所述文本特征向量对应的新类别;
响应于所述多个相似度中至少一个相似度超过预设相似度阈值,将所述文本特征向量加入最大相似度对应的聚类结果;
所述文本聚类结果包括所述新类别和最大相似度对应的聚类结果中至少一种。
8.根据权利要求1-7任意一项所述方法,其特征在于,所述根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控,包括:
根据所述文本聚类结果的统计特征,确定所述文本聚类结果的类分数;所述统计特征包括类中向量数量和类更新时间;
响应于所述类分数大于预设分数阈值,将所述文本聚类结果确定为事件;
计算所述文本聚类结果的多个文本特征的频度,确定频度最高的文本特征为事件标签;
可视化所述事件的事件标签,进行网络舆情监控。
9.一种网络舆情监控系统,其特征在于,所述系统包括:
数据采集模块,用于采集目标网页的文本内容,所述目标网页为包含预设主题的网页;
数据预处理模块,用于根据所述目标网页的文本内容,提取所述目标网页的多个文本特征;用于根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量;
事件监控模块,用于根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果;根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序,所述程序被处理器执行时实现如权利要求1至8任一项所述网络舆情监控的方法的步骤。
CN202211182077.6A 2022-09-27 2022-09-27 一种网络舆情监控的方法、系统及存储介质 Pending CN115640439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211182077.6A CN115640439A (zh) 2022-09-27 2022-09-27 一种网络舆情监控的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211182077.6A CN115640439A (zh) 2022-09-27 2022-09-27 一种网络舆情监控的方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN115640439A true CN115640439A (zh) 2023-01-24

Family

ID=84941638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211182077.6A Pending CN115640439A (zh) 2022-09-27 2022-09-27 一种网络舆情监控的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115640439A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644239A (zh) * 2023-07-19 2023-08-25 中国标准化研究院 一种重大服务质量事件信息监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644239A (zh) * 2023-07-19 2023-08-25 中国标准化研究院 一种重大服务质量事件信息监控方法
CN116644239B (zh) * 2023-07-19 2023-10-13 中国标准化研究院 一种重大服务质量事件信息监控方法

Similar Documents

Publication Publication Date Title
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
Bucur Using opinion mining techniques in tourism
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN107506472B (zh) 一种学生浏览网页分类方法
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110543595A (zh) 一种站内搜索系统及方法
CN113239268B (zh) 一种商品推荐方法、装置及系统
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
Darmawiguna et al. The development of integrated Bali tourism information portal using web scrapping and clustering methods
Viet et al. Analyzing recent research trends of computer science from academic open-access digital library
CN109992723B (zh) 一种基于社交网络的用户兴趣标签构建方法及相关设备
CN115640439A (zh) 一种网络舆情监控的方法、系统及存储介质
Kaur Web content classification: A survey
CN112269906B (zh) 网页正文的自动抽取方法及装置
Lee et al. Web document classification using topic modeling based document ranking
US11295078B2 (en) Portfolio-based text analytics tool
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN111581478A (zh) 一种特定主体的跨网站通用新闻采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination