CN103902619B

CN103902619B - 一种网络舆情监控方法及系统

Info

Publication number: CN103902619B
Application number: CN201210586811.5A
Authority: CN
Inventors: 韩金宇; 孙少陵
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2018-10-23
Anticipated expiration: 2032-12-28
Also published as: CN103902619A

Abstract

本发明公开一种网络舆情监控方法及系统，该方法包括：采集待分析文本；检测所述待分析文本的语种，提取所述待分析文本的特征词；根据所述待分析文本的特征词，查询所述待分析文本的语种到基准语言语种的翻译词典，得到所述待分析文本的特征词在基准语言中的译文；计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度，并根据计算结果，确定所述待分析文本与所述基准语言热点舆情的相关度，从而得到与基准语言热点舆情相关的其他语种的网络舆情信息，使得网络舆情监控的范围不再局限于基准语言的范围，提高网络舆情监控的有效性和广泛性。

Description

一种网络舆情监控方法及系统

技术领域

本发明涉及通信网络技术领域，尤其涉及一种网络舆情监控方法及系统。

背景技术

随着互联网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的第四媒体，互联网成为反映社会舆情的主要载体之一。网络舆情是指，因各种事件的刺激而产生的，通过互联网传播的，人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情表达快捷、信息多元、形成迅速，方式互动，具备传统媒体无法比拟的优势，且对社会影响巨大。互联网环境下的舆情信息的主要来源有：新闻评论、BBS（BulletinBoard System，电子公告牌系统）、博客、聚合新闻（RSS）。

由于互联网具有“下情上达”的特点，一方面为人们获取信息提供了快捷的途径，但随之带来的是对政治安全和文化安全的严重威胁。传统的网络舆情监控方案通常是对本国家语言的舆情监控，具有局限性，无法获知其他国家对热点舆情的相关信息，使得网络舆情监控的效果大打折扣。也无法获知涉及国际事件的热点舆情在相关国家的舆情信息，不能为管理决策提供更有效的参考依据。

因此，亟需一种网络舆情监控方案出现，用以解决上述技术问题。

发明内容

本发明实施例提供了一种网络舆情监控方法及系统，用以获取与基准语言热点舆情相关的其他语种语言的舆情信息，提高网络舆情监控的有效性和广泛性。

为了实现上述目的，本发明实施例采用以下技术手段：

本发明实施例提供一种网络舆情监控方法，所述方法包括：

采集待分析文本；

检测所述待分析文本的语种，提取所述待分析文本的特征词；

根据所述待分析文本的特征词，查询所述待分析文本的语种到基准语言语种的翻译词典，得到所述待分析文本的特征词在基准语言中的译文；

计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度，并根据计算结果，确定所述待分析文本与所述基准语言热点舆情的相关度。

本发明实施例还提供一种网络舆情监控系统，包括：

采集模块，用于采集待分析文本；

语种检测模块，用于检测所述待分析文本的语种；

特征词提取模块，用于提取所述待分析文本的特征词；

翻译模块，用于根据所述待分析文本的特征词，查询所述待分析文本的语种到基准语言的语种的翻译词典，得到所述待分析文本的特征词在基准语言中的译文；

舆情分析模块，用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度，并根据计算结果，确定所述待分析文本与所述基准语言热点舆情的相关度。

与现有技术相比，本发明的上述实施例具有以下有益技术效果：

本发明实施例提供的网络舆情监控方案，在采集待分析文本后，检测待分析文本的语种，提取待分析文本的特征词，查询相应的翻译词典获得待分析文本的特征词在基准语言中的译文，并计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度，确定待分析文本与基准语言热点舆情的相关度，从而得到与基准语言热点舆情相关的其他语种的网络舆情信息，使得网络舆情监控的范围不再局限于基准语言的范围，提高网络舆情监控的有效性和广泛性。

附图说明

图1为本发明实施例提供的网络舆情监控流程示意图；

图2为本发明实施例提供的提取特征词的流程示意图；

图3为本发明实施例提供的网络舆情监控系统的结构示意图。

具体实施方式

针对现有技术存在的上述问题，本发明实施例提供了一种网络舆情监控方案，用以获取与基准语言热点舆情相关的其他语种语言的舆情信息，提高网络舆情监控的有效性和广泛性。下面结合附图对本发明实施例进行详细描述。

在本发明实施例提供的网络舆情监控系统中存储有翻译词典，翻译词典用于存储词条与该词条在不同语种中的译文之间的对应关系。翻译词典可以为提取的待分析文本特征词提供对应的基准语种的译文，作为与基准热点舆情相似度计算和判断的依据。

以下结合图1，详细说明网络舆情监控流程，如图所示，该流程包括以下步骤：

步骤101，网络舆情监控系统采集待分析文本。

具体的，网络舆情监控系统可以通过普通网页、动态网页、论坛评论、搜索引擎等渠道，采集网络文本，网络文本的采集获取方式属于现有技术，在此不再赘述。

进一步的，网络舆情监控系统还可以确定网络文本的类别，并判断所采集到的网络文本的类别与基准语言热点舆情的类别是否相同，若相同，则将该网络文本确定为待分析文本。

网络舆情监控系统可以根据文本内容对网络文本进行分类，确定出网络文本的类别。例如，网络文本的类别可以包括：军事、健康、政治、文化等。网络舆情监控系统可以采用SVM（Support Vector Machine，支持向量机）算法，对网络文本进行分类，确定出网络文本的类别。网络文本类别的确定也可以采用其他能够实现文本分类目的其他方式实现，上述确定网络文本类别的具体实现方式属于现有技术，在此不再赘述。

基准语言热点舆情是网络舆情监控系统利用现有技术获取的，在此不再赘述。

通过上述处理，网络舆情监控系统可以获取与基准语言热点舆情分类相同的网络文本，作为待分析文本，将不相关类别的网络文本排除，避免对不相关网络文本进行相关度的判断，避免网络舆情监控系统资源浪费，提高网络舆情监控的处理速度。

步骤102，网络舆情监控系统检测待分析文本的语种。

具体的，网络舆情监控系统可通过识别待分析文本的字符编码，检测出文本的语种。文本语种检测的实现方式属于现有技术，在此不再赘述。

步骤103，网络舆情监控系统提取待分析文本的特征词。

特征词用以表征文本的主要信息，网络舆情监控系统可以在检测出待分析文本的语种之后，按照相应语种语言的语法，对待分析文本进本特征词的提取。提取特征词的流程会在后续做进一步详细说明。

步骤104，网络舆情监控系统根据待分析文本的特征词，查询待分析文本的语种到基准语言的语种的翻译词典，得到待分析文本的特征词在基准语言中的译文。

具体的，网络舆情监控系统可以根据待分析文本的语种，确定出待分析文本的语种到基准语言的语种的翻译词典，并根据待分析文本的特征词，查询确定出的翻译词典，得到待分析文本的特征词在基准语言中的译文。通过双语的翻译词典，对待分析文本特征词进行直译，以获得同一语言序列，其直译过程为一一对应的直接映射。

步骤105，网络舆情监控系统计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度。

具体的，同一语言序列的基础上，网络舆情监控系统对待分析文本的特征词的相应译文和基准语言热点舆情进行相似度计算，相似度计算可以采用现有算法实现，在此不再赘述。

相似度可以依据网络舆情监控系统中的同义词表、上下位词表、领域词表等进行判断。

步骤106，网络舆情监控系统根据计算出的相似度，确定待分析文本与基准语言热点舆情的相关度。

具体的，待分析文本与基准语言热点舆情的相关度可以通过（0，1）内的浮点数表示，并将该浮点数大于等于预设阈值的待分析文本确定为与热点舆情相关的文本。

需要指出的是，在上述络舆情监控流程中，步骤102与步骤103的顺序不限。

在上述流程的步骤103中，网络舆情监控系统提取网络文本特征词的流程如图2所示，可以包括以下步骤：

步骤201，网络舆情监控系统对待分析文本断句，并对断句生成的句子分词，得到词串。

步骤202，网络舆情监控系统根据词串的词频、词长、词性权重、在文本中的段落分布，计算词串权重。

具体的，网络舆情监控系统可根据以下公式计算词串权重：

词串权重=词串的词频*词串的词长*词串分布的段落数量*词串的词性权重；

其中，词串的词频为该词串在文本中出现的次数，由至少2个词所组成的词串的词频，根据各个词的词频和词串的词频加权计算获得。例如，词串“中国南海”由“中国”和“南海”2个词组成，“中国”的词频为8次，“南海”的词频为6次，加权计算得到“中国南海”的词频为4次，作为词串“中国南海”的词频。虽然词串“中国南海”的词频为比“中国”和“南海”出现的频次要少很多，但比单独的词更能体现待分析文本的主要信息和主题。

词串的词长为去除禁用词后的词串包含的字数，禁用词为禁用词表中包含的词，禁用词表可预先配置于网络舆情监控系统中。

词串的词性权重根据该词串所包含词的词性权重相关，可以对词串所包含词的词性权重加权获得，或者，将词串所包含词的词性权重的最大值作为该词串的词性权重。

步骤203，网络舆情监控系统将词串权重高于预设阈值的词串确定为待分析文本的特征词。

由于待分析文本的特征词在基准语言中的译文，是确定待分析文本与基准语言热点舆情相关度的基础，为了保证确定出的网络舆情信息的准确性，需要完善和更新翻译词典。本发明实施例提供的网络舆情监控方法还包括翻译词典的更新流程，该流程可按照设定周期执行，也可根据指令执行。该流程包括以下步骤：

网络舆情监控系统对第一语种的网络文本进行N元文法分词，得到词串，并统计各词串的词频。

网络舆情监控系统将词频低于预设阈值的词串过滤掉，并将剩余词串中存在于过滤词表中的词串过滤掉，得到新词候选词。具体的，网络舆情监控系统将得到的词串词频与预设阈值相比较，过滤掉低于该阈值的词串，将词频大于或等于阈值的词串保留之后，利用过滤词表进行过滤，并将经过过滤词表过滤的词串作为新词候选词串。

优选的，在得到新词候选词串之后，还可以由人工筛查新词候选词，将不符合规则的词串放入过滤词表中，以便后续根据该过滤此表过滤文本词串。所述规则可以包括：词串构成规则、禁用词规则、词串词性规则等，其中，词串构成规则用于规定组成词串开头、结尾的词的类型；禁用词规则通过设置禁用词表实现，禁用词表用于规定词串的开头和结尾的禁用词。

网络舆情监控系统在各翻译词典中查找新词候选词串的译文，如果在第一语种到第二语种的翻译词典中未查找到译文，但在第一语种到第三语种的翻译词典中查找到译文，则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文，将所述在第二语种中的译文与第一语种的所述词串，作为新的词条添加到第一语种到第二语种的翻译词典中。

例如，第一语种为中文，第二语种为英文，第三语种为日文，当网络舆情监控系统对中文网页进行分词得到中文词串，经过词频过滤以及过滤词表的过滤之后，得到中文词串a，作为新词候选词串。若在中-英翻译词典中未查找到对应的英文译文，但在中-日翻译词典中查找到对应的日文译文a’，则根据日文译文a’在日-英翻译词典中查找，若查找到对应的英文译文a”，则将英文译文a”作为词串a的译文（新的词条），添加到中-英翻译词典中。

网络舆情监控系统通过翻译词典的更新流程可以发现并获取新词和实效性词，并将某一语种的新词，扩展到其他语种当中，为跨语言的网络舆情监控提供完善的后台数据，提高跨语言网络舆情监控的正确性和广泛性。

通过上述网络舆情监控流程可以看出，本发明实施例提供的网络舆情监控方案，在采集待分析文本后，检测待分析文本的语种，提取待分析文本的特征词，查询相应的翻译词典获得待分析文本的特征词在基准语言中的译文，并计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度，确定待分析文本与基准语言热点舆情的相关度，从而得到与基准语言热点舆情相关的其他语种的网络舆情信息，使得网络舆情监控的范围不再局限于基准语言的范围，提高网络舆情监控的有效性和广泛性。

基于相同的技术构思，本发明实施例还提供了一种网络舆情监控系统，如图3所示，该系统包括：

采集模块31，用于采集待分析文本。

语种检测模块32，用于检测所述待分析文本的语种。

特征词提取模块33，用于提取所述待分析文本的特征词。

翻译模块34，用于根据所述待分析文本的特征词，查询所述待分析文本的语种到基准语言的语种的翻译词典，得到所述待分析文本的特征词在基准语言中的译文。

舆情分析模块35，用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度，并根据计算结果，确定所述待分析文本与所述基准语言热点舆情的相关度。

采集模块31具体用于，采集网络文本，确定所述网络文本的类别，并判断所述网络文本的类别与基准语言热点舆情的类别是否相同，若相同，则将所述网络文本确定为待分析文本。

特征词提取模块33具体用于，对所述待分析文本进行分词，得到词串，根据所述词串的词频、词长、词性权重、在文本中的段落分布，计算词串权重，并将词串权重高于预设阈值的词串确定为所述待分析文本的特征词。

特征词提取模块33具体用于，根据以下公式计算词串权重：

词串权重=词串的词频*词串的词长*词串分布的段落数量*词串的词性权重。

该网络舆情监控系统还包括词典更新模块36，词典更新模块36用于，对第一语种的文本进行分词，得到词串，统计各词串的词频；将词频低于预设阈值的词串过滤掉，并将剩余词串中存在于过滤词表中的词串过滤掉，得到新词候选词串；对于每个新词候选词串执行以下操作：在各翻译词典中查找该词串的译文，如果在第一语种到第二语种的翻译词典中未查找到译文，但在第一语种到第三语种的翻译词典中查找到译文，则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文，将所述在第二语种中的译文与第一语种的所述词串，作为新的词条添加到第一语种到第二语种的翻译词典中。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种网络舆情监控方法，其特征在于，包括：

采集待分析文本；

计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度，并根据计算结果，确定所述待分析文本与所述基准语言热点舆情的相关度；其中，所述采集待分析文本，具体包括：

采集网络文本，确定所述网络文本的类别；

判断所述网络文本的类别与基准语言热点舆情的类别是否相同，若相同，则将所述网络文本确定为待分析文本；

所述网络文本是通过普通网页、动态网页、论坛评论、搜索引擎渠道中采集得到；提取所述待分析文本的特征词，具体包括：

对所述待分析文本进行分词，得到词串；

根据所述词串的词频、词长、词性权重、在文本中的段落分布，计算词串权重；

将词串权重高于预设阈值的词串确定为所述待分析文本的特征词；

所述词串是从待分析文本断句中生成的句子分词，且词串至少由2个词所组成。

2.如权利要求1所述的方法，其特征在于，根据以下公式计算词串权重：

词串权重＝词串的词频*词串的词长*词串分布的段落数量*词串的词性权重。

3.如权利要求1-2任一项所述的方法，其特征在于，该方法还包括更新翻译词典的步骤，更新翻译词典的步骤包括：

对第一语种的文本进行分词，得到词串，统计各词串的词频；

将词频低于预设阈值的词串过滤掉，并将剩余词串中存在于过滤词表中的词串过滤掉，得到新词候选词串；

对于每个新词候选词串执行以下操作：在各翻译词典中查找该词串的译文；如果在第一语种到第二语种的翻译词典中未查找到译文，但在第一语种到第三语种的翻译词典中查找到译文，则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文，将所述在第二语种中的译文与第一语种的所述词串，作为新的词条添加到第一语种到第二语种的翻译词典中。

4.一种网络舆情监控系统，其特征在于，包括：

采集模块，用于采集待分析文本；

语种检测模块，用于检测所述待分析文本的语种；

特征词提取模块，用于提取所述待分析文本的特征词；

舆情分析模块，用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度，并根据计算结果，确定所述待分析文本与所述基准语言热点舆情的相关度；

其中，所述采集模块具体用于，采集网络文本，确定所述网络文本的类别，并判断所述网络文本的类别与基准语言热点舆情的类别是否相同，若相同，则将所述网络文本确定为待分析文本；

所述网络文本是通过普通网页、动态网页、论坛评论、搜索引擎渠道中采集得到；所述特征词提取模块具体用于，对所述待分析文本进行分词，得到词串，根据所述词串的词频、词长、词性权重、在文本中的段落分布，计算词串权重，并将词串权重高于预设阈值的词串确定为所述待分析文本的特征词；

5.如权利要求4所述的系统，其特征在于，所述特征词提取模块具体用于，根据以下公式计算词串权重：

6.如权利要求4-5任一项所述的系统，其特征在于，还包括：词典更新模块；所述词典更新模块用于，对第一语种的文本进行分词，得到词串，统计各词串的词频；将词频低于预设阈值的词串过滤掉，并将剩余词串中存在于过滤词表中的词串过滤掉，得到新词候选词串；对于每个新词候选词串执行以下操作：在各翻译词典中查找该词串的译文，如果在第一语种到第二语种的翻译词典中未查找到译文，但在第一语种到第三语种的翻译词典中查找到译文，则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文，将所述在第二语种中的译文与第一语种的所述词串，作为新的词条添加到第一语种到第二语种的翻译词典中。