CN110852090A

CN110852090A - 一种用于舆情爬取的机构特征词汇扩展系统和方法

Info

Publication number: CN110852090A
Application number: CN201911080694.3A
Authority: CN
Inventors: 刘少杰; 贺敏; 杜慧; 孙庆; 王秀文; 董琳; 郭富民; 杜漫; 余智华
Original assignee: Branch Dnt Data Polytron Technologies Inc; National Computer Network and Information Security Management Center
Current assignee: Branch Dnt Data Polytron Technologies Inc; National Computer Network and Information Security Management Center
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-28
Anticipated expiration: 2039-11-07
Also published as: CN110852090B

Abstract

本发明提供了一种用于舆情爬取的机构特征词汇扩展系统，包括：数据采集模块：用于采集数据；特征词清洗加工模块：用于对特征词进行初步筛选；特征词统计分析模块：用于通过相关度分析，进一步筛选特征词，最终生成拓展特征词。本发明另一方面提供了一种用于舆情爬取的机构特征词汇扩展方法，采用上述方案，筛选掉无用特征词并进行分析，生成拓展特征词，全面、快速采集相关舆情信息，一方面有效的避免了漏查情况的发生，另一方面也减少了无用特征词增加无用的数据，提高检索效率和质量，减少内存的占用。

Description

一种用于舆情爬取的机构特征词汇扩展系统和方法

技术领域：

本发明涉及自然语言处理领域，尤其涉及一种用于舆情爬取的机构特征词汇扩展系统和方法。

背景技术：

随着互联网的迅速发展,网络已经成为人们获取信息、参与交流的重要快捷平台。舆情被赋予了更多的含义，不管是对于企业还是对于监管单位，舆情的重要性日益凸显。对于企业来说提高新形势下网络舆情的分析能力，及时准确地掌握舆情动态，科学引导网络舆论，有助于提高企业声誉、防范企业风险。对于监管单位来说，通过监控企业网络舆情可以辅助了解企业经营状况，及时介入处置，降低社会不良影响。

目前对于企业的舆情信息爬取，主要是基于企业名称或者企业简称字符串匹配，这种方式可能造成爬去企业信息不够全面，如：上海陆家嘴国际金融资产交易市场股份有限公司，如果单纯用机构名称，即企业简称爬取其舆情信息就会造成信息不全。如一个名称为“陆金所”的P2P平台，是其明星产品，在网络上有大量该平台的信息，如果该平台出了问题，该机构必会受影响。当然我们也可以在爬取该机构舆情的时候，将“陆金所”这个平台名作为关键词加进去。当要监测的企业数量比较少时，可以通过上述方法处理，当企业数量较多就不太适合了。

本领域亟需一种用于舆情爬取的机构特征词汇扩展系统和方法。

因此，有鉴于此，提出本发明。

发明内容：

本发明的目的在于提供一种用于舆情爬取的机构特征词汇扩展系统和方法，解决因机构特征词不全导致获取舆情数据不够全面的问题。

为了实现上述目的，本发明采用的技术方案如下：

具体的，本发明的一方面，提供了一种用于舆情爬取的机构特征词汇扩展系统，包括：

数据采集模块：用于采集数据；

特征词清洗加工模块：用于对特征词进行初步筛选；

特征词统计分析模块：用于通过相关度分析，进一步筛选特征词，最终生成拓展特征词。

采用上述方案，筛选掉无用特征词并进行分析，生成拓展特征词，全面、快速采集相关舆情信息，一方面有效的避免了漏查情况的发生，另一方面也减少了无用特征词增加无用的数据，提高检索效率和质量，减少内存的占用。

进一步地，所述数据采集模块包括：

候选特征词单元，用于采集知识产权信息、投资信息或产品信息，将其整理作为候选特征词，所述投资信息包括，该机构的子公司、母公司或分公司信息，

采用上述方案，能全方位的查找机构舆情相关的各类信息，并将信息集合在一起，保证机构各类信息的全面性和完整性。

进一步地，所述特征词清洗加工模块包括：

初步过滤单元，用于对候选特征词进行初步过滤，删除常用词、过短过长的词和明显不可用的词，形成过滤特征词；

初步处理单元，用于对过滤特征词进行加工处理，形成优选特征词，所述对过滤特征词进行加工处理包括：将机构对应舆情信息和特征词对应舆情信息信息进行相关度分析，进一步筛选特征词。

采用上述方案，筛选掉无用的多余特征词，减少了多余特征词，避免了多余特征词对集合中其他特征词的影响。

进一步地，所述初步过滤单元包括以下至少一个子单元：

第一过滤子单元：用于利用分词工具对候选特征词进行分词处理，在语料库中搜索获取该词的IDF值，判断该特征词的IDF值是否小于指数阈值，若小于则丢弃，所述IDF(Inverse Document Frequency)是一种主要用于信息检索与数据挖掘的加权技术，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。

第二次过滤子单元：用于将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除；

第三次过滤子单元，用于删除明显不可用的词，所述明显不可用的词可以是助词或介词至少一项。

采用上述方案，利用单独或组合方式对候选特征词进行初步过滤，形成长短适宜、关联度高、简洁的过滤特征词。

进一步地，所述特征词统计分析模块包括：

舆情信息单元，用于采集通过机构名称匹配出的机构对应舆情信息，和通过优选特征词匹配出的特征词对应舆情信息，所述舆情信息是对舆情的一种描述和反应，指大众对舆情状态的客观反应；

相关度分析单元，用于将机构对应舆情信息和特征词对应舆情信息进行相关度分析，分析舆情信息中共同出现的现象；

阈值筛选单元，用于判定优选特征词对应的相关度是否大于设定阈值，若是，则保留该特征词，若否，则删除，剩下的即为扩展特征词。

采用上述方案，进一步保证了特征词的有效性，提高数据精确性，生成最终的拓展特征词。

本发明另一方面提供了一种用于舆情爬取的机构特征词汇扩展方法，包括以下步骤：

采集数据；

对特征词进行初步筛选；

通过相关度分析，进一步筛选特征词，最终生成拓展特征词。

进一步地，所述数据采集包括以下步骤：

采集知识产权信息、投资信息或产品信息，将其整理作为候选特征词；

进一步地，所述对特征词进行初步筛选包括以下步骤：

对候选特征词进行初步过滤，删除常用词、过短过长的词和明显不可用的词，形成过滤特征词；

对过滤特征词进行加工处理，形成优选特征词。

进一步地，所述对候选特征词进行初步过滤包括以下至少一个过滤方法：

第一过滤方法：利用分词工具对候选特征词进行分词处理，在语料库中搜索获取该词的IDF值，判断该特征词的IDF值是否小于指数阈值，若小于则丢弃；

第二过滤方法：将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除；

第三过滤方法：删除明显不可用的词，所述明显不可用的词可以是助词或介词至少一项。

进一步地，所述通过相关度分析，进一步筛选特征词，最终生成拓展特征词包括以下步骤：

采集通过机构名称匹配出的机构对应舆情信息，和通过优选特征词匹配出的特征词对应舆情信息；

将机构对应舆情信息和特征词对应舆情信息进行相关度分析，分析舆情信息中共同出现的现象；

判定优选特征词对应的相关度是否大于设定阈值，若是，则保留该特征词，若否，则删除，剩下的即为扩展特征词。

进一步地，所述相关度的计算方法如下：

所述机构对应的舆情信息，记为集合D_j，优选特征词对应舆情信息，记为集合D_t，上述公式中

表示机构对应舆情集合D_j的大小，

表示特征词对应舆情集合D_t的大小，

表示集合D_j和D_t交集的大小，

表示集合D_j和D_t并集的大小，w₁、w₂、w₃分别为权重。

采用上述方案，操作简单，计算可靠，结果直观。

综上所述，本发明具有以下有益效果：

1、通过自动化的的方法对机构特征词进行扩展，不需要人工参与；

2、全方位的对数据信息进行采集，形成拓展特征词，再进行舆情检索，丰富机构舆情信息，极大程度的避免了漏检现象的发生；

3、对特征词进行筛选，提高特征词质量，减少无用信息量，有助于提高采集企业舆情信息质量，使其分析监测更为全面准确。

附图说明

图1是本发明用于舆情爬取的机构特征词汇扩展系统一种实施系统的流程示意图；

图2是本发明用于舆情爬取的机构特征词汇扩展系统一种实施方式的流程示意图；

具体实施方式：

这里将详细地对示例性实施例进行说明，以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

实施例1

具体的，如图1所示，本实施例提供了一种用于舆情爬取的机构特征词汇扩展系统，包括：

数据采集模块：用于采集数据；

特征词清洗加工模块：用于对特征词进行初步筛选；

在本实施例一个优选的实施方式中，所述数据采集模块包括：

在本实施例一个优选的实施方式中，所述特征词清洗加工模块包括：

在本实施例一个优选的实施方式中，所述初步过滤单元包括以下至少一个子单元：

在本实施例一个优选的实施方式中，所述特征词统计分析模块包括：

实施例2

如图2所示，本实施例提供了一种用于舆情爬取的机构特征词汇扩展方法，包括以下步骤：

采集数据；

对特征词进行初步筛选；

在本实施例一个优选的实施方式中，所述数据采集包括以下步骤：

在本实施例一个优选的实施方式中，所述对特征词进行初步筛选包括以下步骤：

对候选特征词进行初步过滤，删除常用词、过短过长的词和明显不可用的词，形成过滤特征词；主要是过滤候选特征词中纯数字的特征词或者包含特殊字符、表情符的特征词，如：“u信”、“SCFP”、“123”、“￥贷款￥”；

对过滤特征词进行加工处理，形成优选特征词。在具体实施过程中，所述候选特征词加工处理，主要是去掉候选特征词中的结尾词，所述结尾词如“系统”、“官方系统”、“官方网站”、“官网”等，例如“网讯科技官方网站”、“九慧金服官网”，去掉“官方网站”、“官网”后，保留“网讯科技”、“九慧金服”作为候选特征词进行后续步骤的分析处理。

在本实施例一个优选的实施方式中，所述对候选特征词进行初步过滤包括以下至少一个过滤方法：

第二过滤方法：将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除；如：“贷款”、“陆金所网络投资理财系统IOS手机端软件”等长度小于等于2或者大于8的词汇都不适合选为特征词；所述明显不可用的词可以是助词或介词，如的、地、得，或前、后、左等。

在本实施例一个优选的实施方式中，所述通过相关度分析，进一步筛选特征词，最终生成拓展特征词包括以下步骤：

在本实施例一个优选的实施方式中，所述相关度的计算方法如下：

表示机构对应舆情集合D_j的大小，

表示特征词对应舆情集合D_t的大小，

表示集合D_j和D_t交集的大小，

表示集合D_j和D_t并集的大小，w₁、w₂、w₃分别为权重。

采用上述方案，操作简单，计算可靠，结果直观。