CN110852090A - 一种用于舆情爬取的机构特征词汇扩展系统和方法 - Google Patents

一种用于舆情爬取的机构特征词汇扩展系统和方法 Download PDF

Info

Publication number
CN110852090A
CN110852090A CN201911080694.3A CN201911080694A CN110852090A CN 110852090 A CN110852090 A CN 110852090A CN 201911080694 A CN201911080694 A CN 201911080694A CN 110852090 A CN110852090 A CN 110852090A
Authority
CN
China
Prior art keywords
words
characteristic
feature
word
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911080694.3A
Other languages
English (en)
Other versions
CN110852090B (zh
Inventor
刘少杰
贺敏
杜慧
孙庆
王秀文
董琳
郭富民
杜漫
余智华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Branch Dnt Data Polytron Technologies Inc
National Computer Network and Information Security Management Center
Original Assignee
Branch Dnt Data Polytron Technologies Inc
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Branch Dnt Data Polytron Technologies Inc, National Computer Network and Information Security Management Center filed Critical Branch Dnt Data Polytron Technologies Inc
Priority to CN201911080694.3A priority Critical patent/CN110852090B/zh
Publication of CN110852090A publication Critical patent/CN110852090A/zh
Application granted granted Critical
Publication of CN110852090B publication Critical patent/CN110852090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于舆情爬取的机构特征词汇扩展系统,包括:数据采集模块:用于采集数据;特征词清洗加工模块:用于对特征词进行初步筛选;特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。本发明另一方面提供了一种用于舆情爬取的机构特征词汇扩展方法,采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。

Description

一种用于舆情爬取的机构特征词汇扩展系统和方法
技术领域:
本发明涉及自然语言处理领域,尤其涉及一种用于舆情爬取的机构特征词汇扩展系统和方法。
背景技术:
随着互联网的迅速发展,网络已经成为人们获取信息、参与交流的重要快捷平台。舆情被赋予了更多的含义,不管是对于企业还是对于监管单位,舆情的重要性日益凸显。对于企业来说提高新形势下网络舆情的分析能力,及时准确地掌握舆情动态,科学引导网络舆论,有助于提高企业声誉、防范企业风险。对于监管单位来说,通过监控企业网络舆情可以辅助了解企业经营状况,及时介入处置,降低社会不良影响。
目前对于企业的舆情信息爬取,主要是基于企业名称或者企业简称字符串匹配,这种方式可能造成爬去企业信息不够全面,如:上海陆家嘴国际金融资产交易市场股份有限公司,如果单纯用机构名称,即企业简称爬取其舆情信息就会造成信息不全。如一个名称为“陆金所”的P2P平台,是其明星产品,在网络上有大量该平台的信息,如果该平台出了问题,该机构必会受影响。当然我们也可以在爬取该机构舆情的时候,将“陆金所”这个平台名作为关键词加进去。当要监测的企业数量比较少时,可以通过上述方法处理,当企业数量较多就不太适合了。
本领域亟需一种用于舆情爬取的机构特征词汇扩展系统和方法。
因此,有鉴于此,提出本发明。
发明内容:
本发明的目的在于提供一种用于舆情爬取的机构特征词汇扩展系统和方法,解决因机构特征词不全导致获取舆情数据不够全面的问题。
为了实现上述目的,本发明采用的技术方案如下:
具体的,本发明的一方面,提供了一种用于舆情爬取的机构特征词汇扩展系统,包括:
数据采集模块:用于采集数据;
特征词清洗加工模块:用于对特征词进行初步筛选;
特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。
采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。
进一步地,所述数据采集模块包括:
候选特征词单元,用于采集知识产权信息、投资信息或产品信息,将其整理作为候选特征词,所述投资信息包括,该机构的子公司、母公司或分公司信息,
采用上述方案,能全方位的查找机构舆情相关的各类信息,并将信息集合在一起,保证机构各类信息的全面性和完整性。
进一步地,所述特征词清洗加工模块包括:
初步过滤单元,用于对候选特征词进行初步过滤,删除常用词、过短过长的词和明显不可用的词,形成过滤特征词;
初步处理单元,用于对过滤特征词进行加工处理,形成优选特征词,所述对过滤特征词进行加工处理包括:将机构对应舆情信息和特征词对应舆情信息信息进行相关度分析,进一步筛选特征词。
采用上述方案,筛选掉无用的多余特征词,减少了多余特征词,避免了多余特征词对集合中其他特征词的影响。
进一步地,所述初步过滤单元包括以下至少一个子单元:
第一过滤子单元:用于利用分词工具对候选特征词进行分词处理,在语料库中搜索获取该词的IDF值,判断该特征词的IDF值是否小于指数阈值,若小于则丢弃,所述IDF(Inverse Document Frequency)是一种主要用于信息检索与数据挖掘的加权技术,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
第二次过滤子单元:用于将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除;
第三次过滤子单元,用于删除明显不可用的词,所述明显不可用的词可以是助词或介词至少一项。
采用上述方案,利用单独或组合方式对候选特征词进行初步过滤,形成长短适宜、关联度高、简洁的过滤特征词。
进一步地,所述特征词统计分析模块包括:
舆情信息单元,用于采集通过机构名称匹配出的机构对应舆情信息,和通过优选特征词匹配出的特征词对应舆情信息,所述舆情信息是对舆情的一种描述和反应,指大众对舆情状态的客观反应;
相关度分析单元,用于将机构对应舆情信息和特征词对应舆情信息进行相关度分析,分析舆情信息中共同出现的现象;
阈值筛选单元,用于判定优选特征词对应的相关度是否大于设定阈值,若是,则保留该特征词,若否,则删除,剩下的即为扩展特征词。
采用上述方案,进一步保证了特征词的有效性,提高数据精确性,生成最终的拓展特征词。
本发明另一方面提供了一种用于舆情爬取的机构特征词汇扩展方法,包括以下步骤:
采集数据;
对特征词进行初步筛选;
通过相关度分析,进一步筛选特征词,最终生成拓展特征词。
采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。
进一步地,所述数据采集包括以下步骤:
采集知识产权信息、投资信息或产品信息,将其整理作为候选特征词;
采用上述方案,能全方位的查找机构舆情相关的各类信息,并将信息集合在一起,保证机构各类信息的全面性和完整性。
进一步地,所述对特征词进行初步筛选包括以下步骤:
对候选特征词进行初步过滤,删除常用词、过短过长的词和明显不可用的词,形成过滤特征词;
对过滤特征词进行加工处理,形成优选特征词。
采用上述方案,筛选掉无用的多余特征词,减少了多余特征词,避免了多余特征词对集合中其他特征词的影响。
进一步地,所述对候选特征词进行初步过滤包括以下至少一个过滤方法:
第一过滤方法:利用分词工具对候选特征词进行分词处理,在语料库中搜索获取该词的IDF值,判断该特征词的IDF值是否小于指数阈值,若小于则丢弃;
第二过滤方法:将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除;
第三过滤方法:删除明显不可用的词,所述明显不可用的词可以是助词或介词至少一项。
采用上述方案,利用单独或组合方式对候选特征词进行初步过滤,形成长短适宜、关联度高、简洁的过滤特征词。
进一步地,所述通过相关度分析,进一步筛选特征词,最终生成拓展特征词包括以下步骤:
采集通过机构名称匹配出的机构对应舆情信息,和通过优选特征词匹配出的特征词对应舆情信息;
将机构对应舆情信息和特征词对应舆情信息进行相关度分析,分析舆情信息中共同出现的现象;
判定优选特征词对应的相关度是否大于设定阈值,若是,则保留该特征词,若否,则删除,剩下的即为扩展特征词。
采用上述方案,进一步保证了特征词的有效性,提高数据精确性,生成最终的拓展特征词。
进一步地,所述相关度的计算方法如下:
Figure BDA0002263858240000041
所述机构对应的舆情信息,记为集合Dj,优选特征词对应舆情信息,记为集合Dt,上述公式中
Figure BDA0002263858240000042
表示机构对应舆情集合Dj的大小,
Figure BDA0002263858240000043
表示特征词对应舆情集合Dt的大小,
Figure BDA0002263858240000044
表示集合Dj和Dt交集的大小,
Figure BDA0002263858240000045
表示集合Dj和Dt并集的大小,w1、w2、w3分别为权重。
采用上述方案,操作简单,计算可靠,结果直观。
综上所述,本发明具有以下有益效果:
1、通过自动化的的方法对机构特征词进行扩展,不需要人工参与;
2、全方位的对数据信息进行采集,形成拓展特征词,再进行舆情检索,丰富机构舆情信息,极大程度的避免了漏检现象的发生;
3、对特征词进行筛选,提高特征词质量,减少无用信息量,有助于提高采集企业舆情信息质量,使其分析监测更为全面准确。
附图说明
图1是本发明用于舆情爬取的机构特征词汇扩展系统一种实施系统的流程示意图;
图2是本发明用于舆情爬取的机构特征词汇扩展系统一种实施方式的流程示意图;
具体实施方式:
这里将详细地对示例性实施例进行说明,以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
具体的,如图1所示,本实施例提供了一种用于舆情爬取的机构特征词汇扩展系统,包括:
数据采集模块:用于采集数据;
特征词清洗加工模块:用于对特征词进行初步筛选;
特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。
采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。
在本实施例一个优选的实施方式中,所述数据采集模块包括:
候选特征词单元,用于采集知识产权信息、投资信息或产品信息,将其整理作为候选特征词,所述投资信息包括,该机构的子公司、母公司或分公司信息,
采用上述方案,能全方位的查找机构舆情相关的各类信息,并将信息集合在一起,保证机构各类信息的全面性和完整性。
在本实施例一个优选的实施方式中,所述特征词清洗加工模块包括:
初步过滤单元,用于对候选特征词进行初步过滤,删除常用词、过短过长的词和明显不可用的词,形成过滤特征词;
初步处理单元,用于对过滤特征词进行加工处理,形成优选特征词,所述对过滤特征词进行加工处理包括:将机构对应舆情信息和特征词对应舆情信息信息进行相关度分析,进一步筛选特征词。
采用上述方案,筛选掉无用的多余特征词,减少了多余特征词,避免了多余特征词对集合中其他特征词的影响。
在本实施例一个优选的实施方式中,所述初步过滤单元包括以下至少一个子单元:
第一过滤子单元:用于利用分词工具对候选特征词进行分词处理,在语料库中搜索获取该词的IDF值,判断该特征词的IDF值是否小于指数阈值,若小于则丢弃,所述IDF(Inverse Document Frequency)是一种主要用于信息检索与数据挖掘的加权技术,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
第二次过滤子单元:用于将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除;
第三次过滤子单元,用于删除明显不可用的词,所述明显不可用的词可以是助词或介词至少一项。
采用上述方案,利用单独或组合方式对候选特征词进行初步过滤,形成长短适宜、关联度高、简洁的过滤特征词。
在本实施例一个优选的实施方式中,所述特征词统计分析模块包括:
舆情信息单元,用于采集通过机构名称匹配出的机构对应舆情信息,和通过优选特征词匹配出的特征词对应舆情信息,所述舆情信息是对舆情的一种描述和反应,指大众对舆情状态的客观反应;
相关度分析单元,用于将机构对应舆情信息和特征词对应舆情信息进行相关度分析,分析舆情信息中共同出现的现象;
阈值筛选单元,用于判定优选特征词对应的相关度是否大于设定阈值,若是,则保留该特征词,若否,则删除,剩下的即为扩展特征词。
采用上述方案,进一步保证了特征词的有效性,提高数据精确性,生成最终的拓展特征词。
实施例2
如图2所示,本实施例提供了一种用于舆情爬取的机构特征词汇扩展方法,包括以下步骤:
采集数据;
对特征词进行初步筛选;
通过相关度分析,进一步筛选特征词,最终生成拓展特征词。
采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。
在本实施例一个优选的实施方式中,所述数据采集包括以下步骤:
采集知识产权信息、投资信息或产品信息,将其整理作为候选特征词;
采用上述方案,能全方位的查找机构舆情相关的各类信息,并将信息集合在一起,保证机构各类信息的全面性和完整性。
在本实施例一个优选的实施方式中,所述对特征词进行初步筛选包括以下步骤:
对候选特征词进行初步过滤,删除常用词、过短过长的词和明显不可用的词,形成过滤特征词;主要是过滤候选特征词中纯数字的特征词或者包含特殊字符、表情符的特征词,如:“u信”、“SCFP”、“123”、“¥贷款¥”;
对过滤特征词进行加工处理,形成优选特征词。在具体实施过程中,所述候选特征词加工处理,主要是去掉候选特征词中的结尾词,所述结尾词如“系统”、“官方系统”、“官方网站”、“官网”等,例如“网讯科技官方网站”、“九慧金服官网”,去掉“官方网站”、“官网”后,保留“网讯科技”、“九慧金服”作为候选特征词进行后续步骤的分析处理。
采用上述方案,筛选掉无用的多余特征词,减少了多余特征词,避免了多余特征词对集合中其他特征词的影响。
在本实施例一个优选的实施方式中,所述对候选特征词进行初步过滤包括以下至少一个过滤方法:
第一过滤方法:利用分词工具对候选特征词进行分词处理,在语料库中搜索获取该词的IDF值,判断该特征词的IDF值是否小于指数阈值,若小于则丢弃;
第二过滤方法:将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除;如:“贷款”、“陆金所网络投资理财系统IOS手机端软件”等长度小于等于2或者大于8的词汇都不适合选为特征词;所述明显不可用的词可以是助词或介词,如的、地、得,或前、后、左等。
第三过滤方法:删除明显不可用的词,所述明显不可用的词可以是助词或介词至少一项。
采用上述方案,利用单独或组合方式对候选特征词进行初步过滤,形成长短适宜、关联度高、简洁的过滤特征词。
在本实施例一个优选的实施方式中,所述通过相关度分析,进一步筛选特征词,最终生成拓展特征词包括以下步骤:
采集通过机构名称匹配出的机构对应舆情信息,和通过优选特征词匹配出的特征词对应舆情信息;
将机构对应舆情信息和特征词对应舆情信息进行相关度分析,分析舆情信息中共同出现的现象;
判定优选特征词对应的相关度是否大于设定阈值,若是,则保留该特征词,若否,则删除,剩下的即为扩展特征词。
采用上述方案,进一步保证了特征词的有效性,提高数据精确性,生成最终的拓展特征词。
在本实施例一个优选的实施方式中,所述相关度的计算方法如下:
Figure BDA0002263858240000081
所述机构对应的舆情信息,记为集合Dj,优选特征词对应舆情信息,记为集合Dt,上述公式中
Figure BDA0002263858240000082
表示机构对应舆情集合Dj的大小,
Figure BDA0002263858240000083
表示特征词对应舆情集合Dt的大小,
Figure BDA0002263858240000084
表示集合Dj和Dt交集的大小,
Figure BDA0002263858240000085
表示集合Dj和Dt并集的大小,w1、w2、w3分别为权重。
采用上述方案,操作简单,计算可靠,结果直观。

Claims (10)

1.一种用于舆情爬取的机构特征词汇扩展系统,其特征在于,包括:
数据采集模块:用于采集数据;
特征词清洗加工模块:用于对特征词进行初步筛选;
特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。
2.根据权利要求1所述的用于舆情爬取的机构特征词汇扩展系统,其特征在于,所述数据采集模块包括:
候选特征词单元,用于采集知识产权信息、投资信息或产品信息,将其整理作为候选特征词。
3.根据权利要求1所述的用于舆情爬取的机构特征词汇扩展系统,其特征在于,所述特征词清洗加工模块包括:
初步过滤单元,用于对候选特征词进行初步过滤,删除常用词、过短过长的词和明显不可用的词,形成过滤特征词;
初步处理单元,用于对过滤特征词进行加工处理,形成优选特征词。
4.根据权利要求3所述的用于舆情爬取的机构特征词汇扩展系统,其特征在于,所述初步过滤单元包括以下至少一个子单元:
第一过滤子单元:用于利用分词工具对候选特征词进行分词处理,在语料库中搜索获取该词的IDF值,判断该特征词的IDF值是否小于指数阈值,若小于则丢弃;
第二次过滤子单元:用于将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除;
第三次过滤子单元,用于删除明显不可用的词,所述明显不可用的词可以是助词或介词至少一项。
5.根据权利要求1所述的用于舆情爬取的机构特征词汇扩展系统,其特征在于,所述特征词统计分析模块包括:
舆情信息单元,用于采集通过机构名称匹配出的机构对应舆情信息,和通过优选特征词匹配出的特征词对应舆情信息;
相关度分析单元,用于将机构对应舆情信息和特征词对应舆情信息进行相关度分析,分析舆情信息中共同出现的现象;
阈值筛选单元,用于判定优选特征词对应的相关度是否大于设定阈值,若是,则保留该特征词,若否,则删除,剩下的即为扩展特征词。
6.一种用于舆情爬取的机构特征词汇扩展方法,其特征在于:包括以下步骤:
采集数据;
对特征词进行初步筛选;
通过相关度分析,进一步筛选特征词,最终生成拓展特征词。
7.根据权利要求6所述的用于舆情爬取的机构特征词汇扩展方法,其特征在于:所述数据采集包括以下步骤:
采集知识产权信息、投资信息或产品信息,将其整理作为候选特征词。
8.根据权利要求6所述的用于舆情爬取的机构特征词汇扩展方法,其特征在于,所述对特征词进行初步筛选包括以下步骤:
对候选特征词进行初步过滤,删除常用词、过短过长的词和明显不可用的词,形成过滤特征词;
对过滤特征词进行加工处理,形成优选特征词。
进一步地,所述对候选特征词进行初步过滤包括以下至少一个过滤方法:
第一过滤方法:利用分词工具对候选特征词进行分词处理,在语料库中搜索获取该词的IDF值,判断该特征词的IDF值是否小于指数阈值,若小于则丢弃;
第二过滤方法:将长度小于最小长度阈值和大于最大长度阈值的候选特征词进行删除;
第三过滤方法:删除明显不可用的词,所述明显不可用的词可以是助词或介词至少一项。
9.根据权利要求6所述的用于舆情爬取的机构特征词汇扩展方法,其特征在于:所述通过相关度分析,进一步筛选特征词,最终生成拓展特征词包括以下步骤:
采集通过机构名称匹配出的机构对应舆情信息,和通过优选特征词匹配出的特征词对应舆情信息;
将机构对应舆情信息和特征词对应舆情信息进行相关度分析,分析舆情信息中共同出现的现象;
判定优选特征词对应的相关度是否大于设定阈值,若是,则保留该特征词,若否,则删除,剩下的即为扩展特征词。
10.根据权利要求9所述的用于舆情爬取的机构特征词汇扩展方法,其特征在于,所述相关度的计算方法如下:
Figure FDA0002263858230000021
所述机构对应的舆情信息,记为集合Dj,优选特征词对应舆情信息,记为集合Dt,上述公式中
Figure FDA0002263858230000031
表示机构对应舆情集合Dj的大小,
Figure FDA0002263858230000032
表示特征词对应舆情集合Dt的大小,
Figure FDA0002263858230000033
表示集合Dj和Dt交集的大小,
Figure FDA0002263858230000034
表示集合Dj和Dt并集的大小,w1、w2、w3分别为权重。
CN201911080694.3A 2019-11-07 2019-11-07 一种用于舆情爬取的机构特征词汇扩展系统和方法 Active CN110852090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911080694.3A CN110852090B (zh) 2019-11-07 2019-11-07 一种用于舆情爬取的机构特征词汇扩展系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911080694.3A CN110852090B (zh) 2019-11-07 2019-11-07 一种用于舆情爬取的机构特征词汇扩展系统和方法

Publications (2)

Publication Number Publication Date
CN110852090A true CN110852090A (zh) 2020-02-28
CN110852090B CN110852090B (zh) 2024-03-19

Family

ID=69599563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911080694.3A Active CN110852090B (zh) 2019-11-07 2019-11-07 一种用于舆情爬取的机构特征词汇扩展系统和方法

Country Status (1)

Country Link
CN (1) CN110852090B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650817A (zh) * 2020-12-08 2021-04-13 清华大学 关键词汇扩展方法及系统、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104794161A (zh) * 2015-03-24 2015-07-22 浪潮集团有限公司 对网络舆情监控的方法
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理系统及方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107341142A (zh) * 2017-05-18 2017-11-10 辛柯俊 一种基于关键词提取分析的企业关系计算方法及系统
CN107992473A (zh) * 2017-11-24 2018-05-04 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
US20180341839A1 (en) * 2017-05-26 2018-11-29 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110232124A (zh) * 2019-06-03 2019-09-13 安徽智侒信信息技术有限公司 一种情感分析系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104794161A (zh) * 2015-03-24 2015-07-22 浪潮集团有限公司 对网络舆情监控的方法
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理系统及方法
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统
CN107341142A (zh) * 2017-05-18 2017-11-10 辛柯俊 一种基于关键词提取分析的企业关系计算方法及系统
US20180341839A1 (en) * 2017-05-26 2018-11-29 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN107992473A (zh) * 2017-11-24 2018-05-04 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110232124A (zh) * 2019-06-03 2019-09-13 安徽智侒信信息技术有限公司 一种情感分析系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JUSTIN KER等: "Deep Learning Applications in Medical Image Analysis", IEEE, vol. 6, pages 9375, XP055511200, DOI: 10.1109/ACCESS.2017.2788044 *
张玉珠;: "基于K-means聚类的网络舆情监控系统", 通信技术, vol. 46, no. 01, pages 57 *
朱岩等: "面向舆情的社交媒体文本倾向性分析", 信息安全研究, vol. 3, no. 9, pages 781 *
翁俊河等: "基于大数据挖掘的网络舆情智能分析系统关键技术研究", 通信设计与应用, vol. 26, no. 9, pages 116 *
贺敏等: "基于用户行为特征的微博转发预测研究", 计算机学报, vol. 39, no. 10, pages 1992 *
黄文明等: "基于文本加权KNN算法的中文垃圾短信过滤", 计算机工程, vol. 43, no. 3, pages 193 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650817A (zh) * 2020-12-08 2021-04-13 清华大学 关键词汇扩展方法及系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN110852090B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN109684440B (zh) 基于层级标注的地址相似度度量方法
WO2020186627A1 (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN113837531A (zh) 一种基于网络评论的产品质量问题发现及风险评估方法
CN105787073A (zh) 一种基于大数据挖掘技术的企业信用评价方法
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN110825839A (zh) 一种对文本信息中目标的关联关系分析方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
TWI477987B (zh) 新聞文本情緒傾向分析方法
CN112149422A (zh) 一种基于自然语言的企业新闻动态监测方法
CN109063983A (zh) 一种基于社交媒体数据的自然灾害损失实时评估方法
CN110852090A (zh) 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN107480126B (zh) 一种工程材料类别智能识别方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN110362828B (zh) 网络资讯风险识别方法及系统
CN108615124B (zh) 基于词频分析的企业评价方法及系统
CN107886233B (zh) 客服的服务质量评价方法和系统
CN114331021A (zh) 一种基于网络点评语义分析的寒地城市景区季节综合评价方法和装置
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN110414819B (zh) 一种工单评分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant