CN109325860A - 用于海外投资风险预警的网络舆情检测方法及系统 - Google Patents

用于海外投资风险预警的网络舆情检测方法及系统 Download PDF

Info

Publication number
CN109325860A
CN109325860A CN201810992717.7A CN201810992717A CN109325860A CN 109325860 A CN109325860 A CN 109325860A CN 201810992717 A CN201810992717 A CN 201810992717A CN 109325860 A CN109325860 A CN 109325860A
Authority
CN
China
Prior art keywords
information
public
investment risk
topic
opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810992717.7A
Other languages
English (en)
Inventor
薛文芳
李林静
孙哲南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810992717.7A priority Critical patent/CN109325860A/zh
Publication of CN109325860A publication Critical patent/CN109325860A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于海外投资风险预警的网络舆情检测方法及系统,所述网络舆情检测方法包括:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;根据所述有效舆情信息,确定海外投资风险情报。本发明通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。

Description

用于海外投资风险预警的网络舆情检测方法及系统
技术领域
本发明涉及网络舆情监测领域,特别是涉及一种用于海外投资风险预警的网络舆情检测方法及系统。
背景技术
我国走出去企业面临各国政治、经济、产业、技术、金融、税收、政策、资源、环保、生态、生物、自然灾害等多维度风险因素,加之战争动乱、恐怖活动、反华势力等不利影响,往往使我国海外投资项目遭受重大损失的案例时有发生。
国际舆情是在全球范围社会空间内,人们对于政治、经济、社会、道德等某一现象和问题所表达的信念、态度、意见和情绪等现象。舆情监测对于我国走出去企业的投资安全具有重要意义,利用互联网舆情监控系统,可以从纷繁复杂的涉华舆情信息中及时预判出即将出现的政治、经济、文化、宗教、社会风险,并通知年企业提前做好预案。
然而,由于无法有效的综合国际舆情信息,从而导致海外投资风险预警的及时性和准确性都比较差。
发明内容
为了解决现有技术中的上述问题,即为了解决有效的综合国际舆情信息,提高海外投资风险预警的及时性和准确性,本发明提供了一种用于海外投资风险预警的网络舆情检测方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种用于海外投资风险预警的网络舆情检测方法,所述网络舆情检测方法包括:
采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;
根据所述有效舆情信息,确定海外投资风险情报。
可选的,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:
通过过滤无关页面和链接,获取主题相关页面;
对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;
根据所述标准词汇,分析情感倾向,确定网民观点;
根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。
可选的,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:
从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存;
通过各所述信息内容,对不同话题进行关联检测;
根据关联检测结果,将针对同一话题的报道归为一类舆情信息;
追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。
可选的,所述通过各所述信息内容,对不同话题进行关联检测,具体采用以下任意方法:
相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法。
可选的,(1)通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:
建立信息内容的特征向量;
通过以下欧氏距离计算公式获取信息内容间相似度:
其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;
根据各相似度值,进行聚类并去掉冗余信息;
(2)通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:
根据以下公式,将m个特征空间中的特征点划分为指定为q类:
其中,Cj是第j个聚类类别,μj是第j个聚类类别所对应的聚类中心,xi是属于类别Cj的数据点;R表示基于话题检测方法的关联检检测结果;
(3)通过各所述信息内容,基于话题追踪方法,对不同话题进行关联检测,具体包括:
在基于话题检测方法的关联检检测结果的基础上进行话题追踪分析,分析结果为整个话题的起因、发展、消亡过程;
通过自适应话题追踪算法完成话题追踪,构造多个话题修正模型,实现话题动态的及时反馈;
(4)通过各所述信息内容,基于极性词典的构建及情感分析方法,对不同话题进行关联检测,具体包括:
基于基础词典、网络词词典、领域词典以及修饰词词典中至少一者,构建极性词典;
基于极性词典的情感分析,在极性词典的匹配基础上,采用支持向量机SVM方法完成极性分类。
可选的,所述分析对应话题的发展趋势以及倾向性具体采用以下方法中至少一者:
溯源分析、态势分析、趋势预测、波及范围分析、影响程度分析、重点任务社会关系图谱、舆论倾向分析。
可选的,所述网络舆情检测方法还包括:
接收用户查询请求;
根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来;
生成的初级报告。
可选的,所述网络舆情检测方法还包括:
通过分布式综合集成数据库,对有效舆情信息及海外投资风险情报进行存储和管理。
可选的,所述通过分布式综合集成数据库对有效舆情信息及海外投资风险情报进行存储和管理,具体包括:
基于Hadoop搭建大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现PB级多源异构大数据的批量和流式处理。
为解决上述技术问题,本发明还提供了如下方案:
一种用于海外投资风险预警的网络舆情检测系统,所述网络舆情检测系统包括:
采集处理单元,用于采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;
舆情分析单元,用于根据所述有效舆情信息,确定海外投资风险情报。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。
附图说明
图1是本发明用于海外投资风险预警的网络舆情检测方法的流程图;
图2是本发明用于海外投资风险预警的网络舆情检测方法的实施例示意图;
图3是本发明用于海外投资风险预警的网络舆情检测系统的模块结构示意图。
符号说明:
采集处理单元—1,舆情分析单元—2,接收单元—3,查询单元—4,生成单元—5。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的在于提供一种用于海外投资风险预警的网络舆情检测方法,通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。
如图1所示,本发明用于海外投资风险预警的网络舆情检测方法包括:
步骤100:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息。
步骤200:根据所述有效舆情信息,确定海外投资风险情报。
步骤300:接收用户查询请求。
步骤400:根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来。
步骤500:生成的初级报告。
其中,聚焦爬虫是在普通爬虫的基础上引入页面相关性分析和URL优先级判断两个模块。
在步骤100中,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:
步骤101:通过过滤无关页面和链接,获取主题相关页面;
步骤102:对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;
步骤103:根据所述标准词汇,分析情感倾向,确定网民观点;
步骤104:根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。
在步骤200中,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:
步骤201:从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存。
步骤202:通过各所述信息内容,对不同话题进行关联检测。
可具体采用相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法中任意一者,对不同话题进行关联检测。
步骤203:根据关联检测结果,将针对同一话题的报道归为一类舆情信息。
步骤204:追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。
其中,(1)相似度计算:
数据库中的信息十分庞杂,有些信息之间内容相似,应进行聚类;有些信息之间则几乎没有相关性。这种情况不利于计算机的分析处理,还需要利用文本相似度计算技术,对信息进行进一步的处理,将相似度很高的信息聚类并去掉冗余信息。相似度计算即计算文本之间的相似度并实现主题之间的语义关联,其基本方法是基于向量实现的,而后计算特征向量之间的欧式距离。
其中,通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:
建立信息内容的特征向量;
通过以下欧氏距离计算公式获取信息内容间相似度:
其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;
根据各相似度值,进行聚类并去掉冗余信息。
(2)话题检测:
话题检测的目标是对信息中所要表达的内容进行聚类分析。话题检测技术主要有两类:回溯检测与在线检测。回溯检测主要是在己有的信息中检测以前未发现的话题;而在线话题检测的重点在于能够迅速的从实时信息流中标识出新的话题。大多数的话题检测算法是基于聚类算法展开的,然后通过向量空间模型来描述新闻报道以及相应话题,计算话题间的相似度,最后按照既定策略对信息进行聚类。在本实施例中,话题检测方法为K均值聚类算法。
其中,通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:
根据以下公式,将m个特征空间中的特征点划分为指定为q类:
其中,Cj是第j个聚类类别,μj是第j个聚类类别所对应的聚类中心,xi是属于类别Cj的数据点;R表示基于话题检测方法的关联检检测结果。
其中,确定聚类中心点的具体方法包括:
1)首先是选取每一类的初始聚类中心。
对于每一个类别,对于不同问题可以根据一定的偏限制条件选取聚类中心,只要就得到了k个初始聚类中心。
2)将每个特征点找到其所对应的类。
一般地,选取欧几里得距离,通过对数据中的每个特征点与第一步选取的聚类中心点的距离的计算,选择距离最短中心所属类别作为其类别标签。
3)基于第二步的结果,利用每一类中的特征点继续重复计算得到新的聚类中心,这样将会得到一组新的聚类中心点。
4)重复进行第二部和第三步的操作直到所有被聚类点的类别不变。
(3)话题追踪:
通过各所述信息内容,基于话题追踪方法,对不同话题进行关联检测,具体包括:
在基于话题检测方法的关联检检测结果的基础上进行话题追踪分析,分析结果为整个话题的起因、发展、消亡过程;
通过自适应话题追踪算法完成话题追踪,构造多个话题修正模型,实现话题动态的及时反馈。
(4)极性词典的构建及情感分析:
通过各所述信息内容,基于极性词典的构建及情感分析方法,对不同话题进行关联检测,具体包括:
基于基础词典、网络词词典、领域词典以及修饰词词典中至少一者,构建极性词典。
基于极性词典的情感分析,在极性词典的匹配基础上,采用支持向量机(SupportVector Machine,SVM)方法完成极性分类。
极性词典在倾向性分析和文本情感分析中起到了基础作用的,它的构建主要包括基础词典、网络词词典、领域词典以及修饰词词典几个方面。建立完善的极性词典之后,就可以在此基础上对网络舆情进行相应的情感分析,将目标文本提出主要情感词,与构建好的极性词典进行比对,从而确定整篇文本的情感倾向,有利于用户快速、高效、准确的把握某事件的整体社会倾向性。
文本情感分析,可以采用支持向量机用于分类,可以准确快速的判断待检测文本的感情色彩(褒义或贬义),其原理与过程如下:
支持向量机SVM是一种基于输入的正负样本的分类器,其核心思想是训练一个超平面,使得在超平面两侧的点的距离最大,该分类器应用十分广泛,尤其在计算机视觉和模式识别领域。对于线性可分的数据核问题,其对数据进行线性变换,最终依靠拉格朗日乘子法选出最优超平面。然而对于有些线性不可分的数据,则可以对其进行非线性变换,这样一来低维的特征空间被映射到一个高维特征空间中。此时高维空间变为可以分割的,最后找到最优的分类超平面。
训练过程详细阐述如下:训练样本集为(x1,y1),(x2,y2)(x3,y3),...,(xn,yn),其中,xi是特征向量,yi∈{-1,+1}是特征向量的类别标签。支持向量机的目的是按照公式ω*x+b=0训练出最佳ω和b的值,进而在数据的分布先验知识没有给出的情况下,最终确定空间中的一个超平面,训练出最佳ω和b的值,使得两种样本的几何距离最大。ω和b的搜索过程依据如下:
其中,ai(i=1,2,3,...,m)是拉格朗日乘子,ai和b是SVC学习算法学习出的参数。其中ai是求解得到的非零值xi是对应的特征向量,K(xi,x)是核函数,可以将低维度的特征空间直接映射到高维的空间中,进而使得样本在高维空间中线性可分。
在步骤400中,根据用户的数据查询请求,提供包括专题检索、标题检索、模糊检索、联想检索、字符串检索等多种快速查询检索方式。
检索结果支持按发布时间分类排序、按类别分类排序、按相似度分类排序、按重复度分类排序。
数据可视化是将数据信息以某种图形图像可视化的形式呈现出来,给观察者提供一种量化的方式,增加数据的可理解性和可信度。该系统中使用的可视化技术主要包括空间三维图形、颜色图、亮度图三种。
在步骤500中,为实现流程管理的自动化和业务逻辑的模块化,还开发一套报告自动生成系统,自动完成原始数据收集、原始数据的加工计算、数据提取录入、表格编辑、曲线绘制,编辑生成初级报告,极大地提高工作效率。
而且为了确保数据的安全性,本发明通讯数据流使用SSL3.0安全套接层通讯,采用https加密协议传输,服务器端与客户端之间的通讯需要相互认证,确保远程管理、浏览查询等用户操作时的通讯安全,各个功能模块之间通讯要求保证数据的合法性、数据的保密性、数据的不可否认性和数据的完整性。在系统安全管理方面,实时检测各功能模块运作状态,对重要模块提供双机热备份,安装反病毒、反木马、防火墙软件,加装入侵检测系统,定时更新病毒库、木马库,及时更新系统补丁,确保系统不被病毒、木马攻击和感染。
此外,本发明用于海外投资风险预警的网络舆情检测方法还包括:
通过分布式综合集成数据库,对有效舆情信息及海外投资风险情报进行存储和管理(如图2所示)。
其中,所述通过分布式综合集成数据库对有效舆情信息及海外投资风险情报进行存储和管理,具体包括:
基于Hadoop搭建大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现PB级多源异构大数据的批量和流式处理。
分布式综合集成数据库的作用是对搜集于新闻网站、社交媒体、论坛、博客的全媒体大数据进行存储和管理。舆情分析系统需要处理的数据量非常巨大,数据包括图文音视等多种媒体形态和XML、HTML、DOC、PDF和EXCEL等多种数据格式,因此系统对数据存储规模和管理科学程度有很高的要求。本发明基于Hadoop搭建具有高可靠性和良好扩展性的大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现PB级多源异构大数据的批量和流式处理。由Hadoop交互模块对不同来源的数据进行清洗、格式判断,上传至HDFS进行存储;用MapReduce对于文本数据进行语义理解,挖掘提炼有效情报。
此外,本发明还提供一种用于海外投资风险预警的网络舆情检测系统,可有效的综合国际舆情信息,提高海外投资风险预警的及时性和准确性。
如图3所示,本发明用于海外投资风险预警的网络舆情检测系统包括采集处理单元1、舆情分析单元2、接收单元3、查询单元4及生成单元5。
其中,所述采集处理单元1用于采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息。
所述舆情分析单元2用于根据所述有效舆情信息,确定海外投资风险情报。
所述接收单元3用于接收用户查询请求。
所述查询单元4用于根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来。
所述生成单元5用于生成的初级报告。
相对于现有技术,本发明用于海外投资风险预警的网络舆情检测系统与上述用于海外投资风险预警的网络舆情检测方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种用于海外投资风险预警的网络舆情检测方法,其特征在于,所述网络舆情检测方法包括:
采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;
根据所述有效舆情信息,确定海外投资风险情报。
2.根据权利要求1所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:
通过过滤无关页面和链接,获取主题相关页面;
对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;
根据所述标准词汇,分析情感倾向,确定网民观点;
根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。
3.根据权利要求1所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:
从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存;
通过各所述信息内容,对不同话题进行关联检测;
根据关联检测结果,将针对同一话题的报道归为一类舆情信息;
追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。
4.根据权利要求3所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述通过各所述信息内容,对不同话题进行关联检测,具体采用以下任意方法:
相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法。
5.根据权利要求4所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,
(1)通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:
建立信息内容的特征向量;
通过以下欧氏距离计算公式获取信息内容间相似度:
其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;
根据各相似度值,进行聚类并去掉冗余信息;
(2)通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:
根据以下公式,将m个特征空间中的特征点划分为指定为q类:
其中,Cj是第j个聚类类别,μj是第j个聚类类别所对应的聚类中心,xi是属于类别Cj的数据点;R表示基于话题检测方法的关联检检测结果;
(3)通过各所述信息内容,基于话题追踪方法,对不同话题进行关联检测,具体包括:
在基于话题检测方法的关联检检测结果的基础上进行话题追踪分析,分析结果为整个话题的起因、发展、消亡过程;
通过自适应话题追踪算法完成话题追踪,构造多个话题修正模型,实现话题动态的及时反馈;
(4)通过各所述信息内容,基于极性词典的构建及情感分析方法,对不同话题进行关联检测,具体包括:
基于基础词典、网络词词典、领域词典以及修饰词词典中至少一者,构建极性词典;
基于极性词典的情感分析,在极性词典的匹配基础上,采用支持向量机SVM方法完成极性分类。
6.根据权利要求3所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述分析对应话题的发展趋势以及倾向性具体采用以下方法中至少一者:
溯源分析、态势分析、趋势预测、波及范围分析、影响程度分析、重点任务社会关系图谱、舆论倾向分析。
7.根据权利要求1-6中任一项所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述网络舆情检测方法还包括:
接收用户查询请求;
根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来;
生成的初级报告。
8.根据权利要求1-6中任一项所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述网络舆情检测方法还包括:
通过分布式综合集成数据库,对有效舆情信息及海外投资风险情报进行存储和管理。
9.根据权利要求8所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述通过分布式综合集成数据库对有效舆情信息及海外投资风险情报进行存储和管理,具体包括:
基于Hadoop搭建大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现PB级多源异构大数据的批量和流式处理。
10.一种用于海外投资风险预警的网络舆情检测系统,其特征在于,所述网络舆情检测系统包括:
采集处理单元,用于采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;
舆情分析单元,用于根据所述有效舆情信息,确定海外投资风险情报。
CN201810992717.7A 2018-08-29 2018-08-29 用于海外投资风险预警的网络舆情检测方法及系统 Pending CN109325860A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810992717.7A CN109325860A (zh) 2018-08-29 2018-08-29 用于海外投资风险预警的网络舆情检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810992717.7A CN109325860A (zh) 2018-08-29 2018-08-29 用于海外投资风险预警的网络舆情检测方法及系统

Publications (1)

Publication Number Publication Date
CN109325860A true CN109325860A (zh) 2019-02-12

Family

ID=65264352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810992717.7A Pending CN109325860A (zh) 2018-08-29 2018-08-29 用于海外投资风险预警的网络舆情检测方法及系统

Country Status (1)

Country Link
CN (1) CN109325860A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400173A (zh) * 2019-07-23 2019-11-01 中译语通科技股份有限公司 市场情绪监测体系建立方法和系统
CN110619572A (zh) * 2019-09-20 2019-12-27 重庆誉存大数据科技有限公司 一种监控企业公开数据高容错性增长的方法
CN110717111A (zh) * 2019-10-15 2020-01-21 深圳迅策科技有限公司 一种基于互联网信息的舆情分析的方法
CN110717676A (zh) * 2019-10-10 2020-01-21 广西电网有限责任公司 一种履约风险管控方法及系统
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN113392185A (zh) * 2021-06-10 2021-09-14 中国联合网络通信集团有限公司 舆情预警方法、装置、设备及存储介质
CN114153915A (zh) * 2021-09-10 2022-03-08 北京天德科技有限公司 一种区块链中信息溯源与追踪的方法及系统
CN116701729A (zh) * 2023-08-01 2023-09-05 贵州融云信息技术有限公司 一种网络舆情检测系统及检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831220A (zh) * 2012-08-23 2012-12-19 江苏物联网研究发展中心 一种面向主题定制的新闻情报提取系统
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN105468669A (zh) * 2015-10-13 2016-04-06 中国科学院信息工程研究所 一种融合用户关系的自适应微博话题追踪方法
CN106294316A (zh) * 2016-07-29 2017-01-04 陕西师范大学 一种基于词典的文本情感分析方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统
CN108364124A (zh) * 2018-01-26 2018-08-03 天津中科智能识别产业技术研究院有限公司 基于大数据的国际产能合作风险评估与决策服务系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN102831220A (zh) * 2012-08-23 2012-12-19 江苏物联网研究发展中心 一种面向主题定制的新闻情报提取系统
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN105468669A (zh) * 2015-10-13 2016-04-06 中国科学院信息工程研究所 一种融合用户关系的自适应微博话题追踪方法
CN106294316A (zh) * 2016-07-29 2017-01-04 陕西师范大学 一种基于词典的文本情感分析方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN108364124A (zh) * 2018-01-26 2018-08-03 天津中科智能识别产业技术研究院有限公司 基于大数据的国际产能合作风险评估与决策服务系统
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400173A (zh) * 2019-07-23 2019-11-01 中译语通科技股份有限公司 市场情绪监测体系建立方法和系统
WO2021012684A1 (zh) * 2019-07-23 2021-01-28 中译语通科技股份有限公司 市场情绪监测体系建立方法和系统
CN110619572A (zh) * 2019-09-20 2019-12-27 重庆誉存大数据科技有限公司 一种监控企业公开数据高容错性增长的方法
CN110717676A (zh) * 2019-10-10 2020-01-21 广西电网有限责任公司 一种履约风险管控方法及系统
CN110717111A (zh) * 2019-10-15 2020-01-21 深圳迅策科技有限公司 一种基于互联网信息的舆情分析的方法
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112395539B (zh) * 2020-11-26 2021-12-17 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN113392185A (zh) * 2021-06-10 2021-09-14 中国联合网络通信集团有限公司 舆情预警方法、装置、设备及存储介质
CN113392185B (zh) * 2021-06-10 2023-06-23 中国联合网络通信集团有限公司 舆情预警方法、装置、设备及存储介质
CN114153915A (zh) * 2021-09-10 2022-03-08 北京天德科技有限公司 一种区块链中信息溯源与追踪的方法及系统
CN116701729A (zh) * 2023-08-01 2023-09-05 贵州融云信息技术有限公司 一种网络舆情检测系统及检测方法
CN116701729B (zh) * 2023-08-01 2023-10-31 贵州融云信息技术有限公司 一种网络舆情检测系统及检测方法

Similar Documents

Publication Publication Date Title
CN109325860A (zh) 用于海外投资风险预警的网络舆情检测方法及系统
Peng et al. Fine-grained event categorization with heterogeneous graph convolutional networks
Das et al. Bangla hate speech detection on social media using attention-based recurrent neural network
CN104537097B (zh) 微博舆情监测系统
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
CN109101597A (zh) 一种电力新闻数据采集系统
Xie et al. A novel text mining approach for scholar information extraction from web content in Chinese
CN102123172B (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
Geng et al. Explainable zero-shot learning via attentive graph convolutional network and knowledge graphs
Zhang et al. Taxogen: Constructing topical concept taxonomy by adaptive term embedding and clustering
Rivera et al. News classification for identifying traffic incident points in a Spanish-speaking country: A real-world case study of class imbalance learning
Wang Translation correction of English phrases based on optimized GLR algorithm
Yekun et al. Student performance prediction with optimum multilabel ensemble model
Li A comparative study of keyword extraction algorithms for English texts
Wang et al. Multi-modal transformer using two-level visual features for fake news detection
Thandaga Jwalanaiah et al. Effective deep learning based multimodal sentiment analysis from unstructured big data
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
Yao Design and simulation of integrated education information teaching system based on fuzzy logic
Zhañay et al. A Text Mining Approach to Discover Real-Time Transit Events from Twitter
CN111898528A (zh) 数据处理方法、装置、计算机可读介质及电子设备
Li et al. Improving the system log analysis with language model and semi-supervised classifier
Bhattacharjee et al. Multimodal co-training for fake news identification using attention-aware fusion
Lu et al. Mining latent attributes from click-through logs for image recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190212

RJ01 Rejection of invention patent application after publication