CN107895008B - 基于大数据平台的情报信息热点发现方法 - Google Patents
基于大数据平台的情报信息热点发现方法 Download PDFInfo
- Publication number
- CN107895008B CN107895008B CN201711105415.5A CN201711105415A CN107895008B CN 107895008 B CN107895008 B CN 107895008B CN 201711105415 A CN201711105415 A CN 201711105415A CN 107895008 B CN107895008 B CN 107895008B
- Authority
- CN
- China
- Prior art keywords
- information
- term
- hot
- hot topic
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000007418 data mining Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000013079 data visualisation Methods 0.000 claims abstract description 4
- 238000012800 visualization Methods 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000005065 mining Methods 0.000 claims description 28
- 238000005516 engineering process Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 16
- 230000032683 aging Effects 0.000 claims description 9
- 238000012098 association analyses Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 238000010224 classification analysis Methods 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于大数据平台的情报信息热点发现方法,包括:情报信息数据挖掘方法,运用于情报数据库,对大量文本进行分析,从而提取有用知识的过程;情报热点主题发现方法,根据情报信息来源的不同,需要不同的热点发现方法进行热点主题的挖掘;可视化热点主题展现方法,对文本数据集,采用上述热点发现方法所获取的热点主题模型,需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户,从而方便用户的理解和对结果的阐释。本发明充分分析挖掘情报文本的内在信息和体现的重要价值,发现情报热点,进而进行预测、预警和辅助决策等。
Description
技术领域
本发明涉及一种情报信息热点发现方法,具体地,涉及一种基于大数据平台的情报信息热点发现方法。
背景技术
世界各国安全及情报部门均已构建系统或研发技术,支持有效地收集、融合、管理和分析情报大数据,并从中分析获得有价值情报。例如美国政府的各情报部门通过“棱镜计划”在国内外持续监视互联网活动和通信运营商的用户信息;“Xkeyscore计划”使得美国侦查情报局几乎能够无限制监视网络用户的电子邮件、网络浏览历史以及在线社交活动;英国情报机构的“时代计划”能够收集存储所有流经英国服务器的所有互联网数据。此外世界各国均有类似系统和技术。
近几年大数据处理技术的出现,使得各领域在处理海量数据方面的能力得到大大增加,它允许处理环节借助处理能力较差的机器、通过分布式资源协作与高效运用,就可有效处理海量数据。随着大数据技术的出现,各类行业、企业、学科、组织单位都在积极累积业务领域内的相关数据,不同规模的数据中心、数据仓库已经陆续建成。对数据资产价值挖掘已经逐渐成为影响企业核心竞争力形成的重要因素。
在大数据处理的技术积累方面,国内很多单位无论在计算平台还是在数据的分析等方面都做了大量的工作。各类情报大数据分析已经成为很多企业业务的重要支撑,通过对用户在互联网中的行为信息进行收集和分析获取其行为规律,并以此为基础对用户的行为进行预测和推荐。这种模式不仅在百度、阿里和腾讯等大数据公司得到商业应用,在电信医疗等领域的大数据分析中也同样日益重要。国安、公安等情报部门中,大数据分析也成为当前重要战略,集成互联网、电信、视频监控和金融等渠道的数据进行综合分析,是当前情报分析的主要发展方向,国安、公安等部门正在使用多个数据集成和分析系统,例如国防科技大学的“银河鹰击”、“银河鹰眼”、中科院计算所的“天玑”、TRS、厦门美亚等公司的互联网舆情及情报处理系统,能够综合分析微博、博客、论坛等多种通道的数据,并通过博主分析、朋友圈分析、虚拟社区分析等途径,对异常的人群或目标人群的行为进行分析。
基于大数据平台的情报信息热点发现研究从海量情报中利用信息提取和文本挖掘的技术,进行情报挖掘聚类,将众多情报进行主题归类,使得用户能够快速的了解当前情报内容的聚焦点。此外,挖掘发现情报中比较热门,热点的情报,以及与其相关联的情报,形成热点情报关联图,辅助决策者基于已经发现的热点情报关联图,进行情报的预测、预警功能。
现有的发明专利中,“基于网络文章属性的网络舆情热点发现方法和装置”专利(申请号:201410290240X、2014.10.01),通过网络文章的多种参数信息计算各个网络文章的权重值,根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,这跟本文提到的三种热点发现不同,并没有考虑到情报信息文本中的语义关联,以及热点的时效的特性,存在一定的局限性。“一种基于中文文本情感识别的网络热点挖掘方法”专利(申请号:2014100014714、2014.04.23),能够采用文本挖掘技术,选取高频主题词,并集合情感元素,来确定是否为热点事件,在这方面有着突出的特点,但是从语义模型方面进行热点发现还存在欠缺的地方,此外并未将文本挖掘处理方法跟大数据相结合,具有一定的局限性。“面向大规模数据的情报系统中文本聚合及展现方法及系统”专利(申请号:201610707151X、2017.01.04),主要介绍了对情报信息系统中的文本进行聚合在一起,页面上展现代表性文章的标题和摘要等基本信息,方便用户快速浏览发现自己感兴趣的信息,并未能够去发现情报系统中热点的信息。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于大数据平台的情报信息热点发现方法,其通过关键术语提取、术语关联分析、热点术语聚类分析以及潜在语义分析等关键技术研究,充分分析挖掘情报文本的内在信息和体现的重要价值,发现情报热点,进而进行预测、预警和辅助决策等。
根据本发明的一个方面,提供一种基于大数据平台的情报信息热点发现方法,其特征在于,包括:
情报信息数据挖掘方法,运用于情报数据库,对大量文本进行分析,从而提取有用知识的过程;
情报热点主题发现方法,根据情报信息来源的不同,需要不同的热点发现方法进行热点主题的挖掘;
可视化热点主题展现方法,对文本数据集,采用上述热点发现方法所获取的热点主题模型,需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户,从而方便用户的理解和对结果的阐释。
优选地,所述情报信息数据挖掘方法主要包括:关联分析,聚类分析,分类分析,分布分析与趋势预测。
优选地,所述情报热点主题发现方法包括基于频繁模式挖掘的热点发现、基于时效理论的热点术语发现方法和基于潜在语义模型的情报热点发现方法。
优选地,所述情报信息数据挖掘方法采用以下模块:
关键术语提取模块:术语是主题的基本元素,热点发现的第一步为提取关键术语;该过程包含三个步骤:术语提取,术语过滤,术语选取;
术语关联分析模块:两个术语之间的关联分析,其基本思路是计算这两个术语同时出现在同一篇文档中的次数;
热点术语聚类分析模块:从术语关联网络中挖掘热点主题的关键在于选择每个热点主题的焦点术语;
潜在语义分析模块:潜在语义分析在VSM的基础上处理词语之间的关系,试图规避使用自然语言理解技术,单纯运用统计的方法来发现文本中潜在的语义关系,用概念取代关键词,进而消减了词语和文档间的语义模糊度,在一定程度上缓解了VSM中同义词、多义词的影响,提高了主题发现的准确度。
与现有技术相比,本发明具有如下的有益效果:
一,热点内部的关联性分析。一个热点事件发生前有哪些相关点,一个热点发生时有哪些相关点,一个热点发生后又有哪些相关点。很多情况下,在热点还没称之为热点之前的图关系对热点的预测和预警有更大的帮助。当下次再次发现这些相关点有着同样的趋势时,可以预测到热点的发生概率大概是多少,有利于提前做好预警措施。
二,热点之间的关联性分析。热点之间也存在着一定的关联性,最常见的就是时间概念上的关联。如何唐山大地震前夜,狗集体叫了起来,鸟集体飞离这片区域。如果把大家关注的狗集体叫和鸟集体飞看成两个热点,那么紧接下来的大地震爆发和这两个热点之间是否存在什么关联呢。那么下次我们再次发现这两个热点时,是否可以做出预警说有可能要发生地震,甚至计算出可能发生的概率。
三,研究从海量情报中利用信息提取和文本挖掘的技术,进行情报挖掘聚类,将众多情报进行主题归类,使得指挥员能够快速的了解当前情报内容的聚焦点。
四,挖掘发现情报中比较热门,热点的情报,以及与其相关联的情报,形成热点情报关联图,辅助决策者基于已经发现的热点情报关联图,进行情报的预测、预警功能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于频繁模式挖掘的热点发现的流程图。
图2为本发明基于时效理论的热点术语发现方法的流程图。
图3为本发明基于潜在语义模型的情报热点发现方法的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明基于大数据平台的情报信息热点发现方法包括:
情报信息数据挖掘方法,运用于情报数据库,对大量文本进行分析,从而提取有用知识的过程。军事情报的主要特点是范围广,注重保密性等。军事情报的范围广主要是当今信息技术的发展,使军事情报的搜集范围不断延伸和扩展,不仅包括公开来源的情报,新闻、报纸、互联网等以及非公开的情报,如敌方当前情况、敌方纵深情况等等。军事情报又在任何阶段都注重自身的保密,严防失密和泄密。
情报信息数据挖掘方法主要包括:关联分析,聚类分析,分类分析,分布分析与趋势预测。关联分析,即利用关联规则进行数据挖掘,是用来描述一个事务和其它事物的相互依存和关联关系,是为了发现数据集中不同数据项之间的关系。目的生成所有具有用户指定的最小置信度和最小支持度的关联规则。聚类分析,主要是根据实体的特征对其进行聚类或分类,按一定的距离或相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域,将数据分成一系列相互区分的组,以期从中发现数据集的分布规律和典型模式。聚类的优点是不需要任何背景知识的情况下可以生成不同的子集。分类分析,就是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。分类分析和聚类分析的不同在于,聚类分析是根据一定要求将对象聚为一个集合,最后得到的分布模式是聚类之前未确知的;分类分析是根据已知分布模式的属性要求将数据库对象归入相应的类中。分布分析与趋势预测,是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。
数据挖掘作为一项从海量数据中提取有用知识的技术,在军事领域的应用具有很好的前景。将数据挖掘技术应用于军事情报领域,能够为指挥员提供决策支持。
在军事情报领域,数据来源主要是文本信息。结合军事情报的特点描述了文本分类和文本关联方法在其中的运用。情报上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而情报上的数据非常复杂,没有特定的模型描述。比如,一个军事文档可能包含一些结构化的字段,像标题、作者、时间等等,但也包含大量无结构的文本内容以及文本观点之间相似性、相反性等。情报数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题等。因此具体的方法应结合情报数据特点进行应用。
情报热点主题发现方法,根据情报信息来源的不同,需要不同的热点发现方法进行热点主题的挖掘,本发明结合当下主流的热点发现方法和技术,提出三种不同的热点发现方法,包括基于频繁模式挖掘的热点发现、基于时效理论的热点术语发现方法和基于潜在语义模型的情报热点发现方法。
基于频繁模式挖掘的热点主题发现架构可简单表示为图1。该架构首先结合T F-IDF和先后时间段内词语生长率计算方法,用以提取热点关键词;然后利用频繁模式挖掘算法,挖掘最大频繁模式作为热点主题的表达。
挖掘热点关键词,首先要计算每个词语在前后时间段内的生长率,其计算方式表示为式(1):
其中f(Wci)表示术语Wi在当前时间段出现的次数,f(Wpi)表示术语Wi在之前时间段出现的次数。根据T F-IDF权重法,每个术语Wi的重要性可计算为式(2):
其中fmax是文档中最大术语数目,D(Wi)则是含有术语Wi的文档数,D是文档数。由以上计算公式一个术语的权重可进一步表示为式(3):
S(Wi)=α*TD(Wi)+(1-α)*GR(Wi)……(3)
其中0≤α≤1是用来控制增长率的参数。由此对每个术语Wi,计算其权重S(Wi),并进行由大到小的排序,选取前N个作为热点关键词。
经过热点关键词的提取后,对文本数据采用频繁模式挖掘算法,Apriori进行频繁模式挖掘,从中选取最大频繁模式集,作为热点发现的结果。
在主题检测与追踪(Topic Detection and Tracking,TDT)任务中,一个主题的热度取决于两个因素:1)该热点术语在文档中发生的频率;2)包含这些热点术语的文档数目。然而每个主题的热度是随着时间而演变的,经过出生、成长、成熟、和消失这样的生命周期。
一些研究已经在TDF和热点主题提取中,利用时效理论或时间线分析;基于时间线的主题句子提取;基于突发期的特征识别的主题层次构建;基于识别周期性/非周期性特征突发的主题检测等。上述研究方法是针对整个时间线上固定的数据集中的特征分析。为了从大的文档数据集中识别主题,通常需要提取能足够描述主题的关键术语。一种赋予术语权重的策略,通常被用以决定术语的重要性或代表性。TF×PDF是在热点主题提取中,应用广泛的一种术语权重策略,它赋予在许多文档中频繁出现的术语以更大的权重。尽管TF×PDF能获取热点主题的基本概念,但其缺陷在于并不考虑热点主题随时间而变化的这种变动。有些研究者结合TF×PDF和时效理论,以术语的生命周期为要点,从数据集中提取热点术语。时效理论用于对新闻主题的生存期,以出生、生长、衰减、消失四个阶段进行建模,来反映其随时间而变化的流行性。为了处理主题的生存周期,一个活力函数的概念被提出:当事件变得流行,其活力增加,反之其活力缩减。时效理论适于追踪术语频率的变化,因此对于热点主题提取任务的成功是十分关键的。
基于时效理论的热点术语发现方法的系统架构图,可由图2来表示。该架构的关键部分,即为图中右边的方形虚线图,下面将对方形图所包含的关键技术进行具体说明。
Definition 1.TF×PDF对于一篇文档中的术语j,其T F×P DF权重Wj,可定义为式(4):
其中,|C|是类别的数目,fjc是类c中术语j所发生的频率,K是类c中的术语总数,njc是类c中术语j所发生的文档数,Nc则是类c中的文档总数。
Definition 2.Term Life Cycle.将每个术语的生命循环周期定义为术语的出现、生长、衰减、消失四个阶段,此定义适于描述术语频率的变化,有利于热点主题的提取。该定义包含了三个计算每个时间片内主题的能量函数:getEnergy(),energyFunction()和getVariation()。
getEnergy()函数计算在特定时间片内,一个术语所接受的活力,那么E(t,s)定义了术语t在时间片s内所出现的活力,如式(5):
其中C是文档的类别集,Xt,c则是在类c中,术语t和时间片s之间的关联强度,热点术语即是那些在所有类别中都具有高活力的术语。而Xt,c则可进一步定义为如式(6):
其中A为时间片s中含有术语t的文档数;B为其它时间片中含有术语t的文档数;C为时间片s中不含有术语t的文档数;D为其它时间片中不含有术语t的文档数。
energyFunction()旨在将术语的活力值转为生命支持值,那么对于术语t,在时间片s中,其生命支持值可表示为如式(7):
LS(t,s)=ln(E(t,s))……(7)
getVariation()则计算术语t在给定的时间间隔中的生命支持值,其可表示为如式(8):
Weightt=Wt+Vt……(9)
最后候选术语集根据其权重值进行有大到小的排序,排在前k个术语即可选为热点术语,反映数据源中的热点主题。
基于潜在语义模型的热点主题检测系统流程,由图3所示。为克服使用传统VSM模型对热点主题发现的不足,本研究报告采用隐含语义分析建模的方法,选初步选择某时间段内关注度较高的情报文本源;然后通过奇异值分解将词项和文档映射到潜在语义空间,挖掘每个短文本中的隐含语义信息;最后采用CURE和K-means算法相结合的两阶段聚类策略,发现情报文本中的热点主题。
可视化热点主题展现方法,对文本数据集,采用上述热点发现方法所获取的热点主题模型,需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户,从而方便用户的理解和对结果的阐释。
情报信息数据挖掘方法采用以下模块:
关键术语提取模块:术语是主题的基本元素,热点发现的第一步为提取关键术语。该过程包含三个步骤:1)术语提取,2)术语过滤,3)术语选取;
术语关联分析模块:两个术语之间的关联分析,其基本思路是计算这两个术语同时出现在同一篇文档中的次数。Cui et al.提出如何定义术语之间的关系的三个假设:1)如果两个术语出现在一篇文档中,这意味着这两个术语存在着某种关系;2)两个术语同时出现在一个句子中的频率越高,它们之间的关系越强;3)两个术语在一个句子中的距离越短,其之间的关系也越强。Le和Segev也指出一个句子所含的词语数目增多,其术语之间的关系也随之减弱,即短句子中的关系强度要大于长句子中的关系强度;
热点术语聚类分析模块:从术语关联网络中挖掘热点主题的关键在于选择每个热点主题的焦点(focal)术语。在术语关系网络中,对于给定的任意一个术语来讲,选取具有高中心性(centrality)的焦点术语,需要考虑两个因素:1)术语自身的重要性;2)与其它相邻术语之间的关联强度;
潜在语义分析模块:潜在语义分析(Latent Semantic Analysis,LSA)在VSM的基础上处理词语之间的关系,试图规避使用自然语言理解技术,单纯运用统计的方法来发现文本中潜在的语义关系,用概念取代关键词,进而消减了词语和文档间的语义模糊度,在一定程度上缓解了VSM中同义词、多义词的影响,提高了主题发现的准确度。
本发明通过关键术语提取、术语关联分析、热点术语聚类分析以及潜在语义分析等关键技术研究,充分分析挖掘情报文本的内在信息和体现的重要价值,发现情报热点,进而进行预测、预警和辅助决策等。
本发明将信息提取、文本挖掘的技术和大数据分析技术进行结合,有效的提高的其效率和准确度。
本发明根据情报信息来源的不同,需要不同的热点发现方法进行热点主题的挖掘,本研究报告结合当下主流的热点发现方法和技术,创新性的提出三种不同的热点发现方法。
本发明采用本研究提供的情报热点发现方法所获取的热点主题模型,本研究提出了几种可视化展现的方法将热点主题简单而清晰地呈现出来,方便用户的理解和对结果的阐释。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (1)
1.一种基于大数据平台的情报信息热点发现方法,其特征在于,包括:
情报信息数据挖掘方法,运用于情报数据库,对大量文本进行分析,从而提取有用知识的过程;
情报热点主题发现方法,根据情报信息来源的不同,需要不同的热点发现方法进行热点主题的挖掘;
可视化热点主题展现方法,对文本数据集,采用上述热点发现方法所获取的热点主题模型,需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户,从而方便用户的理解和对结果的阐释;
所述情报信息数据挖掘方法主要包括:关联分析,聚类分析,分类分析,分布分析与趋势预测;
所述情报热点主题发现方法包括基于频繁模式挖掘的热点发现、基于时效理论的热点术语发现方法和基于潜在语义模型的情报热点发现方法;
所述情报信息数据挖掘方法采用以下模块:
关键术语提取模块:术语是主题的基本元素,热点发现的第一步为提取关键术语;该过程包含三个步骤:术语提取,术语过滤,术语选取;
术语关联分析模块:两个术语之间的关联分析,其基本思路是计算这两个术语同时出现在同一篇文档中的次数;
热点术语聚类分析模块:从术语关联网络中挖掘热点主题的关键在于选择每个热点主题的焦点术语;
潜在语义分析模块:潜在语义分析在VSM的基础上处理词语之间的关系,试图规避使用自然语言理解技术,单纯运用统计的方法来发现文本中潜在的语义关系,用概念取代关键词,进而消减了词语和文档间的语义模糊度,在一定程度上缓解了VSM中同义词、多义词的影响,提高了主题发现的准确度;
所述基于频繁模式挖掘的热点发现方法为,首先结合T F-IDF和先后时间段内词语生长率计算方法,用以提取热点关键词;然后利用频繁模式挖掘算法,挖掘最大频繁模式作为热点主题的表达;
所述基于潜在语义模型的情报热点发现方法为,采用隐含语义分析建模的方法,选初步选择某时间段内关注度较高的情报文本源;然后通过奇异值分解将词项和文档映射到潜在语义空间,挖掘每个短文本中的隐含语义信息;最后采用CURE和K-means算法相结合的两阶段聚类策略,发现情报文本中的热点主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711105415.5A CN107895008B (zh) | 2017-11-10 | 2017-11-10 | 基于大数据平台的情报信息热点发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711105415.5A CN107895008B (zh) | 2017-11-10 | 2017-11-10 | 基于大数据平台的情报信息热点发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107895008A CN107895008A (zh) | 2018-04-10 |
CN107895008B true CN107895008B (zh) | 2022-02-08 |
Family
ID=61804948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711105415.5A Active CN107895008B (zh) | 2017-11-10 | 2017-11-10 | 基于大数据平台的情报信息热点发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107895008B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344316B (zh) * | 2018-08-14 | 2022-04-29 | 阿里巴巴(中国)有限公司 | 新闻热度计算方法及装置 |
CN110222250B (zh) * | 2019-05-16 | 2021-07-27 | 中国人民公安大学 | 一种面向微博的突发事件触发词识别方法 |
CN111914569B (zh) * | 2020-08-10 | 2023-07-21 | 安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN112418945B (zh) * | 2020-11-26 | 2024-01-12 | 深圳市中博科创信息技术有限公司 | 一种基于企业服务门户的经济热点发现分析系统及方法 |
CN113887219B (zh) * | 2021-08-12 | 2022-07-05 | 南京汇宁桀信息科技有限公司 | 一种主管部门热线舆情识别与预警方法及系统 |
CN116186594B (zh) * | 2023-04-26 | 2023-07-04 | 成都市环境应急指挥保障中心 | 基于决策网络结合大数据实现环境变化趋势智能检测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814076A (zh) * | 2009-07-29 | 2010-08-25 | 北京航天理想科技有限公司 | 可视化信息及信息关联分析系统及建立的方法 |
US8590023B2 (en) * | 2011-06-30 | 2013-11-19 | Intel Corporation | Mobile device and method for automatic connectivity, data offloading and roaming between networks |
CN104504150B (zh) * | 2015-01-09 | 2017-09-29 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
CN106021484A (zh) * | 2016-05-18 | 2016-10-12 | 中国电子科技集团公司第三十二研究所 | 基于内存计算的可定制多模式大数据处理系统 |
CN106326496A (zh) * | 2016-09-30 | 2017-01-11 | 广州特道信息科技有限公司 | 一种基于云平台的新闻阅读系统 |
CN107329970A (zh) * | 2017-05-23 | 2017-11-07 | 成都联宇云安科技有限公司 | 一种针对手机管控系统舆情大数据进行分析处理的方法 |
CN107229735A (zh) * | 2017-06-13 | 2017-10-03 | 成都布林特信息技术有限公司 | 基于自然语言处理的舆情信息分析预警方法 |
-
2017
- 2017-11-10 CN CN201711105415.5A patent/CN107895008B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107895008A (zh) | 2018-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107895008B (zh) | 基于大数据平台的情报信息热点发现方法 | |
Hasan et al. | Real-time event detection from the Twitter data stream using the TwitterNews+ Framework | |
US9229977B2 (en) | Real-time and adaptive data mining | |
CN103176983A (zh) | 一种基于互联网信息的事件预警方法 | |
CN103281341A (zh) | 网络事件处理方法及装置 | |
Patil et al. | Machine learning techniques for the classification of fake news | |
Zheng et al. | Collecting event‐related tweets from twitter stream | |
Sapul et al. | Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms | |
Bhattacharjee et al. | Identifying extremism in social media with multi-view context-aware subset optimization | |
Singh et al. | Burst: real-time events burst detection in social text stream | |
Li et al. | Netnews bursty hot topic detection based on bursty features | |
Oskouei et al. | An ensemble feature selection method to detect web spam | |
Zhang et al. | A hot spot clustering method based on improved kmeans algorithm | |
CN116738068A (zh) | 一种热门话题的挖掘方法、装置、存储介质及设备 | |
Benabderrahmane et al. | Evaluating distance measures and times series clustering for temporal patterns retrieval | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
Kaleel et al. | Event detection and trending in multiple social networking sites | |
Alsaedi et al. | Sensing real-world events using social media data and a classification-clustering framework | |
Lee et al. | Exploiting online social data in ontology learning for event tracking and emergency response | |
Atzmueller et al. | Towards Mining Semantic Maturity in Social Bookmarking Systems. | |
Tsai et al. | An intelligent system for sentence retrieval and novelty mining | |
Anastasiadis et al. | Combining text analysis techniques with unsupervised machine learning methodologies for improved software vulnerability management | |
Borges et al. | Event detection for smarter cities | |
KR20110125966A (ko) | 문장 분석을 이용한 유의어 그룹 생성 방법 및 시스템 | |
CN118260273B (zh) | 一种基于企业数据的数据库存储优化方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |