CN107895008B

CN107895008B - 基于大数据平台的情报信息热点发现方法

Info

Publication number: CN107895008B
Application number: CN201711105415.5A
Authority: CN
Inventors: 姜鑫; 桑耘; 王金华
Original assignee: No32 Research Institute Of China Electronics Technology Group Corp
Current assignee: No32 Research Institute Of China Electronics Technology Group Corp
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2022-02-08
Anticipated expiration: 2037-11-10
Also published as: CN107895008A

Abstract

本发明提供了一种基于大数据平台的情报信息热点发现方法，包括：情报信息数据挖掘方法，运用于情报数据库，对大量文本进行分析，从而提取有用知识的过程；情报热点主题发现方法，根据情报信息来源的不同，需要不同的热点发现方法进行热点主题的挖掘；可视化热点主题展现方法，对文本数据集，采用上述热点发现方法所获取的热点主题模型，需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户，从而方便用户的理解和对结果的阐释。本发明充分分析挖掘情报文本的内在信息和体现的重要价值，发现情报热点，进而进行预测、预警和辅助决策等。

Description

基于大数据平台的情报信息热点发现方法

技术领域

本发明涉及一种情报信息热点发现方法，具体地，涉及一种基于大数据平台的情报信息热点发现方法。

背景技术

世界各国安全及情报部门均已构建系统或研发技术，支持有效地收集、融合、管理和分析情报大数据，并从中分析获得有价值情报。例如美国政府的各情报部门通过“棱镜计划”在国内外持续监视互联网活动和通信运营商的用户信息；“Xkeyscore计划”使得美国侦查情报局几乎能够无限制监视网络用户的电子邮件、网络浏览历史以及在线社交活动；英国情报机构的“时代计划”能够收集存储所有流经英国服务器的所有互联网数据。此外世界各国均有类似系统和技术。

近几年大数据处理技术的出现，使得各领域在处理海量数据方面的能力得到大大增加，它允许处理环节借助处理能力较差的机器、通过分布式资源协作与高效运用，就可有效处理海量数据。随着大数据技术的出现，各类行业、企业、学科、组织单位都在积极累积业务领域内的相关数据，不同规模的数据中心、数据仓库已经陆续建成。对数据资产价值挖掘已经逐渐成为影响企业核心竞争力形成的重要因素。

在大数据处理的技术积累方面，国内很多单位无论在计算平台还是在数据的分析等方面都做了大量的工作。各类情报大数据分析已经成为很多企业业务的重要支撑，通过对用户在互联网中的行为信息进行收集和分析获取其行为规律，并以此为基础对用户的行为进行预测和推荐。这种模式不仅在百度、阿里和腾讯等大数据公司得到商业应用，在电信医疗等领域的大数据分析中也同样日益重要。国安、公安等情报部门中，大数据分析也成为当前重要战略，集成互联网、电信、视频监控和金融等渠道的数据进行综合分析，是当前情报分析的主要发展方向，国安、公安等部门正在使用多个数据集成和分析系统，例如国防科技大学的“银河鹰击”、“银河鹰眼”、中科院计算所的“天玑”、TRS、厦门美亚等公司的互联网舆情及情报处理系统，能够综合分析微博、博客、论坛等多种通道的数据，并通过博主分析、朋友圈分析、虚拟社区分析等途径，对异常的人群或目标人群的行为进行分析。

基于大数据平台的情报信息热点发现研究从海量情报中利用信息提取和文本挖掘的技术，进行情报挖掘聚类，将众多情报进行主题归类，使得用户能够快速的了解当前情报内容的聚焦点。此外，挖掘发现情报中比较热门，热点的情报，以及与其相关联的情报，形成热点情报关联图，辅助决策者基于已经发现的热点情报关联图，进行情报的预测、预警功能。

现有的发明专利中，“基于网络文章属性的网络舆情热点发现方法和装置”专利(申请号：201410290240X、2014.10.01)，通过网络文章的多种参数信息计算各个网络文章的权重值，根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点，这跟本文提到的三种热点发现不同，并没有考虑到情报信息文本中的语义关联，以及热点的时效的特性，存在一定的局限性。“一种基于中文文本情感识别的网络热点挖掘方法”专利(申请号：2014100014714、2014.04.23)，能够采用文本挖掘技术，选取高频主题词，并集合情感元素，来确定是否为热点事件，在这方面有着突出的特点，但是从语义模型方面进行热点发现还存在欠缺的地方，此外并未将文本挖掘处理方法跟大数据相结合，具有一定的局限性。“面向大规模数据的情报系统中文本聚合及展现方法及系统”专利(申请号：201610707151X、2017.01.04)，主要介绍了对情报信息系统中的文本进行聚合在一起，页面上展现代表性文章的标题和摘要等基本信息，方便用户快速浏览发现自己感兴趣的信息，并未能够去发现情报系统中热点的信息。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于大数据平台的情报信息热点发现方法，其通过关键术语提取、术语关联分析、热点术语聚类分析以及潜在语义分析等关键技术研究，充分分析挖掘情报文本的内在信息和体现的重要价值，发现情报热点，进而进行预测、预警和辅助决策等。

根据本发明的一个方面，提供一种基于大数据平台的情报信息热点发现方法，其特征在于，包括：

情报信息数据挖掘方法，运用于情报数据库，对大量文本进行分析，从而提取有用知识的过程；

情报热点主题发现方法，根据情报信息来源的不同，需要不同的热点发现方法进行热点主题的挖掘；

可视化热点主题展现方法，对文本数据集，采用上述热点发现方法所获取的热点主题模型，需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户，从而方便用户的理解和对结果的阐释。

优选地，所述情报信息数据挖掘方法主要包括：关联分析，聚类分析，分类分析，分布分析与趋势预测。

优选地，所述情报热点主题发现方法包括基于频繁模式挖掘的热点发现、基于时效理论的热点术语发现方法和基于潜在语义模型的情报热点发现方法。

优选地，所述情报信息数据挖掘方法采用以下模块：

关键术语提取模块：术语是主题的基本元素，热点发现的第一步为提取关键术语；该过程包含三个步骤：术语提取，术语过滤，术语选取；

术语关联分析模块：两个术语之间的关联分析，其基本思路是计算这两个术语同时出现在同一篇文档中的次数；

热点术语聚类分析模块：从术语关联网络中挖掘热点主题的关键在于选择每个热点主题的焦点术语；

潜在语义分析模块：潜在语义分析在VSM的基础上处理词语之间的关系，试图规避使用自然语言理解技术，单纯运用统计的方法来发现文本中潜在的语义关系，用概念取代关键词，进而消减了词语和文档间的语义模糊度，在一定程度上缓解了VSM中同义词、多义词的影响，提高了主题发现的准确度。

与现有技术相比，本发明具有如下的有益效果：

一，热点内部的关联性分析。一个热点事件发生前有哪些相关点，一个热点发生时有哪些相关点，一个热点发生后又有哪些相关点。很多情况下，在热点还没称之为热点之前的图关系对热点的预测和预警有更大的帮助。当下次再次发现这些相关点有着同样的趋势时，可以预测到热点的发生概率大概是多少，有利于提前做好预警措施。

二，热点之间的关联性分析。热点之间也存在着一定的关联性，最常见的就是时间概念上的关联。如何唐山大地震前夜，狗集体叫了起来，鸟集体飞离这片区域。如果把大家关注的狗集体叫和鸟集体飞看成两个热点，那么紧接下来的大地震爆发和这两个热点之间是否存在什么关联呢。那么下次我们再次发现这两个热点时，是否可以做出预警说有可能要发生地震，甚至计算出可能发生的概率。

三，研究从海量情报中利用信息提取和文本挖掘的技术，进行情报挖掘聚类，将众多情报进行主题归类，使得指挥员能够快速的了解当前情报内容的聚焦点。

四，挖掘发现情报中比较热门，热点的情报，以及与其相关联的情报，形成热点情报关联图，辅助决策者基于已经发现的热点情报关联图，进行情报的预测、预警功能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于频繁模式挖掘的热点发现的流程图。

图2为本发明基于时效理论的热点术语发现方法的流程图。

图3为本发明基于潜在语义模型的情报热点发现方法的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明基于大数据平台的情报信息热点发现方法包括：

情报信息数据挖掘方法，运用于情报数据库，对大量文本进行分析，从而提取有用知识的过程。军事情报的主要特点是范围广，注重保密性等。军事情报的范围广主要是当今信息技术的发展，使军事情报的搜集范围不断延伸和扩展，不仅包括公开来源的情报，新闻、报纸、互联网等以及非公开的情报，如敌方当前情况、敌方纵深情况等等。军事情报又在任何阶段都注重自身的保密，严防失密和泄密。

情报信息数据挖掘方法主要包括：关联分析，聚类分析，分类分析，分布分析与趋势预测。关联分析，即利用关联规则进行数据挖掘，是用来描述一个事务和其它事物的相互依存和关联关系，是为了发现数据集中不同数据项之间的关系。目的生成所有具有用户指定的最小置信度和最小支持度的关联规则。聚类分析，主要是根据实体的特征对其进行聚类或分类，按一定的距离或相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域，将数据分成一系列相互区分的组，以期从中发现数据集的分布规律和典型模式。聚类的优点是不需要任何背景知识的情况下可以生成不同的子集。分类分析，就是假定数据库中的每个对象属于一个预先给定的类，从而将数据库中的数据分配到给定的类中。分类分析和聚类分析的不同在于，聚类分析是根据一定要求将对象聚为一个集合，最后得到的分布模式是聚类之前未确知的；分类分析是根据已知分布模式的属性要求将数据库对象归入相应的类中。分布分析与趋势预测，是指通过对文档的分析，得到特定数据在某个历史时刻的情况或将来的取值趋势。

数据挖掘作为一项从海量数据中提取有用知识的技术，在军事领域的应用具有很好的前景。将数据挖掘技术应用于军事情报领域，能够为指挥员提供决策支持。

在军事情报领域，数据来源主要是文本信息。结合军事情报的特点描述了文本分类和文本关联方法在其中的运用。情报上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。而情报上的数据非常复杂，没有特定的模型描述。比如，一个军事文档可能包含一些结构化的字段，像标题、作者、时间等等，但也包含大量无结构的文本内容以及文本观点之间相似性、相反性等。情报数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题等。因此具体的方法应结合情报数据特点进行应用。

情报热点主题发现方法，根据情报信息来源的不同，需要不同的热点发现方法进行热点主题的挖掘，本发明结合当下主流的热点发现方法和技术，提出三种不同的热点发现方法，包括基于频繁模式挖掘的热点发现、基于时效理论的热点术语发现方法和基于潜在语义模型的情报热点发现方法。

基于频繁模式挖掘的热点主题发现架构可简单表示为图1。该架构首先结合T F-IDF和先后时间段内词语生长率计算方法，用以提取热点关键词；然后利用频繁模式挖掘算法，挖掘最大频繁模式作为热点主题的表达。

挖掘热点关键词，首先要计算每个词语在前后时间段内的生长率，其计算方式表示为式(1)：

其中f(W_ci)表示术语W_i在当前时间段出现的次数，f(W_pi)表示术语W_i在之前时间段出现的次数。根据T F-IDF权重法，每个术语W_i的重要性可计算为式(2)：

其中f_max是文档中最大术语数目，D(W_i)则是含有术语W_i的文档数，D是文档数。由以上计算公式一个术语的权重可进一步表示为式(3)：

S(W_i)＝α*TD(W_i)+(1-α)*GR(W_i)……(3)

其中0≤α≤1是用来控制增长率的参数。由此对每个术语W_i，计算其权重S(W_i)，并进行由大到小的排序，选取前N个作为热点关键词。

经过热点关键词的提取后，对文本数据采用频繁模式挖掘算法，Apriori进行频繁模式挖掘，从中选取最大频繁模式集，作为热点发现的结果。

在主题检测与追踪(Topic Detection and Tracking，TDT)任务中，一个主题的热度取决于两个因素：1)该热点术语在文档中发生的频率；2)包含这些热点术语的文档数目。然而每个主题的热度是随着时间而演变的，经过出生、成长、成熟、和消失这样的生命周期。

一些研究已经在TDF和热点主题提取中，利用时效理论或时间线分析；基于时间线的主题句子提取；基于突发期的特征识别的主题层次构建；基于识别周期性/非周期性特征突发的主题检测等。上述研究方法是针对整个时间线上固定的数据集中的特征分析。为了从大的文档数据集中识别主题，通常需要提取能足够描述主题的关键术语。一种赋予术语权重的策略，通常被用以决定术语的重要性或代表性。TF×PDF是在热点主题提取中，应用广泛的一种术语权重策略，它赋予在许多文档中频繁出现的术语以更大的权重。尽管TF×PDF能获取热点主题的基本概念，但其缺陷在于并不考虑热点主题随时间而变化的这种变动。有些研究者结合TF×PDF和时效理论，以术语的生命周期为要点，从数据集中提取热点术语。时效理论用于对新闻主题的生存期，以出生、生长、衰减、消失四个阶段进行建模，来反映其随时间而变化的流行性。为了处理主题的生存周期，一个活力函数的概念被提出：当事件变得流行，其活力增加，反之其活力缩减。时效理论适于追踪术语频率的变化，因此对于热点主题提取任务的成功是十分关键的。

基于时效理论的热点术语发现方法的系统架构图，可由图2来表示。该架构的关键部分，即为图中右边的方形虚线图，下面将对方形图所包含的关键技术进行具体说明。

Definition 1.TF×PDF对于一篇文档中的术语j，其T F×P DF权重W_j，可定义为式(4)：

其中，|C|是类别的数目，f_jc是类c中术语j所发生的频率，K是类c中的术语总数，n_jc是类c中术语j所发生的文档数，N_c则是类c中的文档总数。

Definition 2.Term Life Cycle.将每个术语的生命循环周期定义为术语的出现、生长、衰减、消失四个阶段，此定义适于描述术语频率的变化，有利于热点主题的提取。该定义包含了三个计算每个时间片内主题的能量函数：getEnergy(),energyFunction()和getVariation()。

getEnergy()函数计算在特定时间片内，一个术语所接受的活力，那么E(t,s)定义了术语t在时间片s内所出现的活力，如式(5)：

其中C是文档的类别集，X_t,c则是在类c中，术语t和时间片s之间的关联强度，热点术语即是那些在所有类别中都具有高活力的术语。而X_t,c则可进一步定义为如式(6)：

其中A为时间片s中含有术语t的文档数；B为其它时间片中含有术语t的文档数；C为时间片s中不含有术语t的文档数；D为其它时间片中不含有术语t的文档数。

energyFunction()旨在将术语的活力值转为生命支持值，那么对于术语t，在时间片s中，其生命支持值可表示为如式(7)：

LS(t,s)＝ln(E(t,s))……(7)

getVariation()则计算术语t在给定的时间间隔中的生命支持值，其可表示为如式(8)：

其中N为给定时间间隔中的时间片数目，

则为给定时间间隔的生命支持值的平均值。由此术语t的权重即可表示为其TF×PDF值和生命支持值之和，即如式(9)：

Weight_t＝W_t+V_t……(9)

最后候选术语集根据其权重值进行有大到小的排序，排在前k个术语即可选为热点术语，反映数据源中的热点主题。

基于潜在语义模型的热点主题检测系统流程，由图3所示。为克服使用传统VSM模型对热点主题发现的不足，本研究报告采用隐含语义分析建模的方法，选初步选择某时间段内关注度较高的情报文本源；然后通过奇异值分解将词项和文档映射到潜在语义空间，挖掘每个短文本中的隐含语义信息；最后采用CURE和K-means算法相结合的两阶段聚类策略，发现情报文本中的热点主题。

情报信息数据挖掘方法采用以下模块：

关键术语提取模块：术语是主题的基本元素，热点发现的第一步为提取关键术语。该过程包含三个步骤：1)术语提取，2)术语过滤，3)术语选取；

术语关联分析模块：两个术语之间的关联分析，其基本思路是计算这两个术语同时出现在同一篇文档中的次数。Cui et al.提出如何定义术语之间的关系的三个假设：1)如果两个术语出现在一篇文档中，这意味着这两个术语存在着某种关系；2)两个术语同时出现在一个句子中的频率越高，它们之间的关系越强；3)两个术语在一个句子中的距离越短，其之间的关系也越强。Le和Segev也指出一个句子所含的词语数目增多，其术语之间的关系也随之减弱，即短句子中的关系强度要大于长句子中的关系强度；

热点术语聚类分析模块：从术语关联网络中挖掘热点主题的关键在于选择每个热点主题的焦点(focal)术语。在术语关系网络中，对于给定的任意一个术语来讲，选取具有高中心性(centrality)的焦点术语，需要考虑两个因素：1)术语自身的重要性；2)与其它相邻术语之间的关联强度；

潜在语义分析模块：潜在语义分析(Latent Semantic Analysis,LSA)在VSM的基础上处理词语之间的关系，试图规避使用自然语言理解技术，单纯运用统计的方法来发现文本中潜在的语义关系，用概念取代关键词，进而消减了词语和文档间的语义模糊度，在一定程度上缓解了VSM中同义词、多义词的影响，提高了主题发现的准确度。

本发明通过关键术语提取、术语关联分析、热点术语聚类分析以及潜在语义分析等关键技术研究，充分分析挖掘情报文本的内在信息和体现的重要价值，发现情报热点，进而进行预测、预警和辅助决策等。

本发明将信息提取、文本挖掘的技术和大数据分析技术进行结合，有效的提高的其效率和准确度。

本发明根据情报信息来源的不同，需要不同的热点发现方法进行热点主题的挖掘，本研究报告结合当下主流的热点发现方法和技术，创新性的提出三种不同的热点发现方法。

本发明采用本研究提供的情报热点发现方法所获取的热点主题模型，本研究提出了几种可视化展现的方法将热点主题简单而清晰地呈现出来，方便用户的理解和对结果的阐释。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于大数据平台的情报信息热点发现方法，其特征在于，包括：

可视化热点主题展现方法，对文本数据集，采用上述热点发现方法所获取的热点主题模型，需要通过数据可视化的方式将热点主题简单而清晰地呈现给用户，从而方便用户的理解和对结果的阐释；

所述情报信息数据挖掘方法主要包括：关联分析，聚类分析，分类分析，分布分析与趋势预测；

所述情报热点主题发现方法包括基于频繁模式挖掘的热点发现、基于时效理论的热点术语发现方法和基于潜在语义模型的情报热点发现方法；

所述情报信息数据挖掘方法采用以下模块：

潜在语义分析模块：潜在语义分析在VSM的基础上处理词语之间的关系，试图规避使用自然语言理解技术，单纯运用统计的方法来发现文本中潜在的语义关系，用概念取代关键词，进而消减了词语和文档间的语义模糊度，在一定程度上缓解了VSM中同义词、多义词的影响，提高了主题发现的准确度；

所述基于频繁模式挖掘的热点发现方法为，首先结合T F-IDF和先后时间段内词语生长率计算方法，用以提取热点关键词；然后利用频繁模式挖掘算法，挖掘最大频繁模式作为热点主题的表达；

所述基于潜在语义模型的情报热点发现方法为，采用隐含语义分析建模的方法，选初步选择某时间段内关注度较高的情报文本源；然后通过奇异值分解将词项和文档映射到潜在语义空间，挖掘每个短文本中的隐含语义信息；最后采用CURE和K-means算法相结合的两阶段聚类策略，发现情报文本中的热点主题。