CN113239140A

CN113239140A - 复杂信息分析引擎架构

Info

Publication number: CN113239140A
Application number: CN202110480699.6A
Authority: CN
Inventors: 刘科; 戴礼灿; 曹开臣; 宋丹
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: CETC 10 Research Institute; Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-10

Abstract

本发明公开的一种复杂信息分析引擎架构，检索效率高，能够更好地提升数据处理能力。本发明通过下述技术方案实现：数据采集/提取模块通过数据采集，汇集成数据池；数据理解模块对非结构化数据进行处理，数据结构化模块利用提取的事件特征集关键特征信息分门别类进行结构化存储，完成非结构化数据到结构化数据的转换；索引模块对结构化数据进行正向索引或倒排索引，检索模块在结构化数据池库中进行数据检索，得到与查询词相匹配的数据集合；多维建模模块是基于统计特征的数据挖掘，实现数据多维建模；仿真推演模块调用相关联的要素，生成仿真推演结构化数据集；交互分析模块将多维建模的分析结果和仿真推演的推演结果呈现给用户。

Description

复杂信息分析引擎架构

技术领域

本发明涉及信息处理领域，尤其涉及一种复杂信息分析引擎架构

背景技术

大数据时代，数据的数量呈几何级增长，内容扩展丰富的同时其复杂度也大大增加。对于数据的分析使用已不仅限于传统的统计、分类、聚合，而是需要进行更深入的理解和挖掘。信息过载导致获取有用信息变得困难，不利于信息的理解和分析。在这个信息爆炸的时代，每个系统、每个人面临的问题不再是无法获取信息，而是如何能够快速地从海量的信息中获取有价值的内容，并阻止无用的信息淹没有价值的信息。海量消息系统不仅对消息处理的可靠性有一定的要求，对系统扩展性也有较高要求，希望能够从每秒几千次消息到上百万次消息平滑扩展。因此靠传统的离线处理基本不可能完成。目前主要有两种海量实时数据处理方法：第1种方法是通过类似Map-reduce的方法进行在线采集、离线处理；第2种方法是事件流化，直接在内存中进行海量数据的运算和处理。对于消息系统，目前第1种方法有micro-mapreduce，它可以将Map-reduce粒度变小，周期缩短，这种方法实时性稍差(5min-1h)，但能够较好地处理可扩展性问题。第2种方法有现有开源的流式处理框架如S4，商用的产品如OracleCEP等，该方法能够将相关数据载入内存并进行计算，单机处理性能较高，但处理的可扩展性、容灾容错等存在一些问题，需要在前端进行数据分流，后端进行数据合并。信息架构非常复杂，功能繁多，流程复杂，大致可以分为两类，一类是面向消费者产品的ToC产品，一类是面向企业或者特定用户群体面商类产品的ToB产品。描述ToC类产品为信息架构相对简单的产品，每个用户的核心场景不算多。而ToB类产品动辄就是上百个核心故事，各种功能模块繁杂且对用户的亲切性低，使用起来学习成本高。还有不少ToB产品，需要有专门的培训和讲解，才能勉强让新用户开始使用。这个时候，如果单纯以学习成本低到没有来要求ToB类产品，非常难。信息架构复杂起来，是很难通过认知设计、视觉设计、交互流程简化来解决学习成本高的问题。信息检索技术和搜索引擎可以在一定程度上解决这个问题，但不能满足对信息进行深入分析和理解的现实需求。搜索引擎是信息检索技术的基本实现形式，通过匹配用户查询词与数据库中或互联网上已有数据文档之间的相关性，筛选得到满足用户期望的数据子集，这一过程获取得到的是未经加工的初级知识，要实现向高阶知识的跃升，需要分析引擎。分析引擎是在搜索引擎的基础上，通过对海量大数据进行抽取、挖掘、深入理解、聚合分析、总结，得到包含结论性的高阶知识，再以交互式方式呈现给用户，支撑用户决策和行为。搜索引擎的信息来源于互联网网页，通过网络爬虫将整个互联网的信息获取到本地，因为网页中有相当大比例的内容是完全相同或近似重复的，网页去重模块会对此进行检测，并去除重复内容。由于网页数量太多，搜索引擎不仅需要保存网页原始信息，还要存储一些中间的处理结果，这就需要搭建优秀可靠的云存储和云计算平台。搜索引擎通俗来讲就是从互联网海量信息中捞出用户感兴趣的内容提供给用户。搜索引擎的基本软件架构本身没有公认的定义，但通常由软件组件、组件接口以及它们之间的关系组成。搜索引擎的两个主要目标是：有效性(质量)：我们希望能够检索查询可能的最相关文档集。效率(速度)：我们希望尽快处理用户的查询。我们也可能有更具体的目标，但通常这些目标属于有效性或效率(或两者)。例如，我们想要搜索的文档集合可能正在发生变化；确保搜索引擎立即对文档中的更改做出反应既是有效问题，也是效率问题。搜索引擎基本架构主要有三方面的作用：1、通过爬虫获得互联网上的海量网页信息，存储在本地并建立索引方便查找；2、用户输入查询query，解析查询意图，并将query分发进行查询；3、使用query通过各种算法对索引中的文档(网页)排序，返回最符合意图的若干条结果。

传统的分析引擎站在搜索引擎之上，能够在一定程度满足用户对于海量信息的分析理解需求，但主要是根据搜索引擎的检索结果，从统计特征的角度对历史数据进行多维度分析和归纳总结，这种理解和分析是片面的，不利于支撑用户决策和行为。对态势演变趋势和发展方向的准确掌握，有利于提早进行行动部署，掌握主动权，对态势的研判需要同时基于当前已有数据和未来预测数据，就当前已有的分析引擎来说，尚不具备这种能力。

复杂事件处理引擎跟踪分析数据流，这种数据流是无界的，也即是连续接收开放的数据序列，且终点未知。传统引擎都是基于规则的，规则的特点是计算简单，所以在实时计算中消耗较少。但规则的问题是针对已知结论的模式，对未知攻击无法识别，所以他不需要考虑历史事件。历史事件的增加，会对存储和处理能力都有新的要求。

发明内容

本发明的目的是针对在态势研判中所需的信息分析处理需求与现实能力之间的差距，提出一种可以显著提升检索效率，能够更好地实现对数据的挖掘、理解和分析，提升数据处理能力，保证系统高可靠性的复杂信息分析引擎架构。

本发明的上述目的可以通过以下技术方案予以实现：一种复杂信息分析引擎架构，包括：顺次串联的数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块和交互分析模块，引入交互分析模块的仿真推演模块，其特征在于：数据采集/提取模块通过爬虫获取互联网上的海量网页信息，汇集形成公开数据和专有数据的数据池；数据理解模块作为数据预处理的一部分，通过对文本、图像、视频的多种形式对非结构化数据进行预处理，得到事件/目标特征集的关键特征信息；数据结构化模块将进行预处理后的非结构化数据转换为结构化数据，索引模块对上述结构化数据进行正向索引或倒排索引，构建结构化数据池库；检索模块基于用户给定查询词，在结构化数据池库中进行数据检索和查询词匹配，得到与查询词相匹配的数据集合；多维建模模块根据检索基于统计特征的数据挖掘，对数据进行多维建模；仿真推演模块基于用户查询词和数据检索结果，从模型库、规则库、算法库中调用数据集合中匹配的关联要素模型，以“数据+模型”驱动的方式进行仿真推演，生成仿真推演结构化数据集；交互分析模块仿真推演模块仿真推演的态势预测结果，将多维建模的分析结果和仿真推演的推演结果呈现给用户。

本发明相比于现有技术具有如下有益效果：

本发明采用数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块、仿真推演模块和交互分析模块，通过数据采集/提取、数据理解、数据结构化、索引、检索、多维建模、仿真推演、交互分析实现对海量数据的挖掘、分析和理解，满足用户对于信息分析处理的现实需求。

本发明采用支持基于查询词的数据检索的索引模块对结构化数据进行索引，以有正向索引和倒排索引两种索引方式，可以显著提升检索效率。

本发明通过引入仿真推演模块，利用仿真推演模拟态势演变过程和事件发展趋势走向，生成仿真推演结构化数据集，弥补了传统分析引擎只能处理历史数据和当前数据信息的不足，为用户更好地掌握态势信息，研判态势演变走向提供了数据支持，保证了系统高可靠性。

本发明采用数据理解模块，通过对文本、图像、视频等多种形式的非结构化数据进行处理，得到事件/目标特征集关键特征信息，数据结构化模块利用提取的事件特征集关键特征信息分门别类进行结构化存储的过程，通过数据之间的相互印证，建立不同来源数据之间的关联关系，经过处理后，完成非结构化数据到结构化数据的转换，仿真推演模块的引入使得复杂信息分析引擎融合了历史数据和未来预测数据，能够更好地实现对数据的挖掘、理解和分析，提升数据处理能力。

附图说明

图1是本发明的复杂信息分析引擎架构示意图。

具体实施方式

参阅图1。在以下描述的优选实施例中，一种复杂信息分析引擎架构，包括：顺次串联的数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块和交互分析模块，引入交互分析模块的仿真推演模块。数据采集/提取模块通过爬虫获取互联网上的海量网页信息，汇集形成公开数据和专有数据的数据池；数据理解模块作为数据预处理的一部分，通过对文本、图像、视频的多种形式对非结构化数据进行预处理，得到事件/目标特征集的关键特征信息；数据结构化模块将进行预处理后的非结构化数据转换为结构化数据，索引模块对上述结构化数据进行正向索引或倒排索引，构建结构化数据池库；检索模块基于用户给定查询词，在结构化数据池库中进行数据检索和查询词匹配，得到与查询词相匹配的数据集合；多维建模模块根据检索基于统计特征的数据挖掘，对数据进行多维建模；仿真推演模块基于用户查询词和数据检索结果，从模型库、规则库、算法库中调用数据集合中匹配的关联要素模型，以“数据+模型”驱动的方式进行仿真推演，生成仿真推演结构化数据集；交互分析模块仿真推演模块仿真推演的态势预测结果，将多维建模的分析结果和仿真推演的推演结果呈现给用户。

数据采集/提取模块利用爬虫、代理等数据采集工具从网页、博客、论坛等公开数据来源渠道数据定期或不定期进行公开数据采集，通过传感器装备定期或不定期进行专有数据采集，同时从公开数据库中提取公开数据，从私有数据库中提取专有数据，汇集形成数据池。数据采集/提取模块通过爬虫获得互联网上的海量网页信息，存储在本地并建立方便查找的索引；爬虫将网页文档信息下载到本地后，对上述网页文档建立倒排索引和单词与文档的对应关系；爬虫将文档(即网页)信息下载到本地后，需要对文档建立倒排索引。倒排索引就是抽取文档中的单词，建立单词与文档的对应关系，这样就能通过关键词的匹配查找到相应的文档。借助专门的传感器装备和平台，比如卫星，对特定区域以定期或不定期的方式进行专有数据采集，同时从公开数据库，比如政府网站公开数据库，提取公开数据信息，从私有数据库提取已有的专门数据，将这四种方式获取得到的数据汇集形成一个新的数据池库，该数据池库同时包含了公开数据和专有数据。

数据采集/提取模块获得的数据80％以上是以非结构化形式存在的，比如文本、图像、视频等形式。

数据结构化模块利用提取的事件特征集的关键特征信息分门别类进行结构化存储的过程，通过数据之间的相互印证，建立不同来源数据之间的关联关系，经过处理后，完成非结构化数据到结构化数据的转换。

数据理解模块是从非结构化数据中提取关键特征信息，以便于后续将其进行结构化存储的过程；采用自然语言处理对文本数据进行处理，通过文本分词、命名实体识别、情感分析、删除停止词和标点符号、文本向量化等抽取得到文本数据的特征、属性等关键信息；采用辐射校正、几何校正等方法对图像数据进行处理，得到图像数据的对比度、灰度、几何等关键特征信息；采用音视频轨分离、场景分割、降噪、语音文本转换等方法对视频数据进行处理，再结合文本处理和图像处理方法综合得到视频数据的关键特征信息。

数据结构化模块对提取得到的关键特征信息，建立不同来源数据之间的关联关系，这不仅有利于数据的结构化存储和规范化管理，也能实现数据之间的相互印证。通过时空一致性检测、目标属性一致性检测、内容一致性检测等，实现关键特征信息的冲突证伪，最终完成从非结构化数据到结构化数据的转换和存储。

索引模块以正向索引和倒排索引两种索引方式，对结构化数据进行索引，检索模块基于查询词的数据检索，根据用户输入的查询词，在结构化数据池库中进行数据检索，得到与查询词相匹配的数据子集。

多维建模模块根据检索模块检索得到的历史数据信息的数据子集，从时间、空间、属性、状态规律等多个维度进行数据挖掘和基于统计特征的统计分析，发现关键节点和事件，通过目标实体识别、关系识别，分析多维建模，建立目标、关系、关键节点和事件发现的网络拓扑结构，实现数据多维建模，该数据子集既包含了实体名称等文字信息，也包含了位置、速度、航向等数字信息，是多种信息形式的集合体。

检索得到的数据子集主要是当前已存在的数据，从时间上看是截至当前时刻的数据。该数据集合对于进行历史规律统计分析具有重要意义和使用价值，但对于未来态势的研判和走向掌控只能提供一定的参考，这就需要借助仿真推演，利用模型、算法、规则来模拟未来的各种可能，通过推演给出走向置信概率，支撑用户的研判分析和决策行动。

仿真推演模块基于用户查询词和数据检索结果，从模型库、规则库、算法库中调用相关联的要素模型、推演规则、仿真算法，生成适用于当前查询词的仿真推演场景，基于检索得到的数据子集，以“数据+模型”驱动的方式进行仿真推演，模拟态势演变过程和事件发展趋势走向，生成仿真推演结构化数据。

交互分析模块基于数据子集的统计和数据分类特征/关联分析结果，同时基于仿真推演的推演结果，给出态势走向的各种可能及其置信度，以折线图、饼图和直方图形式展现多维建模分析结果，以回放的形式在二维、三维地图动态呈现仿真推演过程和态势预测结果，将多维建模的分析结果和仿真推演的推演结果呈现给用户，其中多维建模模块的分析结果主要是基于数据子集的统计特征，可以以折线图、饼图、直方图等形式予以展现，仿真推演模块的推演结果有一个动态的过程，在二维、三维地图上以回放的形式进行展现将更加清晰。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种复杂信息分析引擎架构，包括：顺次串联的数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块和交互分析模块，引入交互分析模块的仿真推演模块，其特征在于：数据采集/提取模块通过爬虫获取互联网上的海量网页信息，通过传感器装备采集专有数据，汇集形成公开数据和专有数据的数据池；数据理解模块作为数据预处理的一部分，通过对文本、图像、视频多种形式的非结构化数据进行预处理，得到事件/目标特征集的关键特征信息；数据结构化模块将进行预处理后的非结构化数据转换为结构化数据，索引模块对上述结构化数据进行正向索引或倒排索引，构建结构化数据池库；检索模块基于用户给定查询词，在结构化数据池库中进行数据检索和查询词匹配，得到与查询词相匹配的数据集合；多维建模模块实现基于统计特征的数据挖掘，对数据进行多维建模；仿真推演模块基于用户查询词和数据检索结果，从模型库、规则库、算法库中调用与数据集合中匹配的关联要素模型，以“数据+模型”驱动的方式进行仿真推演，生成仿真推演结构化数据集；交互分析模块将多维建模的分析结果和仿真推演的推演结果呈现给用户。

2.如权利要求1所述的复杂信息分析引擎架构，其特征在于：数据采集/提取模块利用爬虫、代理数据采集工具，从网页、博客、论坛公开数据来源渠道，定期或不定期进行公开数据采集，通过传感器装备定期或不定期进行专有数据采集，同时从公开数据库中提取公开数据，从私有数据库中提取专有数据，汇集形成数据池。

3.如权利要求2所述的复杂信息分析引擎架构，其特征在于：数据采集/提取模块通过爬虫获得互联网上的海量网页信息，存储在本地并建立方便查找的索引；爬虫将网页文档信息下载到本地后，对上述网页文档建立倒排索引和单词与文档的对应关系，通过关键词的匹配查找相应的文档，借助专门的传感器装备和平台采集专有数据，从公开数据库提取公开数据信息，从私有数据库提取已有的专门数据，将这四种方式获取得到的数据汇集形成一个新的数据池库。

4.如权利要求1所述的复杂信息分析引擎架构，其特征在于：数据结构化模块利用提取的事件特征集的关键特征信息分门别类进行结构化存储，通过数据之间的相互印证，建立不同来源数据之间的关联关系，经过处理后，完成非结构化数据到结构化数据的转换。

5.如权利要求4所述的复杂信息分析引擎架构，其特征在于：数据结构化模块对提取得到的关键特征信息，建立不同来源数据之间的关联关系和数据之间的相互印证，规范化管理数据的结构化存储，通过时空一致性检测、目标属性一致性检测、内容一致性检测，实现关键特征信息的冲突证伪，完成从非结构化数据到结构化数据的转换和存储。

6.如权利要求4所述的复杂信息分析引擎架构，其特征在于：数据理解模块从非结构化数据中提取关键特征信息，采用自然语言对文本数据进行处理，通过文本分词、命名实体识别、情感分析、删除停止词和标点符号，文本向量化抽取得到文本数据的特征、属性的关键信息；如权利要求5所述的复杂信息分析引擎架构，其特征在于：数据理解模块采用辐射校正、几何校正方法对图像数据进行处理，得到图像数据的对比度、灰度、几何关键特征信息；采用音视频轨分离、场景分割、降噪、语音文本转换方法对视频数据进行处理，再结合文本处理和图像处理方法综合得到视频数据的关键特征信息。

7.如权利要求1所述的复杂信息分析引擎架构，其特征在于：索引模块以正向索引和倒排索引两种索引方式，对结构化数据进行索引，检索模块完成基于查询词的数据检索，根据用户输入的查询词，在结构化数据池库中进行数据检索，得到与查询词相匹配的数据子集。

8.如权利要求1所述的复杂信息分析引擎架构，其特征在于：多维建模模块根据检索模块检索得到的历史数据信息的数据子集，从时间、空间、属性、状态规律的多个维度进行数据挖掘和基于统计特征的统计分析，发现关键节点和事件，通过目标实体识别、关系识别，分析多维建模，建立目标、关系、关键节点和事件发现的网络拓扑结构，实现数据多维建模；且上述数据子集既包含了实体名称的文字信息，也包含了位置、速度、航向的数字信息，是多种信息形式的集合体。

9.如权利要求1所述的复杂信息分析引擎架构，其特征在于：仿真推演模块基于用户查询词和数据检索结果，从模型库、规则库、算法库中调用相关联的要素模型、推演规则、仿真算法，生成适用于当前查询词的仿真推演场景，基于检索得到的数据子集，以“数据+模型”驱动的方式进行仿真推演，模拟态势演变过程和事件发展趋势走向，生成仿真推演结构化数据。

10.如权利要求1所述的复杂信息分析引擎架构，其特征在于：交互分析模块基于数据子集的统计和数据分类特征/关联分析结果，同时基于仿真推演的推演结果，给出态势走向的各种可能及其置信度，以折线图、饼图和直方图形式展现多维建模分析结果，以回放的形式在二维、三维地图动态呈现仿真推演过程和态势预测结果，将多维建模的分析结果和仿真推演的推演结果呈现给用户。