CN113239140A - 复杂信息分析引擎架构 - Google Patents
复杂信息分析引擎架构 Download PDFInfo
- Publication number
- CN113239140A CN113239140A CN202110480699.6A CN202110480699A CN113239140A CN 113239140 A CN113239140 A CN 113239140A CN 202110480699 A CN202110480699 A CN 202110480699A CN 113239140 A CN113239140 A CN 113239140A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- information
- structured
- deduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000004088 simulation Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000002452 interceptive effect Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000007418 data mining Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 230000018109 developmental process Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000008451 emotion Effects 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 230000005855 radiation Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 description 9
- 238000005065 mining Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012482 interaction analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开的一种复杂信息分析引擎架构,检索效率高,能够更好地提升数据处理能力。本发明通过下述技术方案实现:数据采集/提取模块通过数据采集,汇集成数据池;数据理解模块对非结构化数据进行处理,数据结构化模块利用提取的事件特征集关键特征信息分门别类进行结构化存储,完成非结构化数据到结构化数据的转换;索引模块对结构化数据进行正向索引或倒排索引,检索模块在结构化数据池库中进行数据检索,得到与查询词相匹配的数据集合;多维建模模块是基于统计特征的数据挖掘,实现数据多维建模;仿真推演模块调用相关联的要素,生成仿真推演结构化数据集;交互分析模块将多维建模的分析结果和仿真推演的推演结果呈现给用户。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种复杂信息分析引擎架构
背景技术
大数据时代,数据的数量呈几何级增长,内容扩展丰富的同时其复杂度也大大增加。对于数据的分析使用已不仅限于传统的统计、分类、聚合,而是需要进行更深入的理解和挖掘。信息过载导致获取有用信息变得困难,不利于信息的理解和分析。在这个信息爆炸的时代,每个系统、每个人面临的问题不再是无法获取信息,而是如何能够快速地从海量的信息中获取有价值的内容,并阻止无用的信息淹没有价值的信息。海量消息系统不仅对消息处理的可靠性有一定的要求,对系统扩展性也有较高要求,希望能够从每秒几千次消息到上百万次消息平滑扩展。因此靠传统的离线处理基本不可能完成。目前主要有两种海量实时数据处理方法:第1种方法是通过类似Map-reduce的方法进行在线采集、离线处理;第2种方法是事件流化,直接在内存中进行海量数据的运算和处理。对于消息系统,目前第1种方法有micro-mapreduce,它可以将Map-reduce粒度变小,周期缩短,这种方法实时性稍差(5min-1h),但能够较好地处理可扩展性问题。第2种方法有现有开源的流式处理框架如S4,商用的产品如OracleCEP等,该方法能够将相关数据载入内存并进行计算,单机处理性能较高,但处理的可扩展性、容灾容错等存在一些问题,需要在前端进行数据分流,后端进行数据合并。信息架构非常复杂,功能繁多,流程复杂,大致可以分为两类,一类是面向消费者产品的ToC产品,一类是面向企业或者特定用户群体面商类产品的ToB产品。描述ToC类产品为信息架构相对简单的产品,每个用户的核心场景不算多。而ToB类产品动辄就是上百个核心故事,各种功能模块繁杂且对用户的亲切性低,使用起来学习成本高。还有不少ToB产品,需要有专门的培训和讲解,才能勉强让新用户开始使用。这个时候,如果单纯以学习成本低到没有来要求ToB类产品,非常难。信息架构复杂起来,是很难通过认知设计、视觉设计、交互流程简化来解决学习成本高的问题。信息检索技术和搜索引擎可以在一定程度上解决这个问题,但不能满足对信息进行深入分析和理解的现实需求。搜索引擎是信息检索技术的基本实现形式,通过匹配用户查询词与数据库中或互联网上已有数据文档之间的相关性,筛选得到满足用户期望的数据子集,这一过程获取得到的是未经加工的初级知识,要实现向高阶知识的跃升,需要分析引擎。分析引擎是在搜索引擎的基础上,通过对海量大数据进行抽取、挖掘、深入理解、聚合分析、总结,得到包含结论性的高阶知识,再以交互式方式呈现给用户,支撑用户决策和行为。搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网的信息获取到本地,因为网页中有相当大比例的内容是完全相同或近似重复的,网页去重模块会对此进行检测,并去除重复内容。由于网页数量太多,搜索引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,这就需要搭建优秀可靠的云存储和云计算平台。搜索引擎通俗来讲就是从互联网海量信息中捞出用户感兴趣的内容提供给用户。搜索引擎的基本软件架构本身没有公认的定义,但通常由软件组件、组件接口以及它们之间的关系组成。搜索引擎的两个主要目标是:有效性(质量):我们希望能够检索查询可能的最相关文档集。效率(速度):我们希望尽快处理用户的查询。我们也可能有更具体的目标,但通常这些目标属于有效性或效率(或两者)。例如,我们想要搜索的文档集合可能正在发生变化;确保搜索引擎立即对文档中的更改做出反应既是有效问题,也是效率问题。搜索引擎基本架构主要有三方面的作用:1、通过爬虫获得互联网上的海量网页信息,存储在本地并建立索引方便查找;2、用户输入查询query,解析查询意图,并将query分发进行查询;3、使用query通过各种算法对索引中的文档(网页)排序,返回最符合意图的若干条结果。
传统的分析引擎站在搜索引擎之上,能够在一定程度满足用户对于海量信息的分析理解需求,但主要是根据搜索引擎的检索结果,从统计特征的角度对历史数据进行多维度分析和归纳总结,这种理解和分析是片面的,不利于支撑用户决策和行为。对态势演变趋势和发展方向的准确掌握,有利于提早进行行动部署,掌握主动权,对态势的研判需要同时基于当前已有数据和未来预测数据,就当前已有的分析引擎来说,尚不具备这种能力。
复杂事件处理引擎跟踪分析数据流,这种数据流是无界的,也即是连续接收开放的数据序列,且终点未知。传统引擎都是基于规则的,规则的特点是计算简单,所以在实时计算中消耗较少。但规则的问题是针对已知结论的模式,对未知攻击无法识别,所以他不需要考虑历史事件。历史事件的增加,会对存储和处理能力都有新的要求。
发明内容
本发明的目的是针对在态势研判中所需的信息分析处理需求与现实能力之间的差距,提出一种可以显著提升检索效率,能够更好地实现对数据的挖掘、理解和分析,提升数据处理能力,保证系统高可靠性的复杂信息分析引擎架构。
本发明的上述目的可以通过以下技术方案予以实现:一种复杂信息分析引擎架构,包括:顺次串联的数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块和交互分析模块,引入交互分析模块的仿真推演模块,其特征在于:数据采集/提取模块通过爬虫获取互联网上的海量网页信息,汇集形成公开数据和专有数据的数据池;数据理解模块作为数据预处理的一部分,通过对文本、图像、视频的多种形式对非结构化数据进行预处理,得到事件/目标特征集的关键特征信息;数据结构化模块将进行预处理后的非结构化数据转换为结构化数据,索引模块对上述结构化数据进行正向索引或倒排索引,构建结构化数据池库;检索模块基于用户给定查询词,在结构化数据池库中进行数据检索和查询词匹配,得到与查询词相匹配的数据集合;多维建模模块根据检索基于统计特征的数据挖掘,对数据进行多维建模;仿真推演模块基于用户查询词和数据检索结果,从模型库、规则库、算法库中调用数据集合中匹配的关联要素模型,以“数据+模型”驱动的方式进行仿真推演,生成仿真推演结构化数据集;交互分析模块仿真推演模块仿真推演的态势预测结果,将多维建模的分析结果和仿真推演的推演结果呈现给用户。
本发明相比于现有技术具有如下有益效果:
本发明采用数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块、仿真推演模块和交互分析模块,通过数据采集/提取、数据理解、数据结构化、索引、检索、多维建模、仿真推演、交互分析实现对海量数据的挖掘、分析和理解,满足用户对于信息分析处理的现实需求。
本发明采用支持基于查询词的数据检索的索引模块对结构化数据进行索引,以有正向索引和倒排索引两种索引方式,可以显著提升检索效率。
本发明通过引入仿真推演模块,利用仿真推演模拟态势演变过程和事件发展趋势走向,生成仿真推演结构化数据集,弥补了传统分析引擎只能处理历史数据和当前数据信息的不足,为用户更好地掌握态势信息,研判态势演变走向提供了数据支持,保证了系统高可靠性。
本发明采用数据理解模块,通过对文本、图像、视频等多种形式的非结构化数据进行处理,得到事件/目标特征集关键特征信息,数据结构化模块利用提取的事件特征集关键特征信息分门别类进行结构化存储的过程,通过数据之间的相互印证,建立不同来源数据之间的关联关系,经过处理后,完成非结构化数据到结构化数据的转换,仿真推演模块的引入使得复杂信息分析引擎融合了历史数据和未来预测数据,能够更好地实现对数据的挖掘、理解和分析,提升数据处理能力。
附图说明
图1是本发明的复杂信息分析引擎架构示意图。
具体实施方式
参阅图1。在以下描述的优选实施例中,一种复杂信息分析引擎架构,包括:顺次串联的数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块和交互分析模块,引入交互分析模块的仿真推演模块。数据采集/提取模块通过爬虫获取互联网上的海量网页信息,汇集形成公开数据和专有数据的数据池;数据理解模块作为数据预处理的一部分,通过对文本、图像、视频的多种形式对非结构化数据进行预处理,得到事件/目标特征集的关键特征信息;数据结构化模块将进行预处理后的非结构化数据转换为结构化数据,索引模块对上述结构化数据进行正向索引或倒排索引,构建结构化数据池库;检索模块基于用户给定查询词,在结构化数据池库中进行数据检索和查询词匹配,得到与查询词相匹配的数据集合;多维建模模块根据检索基于统计特征的数据挖掘,对数据进行多维建模;仿真推演模块基于用户查询词和数据检索结果,从模型库、规则库、算法库中调用数据集合中匹配的关联要素模型,以“数据+模型”驱动的方式进行仿真推演,生成仿真推演结构化数据集;交互分析模块仿真推演模块仿真推演的态势预测结果,将多维建模的分析结果和仿真推演的推演结果呈现给用户。
数据采集/提取模块利用爬虫、代理等数据采集工具从网页、博客、论坛等公开数据来源渠道数据定期或不定期进行公开数据采集,通过传感器装备定期或不定期进行专有数据采集,同时从公开数据库中提取公开数据,从私有数据库中提取专有数据,汇集形成数据池。数据采集/提取模块通过爬虫获得互联网上的海量网页信息,存储在本地并建立方便查找的索引;爬虫将网页文档信息下载到本地后,对上述网页文档建立倒排索引和单词与文档的对应关系;爬虫将文档(即网页)信息下载到本地后,需要对文档建立倒排索引。倒排索引就是抽取文档中的单词,建立单词与文档的对应关系,这样就能通过关键词的匹配查找到相应的文档。借助专门的传感器装备和平台,比如卫星,对特定区域以定期或不定期的方式进行专有数据采集,同时从公开数据库,比如政府网站公开数据库,提取公开数据信息,从私有数据库提取已有的专门数据,将这四种方式获取得到的数据汇集形成一个新的数据池库,该数据池库同时包含了公开数据和专有数据。
数据采集/提取模块获得的数据80%以上是以非结构化形式存在的,比如文本、图像、视频等形式。
数据结构化模块利用提取的事件特征集的关键特征信息分门别类进行结构化存储的过程,通过数据之间的相互印证,建立不同来源数据之间的关联关系,经过处理后,完成非结构化数据到结构化数据的转换。
数据理解模块是从非结构化数据中提取关键特征信息,以便于后续将其进行结构化存储的过程;采用自然语言处理对文本数据进行处理,通过文本分词、命名实体识别、情感分析、删除停止词和标点符号、文本向量化等抽取得到文本数据的特征、属性等关键信息;采用辐射校正、几何校正等方法对图像数据进行处理,得到图像数据的对比度、灰度、几何等关键特征信息;采用音视频轨分离、场景分割、降噪、语音文本转换等方法对视频数据进行处理,再结合文本处理和图像处理方法综合得到视频数据的关键特征信息。
数据结构化模块利用提取的事件特征集的关键特征信息分门别类进行结构化存储的过程,通过数据之间的相互印证,建立不同来源数据之间的关联关系,经过处理后,完成非结构化数据到结构化数据的转换。
数据结构化模块对提取得到的关键特征信息,建立不同来源数据之间的关联关系,这不仅有利于数据的结构化存储和规范化管理,也能实现数据之间的相互印证。通过时空一致性检测、目标属性一致性检测、内容一致性检测等,实现关键特征信息的冲突证伪,最终完成从非结构化数据到结构化数据的转换和存储。
索引模块以正向索引和倒排索引两种索引方式,对结构化数据进行索引,检索模块基于查询词的数据检索,根据用户输入的查询词,在结构化数据池库中进行数据检索,得到与查询词相匹配的数据子集。
多维建模模块根据检索模块检索得到的历史数据信息的数据子集,从时间、空间、属性、状态规律等多个维度进行数据挖掘和基于统计特征的统计分析,发现关键节点和事件,通过目标实体识别、关系识别,分析多维建模,建立目标、关系、关键节点和事件发现的网络拓扑结构,实现数据多维建模,该数据子集既包含了实体名称等文字信息,也包含了位置、速度、航向等数字信息,是多种信息形式的集合体。
检索得到的数据子集主要是当前已存在的数据,从时间上看是截至当前时刻的数据。该数据集合对于进行历史规律统计分析具有重要意义和使用价值,但对于未来态势的研判和走向掌控只能提供一定的参考,这就需要借助仿真推演,利用模型、算法、规则来模拟未来的各种可能,通过推演给出走向置信概率,支撑用户的研判分析和决策行动。
仿真推演模块基于用户查询词和数据检索结果,从模型库、规则库、算法库中调用相关联的要素模型、推演规则、仿真算法,生成适用于当前查询词的仿真推演场景,基于检索得到的数据子集,以“数据+模型”驱动的方式进行仿真推演,模拟态势演变过程和事件发展趋势走向,生成仿真推演结构化数据。
交互分析模块基于数据子集的统计和数据分类特征/关联分析结果,同时基于仿真推演的推演结果,给出态势走向的各种可能及其置信度,以折线图、饼图和直方图形式展现多维建模分析结果,以回放的形式在二维、三维地图动态呈现仿真推演过程和态势预测结果,将多维建模的分析结果和仿真推演的推演结果呈现给用户,其中多维建模模块的分析结果主要是基于数据子集的统计特征,可以以折线图、饼图、直方图等形式予以展现,仿真推演模块的推演结果有一个动态的过程,在二维、三维地图上以回放的形式进行展现将更加清晰。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种复杂信息分析引擎架构,包括:顺次串联的数据采集/提取模块、数据理解模块、数据结构化模块、索引模块、检索模块、多维建模模块和交互分析模块,引入交互分析模块的仿真推演模块,其特征在于:数据采集/提取模块通过爬虫获取互联网上的海量网页信息,通过传感器装备采集专有数据,汇集形成公开数据和专有数据的数据池;数据理解模块作为数据预处理的一部分,通过对文本、图像、视频多种形式的非结构化数据进行预处理,得到事件/目标特征集的关键特征信息;数据结构化模块将进行预处理后的非结构化数据转换为结构化数据,索引模块对上述结构化数据进行正向索引或倒排索引,构建结构化数据池库;检索模块基于用户给定查询词,在结构化数据池库中进行数据检索和查询词匹配,得到与查询词相匹配的数据集合;多维建模模块实现基于统计特征的数据挖掘,对数据进行多维建模;仿真推演模块基于用户查询词和数据检索结果,从模型库、规则库、算法库中调用与数据集合中匹配的关联要素模型,以“数据+模型”驱动的方式进行仿真推演,生成仿真推演结构化数据集;交互分析模块将多维建模的分析结果和仿真推演的推演结果呈现给用户。
2.如权利要求1所述的复杂信息分析引擎架构,其特征在于:数据采集/提取模块利用爬虫、代理数据采集工具,从网页、博客、论坛公开数据来源渠道,定期或不定期进行公开数据采集,通过传感器装备定期或不定期进行专有数据采集,同时从公开数据库中提取公开数据,从私有数据库中提取专有数据,汇集形成数据池。
3.如权利要求2所述的复杂信息分析引擎架构,其特征在于:数据采集/提取模块通过爬虫获得互联网上的海量网页信息,存储在本地并建立方便查找的索引;爬虫将网页文档信息下载到本地后,对上述网页文档建立倒排索引和单词与文档的对应关系,通过关键词的匹配查找相应的文档,借助专门的传感器装备和平台采集专有数据,从公开数据库提取公开数据信息,从私有数据库提取已有的专门数据,将这四种方式获取得到的数据汇集形成一个新的数据池库。
4.如权利要求1所述的复杂信息分析引擎架构,其特征在于:数据结构化模块利用提取的事件特征集的关键特征信息分门别类进行结构化存储,通过数据之间的相互印证,建立不同来源数据之间的关联关系,经过处理后,完成非结构化数据到结构化数据的转换。
5.如权利要求4所述的复杂信息分析引擎架构,其特征在于:数据结构化模块对提取得到的关键特征信息,建立不同来源数据之间的关联关系和数据之间的相互印证,规范化管理数据的结构化存储,通过时空一致性检测、目标属性一致性检测、内容一致性检测,实现关键特征信息的冲突证伪,完成从非结构化数据到结构化数据的转换和存储。
6.如权利要求4所述的复杂信息分析引擎架构,其特征在于:数据理解模块从非结构化数据中提取关键特征信息,采用自然语言对文本数据进行处理,通过文本分词、命名实体识别、情感分析、删除停止词和标点符号,文本向量化抽取得到文本数据的特征、属性的关键信息;如权利要求5所述的复杂信息分析引擎架构,其特征在于:数据理解模块采用辐射校正、几何校正方法对图像数据进行处理,得到图像数据的对比度、灰度、几何关键特征信息;采用音视频轨分离、场景分割、降噪、语音文本转换方法对视频数据进行处理,再结合文本处理和图像处理方法综合得到视频数据的关键特征信息。
7.如权利要求1所述的复杂信息分析引擎架构,其特征在于:索引模块以正向索引和倒排索引两种索引方式,对结构化数据进行索引,检索模块完成基于查询词的数据检索,根据用户输入的查询词,在结构化数据池库中进行数据检索,得到与查询词相匹配的数据子集。
8.如权利要求1所述的复杂信息分析引擎架构,其特征在于:多维建模模块根据检索模块检索得到的历史数据信息的数据子集,从时间、空间、属性、状态规律的多个维度进行数据挖掘和基于统计特征的统计分析,发现关键节点和事件,通过目标实体识别、关系识别,分析多维建模,建立目标、关系、关键节点和事件发现的网络拓扑结构,实现数据多维建模;且上述数据子集既包含了实体名称的文字信息,也包含了位置、速度、航向的数字信息,是多种信息形式的集合体。
9.如权利要求1所述的复杂信息分析引擎架构,其特征在于:仿真推演模块基于用户查询词和数据检索结果,从模型库、规则库、算法库中调用相关联的要素模型、推演规则、仿真算法,生成适用于当前查询词的仿真推演场景,基于检索得到的数据子集,以“数据+模型”驱动的方式进行仿真推演,模拟态势演变过程和事件发展趋势走向,生成仿真推演结构化数据。
10.如权利要求1所述的复杂信息分析引擎架构,其特征在于:交互分析模块基于数据子集的统计和数据分类特征/关联分析结果,同时基于仿真推演的推演结果,给出态势走向的各种可能及其置信度,以折线图、饼图和直方图形式展现多维建模分析结果,以回放的形式在二维、三维地图动态呈现仿真推演过程和态势预测结果,将多维建模的分析结果和仿真推演的推演结果呈现给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110480699.6A CN113239140A (zh) | 2021-04-30 | 2021-04-30 | 复杂信息分析引擎架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110480699.6A CN113239140A (zh) | 2021-04-30 | 2021-04-30 | 复杂信息分析引擎架构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239140A true CN113239140A (zh) | 2021-08-10 |
Family
ID=77131739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110480699.6A Pending CN113239140A (zh) | 2021-04-30 | 2021-04-30 | 复杂信息分析引擎架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239140A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116842715A (zh) * | 2023-06-25 | 2023-10-03 | 北京华如科技股份有限公司 | 一种仿真数据结构化处理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141456A (zh) * | 2007-10-09 | 2008-03-12 | 南京财经大学 | 基于垂直搜索的网络数据挖掘方法 |
CN109710767A (zh) * | 2019-01-02 | 2019-05-03 | 山东省科学院情报研究所 | 多语种大数据服务平台 |
CN112651130A (zh) * | 2020-12-28 | 2021-04-13 | 航天科工网络信息发展有限公司 | 一种面向决策支持的虚实映射平行仿真系统 |
-
2021
- 2021-04-30 CN CN202110480699.6A patent/CN113239140A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141456A (zh) * | 2007-10-09 | 2008-03-12 | 南京财经大学 | 基于垂直搜索的网络数据挖掘方法 |
CN109710767A (zh) * | 2019-01-02 | 2019-05-03 | 山东省科学院情报研究所 | 多语种大数据服务平台 |
CN112651130A (zh) * | 2020-12-28 | 2021-04-13 | 航天科工网络信息发展有限公司 | 一种面向决策支持的虚实映射平行仿真系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116842715A (zh) * | 2023-06-25 | 2023-10-03 | 北京华如科技股份有限公司 | 一种仿真数据结构化处理系统 |
CN116842715B (zh) * | 2023-06-25 | 2024-04-26 | 北京华如科技股份有限公司 | 一种仿真数据结构化处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hohman et al. | Visual analytics in deep learning: An interrogative survey for the next frontiers | |
US11899681B2 (en) | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium | |
CN111753198A (zh) | 信息推荐方法和装置、以及电子设备和可读存储介质 | |
US9875301B2 (en) | Learning multimedia semantics from large-scale unstructured data | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
Satyanarayana et al. | Sentimental Analysis on voice using AWS Comprehend | |
Alam et al. | Intellibvr-intelligent large-scale video retrieval for objects and events utilizing distributed deep-learning and semantic approaches | |
CN113239140A (zh) | 复杂信息分析引擎架构 | |
Manousaki et al. | Vlmah: Visual-linguistic modeling of action history for effective action anticipation | |
CN116821696A (zh) | 表格问答模型的训练方法、装置、设备及存储介质 | |
Qi et al. | Design of graph neural network social recommendation algorithm based on coupling influence | |
CN112818140A (zh) | 基于多模态数据增广的图像检索方法 | |
Zhao | Construction of Safety Early Warning Model for Construction of Engineering Based on Convolution Neural Network | |
Rahman et al. | An efficient approach for web mining using semantic web | |
Yang et al. | A Data Mining Model and Methods Based on Multimedia Database | |
CN112860992B (zh) | 基于网站内容数据推荐的特征优化预训练方法 | |
Lumbantoruan et al. | TopC-CAMF: A Top Context Based Matrix Factorization Recommender System | |
Bahuguna et al. | Recent trends in event detection from twitter using multimodal data | |
Jin | [Retracted] Serialized Recommendation Technology Based on Deep Neural Network | |
Ma et al. | Including pervasive web content in evidence-based software engineering: A case study | |
Sing et al. | Judgemental Analysis of Data and Prediction Using Ann | |
Firmansyah et al. | Duplicate Account Detection on Instagram, Twitter, and YouTube Using Deep Learning | |
Yang et al. | Research on Knowledge Graph Construction Methods for News Domain | |
CN118733744A (zh) | 智能问答方法、装置、计算机设备和可读存储介质 | |
Mutasher et al. | Real Time Big Data Sentiment Analysis and Classification of Facebook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |
|
RJ01 | Rejection of invention patent application after publication |