CN104850601B - 基于图数据库的警务实时分析应用平台及其构建方法 - Google Patents
基于图数据库的警务实时分析应用平台及其构建方法 Download PDFInfo
- Publication number
- CN104850601B CN104850601B CN201510217994.7A CN201510217994A CN104850601B CN 104850601 B CN104850601 B CN 104850601B CN 201510217994 A CN201510217994 A CN 201510217994A CN 104850601 B CN104850601 B CN 104850601B
- Authority
- CN
- China
- Prior art keywords
- titan
- data
- engines
- storage systems
- hdfs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图数据库的警务实时分析应用平台及其构建方法,该平台包括HDFS存储系统、Titan引擎、及应用层,HDFS存储系统采集得到的结构化、半结构化、非结构化原始数据;Titan引擎存储人员事件关系图谱,其以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质,HBase以HFile的数据格式存储到HDFS存储系统上,SolrCloud以Lucene的文件格式存储到HDFS存储系统上。本发明引入分布式的并发运算技术,可快速准确的进行多层关系分析,通过大数据平台对人员关系信息的整合和分析处理,达到亚秒级的4层关系分析及展现。
Description
技术领域
本发明涉及大数据技术领域,具体为基于图数据库的警务实时分析应用平台及其构建方法。
背景技术
目前公安行业在分析人员关系、案件关系时使用的是以Oracle为主的传统关系型数据库作为分析源,使用存储过程等较为传统的技术手段,随着数据量的不断增长,传统关系型数据库水平扩展的限制,无法存储更多的数据,处理性能大大降低,且无法满足时效性的要求。在互联网技术的发展带动下,互联网行业率先在大数据技术上已经做了一定的研究和探索,也形成了一定的经验,但是无法直接在公安行业上进行使用。因此基于海量关系数据的快速分析,将人、事内在联系建立交互式图表,把所有资讯线索统一起来,以协助警方人员协调监控警力十分必要。
发明内容
本发明的目的在于提供一种基于图数据库的警务实时分析应用平台及其构建方法,以针对公安行业特定的行业背景,形成专业分析工具,优化关系线索的分析和展示,为实现上述目的,本发明采用以下技术方案:
基于图数据库的警务实时分析应用平台,包括HDFS存储系统、Titan引擎、及应用层,所述的HDFS存储系统采集得到的结构化、半结构化、非结构化原始数据;所述的Titan引擎存储人员事件关系图谱,其以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质,HBase以HFile的数据格式存储到HDFS存储系统上,SolrCloud以Lucene的文件格式存储到HDFS存储系统上;所述的应用层显示人员事件关系图谱信息。
进一步地,所述的Titan引擎由三层组成,分别为Client API层、数据库层及数据索引存储层,所述的client API层为应用和外部应用提供接口,数据库层用于存储关系图谱,数据索引存储层用于将图谱以数据或文件格式存储到HDFS存储系统上。
其中,所述的Titan引擎以Titan Server的方式提供外部应用服务,采用Rest API的方式供外部应用访问,采用Ngnix反向代理的方式部署多台Titan Server服务器。
其中,所述的应用层采用基于HTML5可视化展示框架展示关系网络。
基于图数据库的警务实时分析应用平台的构建方法,构建实施步骤如下:
S1.部署系统大数据环境,搭建HDFS存储系统框架组件及Titan Server服务器;
S2.构建Titan引擎服务器的存储介质和存储的表结构、索引存储结构及数据集合结构,以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质;
S3.构建Titan引擎的关系图谱,设计元数据结构;
S4.并发计算Titan引擎的关系图谱,分布式的并行运算以YARN为基础框架,使用MapReduce、Pig、Hive工具进行分布式运算,将关系图谱采用titan-hadoop的方式导入Titan引擎的数据库层中;
S5.采用J2EE搭建Titan引擎的应用软件;
S6.构建应用层,采用基于HTML5可视化展示框架展示关系网络,采用jquery或html或css或bootstrap展示其他详细信息。
采用以上技术方案后,本发明具有以下有益效果:
1、快速准确的多层关系分析,通过大数据平台对人员关系信息的整合和分析处理,由传统关系型数据库在对3至4层简单关系的分析上整合了更加复杂关系的分析,且可以达到亚秒级的4层关系分析及展现。
2、基于大数据平台,引入分布式的并发运算技术。存储除了结构化数据的存储,还涉及非结构化和半结构化数据,建立好人员关系后批量建立人员案件的关系图谱并且快速的遍历出人员案件的关系网络,可有效清晰的展现人员案件的关系图谱。
3、基于社交网络的大数据分析,可以实现对群体事件临界点的预测,建立人类社会行为预测数学模型,为战略、行动、战术决策和计划提供支持。
附图说明
图1为本发明的结构示意图;
图2为HDFS存储系统的原理图;
图3为HBase的数据模型结构示意图;
图4为HBase的列族的列的存储格式示意图;
图5为SolrCloud架构示意图;
图6为Titan引擎的原理图;
图7、8、9为应用层最终可视化展示效果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
如图1所示,本发明公开了一种基于图数据库的警务实时分析应用平台及其构建方法,包括HDFS存储系统、Titan引擎、及应用层。
1、HDFS存储系统采集得到的结构化、半结构化、非结构化原始数据。HDFS(HadoopDistributed File System)分布式文件系统是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。它是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于低成本的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。其原理如图2所示,NameNode负责索引和调度hdfs上的数据,datanode负责数据的存储以及服务的读写服务。通过Datanode的线性扩展,单一Hadoop集群可以达到4000节点以及14个PB以上的存储容量。
2、Titan引擎存储人员事件关系图谱,其以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质,HBase以HFile的数据格式存储到HDFS存储系统上,SolrCloud以Lucene的文件格式存储到HDFS存储系统上。
Titan引擎由三层组成,分别为Client API层、数据库层及数据索引存储层。client API层为应用和外部应用提供接口,client API层连接的应用可为Gremlin、Rexster、Furnace的一种或几种。数据库层用于存储关系图谱,数据索引存储层用于将图谱以数据或文件格式存储到HDFS存储系统上。
Titan引擎以Titan Server的方式提供外部应用服务,采用Rest API的方式供外部应用方向,采用Ngnix反向代理的方式部署多台Titan Server服务器。
HBase是基于列进行存储的NoSQL数据库,支持列的动态添加,在列为空的情况下不存储数据,节省存储空间。HBase能自动切分数据,并将数据存储在Hdfs的DataNode节点上,使得HBase的存储具有自动具有水平扩展的能力。
HBase通过Master节点,可以循序定位到数据存储所在Region节点,并能够支持多线程读取,具有高并发读写能力。能够通过不停机动态扩展Region节点,获取更高的并发处理性能。关系图谱的数据以一定的数据模型存储在HBase中,并且利用HBase实时的Rowkey查询,为关系图谱的节点和边的属性提供快速的等于类型的组合检索。HBase的数据模型如图3所示,以vertex id为每行记录的唯一ID,包含了节点的属性和节点的边信息,而节点的边在HBase中为一个列族,它的列族的列的存储格式如图4所示。
SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。其架构如图5所示。SolrCloud是Solr的基于Zookeeper一种部署方式。用于提供高可用、负载均衡和线性性能扩展的能力。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,具备加入中文分词接口的能力,本发明系统实现对中文分词的支持。
Titan引擎将数据数据存储在HBase中,并使用SolrCloud建立索引,可获得毫秒级的级联检索性能。
本发明系统基于人类行为的计算模型,通过基于社交网络的大数据分析,可以实现对群体事件临界点的成功预测。建立人类社会行为预测数学模型,为战略、行动、战术决策和计划提供支持。本发明大数据平台和关系型数据的数据仓库对比,区别表现在以下几个方面,如表1所示。
表1
本发明系统采用Titan引擎为图数据库的数据遍历,在执行上,不像关系型数据库需要进行JOIN联接操作,它以图的数据模型为存储载体,应用图形理论存储实体之间的关系信息,以节点,边和属性来表示和存储数据语义查询的数据库。比如社会网络中人与人之间的关系,在计算机技术主要立足在存储、分析和可视化三个角度。它是以节点、边、节点属性、边关系和边属性组成的有一定关系的图谱,以一种延迟风格遍历图-节点和关系只有在结果迭代器需要访问它们的时候才会被遍历并返回,对于大规模深度遍历而言,这极大地提高了性能。图数据库的数据遍历只要以节点为中心出发检索即可获得关系网络信息,其原理如图6所示。
3、应用层采用基于HTML5可视化展示框架展示关系网络。
可采用HTML5框架的D3.JS(开源,可定制)、Echarts(百度开源,可定制)、KeyLines(收费)等。应用层最终可视化展示如图7、8、9所示。
上述基于图数据库的警务实时分析应用平台构建实施步骤如下:
S1.部署系统大数据环境,搭建HDFS存储系统框架组件及Titan Server服务器;采用反向代理的方式同时部署多台Titan Server服务器,分担访问的负载和无单点故障。
S2.构建Titan引擎服务器的存储介质和存储的表结构、索引存储结构及数据集合结构,以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质。
要为SolrCloud增加额外的服务器来提供服务能力,只需要将设备通过可视化配置界面加入到集群中,安装SolrCloud服务、配置分片即可。SolrCloud通过Zookeeper提供调度,外界应用通过Zookeeper访问SolrCloud服务,同时做到自动故障转移和负载均衡。根据不同数据的服务要求,可以在不同的SolrCloud节点中,根据节点内存和数据分片的配置策略,提供不同等级的服务。除支持Lucene标准查询语言进行全文检索之外,SolrCloud提供以下功能:中文分词器配置、维护索引、查询索引、高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索。Solr提供高性能查询缓存服务,优化查询缓存命中率后,能极大提高查询效率。
S3.构建Titan引擎的关系图谱,设计元数据结构;
S4.并发计算Titan引擎的关系图谱,分布式的并行运算以YARN为基础框架,使用MapReduce、Pig、Hive工具进行分布式运算,将关系图谱采用titan-hadoop的方式导入Titan引擎的数据库层中;
S5.采用J2EE搭建Titan引擎的应用软件。例如Gremlin(Titan CLI终端工具)、Rexster(Titan Server应用站点)、Furnace(Titan-Hadoop框架)。
S6.构建应用层,采用基于HTML5可视化展示框架展示关系网络,采用jquery或html或css或bootstrap展示其他详细信息。
采用本发明的构建方法构建的关系图谱应用平台,可应用于公安相关行业,针对行业的背景的专业分析公具,通过大量数据可视化,如电话、电子邮件或社交网络的记录,建立机器知识学习,帮助公安人员理清人员内部关系,协助警方人员协调监控警力,优化关系线索的分析,具有极大的意义。
Claims (3)
1.基于图数据库的警务实时分析应用平台的构建方法,采用基于图数据库的警务实时分析应用平台实现,其特征在于,
所述警务实时分析应用平台包括HDFS存储系统、Titan引擎、及应用层;
所述的HDFS存储系统采集得到的结构化、半结构化、非结构化原始数据;所述的Titan引擎存储人员事件关系图谱,其以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质,HBase以HFile的数据格式存储到HDFS存储系统上,SolrCloud以Lucene的文件格式存储到HDFS存储系统上;所述的应用层显示人员事件关系图谱信息,所述的应用层采用基于HTML5可视化展示框架展示关系网络;
所述构建方法通过以下步骤实现:
S1.部署系统大数据环境,搭建HDFS存储系统框架组件及Titan Server服务器;
S2.构建Titan引擎服务器的存储介质和存储的表结构、索引存储结构及数据集合结构,以HBase作为数据存储介质,以SolrCloud作为关系图谱全文检索的存储介质;
S3.构建Titan引擎的关系图谱,设计元数据结构;
S4.并发计算Titan引擎的关系图谱,分布式的并行运算以YARN为基础框架,使用MapReduce、Pig、Hive工具进行分布式运算,将关系图谱采用titan-hadoop的方式导入Titan引擎的数据库层中;
S5.采用J2EE搭建Titan引擎的应用软件;
S6.构建应用层,采用基于HTML5可视化展示框架展示关系网络,采用jquery或html或css或bootstrap展示其他详细信息。
2.如权利要求1所述的基于图数据库的警务实时分析应用平台的构建方法,其特征在于:所述的Titan引擎由三层组成,分别为Client API层、数据库层及数据索引存储层,所述的client API层为应用和外部应用提供接口,数据库层用于存储关系图谱,数据索引存储层用于将图谱以数据或文件格式存储到HDFS存储系统上。
3.如权利要求2所述的基于图数据库的警务实时分析应用平台的构建方法,其特征在于:所述的Titan引擎以Titan Server的方式提供外部应用服务,采用Rest API的方式供外部应用访问,采用Ngnix反向代理的方式部署多台Titan Server服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510217994.7A CN104850601B (zh) | 2015-05-04 | 2015-05-04 | 基于图数据库的警务实时分析应用平台及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510217994.7A CN104850601B (zh) | 2015-05-04 | 2015-05-04 | 基于图数据库的警务实时分析应用平台及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104850601A CN104850601A (zh) | 2015-08-19 |
CN104850601B true CN104850601B (zh) | 2018-09-18 |
Family
ID=53850246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510217994.7A Active CN104850601B (zh) | 2015-05-04 | 2015-05-04 | 基于图数据库的警务实时分析应用平台及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104850601B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354266A (zh) * | 2015-10-23 | 2016-02-24 | 北京航空航天大学 | 一种基于富图模型RichGraph的图数据管理方法 |
CN106681781B (zh) * | 2015-11-05 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 实时计算业务的实现方法和系统 |
CN105740335A (zh) * | 2016-01-22 | 2016-07-06 | 山东合天智汇信息技术有限公司 | 一种基于titan的企业信息分析平台及其构建方法 |
CN105843867B (zh) * | 2016-03-17 | 2019-09-03 | 畅捷通信息技术股份有限公司 | 基于元数据模型的检索方法和基于元数据模型的检索装置 |
CN107292517A (zh) * | 2017-06-20 | 2017-10-24 | 科技谷(厦门)信息技术有限公司 | 基于大数据分析的民航安保信息服务系统 |
CN107798129A (zh) * | 2017-11-17 | 2018-03-13 | 北京中电普华信息技术有限公司 | 一种整合Neo4j数据库与J2EE平台的方法及系统 |
CN108108859A (zh) * | 2018-01-29 | 2018-06-01 | 北京易华录信息技术股份有限公司 | 一种基于大数据分析的交通管理勤务优化方法 |
CN110704421A (zh) * | 2018-06-22 | 2020-01-17 | 中兴通讯股份有限公司 | 数据处理方法、装置、设备和计算机可读存储介质 |
CN109241085B (zh) * | 2018-09-20 | 2022-06-21 | 郴州职业技术学院 | 一种针对SolrCloud的大数据SQL查询方法 |
CN109740034A (zh) * | 2018-12-20 | 2019-05-10 | 北京华夏电通科技有限公司 | 基于图形数据库的企业涉案信息查询方法及装置 |
CN112003956B (zh) * | 2020-10-27 | 2021-01-15 | 武汉中科通达高新技术股份有限公司 | 一种交管系统 |
CN114162106B (zh) * | 2021-12-24 | 2024-05-03 | 大秦铁路股份有限公司科学技术研究所 | 一种重载车辆制动智能监测系统和方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462226A (zh) * | 2014-11-14 | 2015-03-25 | 中国传媒大学 | 一种基于云技术的网络演唱平台的构建方法 |
-
2015
- 2015-05-04 CN CN201510217994.7A patent/CN104850601B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462226A (zh) * | 2014-11-14 | 2015-03-25 | 中国传媒大学 | 一种基于云技术的网络演唱平台的构建方法 |
Non-Patent Citations (1)
Title |
---|
"Titan Documentation";titan公司;《http://s3.thinkaurelius.com/docs/titan/0.5.1/index.html》;20141231;第2、7、22章 * |
Also Published As
Publication number | Publication date |
---|---|
CN104850601A (zh) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
Mello et al. | MASTER: A multiple aspect view on trajectories | |
Das et al. | Big data analytics: A framework for unstructured data analysis | |
US20150095303A1 (en) | Knowledge Graph Generator Enabled by Diagonal Search | |
Hor et al. | A semantic graph database for BIM-GIS integrated information model for an intelligent urban mobility web application | |
Yong-Gui et al. | Research on semantic Web mining | |
Grolinger et al. | Knowledge as a service framework for disaster data management | |
Castiglione et al. | CHIS: A big data infrastructure to manage digital cultural items | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
CN110941612A (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
US20230075655A1 (en) | Systems and methods for context-independent database search paths | |
CN116108194A (zh) | 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备 | |
Alsubaiee et al. | Asterix: scalable warehouse-style web data integration | |
Shakhovska et al. | Big Data Model" Entity and Features" | |
Ma et al. | Modeling and querying temporal RDF knowledge graphs with relational databases | |
Jyothi et al. | A study on big data modelling techniques | |
Li et al. | Semantic description of scholar-oriented social network cloud | |
Ahmed et al. | Big data and semantic web, challenges and opportunities a survey | |
Zhou et al. | A distributed text mining system for online web textual data analysis | |
Mahmoud et al. | Using semantic web technologies to improve the extract transform load model | |
Hashem et al. | A review of modeling toolbox for BigData | |
Ahmed et al. | A study of big data and classification of nosql databases | |
Brisebois et al. | Trusted smart harvesting algorithmbased on semantic relationship and social networks (SMESE-TSHA) | |
Ting | Online management information platform for intangible cultural heritage | |
Liu | Wireless network communication in the XML metadata storage of Wushu historical archives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |