CN114003634A - 基于es技术的大数据分析检索系统及方法 - Google Patents

基于es技术的大数据分析检索系统及方法 Download PDF

Info

Publication number
CN114003634A
CN114003634A CN202110637438.0A CN202110637438A CN114003634A CN 114003634 A CN114003634 A CN 114003634A CN 202110637438 A CN202110637438 A CN 202110637438A CN 114003634 A CN114003634 A CN 114003634A
Authority
CN
China
Prior art keywords
retrieval
layer
track
analysis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110637438.0A
Other languages
English (en)
Inventor
杨艳秋
陈占锋
魏丽丽
郭吉强
杨民
徐立松
杜长海
文春露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Public Security Bureau
Original Assignee
Chongqing Public Security Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Public Security Bureau filed Critical Chongqing Public Security Bureau
Priority to CN202110637438.0A priority Critical patent/CN114003634A/zh
Publication of CN114003634A publication Critical patent/CN114003634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于ES技术的大数据分析检索系统及方法,对应的APP的功能包括关键词检索、要素检索、高级检索,人员档案、人员轨迹、轨迹分析和我的收藏,其包括:基础层、数据层和引擎核心的访问层、逻辑层、应用层、展现层,其中展示层基于移动端的界面风格进行设计;应用层用于实现关键词检索、高级检索、要素检索、基础档案、轨迹查询和分析;逻辑层用于封装基础业务逻辑组件,基础业务逻辑组件包括身份认证组件、日志记录组件、业务控制组件;逻辑层封装了基础业务逻辑组件,起到承上启下的作用,具有身份认证组件、日志记录组件、业务控制组件。访问层、数据层、基础层借助已建的情报信息智能检索系统服务接口实现数据的交互。

Description

基于ES技术的大数据分析检索系统及方法
技术领域
本发明属于分析检索领域,尤其涉及基于ES技术的大数据分析检索系统及方法。
背景技术
在大数据时代,信息的数据呈爆炸式增长,随着信息技术在工作中不断深入和广泛的应用,机关在实际工作中积累了海量的社会数据和信息,这些海量的数据和信息中蕴藏着大量有待发掘的信息。要想挖掘这些蕴藏在海量数据中的有效信息,仅靠传统的人工分析方法是远远不能满足工作的实战需求,必须有专门的分析工具帮助,通过有效的工具才能极大地提高的工作效率,减轻工作压力。只有这样,才能真正地助力一线,更好地服务人民群众。
工作的很多应用场景使用移动设备来承载信息化任务就成为最佳方式。例如为了提高公众对执法部门的工作效率、反应应变能力的要求,需要在第一现场进行执法工作。但受制于时间、空间、设备等的限制,执法人员通过传统的方式无法现场调用稽查对象的历史资料,无法及时将新的执法信息提交上报,并在突发事件处理上无法及时得到上级的指示,和无法及时得到相关部门支援。这时,人员就可以通过移动终端产品对常住人口、暂住人员信息、车辆信息等进行快速查询,随时随地获得业务信息支持。也可以将现场采集的信息及时回传内部信息中心,使可以迅速做出判断、减少时间、减少对情况不明而造成的伤害和伤亡、减少群众的损失。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于ES技术的大数据分析检索系统及方法。本发明的技术方案如下:
一种基于ES技术的大数据分析检索系统,用于实现关键词检索、要素检索、高级检索,人员档案、人员轨迹、轨迹分析和我的收藏,其包括:基础层、数据层和引擎核心的访问层、逻辑层、应用层、展现层,其中
展示层基于移动端的界面风格进行设计,采用白色为底色,关键操作按钮用蓝色提亮,信息图标也用深蓝、浅蓝表达程度;
应用层用于实现关键词检索、高级检索、要素检索、基础档案、轨迹查询和分析;
逻辑层用于封装基础业务逻辑组件,起到承上启下的作用,基础业务逻辑组件包括身份认证组件、日志记录组件、业务控制组件;
访问层采用最新的ES分布式索引及接口访问,用于索引文件的检索,并将结果加工处理后返回到前端展示;
数据层用于对数据库的操作封装,数据库包括行业各类数据;
基础层是整个逻辑架构的基础,用于提供计算和存储等资源,并通过虚拟化等技术将资源池化,以实现资源的按需分配和快速部署,包括数据采集、数据清洗、数据更新和运行环境等。
进一步的,所述大数据分析检索系统采用分层软件架构(N-Tier)为基础,结合面向服务SOA的架构设计原则和设计思想进行组织。
进一步的,应用层在检索时,首先需要进行分词处理,分词处理采用自主研发创新的分词器,在原生分词器基础上,基于N-gram分词原理进行深度优化,实现中文分词,数字和字母不分词的功能,最大化保障减少分词量,保证被分词的完整性。
进一步的,所述分词还包括在检索时对相关词条进行特殊处理的步骤,具体包括:
对时间字段进行聚类处理,通过聚类获取小时的时间字段;根据身份证信息处理出生年月和户籍地;身份证统一转换18位;姓名同音转换;去除没有意义的字符串;时间字段统一处理成long格式,避免误输入导致数据漏抽;时间过滤特殊字段。
进一步的,所述分词还包括安全插件searchguard,除了必须的RBAC认证授权外,searchguard还用于:节点之间的RPC流量通过SSL/TLS传输;支持JDK SSL和Open SSL;支持热载入;支持audit日志记录;支持restful 接口流量加密;支持ldap认证接入;权限配置基本与shield保持一致;索引级别访问控制;字段级别访问控制;
进一步的,所述分词还包括批量检索支持功能:
创建插件接口,批量词传输分区判断词的分区位置,根据返回词的分区请求到该分区去构建查询;批量词过滤,比较词大小,如果词不存在,直接跳跃。
一种基于所述系统的大数据分析检索方法,其包括以下步骤:
轨迹比对:针对办需要,在默认的轨迹时间范围内及系统默认全部选中轨迹类别,根据“身份证号”查询,通过比对的方式交叉轨迹比对或完全轨迹比对列出,能更方便的找当事人的活动规律。
关系分析:平台还具备多轨迹的联合分析功能,将各类轨迹信息进行综合,跨各类关联实现混合模式的重合度分析计算,实现对人员关系的精确挖掘;
聚类分析:根据一个信息分类系统来获取一类信息,使用户可通过多种过滤器方式获得信息集合的一部分内容;信息分类系统会根据每条信息的要素,将信息分类到各种定义好的维度中,并自动生成数据组织规则;可聚类的类别实际上就是信息的属性,通常是根据字段内容或文本分析提取,聚类的结果是对该属性下的所有值进行统计。
进一步的,所述交叉轨迹比对或完全轨迹比对具体包括:
交叉轨迹比对:是通过两个或多个人以上的轨迹号码比对关联出他们在同一天出现的轨迹比对信息,至少两个人在同一天同一类轨迹中都有数据才关联展示轨迹比对信息,同时,时间轴以特殊颜色标识,如存在同住、同行、同上网、同看守所等关系,则用颜色线条标出,以便查阅分析;
完全轨迹比对:是通过一个或多个轨迹号码关联查询出每个人的全部轨迹结果,如存在同行、同住、同上网、同看守所等关系,用颜色线条标识,以便查阅分析。
本发明的优点及有益效果如下:
本发明系统采用分布式并行运算框架,分别应用分布式存储和分布式计算。基于云计算技术构建一个按照分布式并行运算体系设计的服务平台;基于可视化、扁平化、集成化、一站式的技术线路构建系统的应用服务;基于检索、视频、PGIS等系统交互的多种传输、存储、计算方式构建多系统协同的服务体系。平台在优化技术架构的基础上,最大限度地减少资源消耗,降低平台建设的硬件成本,充分利用好现有硬件资源,逐步增加新硬件设备的投入。
附图说明
图1是本发明提供优选实施例基于ES技术的大数据分析检索系统结构示意图;
图2是通过边界接入平台访问智能检索系统示意图;
图3是本发明高级检索示意图;
图4是动态档案示意图;
图5是轨迹分析示意图;
图6是轨迹比对示意图;
图7是应用接口示意图;
图8是安全水印示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
1、基于ElasticSearch设计与实现
1.1技术路径
本系统采用分布式并行运算框架,分别应用分布式存储和分布式计算。基于云计算技术构建一个按照分布式并行运算体系设计的服务平台;基于可视化、扁平化、集成化、一站式的技术线路构建系统的应用服务;基于检索、视频、 PGIS等系统交互的多种传输、存储、计算方式构建多系统协同的服务体系。平台在优化技术架构的基础上,最大限度地减少资源消耗,降低平台建设的硬件成本,充分利用好现有硬件资源,逐步增加新硬件设备的投入。
1.2逻辑架构
大数据智能分析检索APP部分采用分层软件架构(N-Tier)为基础,结合面向服务(SOA)的架构设计原则和设计思想进行合理的组织,其整体的逻辑架构如下:
优选的,如图1所示,本发明系统可以为一种app,用于实现的功能主要有关键词检索、要素检索、高级检索,人员档案、人员轨迹、轨迹分析和我的收藏等。
系统以业界流行的分层软件架构为基础,结合面向服务的架构设计原则和设计思想对应用进行合理的组织。将基础设施层、数据服务层和引擎核心的访问层、逻辑层、模块功能应用层、界面展示层进行了清晰的划分和应用功能的独立封装。
展示层基于移动端的界面风格进行设计,符合用户移动端的操作习惯。
应用层实现关键词检索、高级检索、要素检索、基础档案、轨迹查询和分析等功能。
逻辑层封装了基础业务逻辑组件,起到承上启下的作用,具有身份认证组件、日志记录组件、业务控制组件。
访问层、数据层、基础层借助已建的情报信息智能检索系统服务接口实现数据的交互。
1.3物理架构
如图2所示,通过边界接入平台访问智能检索系统,成功登陆系统后通过移动端的操作使用系统,系统会根据传入的条件调用接口进行索引文件的检索,并将结果集加工处理后返回到移动前端进行展示。
由大数据信息智能分析检索系统发布webservice接口,接收由手机端发送过来的字符串请求,通过移动外网与内网的接入平台,作为手机app与内网综合检索系统交互链路。移动端接收webservice接口返回的字符串后供移动端使用。
1.4索引架构
基于智能检索产品Caesar4.8进行PC端信息智能检索系统的升级,包括优化分析算法、索引架构,主要功能如下:
Figure RE-RE-GDA0003310329930000061
采用最新的ES索引架构完成底层索引。
Figure RE-RE-GDA0003310329930000062
基于Caesar4.8完成新版检索算法的优化,保持界面与功能的一致性
2、技术问题
2.1数据检索的核心技术
在数据实战应用中,对海量数据的检索要做到“快、全、准”,这个是日常工作中的核心问题。
“快”指的是对数据的检索速度要快。在实际应用场景中,数据来源五花八门、数据格式标准不一。从数据种类上来说有从各种采集的数据、有各部门单位共享过来的数据、还有互联网采集到的数据;从数据格式上来说,大部分的数据都是基于传统结构化的数据资源,但是还有大量文本数据及非结构化数据;从数据量级上来说,大部分地市数据都是在十亿到百亿级别,大规模数据资源可以达到千亿级别。面对如此庞大的数据资源,如何做到秒级甚至毫秒级响应是app面临的核心问题。
“全”指的是对数据的全面覆盖,不能有遗漏,在传统检索体系中,检索数据时,会考虑检索的命中率。当命中率小于多少时,那么视为该数据不匹配检索的条件。但是在实际业务场景中,往往就是这样的匹配会丢失很多有价值的数据。考虑到严格性,需要对扩大检索的匹配率,做到不丢失一条数据的检索。
“准”指的是对数据的精准检索,即“按需检索”。系统根据输入的检索条件信息,从海量的数据中精准的找出相应的检索结果,同时还支持对检索结果数据的二次检索等功能。将从海量的数据信息陷阱中解困出来,直击关键命脉,便于提升日常办案效率。
结合数据的特点与检索的要求,在检索时我们进行了大量的优化操作。
1)采用分布式
2)合理的分片
3)合理的定时合并段
4)合理的抽取定时抽取
5)合理的段合并量
6)禁止交换内存
7)线程合理分配
8)多副本机制
分布式,针对表的字段数量和记录数量,运维合理分配分片数量,比如常住人口表,将3千万条数据分成3个分片,数据进入三个节点,检索时,每个节点只检索1千万数据,词量和输入输出IO相对这个节点仅消耗1/3的资源,资源得到合理的利用。
合理的时间合并:合并分普通合并、中级合并、高级合并:
Figure RE-RE-GDA0003310329930000071
普通合并:控制段3个,这样就能把小的段合并,减少检索手柄;
Figure RE-RE-GDA0003310329930000081
中级合并:控制段2个,把普通段合并的基础在合并,检索检索手柄;
Figure RE-RE-GDA0003310329930000082
高级合并:控制段只有一个,把删除的文档清理和把所有的段合并成一个段,减少检索手柄和减少删除过滤。
合理的抽取时间:工作时间把抽取的线程数量控制,减少磁盘IO,提供更高的检索能力。
系统采用多分片、多副本机制:当某个节点脱离集群,做一个副本的情况下,每个分片都是在两个节点,可是现在基本上为了节省磁盘存储和资源最大利用(内存、磁盘、cpu共用,所以一台机器是部署很多个节点的,所以副本作用不大了,因为如果有一台机器死掉,刚刚副本在不同节点,在同一个机器就没有用了)。
2.2针对数据的分词技术
系统在检索时,首先需要进行分词处理,在分词处理这块,采用自主研发创新的分词器,在原生分词器基础上,基于N-gram分词原理进行深度优化,实现中文分词,数字和字母不分词的功能,其特点是最大化保障减少分词量,保证分词的词完整性。
从几个分词器的特点上,我们可以来比较一下:
Figure RE-RE-GDA0003310329930000083
原生分词器
原生分词器默认中文是单字分词,才取的是最大化分词原则,如果查询“张三”,那么就会把张的所有文档加载和三的所有文档加载,然后再取二个检索结果的交集,这样效率极低,大量的检索操作会导致磁盘IO过载,引发系统问题。
Figure RE-RE-GDA0003310329930000084
IK分词器
IK分词器也是基于正向匹配的分词算法。基本可分为两种模式,一种为 smart模式,一种为非smart模式。非smart模式就是将能够分出来的词全部输出;smart模式下,IK分词器则会根据内在方法输出一个认为最合理的分词结果,这就涉及到了歧义判断。
以下面分词内容为例,我们对“进口红酒”进行分词处理。
GET_analyze
{"text":"进口红酒","analyzer":"index_ansj"}
分词结果如下:
{"tokens":
[{"token":"进口","start_offset":0,"end_offset":2,"type": "vn","position":0},
{"token":"红酒","start_offset":2,"end_offset":4,"type": "n","position":1}]}
使用IK分词器如果没有特定的词库进行对应,那么就会导致如果搜索“口红酒”是无法查询的。这样的分词结果在实际使用时,肯定是无法被接收。
Figure RE-RE-GDA0003310329930000091
N-gram分词器
N-gram分词器对数字和字母不方便控制,会导致该文本分词量变大,大批量数据的产生,必然会导致查询的效率降低,词量越大查询越慢。而且数字和字母如果非常长,以n的基数3,比如一串“123456789”,就需要123的所有文档,456的所有文档,789的所有文档,这里就又回到之前的问题,还需要二次取多个检索结果的交集,会导致磁盘IO加载急剧上升,引发系统故障。
综合以上各分词器的优点和缺点,我对分词器功能进行了深度的优化,结合实战业务场景的需要,将多个分词器的优点结合起来,形成特色的分词功能。
该功能具有以下优点:
1)数字和字母不进行分词
我们的分词器针对数字和字母是不进行分词操作的。结合实际业务场景,就是大量的时间、身份证、案件编码、车牌、手机号、微信号码、QQ号码、银行账户等不分词,因为分词即失去该词条的逻辑含义。在这里我们是以wildcard 方式查询(即,通配符模式,可以不输入完整,也可以输入完整信息)中文和数字结合。
结合业务我们举个例子,比如“渝a1234567”这个词。
在标准分词和IK分词的场景下,是产生【“渝”,“a1234567”】那么就要加载所有“渝”的文档和所有“a1234567”的检索结果,其中“渝”的文档非常多,会直接导致磁盘IO暴涨。
当使用N-gram时,以3字节位为基数,其产生的分词是【“渝”,“渝a”,“渝a1”,“a”,“a1”,“a12”,“1”,“12”,“123”......】
那么我们的分词器是【“渝”“渝a1234567”,“a1234567”】词量只比原生多一个词,可是查询“渝a1234567”只加载“渝a1234567”车牌的文档,其整个过程中,所产生的磁盘IO消耗非常小,大幅提升了检索效率。
2)检索数据特殊处理
为了有效的提高检索的效率,我在检索时对相关词条进行了特殊的处理,用于提升检索的性能。
Figure RE-RE-GDA0003310329930000101
对时间字段进行聚类处理,因为对分、秒等时间数据进行聚类意义小,通过对其聚类可以获取一个到小时的时间字段。
Figure RE-RE-GDA0003310329930000102
根据身份证信息处理出生年月和户籍地
Figure RE-RE-GDA0003310329930000103
身份证统一转换18位
Figure RE-RE-GDA0003310329930000104
姓名转换同音
Figure RE-RE-GDA0003310329930000105
去除没有意义的特殊字符串
Figure RE-RE-GDA0003310329930000106
时间字段统一处理成long格式,避免误输入导致数据漏抽
Figure RE-RE-GDA0003310329930000107
字典码表转换
Figure RE-RE-GDA0003310329930000108
时间过滤特殊字段
3)安全插件searchguard
search-guard更新到2.x后与shield配置上很相似。除了必须的RBAC 认证授权外,searchguard优点有:
Figure RE-RE-GDA0003310329930000111
节点之间的RPC流量通过SSL/TLS传输(强制性);
Figure RE-RE-GDA0003310329930000112
支持JDK SSL和Open SSL(建议用Open SSL,降低性能消耗);
Figure RE-RE-GDA0003310329930000113
支持热载入;
Figure RE-RE-GDA0003310329930000114
支持audit日志记录(商用功能);
Figure RE-RE-GDA0003310329930000115
支持restful接口流量加密(可选);
Figure RE-RE-GDA0003310329930000116
支持ldap认证接入(商用功能);
Figure RE-RE-GDA0003310329930000117
权限配置基本与shield保持一致;
Figure RE-RE-GDA0003310329930000118
索引级别访问控制(重点!);
Figure RE-RE-GDA0003310329930000119
字段级别访问控制(商用功能);
4)批量检索支持
创建插件接口,批量词传输分区判断词所在的分区,根据返回词的分区,请求到该分区取构建查询
Figure RE-RE-GDA00033103299300001110
批量词过滤,因为会比较词大小,如果这个期间的词不存在,直接跳跃 (跳跃算法),所以过滤很快;
Figure RE-RE-GDA00033103299300001111
这样可以减少请求量和构造查询语句。
5)标签数据
系统中大量使用了数据标签,通过对标签使用二分法进行过滤数据,可以大幅提升检索的效率。
2.3贴合实战业务的分析技术
在工作中,面对海量的数据资源及各种数据的运用需要进行贴合实战业务的功能来实现,在这些功能的开发中同样也面临着各种技术难题。如,从各种轨迹数据中找出潜在的关联关系。
1)轨迹比对
针对需要,在默认的轨迹时间范围内及系统默认全部选中轨迹类别,根据“身份证号”查询,通过比对的方式(交叉轨迹比对或完全轨迹比对)列出,能更方便的找当事人的活动规律。
Figure RE-RE-GDA0003310329930000121
交叉轨迹比对:是通过(两个或多个)人以上的轨迹号码比对关联出他们在同一天出现的轨迹比对信息,至少两个人在同一天同一类(轨迹)中都有数据才关联展示轨迹比对信息,同时,时间轴以特殊颜色标识。如存在同住、同行、同上网、同看守所等关系,则用颜色线条标出,以便查阅分析。
Figure RE-RE-GDA0003310329930000122
完全轨迹比对:是通过(一个或多个)轨迹号码关联查询出每个人的逐一每条轨迹结果。如存在同行、同住、同上网、同看守所等关,用颜色线条标识,以便查阅分析。
2)关系分析
对一位人员的旅业住宿记录、航班飞行记录、网吧上网记录进行分析。找出与当事人同旅店同时段入住人员、同航班同日期的乘机人员、同网吧同时段上网人员。分析的模型需通过通用的配置方式,以便在后期社会数据种类更多的情况下,实现“十同、百同”的应用。
平台还应具备多轨迹的联合分析功能,将各类轨迹信息进行综合,跨各类关联实现混合模式的重合度分析计算,实现对人员关系的精确挖掘。
3)聚类分析
聚类分析,也可称为聚类导航或聚类浏览。该技术的原理是根据一个信息分类系统来获取一类信息,使用户可通过多种过滤器方式获得信息集合的一部分内容。信息分类系统会根据每条信息的要素,将信息分类到各种定义好的维度中,并自动生成数据组织规则。可聚类的类别实际上就是信息的属性,通常是根据字段内容或文本分析提取,聚类的结果是对该属性下的所有值进行统计。
3功能实现
信息智能检索APP提供一站式检索功能,提供类似百度、Google风格的搜索页面,用户直接在搜索框内输入检索的关键词进行查询,同时提供检索资源的分类选择,用户通过勾选资源进行固定范围内信息检索,过滤掉干扰数据。
3.1高级检索
如图3所示,提供复杂查询条件的关键词检索,如:逻辑组合检索(与、或、非)、通配符检索、同音字检索、身份证号码位数转换查询、时间段检索、年龄段检索等多种专业检索方式。信息智能检索APP提供针对多个字段组合的逻辑查询功能。用户在输入条件进行要素检索时,调用后台服务接口传递检索条件,并根据配置规则从配置的多个表多个字段中进行检索,实现了用户定向的信息检索需求,支持对多个表同类的字段进行分类,如姓名类,身份证号类、地址类等。
3.2动态档案
如图4所示,信息智能检索APP实现移动端的人员动态档案功能,利用高速的查询和分析引擎优势,通过时间、地点等多种维度来挖掘人员的相关信息,一键式动态形成人员动态档案。通过调用服务接口实现信息资源的挖掘,展示人员基本信息、人员照片和多个维度的关联信息。基本信息除人口系统中的十个基本字段外,还可以显示人的联系方式信息,联系方式可同时展现人员在驾驶证、犯罪信息等各类表中的号码。关联信息包括人员社会关系、案事件信息、体貌特征等。
3.3轨迹分析
如图5所示,信息智能检索APP提供针对对象轨迹的查询分析功能,以时间轴展示对象的所有活动轨迹,并根据多同分析模型分析对象的关系人。
3.4轨迹比对
如图6所示,移动端APP针对轨迹信息进行潜在关系的深入挖掘分析,分析出关注对象潜在的关联信息,同时归纳总结行业已有的分析算法,形成了轨迹的多同分析算法。包含单轨迹分析算法、多轨迹联合分析算法、轨迹比对,针对轨迹分析的结果,系统提供比较查看功能,以时间轴形式同屏展示对象间的活动情况。
3.5应用接口
如图7所示,移动APP支持在服务器端开发APP应用接口,支持移动端APP 应用功能。
由智能检索平台发布webservice接口,接收由手机端发送过来的字符串请求,由移动外网与内网的接入平台,作为手机app与内网智能检索平台交互链入。接收webservice接口返回的字符串供外部调用。
3.6安全水印
如图8所示,信息智能检索APP针对所有的结果页面提供安全水印功能。
建成投用后将大幅度地提升工作的洞察能力、分析决策能力、指挥管理能力、侦查破案能力和服务社会管理能力。
4主要技术创新点
1)利用ES本身的分布式、稳定性、实时性、开放性,实现全文快搜,优化MMAP内存映射与自动回收,大幅提高系统稳定性。优化MMAP内存映射,并结合Linux内存回收的特性,解决原搜索内存释放不及时的问题;调用ES监控功能,随时监控集群内存、磁盘、cpu的使用情况,及时调整;利用数据副本的灾备功能,在主本索引异常情况下,副本可以自动替换主本参与检索。
2)利用ES自带的分词器和国内外提供的分词器不符合数据需求,数据最求的是数据完整性和快速检索,默认分词器,中文和数字结合,无法对数字模糊检索,N-gram分词过多,IK分词不完整,根据数据开发了分词器,分词器比默认分词器的中文查询速度快和全。
3)修改ES接口底层,自定义判断无效词过滤接口,批量检索和数据比对功能,都使用了该接口,先批量上传要比对的词去索引服务器把没有数据的词过滤掉,再把有数据的词发送索引服务器查询,这样可以减少请求线程和无效查询语句组装,1000个身份证批量查询,导出10万数据总体比老系统快10倍。
4)利用ES的分词内存映射机制,快速实现数据比对功能,新采用 FileSystemCache的系统缓存,能够拥有更快搜索响应能力。新增的document 会被收集到indexingbuffer区后被重写成一个segment然后直接写入 filesystem cache中,经过一定的间隔或外部触发后才会被flush到磁盘上,可实现近实时(1秒)检索。
5)系统结合PGIS,实现地图上的框选范围搜索,支持PGIS、离线地图,提供旅业、卡口等多种维度搜索过滤,搜索结果可以在地图上撒点并标识详细信息。
6)系统通过调用人脸比对系统接口,可批量上传多张人脸图片,逐个与人脸比对系统对接分析,根据返回的识别结果逐个查询实名制信息。
7)系统结合CKM文本挖掘分析工具,将用户复制粘贴的文本或上传的文本文件进行解析,挖掘出其中的姓名、证件号码、电话号码、地址等30多种实体,并作为关键词选择进行检索。
8)系统基于数据挖掘、关系模型分析、图数据库等技术,对每一条数据进行分析形成实体间关系,并存储入库供进一步应用。提供关系人搜索、可视化人员关系分析、关系分析、关系路径发现等功能。
9)系统针对数据抽取,可灵活配置数据源及数据表信息,支持多种不同数据源抽取。可对数据源一次性抽取全量数据或抽取新增数据等方式;可对源数据表信息进行码表翻译抽取;可对数据源配对相关照片库信息。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,可以为个人计算机、膝上型计算机、平板计算机的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于ES技术的大数据分析检索系统,用于实现关键词检索、要素检索、高级检索,人员档案、人员轨迹、轨迹分析和我的收藏,其特征在于,包括:基础层、数据层和引擎核心的访问层、逻辑层、应用层、展现层,其中:
展示层基于移动端的界面风格进行设计,采用白色为底色,关键操作按钮用蓝色提亮,信息图标也用深蓝、浅蓝表达程度;
应用层用于实现关键词检索、高级检索、要素检索、基础档案、轨迹查询和分析;
逻辑层用于封装基础业务逻辑组件,起到承上启下的作用,基础业务逻辑组件包括身份认证组件、日志记录组件、业务控制组件;
访问层采用最新的ES分布式索引及接口访问,用于索引文件的检索,并将结果加工处理后返回到前端展示;
数据层用于对数据库的操作封装,数据库包括行业各类数据;
基础层是整个逻辑架构的基础,用于提供计算和存储等资源,并通过虚拟化等技术将资源池化,以实现资源的按需分配和快速部署,包括数据采集、数据清洗、数据更新和运行环境等。
2.根据权利要求1所述的一种基于ES技术的大数据分析检索系统,其特征在于,所述大数据分析检索系统采用分层软件架构(N-Tier)为基础,结合面向服务SOA的架构设计原则和设计思想进行组织。
3.根据权利要求1所述的一种基于ES技术的大数据分析检索系统,其特征在于,应用层在检索时,首先需要进行分词处理,分词处理采用自主研发创新的分词器,在原生分词器基础上,基于N-gram分词原理进行深度优化,实现中文分词,数字和字母不分词的功能,最大化保障减少分词量,保证被分词的完整性。
4.根据权利要求3所述的一种基于ES技术的大数据分析检索系统,其特征在于,所述分词还包括在检索时对相关词条进行特殊处理的步骤,具体包括:
对时间字段进行聚类处理,通过聚类获取小时的时间字段;根据身份证信息处理出生年月和户籍地;身份证统一转换18位;姓名同音转换;去除没有意义的字符串;时间字段统一处理成long格式,避免误输入导致数据漏抽;时间过滤特殊字段。
5.根据权利要求4所述的一种基于ES技术的大数据分析检索系统,其特征在于,所述分词还包括安全插件searchguard,除了必须的RBAC认证授权外,searchguard还用于:节点之间的RPC流量通过SSL/TLS传输;支持JDK SSL和Open SSL;支持热载入;支持audit日志记录;支持restful接口流量加密;支持ldap认证接入;权限配置基本与shield保持一致;索引级别访问控制;字段级别访问控制。
6.根据权利要求5所述的一种基于ES技术的大数据分析检索系统,其特征在于,所述分词还包括批量检索支持功能:
创建插件接口,批量词传输分区判断词的分区位置,根据返回词的分区请求到该分区去构建查询;批量词过滤,比较词大小,如果词不存在,直接跳跃。
7.一种基于权利要求1-6任一项所述系统的大数据分析检索方法,其特征在于,包括以下步骤:
1)轨迹比对:针对需要,在默认的轨迹时间范围内及系统默认全部选中轨迹类别,根据“身份证号”查询,通过比对的方式交叉轨迹比对或完全轨迹比对列出,能更方便的找当事人的活动规律。
2)关系分析
平台还具备多轨迹的联合分析功能,将各类轨迹信息进行综合,跨各类关联实现混合模式的重合度分析计算,实现对人员关系的精确挖掘。
3)聚类分析
聚类分析,根据一个信息分类系统来获取一类信息,使用户可通过多种过滤器方式获得信息集合的一部分内容;信息分类系统会根据每条信息的要素,将信息分类到各种定义好的维度中,并自动生成数据组织规则;可聚类的类别实际上就是信息的属性,通常是根据字段内容或文本分析提取,聚类的结果是对该属性下的所有值进行统计。
8.根据权利要求7所述的大数据分析检索方法,其特征在于,所述交叉轨迹比对或完全轨迹比对具体包括:
交叉轨迹比对:是通过两个或多个人以上的轨迹号码比对关联出他们在同一天出现的轨迹比对信息,至少两个人在同一天同一类轨迹中都有数据才关联展示轨迹比对信息,同时,时间轴以特殊颜色标识,如存在同住、同行、同上网、同看守所等关系,则用颜色线条标出,以便查阅分析;
完全轨迹比对:是通过一个或多个轨迹号码关联查询出每个人的全部轨迹结果,如存在同行、同住、同上网、同看守所等关系,用颜色线条标识,以便查阅分析。
CN202110637438.0A 2021-06-08 2021-06-08 基于es技术的大数据分析检索系统及方法 Pending CN114003634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110637438.0A CN114003634A (zh) 2021-06-08 2021-06-08 基于es技术的大数据分析检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110637438.0A CN114003634A (zh) 2021-06-08 2021-06-08 基于es技术的大数据分析检索系统及方法

Publications (1)

Publication Number Publication Date
CN114003634A true CN114003634A (zh) 2022-02-01

Family

ID=79920966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110637438.0A Pending CN114003634A (zh) 2021-06-08 2021-06-08 基于es技术的大数据分析检索系统及方法

Country Status (1)

Country Link
CN (1) CN114003634A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174585A (zh) * 2022-08-30 2022-10-11 平安银行股份有限公司 基于Elasticsearch的报文生成方法及redis数据管理系统、主控设备
CN116628129A (zh) * 2023-07-21 2023-08-22 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174585A (zh) * 2022-08-30 2022-10-11 平安银行股份有限公司 基于Elasticsearch的报文生成方法及redis数据管理系统、主控设备
CN115174585B (zh) * 2022-08-30 2022-11-11 平安银行股份有限公司 基于Elasticsearch的报文生成方法及redis数据管理系统、主控设备
CN116628129A (zh) * 2023-07-21 2023-08-22 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统
CN116628129B (zh) * 2023-07-21 2024-02-27 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统

Similar Documents

Publication Publication Date Title
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
CN107819824B (zh) 一种城市数据开放与信息服务系统及服务方法
CN105554070B (zh) 一种基于警务大数据中心服务建设的方法
CN103838847B (zh) 一种面向海云协同网络计算环境的数据组织方法
CN105787064A (zh) 一种基于大数据的挖掘平台构建方法
US20150294120A1 (en) Policy-based data-centric access control in a sorted, distributed key-value data store
US9123006B2 (en) Techniques for parallel business intelligence evaluation and management
CN110990664A (zh) 一种大数据运营管理系统
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN114003634A (zh) 基于es技术的大数据分析检索系统及方法
Pareek et al. Real-time ETL in Striim
CN105740295A (zh) 一种分布式数据的处理方法及装置
CN113130086A (zh) 健康医疗大数据平台
CN116414801A (zh) 数据迁移方法、装置、计算机设备和存储介质
CN105095436A (zh) 数据源数据自动建模方法
Luo et al. Big-data analytics: challenges, key technologies and prospects
CN107220363B (zh) 一种支持全局复杂检索的跨地域查询方法及系统
Khattak et al. Empirical analysis of recent advances, characteristics and challenges of big data
CN101930473A (zh) 一种具有可执行结构的云计算视窗搜索体系的架构方法
CN116028467A (zh) 智能服务大数据建模方法、系统、存储介质及计算机设备
CN113505172B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN115168474A (zh) 一种基于大数据模型的物联中台系统搭建方法
Nagarajan et al. Big data analytics in cloud computing: effective deployment of data analytics tools
Pan et al. An open sharing pattern design of massive power big data
KR20210045172A (ko) 축산 질병 발생 분석을 위한 빅 데이터 관리 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination