CN115688044A

CN115688044A - 一种用于全息档案的多维度融合方法及系统

Info

Publication number: CN115688044A
Application number: CN202211029511.7A
Authority: CN
Inventors: 任俊杰; 张博; 吴跃搏; 田恬; 郭佳; 冯战卫; 刘志铭; 马召
Original assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Current assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2023-02-03

Abstract

本发明提供了一种用于全息档案的多维度融合方法及系统，属于数据处理技术领域，包括获取待处理数据；其中，所述待处理数据含有特征数据；对待处理数据进行数据分析，其中所述数据分析包括预处理，对象实际可用度调研，以及优化评估；使用分类算法和聚类算法对经过数据分析的数据进行清洗过滤；基于规则自动分词、统计的中文分词、IK分词器实现对数据资源的文本挖掘；将挖掘的碎片化数据进行组装，并得到完整词、句。本发明实现了对所有有特征的数据，数据汇聚之后进行数据挖掘和数据分析整合成具有完整结构化关联数据，设定了固定和动态数据采集标准，简化数据对接过程。本发明还提供一种用于全息档案的多维度融合的系统。

Description

一种用于全息档案的多维度融合方法及系统

技术领域

本发明属于数据处理技术领域，更具体地说，是涉及一种用于全息档案的多维度融合方法及系统。

背景技术

现有的服务数据具有数据独立，利用率低，检索困难，数据存储各式各样等无法应对多样化，多元化服务。造成资源浪费，用户得到想要的结果耗时过长，检索、存储困难，一次检索无法给出所有信息。

目前数字化正在驱动全球向数字经济时代大踏步迈进，随着云计算、大数据、人工智能和5G等技术的普及，现有的在不同数据、维度、指标分析彼此独立的数据分析工具不再适用。

因此需要一种能打破数据壁垒，数据关联分析容易的用于全息档案的多维度融合方法及系统。

发明内容

本发明的目的在于提供一种用于全息档案的多维度融合方法及系统，旨在解决现有技术中存在数据壁垒，数据关联分析困难的技术问题。

为实现上述目的，本发明采用的技术方案是：提供一种用于全息档案的多维度融合方法，包括以下步骤：

获取待处理数据；其中，所述待处理数据含有特征数据；

对待处理数据进行数据分析，其中所述数据分析包括预处理，对象实际可用度调研，以及优化评估；

使用分类算法和聚类算法对经过数据分析的数据进行清洗过滤；

基于规则自动分词、统计的中文分词、IK分词器实现对数据资源的文本挖掘；

将挖掘的碎片化数据进行组装，并得到完整词、句。

优选地，所述对待处理数据进行数据分析包括：

修正待处理数据的偏差，过滤不规范数据，进行数据的一致性校验；

对数据进行关联获得目标的位置、属性和内容；

进行情景模拟优化；

进行流程贯串优化。

优选地，还包括：在数据资源进行文本挖掘之前，需要对经过清洗过滤的数据进行分类汇集。

优选地，所述对经过清洗过滤的数据进行分类汇集包括：不同数据种类基础数据存储于实时搜索引擎，标签数据存储于分布式存储系统，轨迹数据存储列式存储于数据库、关系数据存储于图数据库。

优选地，所述特征数据包括人、车、物、事件、地址、电话、其他特征数据中的一种或多种。

本发明还提供一种用于全息档案的多维度融合系统，其特征在于，包括：

数据获取模块，用于获取待处理数据；其中，所述待处理数据含有特征数据；

数据分析模块，用于对待处理数据进行数据分析，其中所述数据分析包括预处理，对象实际可用度调研，以及优化评估；

数据挖掘模块，用于使用分类算法和聚类算法对经过数据分析的数据进行清洗过滤；

分词模块，用于基于规则自动分词、统计的中文分词、IK分词器实现对数据资源的文本挖掘；

组装模块，用于将挖掘的碎片化数据进行组装，并得到完整词、句。

优选地，所述数据分析模块包括：

预处理单元，用于修整待处理数据的偏差，过滤不规范数据，进行数据的一致性校验；

调研单元，用于对数据进行关联获得目标的位置、属性和内容；

情景模拟优化单元，用于进行情景模拟优化；

流程贯串优化单元，用于进行进行流程贯串优化。

优选地，还包括分类汇集模块，用于在数据资源进行文本挖掘之前，需要对经过清洗过滤的数据进行分类汇集。

优选地，所述分类汇集模块包括：实时搜索引擎单元，用于将不同数据种类基础数据存储于实时搜索引擎；分布式存储系统单元，用于将标签数据存储于分布式存储系统；数据库单元，用于将轨迹数据存储列式存储于数据库；图数据库单元，用于将关系数据存储于图数据库。

优选地，所述数据获取模块包括人特征数据单元、车特征数据单元、物特征数据单元、事件特征数据单元、地址特征数据单元、电话特征数据单元、其他特征数据单元中的一种或多种。

本发明提供的一种用于全息档案的多维度融合方法及系统的有益效果在于：与现有技术相比，本发明一种用于全息档案的多维度融合方法及系统打破了数据壁垒，数据关联分析更加容易。本发明实现了对所有有特征的数据，数据汇聚之后进行数据挖掘和数据分析整合成具有完整结构化关联数据。本发明设定了固定和动态数据采集标准，简化数据对接过程。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于全息档案的多维度融合方法中的多维融合组成结构的示意图；

图2为本发明实施例提供的一种用于全息档案的多维度融合方法中一种数据融合实例图；

图3为本发明实施例提供的一种用于全息档案的多维度融合方法中规则自动分词的流程框图；

图4为本发明实施例提供的一种用于全息档案的多维度融合方法中统计中文分词的流程框图；

图5为本发明实施例提供的一种用于全息档案的多维度融合方法中数据碎片化处理的流程框图；

图6为本发明实施例提供的聚类算法原理图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请一并参阅图1至图6，现对本发明提供的一种用于全息档案的多维度融合方法进行说明。所述一种用于全息档案的多维度融合方法，包括以下步骤：

S1、获取待处理数据；其中，待处理数据含有特征数据；

具体地，特征数据包括人、车、物、事件、地址、电话、其他特征数据(轨迹、订票)中的一种或多种。

S2、对待处理数据进行数据分析，其中所述数据分析包括预处理，对象实际可用度调研，以及优化评估；

具体地，步骤S2包括以下步骤：

S2.1、子对象预处理(例如，去除唯一属性，通常是一些ID属性，这些属性不能反应样本的分布规律)。本发明对待处理数据进行预处理，可以修整偏差，过滤不规范数据；

S2.2、对象实际可用度调研，对经过步骤S2.1处理的数据进行关联获得目标的位置、属性和内容。这样就可对人员、车辆、事件、地址、电话、其他特征数据进行区分。需要说明的是，本发明的数据进行关联原理为：同一个数据源的多张表联接,数据源是人员表，有三个数据子表：轨迹表、旅馆住宿表、户口表，具体连接如下：从数据源页面进行操作：将要连接的三个表拖到拖到指定的区域根据数据源表和子表的身份证号或设定的主外键进行数据关联；数据源不同的表之间联接，当需要联接的数据表不属于同一个数据源时，多表联接的方式将无法实现多个数据表的关联。这种情况下，需要通过添加数据源的方式实现数据融合，具体融合如下：1.添加N个数据源。2.N个数据源进行数据表结构传输到统一数据源mysql进行同一个数据源的多张表联接。

S2.3、进行情景模拟优化；

具体地，对经过步骤S2.2处理的数据进行相关性分析并估计其前后关系，对目标进行评估和管理。在本发明实施例中，将数据绘制图表能够明显评估出时间、关系维度的数据；例如将重点人的轨迹信息如乘火车、高速上下站、小区扫描、地铁刷卡信息通过绘制饼状图方式将相关信息表现出来，根据图表趋势，得到占比最大的(如：小区扫描)来划分此人主要活动区域，可进行重点监控。)如用户对小区扫码和商场扫描进行区分，对一个人在同一时间区间小区和商场扫描量，根据设定的值(如：同一天小区扫描大于12次，商场扫描大于8次)区分是否存在推销情况或闲杂社会人员随意进出情况。)。

S2.4、进行流程贯串优化。具体地，进行流程贯串优化是对数据流程贯串中任务、资源情况评估优化。如对人小区扫码信息，评估出频繁进出小区或者正常进出小区，根据设置的每人每天进出小区N(如8次)次值为依据，高于N(如8次)可以假定社会闲杂人员进行重点关注。本发明还可对频繁入住酒店如每天大于N(4次)次假定存在非正常交易，可进行布控之类。

示例性地，对数据进行排序，归类和聚类分析等工作，确认获取的数据是否有价值，以便进一步过滤错误和无效数据做准备。具体的是，关联物品分析经过分析后获得人物拥有的物品信息，主要包括：证件、车辆、电话、银行卡。虚拟身份等内容。背景身份分析通过分析后获得人物的基本信息，行为规律，一人多证、人证不符等信息。动态行踪分析经过数据分析后获得人物的各类行踪，主要包括：航班信息、火车信息、宾馆住宿、医院看病、通话记录、车辆卡口、乘坐地铁公交、打车记录和网吧上网。人物分类分析将人物数据包含的人物对象按照不同维度(年龄、性别、标签、购买记录、是否犯罪等)分析，通过选择对象分类快速定位到所需信息。过滤删除一些冗余数据，留下其有意义的数据，过滤的过程不但精简了数据量也为下一步数据挖掘提供数据支撑。可根据挖掘的数据维度和结果集的不同，选择列表、树状、散点等分析模式对数据进一步筛分。数据分析可通过后台自定义配置，配置符合用户使用场景、用户所需数据的规范。

S3、使用分类算法和聚类算法对经过数据分析的数据进行清洗过滤；

如图6所示，本发明可利用kmeans聚类算法对数据进行分析聚类。本发明通过数据分析与数据挖掘将有特征数据的数据进行关联。且将不同数据源约束上报数据上报标准，规范数据传输标准，将固定与动态采集数据结合。

S4、基于规则自动分词、统计的中文分词、IK分词器实现对数据资源的文本挖掘；

具体地，在数据资源进行文本挖掘之前，需要对经过清洗过滤的数据进行分类汇集。分类汇集的具体过程为：不同数据种类基础数据(例如：交易数据，移动数据，物品数据，场所数据，轨迹数据)存储于实时搜索引擎，标签数据(例如：实有人口，流动人口，常住人口，旅馆住宿人员)存储于分布式存储系统，轨迹数据(例如：通过公交车安装的定位系统实时获取公交车位置信息，车辆过卡口，人员进出场所扫码通过关联人员信息计算人员的轨迹)存储列式存储于数据库、关系数据(例如：同一个户口，旅馆同房间，车辆同行，同一个案件管辖)存储于图数据库。

具体地，规则自动分词(请参阅图3)为事先人工建立好分词词典和分词规则库，通过正向最大匹配算法、逆向最大匹配法算法进行实现。需要说明的是，正向即从前往后取词、逆向即从后往前取词。

统计中文分词(请参阅图4)为选择概率最大的分词路径作为最优结果，利动态规划算法来实现。

IK分词(请参阅图3)是基于正向匹配的分词算法高级检索和分类查询。

S5、将挖掘的碎片化数据进行组装，并得到完整词、句。

该种用于全息档案的多维度融合方法，获取固定和动态数据将其电子化存储，可以是手动录入，可以是原始库、专题库、主题数据，可以是主动和被动获取的数据，规范数据传输方案，达到一套标准各地使用。

本发明提供的一种用于全息档案的多维度融合方法，数据监控、数据分析，尤其涉及多样、多元数据分析和管理。本发明提供的一种用于全息档案的多维度融合方法的设计思路为针对有特征的数据，提供一种融合标准，针对不同的数据来源，约束上报规范，采用统一标准进行数据上报汇聚，进行全方位的数据分析、数据挖掘。实现数据一站式管理，海量数据一张结果页面，多样、多元数据一键管理，提供一站式可视化数据服务，即用户输入一次关键词，同时检索融合后的全息档案结果，一次搜索即可加载相关的所有数据。

本技术方案基于人、车、物、事件、地址、电话、轨迹特征数据等，通过内置大数据深度挖掘，分析工具对多方数据融合碰撞进行高性能处理构建一套多维度融合的全息档案，实现数据全网碰撞、融合检索，打破数据壁垒，提供多层次、全方位的检索。

本发明提供的一种用于全息档案的多维度融合系统，与现有技术相比，实现了对所有有特征的数据，数据汇聚之后进行数据挖掘和数据分析并整合成具有完整结构化关联数据。设定了固定和动态数据采集标准，简化数据对接过程。

种用于全息档案的多维度融合系统可实现数据碎片化到整体的转换。

请一并参阅图1至图6，本发明还提供一种用于全息档案的多维度融合系统，其特征在于，包括：数据获取模块、数据分析模块、数据挖掘模块、分词模块以及组装模块，数据获取模块用于获取待处理数据；其中，所述待处理数据含有特征数据；数据分析模块用于对待处理数据进行数据分析，其中所述数据分析包括预处理，对象实际可用度调研，以及优化评估；数据挖掘模块用于使用分类算法和聚类算法对经过数据分析的数据进行清洗过滤；分词模块用于基于规则自动分词、统计的中文分词、IK分词器实现对数据资源的文本挖掘；组装模块用于将挖掘的碎片化数据进行组装，并得到完整词、句。

在一些实施例中，数据分析模块包括：预处理单元、调研单元、情景模拟优化单元以及流程贯串优化单元，预处理单元用于修整待处理数据的偏差，过滤不规范数据，进行数据的一致性校验；调研单元用于对数据进行关联获得目标的位置、属性和内容；情景模拟优化单元用于进行情景模拟优化；流程贯串优化单元用于进行进行流程贯串优化。

在一些实施例中，还包括分类汇集模块，用于在数据资源进行文本挖掘之前，需要对经过清洗过滤的数据进行分类汇集。

分类汇集模块包括：实时搜索引擎单元，用于将不同数据种类基础数据存储于实时搜索引擎；分布式存储系统单元，用于将标签数据存储于分布式存储系统；数据库单元，用于将轨迹数据存储列式存储于数据库；图数据库单元，用于将关系数据存储于图数据库中的一种或多种。具体地，分类汇集模块由实时搜索引擎单元、分布式存储系统单元、数据库单元、图数据库单元构成。

在一些实施例中，数据获取模块包括人特征数据单元、车特征数据单元、物特征数据单元、事件特征数据单元、地址特征数据单元、电话特征数据单元、其他特征数据单元中的一种或多种。具体地，数据获取模块包括人特征数据单元、车特征数据单元、物特征数据单元、事件特征数据单元、地址特征数据单元、电话特征数据单元、其他特征数据单元。

在一些实施例中，该种用于全息档案的多维度融合系统还包括搜索模块，搜索模块由关键字检索单元、主题搜索单元、高级检索单元、分类查询单元、单表字段精确查询单元、关联挖掘单元、检索提示单元、检索结果导出单元组成。该种用于全息档案的多维度融合系统支持关键词、组合查询、模糊查询、高级检索等，检索结果毫秒级反馈，提供对整合的所有库数据一站式综合检索，可同时在多个数据源，文档资源进行检索。

关键字检索单元

该系统提供类似百度的检索页面，用户可以输入关键字进行全文检索，用户可以输入汉字、数字、字母等任意关键词进行查询，支持多种关键词的混合查询，根据业务需要选择要检索的范围，选择某类信息，比如：人员、车辆、电话、地址等进行关键词检索。

主题搜索单元

数据种类根据用户需要建立和划分，实现按人员、车辆、事件、地址、电话、其他特征数据等主题进行搜索，搜索结果档案化展示。

高级检索单元

在输入框里选择关键词来限定搜索范围，通过各种碎片信息进行组合，从而定位到相关数据。支持逻辑运算组合检索、通配符检索、姓名同音、模糊音检索、身份证号转换检索、时间段检索、年龄段检索。设计专业的通配符系统，在符合用户搜索习惯的前提下，提供更方便、精确的检索方式，并创建合理的提示系统，用户如果需要通过通配符对检索内容进行限定，可直接输入限定关键词的部分字段，空格后系统会自动提示相关的关键词列表。

分类查询单元

系统可以针对各个不同的数据源、不同标签数据进行独立的搜索，可按具体全部查询条件和关键字检索，查询结果列表可后台配置。

单表字段精确查询单元

兼容多年来用户对数据库综合查询的使用模式，系统提供单表字段精确查询功能。

关联挖掘单元

档案可对人员的各类关系人、同住、同户、同行、轨迹、社会关系等进行关联挖掘，挖掘规则可针对具体业务模型进行设计，根据后台配置关联不同数据。

检索提示单元

搜索提示功能是要求在输入检索关键词时提供相近词、同音词等提醒功能，基于动态输入提醒，辅助用户选择合适的搜索词。

检索结果导出单元

系统针对检索的结果提供批量Excel导出功能，可以导出展示的当前页数据，也可以按分页导出检索的所有结果集数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于全息档案的多维度融合方法，其特征在于，包括以下步骤：

获取待处理数据；其中，所述待处理数据含有特征数据；

基于规则自动分词、统计中文分词、IK分词器实现对数据资源的文本挖掘；

将挖掘的碎片化数据进行组装，并得到完整词、句。

2.如权利要求1所述的一种用于全息档案的多维度融合方法，其特征在于，所述对待处理数据进行数据分析包括：

对数据进行关联获得目标的位置、属性和内容；

进行情景模拟优化；

进行流程贯串优化。

3.如权利要求1所述的一种用于全息档案的多维度融合方法，其特征在于，还包括：在数据资源进行文本挖掘之前，需要对经过清洗过滤的数据进行分类汇集。

4.如权利要求3所述的一种用于全息档案的多维度融合方法，其特征在于，所述对经过清洗过滤的数据进行分类汇集包括：不同数据种类基础数据存储于实时搜索引擎，标签数据存储于分布式存储系统，轨迹数据存储列式存储于数据库、关系数据存储于图数据库。

5.如权利要求1所述的一种用于全息档案的多维度融合方法及系统，其特征在于：所述特征数据包括人、车、物、事件、地址、电话、其他特征数据中的一种或多种。

6.一种用于全息档案的多维度融合系统，其特征在于，包括：

7.如权利要求6所述的一种用于全息档案的多维度融合系统，其特征在于，所述数据分析模块包括：

情景模拟优化单元，用于进行情景模拟优化；

流程贯串优化单元，用于进行进行流程贯串优化。

8.如权利要求6所述的一种用于全息档案的多维度融合系统，其特征在于，还包括分类汇集模块，用于在数据资源进行文本挖掘之前，需要对经过清洗过滤的数据进行分类汇集。

9.如权利要求8所述的一种用于全息档案的多维度融合方法及系统，其特征在于，所述分类汇集模块包括：实时搜索引擎单元，用于将不同数据种类基础数据存储于实时搜索引擎；分布式存储系统单元，用于将标签数据存储于分布式存储系统；数据库单元，用于将轨迹数据存储列式存储于数据库；图数据库单元，用于将关系数据存储于图数据库中的一种或多种。

10.如权利要求8所述的一种用于全息档案的多维度融合系统，其特征在于：所述数据获取模块包括人特征数据单元、车特征数据单元、物特征数据单元、事件特征数据单元、地址特征数据单元、电话特征数据单元、其他特征数据单元中的一种或多种。