CN111680153A - 一种基于知识图谱的大数据鉴真方法与系统 - Google Patents

一种基于知识图谱的大数据鉴真方法与系统 Download PDF

Info

Publication number
CN111680153A
CN111680153A CN201911297284.4A CN201911297284A CN111680153A CN 111680153 A CN111680153 A CN 111680153A CN 201911297284 A CN201911297284 A CN 201911297284A CN 111680153 A CN111680153 A CN 111680153A
Authority
CN
China
Prior art keywords
data
management
resource
knowledge
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911297284.4A
Other languages
English (en)
Inventor
陶峰
严铤
孙浩天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiadun Data Technology Co ltd
Original Assignee
Beijing Jiadun Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiadun Data Technology Co ltd filed Critical Beijing Jiadun Data Technology Co ltd
Priority to CN201911297284.4A priority Critical patent/CN111680153A/zh
Publication of CN111680153A publication Critical patent/CN111680153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Abstract

一种基于知识图谱的大数据鉴真方法与系统,实现数据从汇聚、清洗、标准化,再到关联融合、评估、挖掘分析的过程进行一体化的管理。用于解决多源异构数据资源融合关联与真伪评估的问题。1)提供多种数据治理工具,按标准整合汇聚各类数据资源,形成案、事、人、物数据资源库,利用大数据分布式存储技术分库存储资源。2)采用自织网模型,对汇聚的各类数据与应用解耦,在数据层面自动进行深度融合关联,建立知识图谱及多路径关联通道,构建人、事、物、组织等一体化关联数据知识网。3)采用自评估模型,从数据来源可信度、时效性、支持度三个维度对数据的真实性、有效性、融合关联的正确性自动进行评估。

Description

一种基于知识图谱的大数据鉴真方法与系统
技术领域
本发明涉及数据分析领域,具体而言是一种基于知识图谱的大数据鉴真方法与系统。
背景技术
如何从海量分散数据中提炼数据价值,加大数据利用与管理,以实现数据有效管理和价值应用,成为当前趋势中亟待解决的问题。
尤其是在大数据领域,随着前端感知类设备的增多和社会资源数据的大规模采集,对数据进行处理、分析、深度挖掘,发现数据的内在规律,对数据进行智能化治理是有效开展数据研判及服务的重要保障,在实际应用过程中仍然面临着以下问题:
1)数据分散,在进行情报研判时,需要工作人员同时在不同系统中进行协作式查询;
2)门户式查询如海底捞针,上级部门对数据进行了门户式集成,解决了一部分数据分散问题,但是其本质还是分库式的检索,没有在底层将数据进行关联整合,还是需要工作人员不断的尝试遍历同一个人的各种特征值信息才能获取其全量信息。
3)数据由于底层没有有效治理,查询出来的结果存在不一致的情况,错误的情况,需要工作人员自己甄别真假并进行关联融合。
上述问题中怎么让工作人员快速直观的对数据进行真假甄别尤为重要,由此我们引入了“鉴真”的概念,着重对大数据进行真伪评估。
“鉴真(authentication)”一词源于美国证据法的一个专门术语。《布莱克法律词典》对鉴真作了这样的定义:从广义上讲,鉴真是证明待证物(如文档)是真实的或确定的活动,是待证物可以被采纳为证据的条件。美国西北大学法学院艾伦教授将鉴真定义为:展示件所展示的东西与案件特定事实之间联系的真实性。我国学界对鉴真的定义,是在参考英文原词含义的基础上,结合了我国法律背景而做的定义。张保生教授主编的《证据法学(第二版)》中,对鉴真做了详细地介绍:“鉴真是确定物体、文件等实物证据真实性的证明活动。鉴真旨在证明物证、书证等展示性证据与案件特定事实之间联系的真实性。在诉讼双方对某件展示性证据存在争议的情况下,通过辨认和鉴真来证明物证、书证等证据的统一性、真实性及其与案件事实的相关性,可以消除争议,为证据的采纳铺平道路。”
目前涉及鉴真的主要技术或产品有以下两方面:
1)鉴真溯源:鉴真溯源涉及防伪验证技术领域,具体涉及一种鉴真溯源系统及方法,用以解决现有不存在鉴别物品真伪方法的问题。系统包括射频识别(RadioFrequencyIDentification,FRID)芯片、待检验物品、二维码、扫码机、所述FRID读取器、控制器、显示器、通讯器和服务器。普遍用于食品、农产品、其它商品真伪验证领域。
2)电子数据鉴真:电子数据与物证、书证同属广义实物证据。《刑事诉讼法》第48条第(八)款将电子数据规定为法定证据形式,从立法上确定电子数据的合法地位。电子数据鉴真的方法包括旁证鉴真和自我鉴真,旁证鉴真主要包括知情证人证言、与众不同的特征、程序或系统、事实认定者或专家证人的比对,证据保管链五种;自我鉴真主要包括经认证的公共记录副本、官方网站、贸易标志或者类似特征三种。电子数据的鉴真标准是“表面可信”的标准,并不需要比传统实物证据的鉴真标准更高。电子数据鉴真的程序主要体现于庭前的证据开示程序和庭审过程中的“主动鉴真+被动鉴真”程序。电子数据的鉴真为电子数据的可采性奠定基础铺垫,是确定电子数据可采性的先决条件。
对于大数据领域的鉴真,目前暂未出现该类产品,但为了实现数据有效管理和价值应用,越来越多的企业致力于大数据领域产品的研发,在大数据领域,目前已有的大数据治理与分析产品,在一定程度上实现了对数据有效管理与价值应用,现有产品通过运用相关技术衡量、提高和确保数据质量的规划、实施与控制等一系列活动,从而对数据质量进行管理,主要衡量数据质量的指标是完整性(数据是否缺失)、规范性(数据是否按照要求的规则存储)、一致性(数据的值是否存在信息含义上的冲突)、准确性(数据是否错误)、唯一性(数据是否是重复的)、时效性(数据是否按照时间的要求进行上传),这些指标在一定程度上保证了入库数据的质量,但不能快速、直观的掌握数据的真假。
发明内容
针对上述问题,本发明提供一种基于知识图谱的大数据鉴真的方法与系统,实现数据从汇聚、清洗、标准化,再到关联融合、评估、挖掘分析的过程进行一体化的管理。用于解决多源异构数据资源融合关联与真伪评估的问题,并达到以下目的:
1)提供多种数据治理工具,按标准整合汇聚各类数据资源,形成案、事、人、物数据资源库,利用大数据分布式存储技术分库存储资源,以支撑检索、知识库、分析挖掘、数据共享需求,解决多源异构数据的汇聚与清洗。
2)采用自织网模型,对汇聚的各类数据与应用解耦,在数据层面自动进行深度融合关联,建立知识图谱及多路径关联通道,构建人、事、物、组织等一体化关联数据知识网,打破传统门户式的分库检索模式,解决数据的“一键式关联”和深度挖掘问题,满足了基层对多源异构数据关联融合的需求。
3)采用自评估模型,从数据来源可信度、时效性、支持度三个维度对数据的真实性、有效性、融合关联的正确性自动进行评估,并在知识图谱分析结果中,以100比的数据值可视化展示评估结果,为数据检索、情报研判提升真伪辨别能力。
为达到上述目的:本发明构建一种基于知识图谱的大数据鉴真的系统与方法,其内容如下:包括资源目录模块、标准库管理模块、数据采集模块、数据资源管理模块、数据鉴真模块、数据权限模块、运维管理模块。通过对资源的规划管理,数据有效性验证、清洗、标准化及映射、多种方式采集数据、数据检索挖掘分析、建立评估模型鉴真、多类数据维护,实现数据从汇聚、清洗、标准化,再到关联融合、评估、挖掘分析的过程进行一体化的管理。
所述的资源目录模块,包括目录分类和数据资源清单两部分。
目录分类即数据所属资源大类,数据资源清单由多个字段组成,包含资源代码、资源名称、资源摘要、资源所含字段,资源提供方等信息。
主要用于对有单位有哪些资源进行梳理,并按业务要求分层分级管。建立统一的数据资源目录,为数据采集、数据检索、数据应用提供依据。
所述的标准库模块,包括标准数据元管理单元、代码管理单元、以及各接入数据业源系统的标准映射管理单元。
数据元管理是通过对数据字段的命名、类型、长度属性进行规范处理,实现数据元的统一标准建设,为数据质量提供可靠保障。
代码管理即对公共代码标准进行管理。
映射管理是为两个数据元素之间建立对应关系。
总方案所述的数据采集模块,其功能如下:
数据源注册:根据实际情况对采集数据的来源进行管理。
采集任务管理:按需求进行创建、启用、停用采集任务。数据采集监控:对各类数据采集情况进行监控。
录入工具:提供线索、案件、笔录信息在线录入,以及外部离散数据导入功能。
场所信息管理:对系统涉及的各类场信息进行维护。
所述的数据资源管理模块,其功能如下:
数据全文检索:全文检索大体分两个过程,索引创建和搜索索引。索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
分类检索:将各种概念按照学科、专业性质进行分类和系统排列。
二次检索:在当前这次检索结果的文献范围内,再次输入检索条件进行查询的功能。在检索输入框中输入内容后,即可执行二次检索。
一键特征关联分析:通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式知识图谱分析:知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
其他数据用途方式:如数据预测、数据挖掘、数据运营、记忆、识别、重组等。
所述的数据鉴真模块,包括数据源元数据管理、评估因子管理、评估模型管理、评估维度配置;数据源元数据管理,包括数据来源单位、数据源描述、数据创建时间、数据源路径、数据入库时间、数据源更新周期、数据源接入方式(分为接口数据库、excel文件、ftp文件)等;通过对数据源元数据的管理,实现数据的溯源功能;
评估因子管理对数据源的每个数据项进行管理,为评估模型提供评估依据,主要有数据分级分类信息、数据脱敏信息、数据类型、清洗状态、来源数据表名称,清洗人信息、数据是否核实、数据使用对象、数据价值度、数据可信值等信息;
评估模型管理,针对不同的数据项的特点进行评估模型的建立,从数据有效性、数据时效性、数据支持度等维度进行评估规则的配置。
系统根据评估配置自动计算数据可信度,为用户准确使用数据提供依据。
评估维度配置,如完整性、有效性、稳定性、准确性等各方面配置参数进行评价对比。
所述的数据权限模块,采集的数据有一定权限才能使用,系统管理员根据系统使用对象的职责范围的不同,对其进行不同数据的操作授权,以保证数据安全。
其配置步骤如下:
一.有权限的用户登录系统;
二.登录成功后进入数据权限配置模块;
三.选择需要分配数据权限的角色,勾选该角色有权限的资源目录,然后保存即可完成当前角色的数据权限配置,该角色下的用户登录系统后即可看到有权限查看的资源目录。
所述的运维管理模块,包括如下:
用户管理:对系统用户进行添加、修改、删除、查询、停用/启用的操作。
角色管理:角色管理主要是对具有一相同操作权限的用户组进行管理,以便通过角色来控制用户的操作权限。角色管理可对角色进行添加、删除、修改、启用/停用的操作。
组织机构管理:对系统用户所属的组织机构进行管理,包括新增、修改、删除、排序。
职位管理:对单位的职位进行管理,包括新增、修改、删除的操作。
菜单资源管理:菜单资源管理主要是系统开发者对系统展示模块及菜单进行管理。
日志管理:对系统登录和业务操作进行记录。可按关键字、系统、日志类型、操作成功与否、操作日期对日志进行检索。
所述的基于知识图谱的大数据鉴真系统的构建方法,其具体步骤如下:
步骤一、数据采集,利用采集工具汇聚数据,包括离散数据、实时数据、中间库;
对于离散数据:系统提供统一文件导入功能,采用Web方式对导入的文件进行模板配置、管理以及数据关系建立。导入分为添加数据和新增数据两种方式。添加数据即同一个表里在原有的数据下再次添加数据。新增数据即新建一张表,并新增数据。
对于实时数据和中间库采集:主要通过FTP、库对库方式接入数据,其采集管理包括数据源注册、采集任务创建和采集任务监控三部分。
步骤二、数据管理,进行有效性验证、清洗、标准化,达到可以数据全文检索、分类检索、二次检索、一键特征关联分析、知识图谱分析,其他数据管理方式;
步骤三、实现数据鉴真的前提,包括数据源元数据管理、评估因子设置、评估模型管理、评估维度配置;
然后构建自织网模型、自评估模型;其中自评估模型其步骤如下:选择评估对象;选择评估维度;发布评估模型。
步骤四、在数据层面自动进行深度融合关联,建立知识图谱及多路径关联通道,构建人、事、物、组织一体化关联数据知识网,对数据有效性、时效性、正确性、真实性、价值度自动进行评估。
本发明目前主要在大数据安全领域进行了实践,主要产生了以下效果:
1、本发明提供了数据来源可信度、时效性、支持度三个维度对数据的真实性、有效性、融合关联的正确性自动进行评估,可以根据数据项的特点,灵活选择和评估维度进行数据评估建模。
2、本发明提供了多种数据治理工具,满足多源异构数据的采集与清洗需求。
3、在数据关联融合的基础上,根据业务需求实现了数据的深度应用,如一键关联分析、重点人员动态管控、多维轨迹分析、全息档案、全维画像、一键布控、话单分析等服务应用。
附图说明
图1为一种基于知识图谱的大数据鉴真的系统示意图;
图2为大数据鉴真系统数据处理流程图;
图3为资源目录管理流程图;
图4为映射管理操作流程图;
图5为离散数据导入步骤的流程图;
图6为评估模型创建流程图;
图7为数据权限配置流程图;
图8为用户及权限管理流程图;
图9为Facebook开发的数据(日志)收集系统中Scribe的结构示意图。
具体实施方式
一.构建一种基于知识图谱的大数据鉴真的系统,包括资源目录模块、标准库管理模块、数据采集模块、数据资源管理模块、数据鉴真模块、数据权限模块、运维管理模块;由资源目录模块对资源进行分层分级管理;由标准库管理模块建立数据标准规范体系;数据采集模块使用多种方式采集数据,并由数据资源管理模块进行数据检索挖掘分析;最后通过数据鉴真建立评估模型鉴真,数据权限模块分配不同操作权限,对系统用户、角色、组织机构、操作日志进行维护管理,实现数据从汇聚、清洗、标准化,再到关联融合、评估、挖掘分析的过程进行一体化的管理。参考图1。
二.大数据鉴真系统数据处理流程如下,参考图2。
1)利用采集工具汇聚离散数据、实时数据、中间库数据等各种数据资源,对数据进行有效性验证、清洗、标准化后,形成数据资源库;
2)利用自织网模型,对汇聚的各类数据与应用解耦,在数据层面自动进行深度融合关联,建立知识图谱及多路径关联通道,构建人、事、物、组织等一体化关联数据知识网;
3)自评估模型,从数据来源可信度、时效性、支持度三个维度对数据的真实性、有效性、融合关联的正确性自动进行评估。
三.、大数据鉴真系统功能模块
具体的说,资源目录模块如下:
资源目录模块主要是对有单位有哪些资源进行梳理,并按业务要求分层分级管理。建立统一的数据资源目录,为数据采集、数据检索、数据应用提供依据。
资源目录包括目录分类和数据资源清单两部分。目录分类即数据所属资源大类,数据资源清单即由多个字段组成的数据集合。数据资源清单包含资源代码、资源名称、资源摘要、资源所含字段,资源提供方等信息。
资源目录管理流程如下,参考图3。
1)先创建目录分类
2)在目录分类下添加资源清单,录入基本信息选择字段后,即可完成资源清单的新增;
3)发布和保存资源清单时需做必填项验证,如未通过需重新录入相关信息,通过则发布成功;
4)对发布的资源清单可执行撤销操作,撤销后的资源清单状态为未发布状态,根据需要可再次进行发布操作;
具体的说,标准库模块如下:
标准库模块参考行业标准规范、国家标准规范建立数据标准规范体系,包括标准数据元、相关公共代码、以及各接入数据业源系统的标准映射管理、实现数据的完整性、有效性、一致性、规范性和开放性管理。
数据元管理:数据元管理是对系统各个数据元进行标准定义,通过对数据字段的命名、类型、长度、等属性进行规范处理,实现数据元的统一标准建设,为数据质量提供可靠保障。该版块的功能包括数据元目录管理、数据元的新增、修改、删除、发布、excel导入、移动、复制、启用、停用以及版本信息等操作。
代码管理:即对公共代码标准进行管理,包括新增、变更、废止、审核、导入\导出。
映射管理:为两个数据元素之间建立对应关系,这一过程,即为数据元映射过程。数据映射管理是后续数据集成任务的第一步,实现为内外部业务数据使用和交换的一致性和准确性。包括查询、新增以及取消映射关系。
其中映射管理操作流程如下所示,参考图4。
1)选择外部系统需要进行映射字段所属数据元集;
2)从外部系统的数据元集中选择需要映射的字段;
3)从同部系统标准库中依次选择对应的字段,形成一一对应的关系;
4)设置完所所有字段对应关系后,保存即可完成字段映射;
具体的说,数据采集模块如下:
数据采集模块可以社会资源采集、数据库抽取、离散数据融合、笔录数据采集、电围/wifi融合等数据治理工具,按标准规范采集汇聚各类数据,并进行统一的数据接入、清洗、监测管理,解决数据资源离散存储,存储文件杂乱的问题。在数据采集方面采用了以下方法:
1)、离线采集:
工具:ETL;
在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。
2)、实时采集:
工具:Flume/Kafka;
实时采集主要用在考虑流处理的业务场景,比如,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、web服务器记录的用户访问行为。在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job,些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
3)、互联网采集:
工具:Crawler,DPI等;
Scribe是Facebook开发的数据(日志)收集系统,如图9所示,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的采集。
除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。
4)、其他数据采集方法
对于大数据安全领域上的客户数据、资金数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做得很好。
数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性。
数据采集模块主要包括以下功能:
数据源注册:根据实际情况对采集数据的来源进行管理。
采集任务管理:按需求进行创建、启用、停用采集任务。
数据采集监控:对各类数据采集情况进行监控。
录入工具:提供线索、案件、笔录信息在线录入,以及外部离散数据导入功能。
场所信息管理:对系统涉及的各类场信息进行维护。
中间库和实时数据采集主要通过FTP、库对库等方式接入数据,其采集管理依次包括数据源注册、采集任务创建和采集任务监控三部分。
离散数据导入是指对本地的Excel文件进行导入,系统提供统一文件导入功能,采用Web方式对导入的文件进行模板配置、管理以及数据关系建立。导入分为添加数据和新增数据两种方式。添加数据即同一个表里在原有的数据下再次添加数据。新增数据即新建一张表,并新增数据。
离散数据导入操作步骤如下,参考图5。
1)选择导入离散数据的方式,新增数据还是添加数据;
2)如选择新增数据操作步骤如下:
第一步:模版下载,选择需要新增数据的模版并下载;
第二步:数据预览,在按模板新增完数据后,选择新增数据目录、输入上传表名称、数据来源后,上传数据,上传数据后在数据列表中可查看所有新增数据信息;
第三步:选择字段和关系定义,从模版中选择需要入库的字段,并将其定义到所属信息分类中;
第四步:标准字段匹配,将新增入库的字段和标准库中的字段进行字段映射,依次从入库字段和标准字段中选择需要映射的字段即可完成字段的映射;
第五步:数据上传,选择入库模式后,点击“数据上传”后,开始对上传数据的有效性进行验证,验证通过但开始入库;
第六步:数据上传完成后可可查看添加数据的操作日志,同时在操作日志中支持上传数据的下载。
3)如选择添加数据操作步骤如下:
第一步:下载数据表,在数据模版列表中选择需要添加数据的数据表模版并下载;
第二步:增加数据后上传,在下载的模板中增加数据,然后选择上传目录、输入表名称、数据来源、选择导入模式后,选择文件后点击“数据上传”即可完成新增数据的导入;
第三步:数据上传完成后可可查看添加数据的操作日志,同时在操作日志中支持上传数据的下载。
具体的说,数据资源管理模块如下:
方便进行有效性验证、清洗、标准化,及其以下效果:
1).可以及时释放资源:提醒自己使用后放回原处,封装一个好用的资源类,让释放资源自动化,通常我们通过ResourceDecorator模式来实现。
2).最小化资源打开的间隔:对于资源,我们需要的是一种按需索取的原则,有需要的时候才去获得并且操作相应的资源,而不是过早地据为己有。设置Timeout来防止应用程序占用某一资源的时间过长也是一种很好的方法,常用的模式是ResourceTimer模式。3).使用资源池:由于资源初始化是一个花销巨大的操作,及早初始化一定的资源,就可以减少滞留、卡顿、缺额。类似连接池的应用,相应的模式就是ResourcePool模式。
具体用途如下:
数据全文检索:全文数据库是全文检索系统的主要构成部分。全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文数据库无一不是海量信息数据库。全文检索大体分两个过程,索引创建和搜索索引。索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
分类检索:将各种概念按照学科、专业性质进行分类和系统排列。
二次检索:在当前这次检索结果的文献范围内,再次输入检索条件进行查询的功能。在检索输入框中输入内容后,即可执行二次检索。可以逐渐缩小文献范围,达到查询目标,其作用相当于在前、后两次检索之间做逻辑与运算。
一键特征关联分析:通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式。主要研究内容:现象之间是否相关、相关的方向、密切程度等,不区分自变量与因变量,也不关心各变量的构成形式。主要分析方法:绘制相关图、计算相关系数、检验相关系数。
其中相关系数r的计算通常有三种:
1):Pearson相关系数:对定距连续变量的数据进行计算。是介于-1和1之间的值,用于描述两组线性的数据一同变化移动的趋势。当两个变量的线性关系增强时,相关系数趋于1或-1。
当其中一个变量增大时,另一个变量也跟着增大,则两个变量正相关,相关系数大于0。
当其中一个变量增大时,另一个变量却跟着减小,则两个变量负相关,则相关系数小于0。
当两个变量的相关系数等于0时,则表明两个变量之间不存在线性相关关系。
2):Spearman秩相关系数:是度量两个变量之间的统计相关性的指标,用来评估当前单调函数来描述俩个变量之间的关系有多好。
在没有重复数据的情况下,如果一个变量是另一个变量的严格单调函数,按摩二者之间的spearman秩相关系数就是1或+1,称为完全soearman相关。
如果其中一个变量增大时,另一个变量也跟着增大时,则spearman秩相关系数是正的。
如果其中一个变量增大时,另一个变量却跟着减少时,则spearman秩相关系数是负的。
如果其中一个变量变化时候,另一个变量没有变化,spearman秩相关系为0。
随着两个变量越来越接近严格单调函数时,spearman秩相关系数在数值上越来越大。
3):Kendall(肯德尔等级)相关系数:肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。
一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。
肯德尔相关系数的取值范围在-1到1之间,
当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;
当τ为0时,表示两个随机变量是相互独立的。
知识图谱分析:知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。
其他数据用途方式:如数据预测、数据挖掘、数据运营、记忆、识别、重组等。
具体的说,数据鉴真模块如下:
数据鉴真模块主要通过自评估模型实现对数据有效性、对数据的真实性、有效性、融合关联的正确性自动进行评估。包括数据源元数据管理、评估因子管理、评估模型管理、评估维度配置四个部分组成。
1)数据源元数据管理:主要是对数据源元数据进行管理,包括数据来源单位、数据源描述、数据创建时间、数据源路径、数据入库时间、数据源更新周期、数据源接入方式,分为接口、数据库、excel文件、ftp文件;通过对数据源元数据的管理,实现数据的溯源功能。
2)评估因子管理:对数据源的每个数据项进行管理,为评估模型提供评估依据,主要有数据分级分类信息、数据脱敏信息、数据类型、清洗状态、来源数据表名称,清洗人信息、数据是否核实、数据使用对象、数据价值度、数据可信值等信息。
3)评估模型管理:针对不同的数据项的特点进行评估模型的建立,从数据有效性、数据时效性、数据支持度等维度进行评估规则的配置。系统根据评估配置自动计算数据可信度,为用户准确使用数据提供依据。
评估模型创建流程参考图6,其中数据来源可信度为必选项。
4)评估维度配置,如完整性、有效性、稳定性、准确性各方面配置参数进行评价对比。
基于知识图谱的大数据鉴真的方法,其具体步骤如下:
步骤一、数据采集,利用采集工具汇聚数据,包括离散数据、实时数据、中间库;
对于离散数据:系统提供统一文件导入功能,采用Web方式对导入的文件进行模板配置、管理以及数据关系建立。导入分为添加数据和新增数据两种方式。添加数据即同一个表里在原有的数据下再次添加数据。新增数据即新建一张表,并新增数据。
对于实时数据和中间库采集:主要通过FTP、库对库等方式接入数据,其采集管理包括数据源注册、采集任务创建和采集任务监控三部分。
步骤二、数据管理,进行有效性验证、清洗、标准化,达到可以数据全文检索、分类检索、二次检索、一键特征关联分析、知识图谱分析等;
采集的数据有一定权限才能进行操作,系统管理员根据系统使用对象的职责范围的不同,对其进行不同数据的操作授权,以保证数据安全。其配置步骤如下:
一.有权限的用户登录系统;
二.登录成功后进入数据权限配置模块;
三.选择需要分配数据权限的角色,勾选该角色有权限的资源目录,然后保存即可完成当前角色的数据权限配置,该角色下的用户登录系统后即可看到有权限查看的资源目录。
步骤三、实现数据鉴真的前提,包括数据源元数据管理、评估因子设置、评估模型管理、评估维度配置;然后构建自织网模型、自评估模型;其中自评估模型其步骤如下:选择评估对象;选择评估维度;
发布评估模型。
步骤四、在数据层面自动进行深度融合关联,建立知识图谱及多路径关联通道,构建人、事、物、组织一体化关联数据知识网,对数据有效性、时效性、正确性、真实性、价值度等自动进行评估。
具体的说,数据权限模块如下:
系统管理员根据系统使用对象的职责范围的不同,对其进行不同数据的操作授权,以保证数据安全。
数据权限配置流程如下所示,参考图7。
1)有权限的用户登录系统;
1)登录成功后进入数据权限配置模块;
2)选择需要分配数据权限的角色,勾选该角色有权限的资源目录,然后保存即可完成当前角色的数据权限配置,该角色下的用户登录系统后即可看到有权限查看的资源目录。
具体的说,运维管理模块如下:
运维管理主要是对系统用户、角色、组织机构、操作日志进行维护管理,主要包括用户管理、角色管理、组织机构管理、职位管理、资源菜单管理、日志管理。
用户管理:对系统用户进行添加、修改、删除、查询、停用/启用的操作。
角色管理:角色管理主要是对具有一相同操作权限的用户组进行管理,以便通过角色来控制用户的操作权限。角色管理可对角色进行添加、删除、修改、启用/停用的操作。
组织机构管理:对系统用户所属的组织机构进行管理,包括新增、修改、删除、排序。
职位管理:对单位的职位进行管理,包括新增、修改、删除的操作。
菜单资源管理:菜单资源管理主要是系统开发者对系统展示模块及菜单进行管理。
日志管理:对系统登录和业务操作进行记录。可按关键字、系统、日志类型、操作成功与否、操作日期对日志进行检索。
用户及权限管理流程如下所示,参考图8。
1)系统管理员成功登录系统;
2)创建角色,并为角色分配系统操作权限;
3)创建用户,并为用户选择所属角色,保存后即可完成创建用户的操作。

Claims (9)

1.一种基于知识图谱的大数据鉴真的系统,其特征如下:包括标准库管理模块、数据采集模块、数据资源管理模块、数据鉴真模块;由标准库管理模块建立数据标准规范体系;数据采集模块使用多种方式采集数据,并由数据资源管理模块进行数据检索挖掘分析;最后通过数据鉴真建立评估模型鉴真,实现数据从汇聚、清洗、标准化,再到关联融合、评估、挖掘分析的过程进行一体化的管理。
2.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:还包括资源目录模块;所述的资源目录模块包括目录分类和数据资源清单两部分;
目录分类即数据所属资源大类,数据资源清单由多个字段组成,包含资源代码、资源名称、资源摘要、资源所含字段、资源提供方信息。
3.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:所述的标准库管理模块包括标准数据元管理单元、代码管理单元、以及各接入数据业源系统的标准映射管理单元。
4.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:所述的数据采集模块包括数据源注册单元、采集任务管理单元、数据采集监控单元、录入工具单元、场所信息管理单元。
5.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:所述的数据资源管理模块包括数据全文检索、分类检索、二次检索、一键特征关联分析、知识图谱分析、其他数据用途。
6.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:所述的数据鉴真模块包括数据源元数据管理、评估因子管理、评估模型管理、评估维度配置;
a.数据源元数据管理,包括数据来源单位、数据源描述、数据创建时间、数据源路径、数据入库时间、数据源更新周期、数据源接入方式;通过对数据源元数据的管理,实现数据的溯源功能;
b.评估因子管理对数据源的每个数据项进行管理,为评估模型提供评估依据,主要有数据分级分类信息、数据脱敏信息、数据类型、清洗状态、来源数据表名称、清洗人信息、数据是否核实、数据使用对象、数据价值度、数据可信值信息;
c.评估模型管理,针对不同的数据项的特点进行评估模型的建立,从数据有效性、数据时效性、数据支持度维度进行评估规则的配置。系统根据评估配置自动计算数据可信度,为用户准确使用数据提供依据。
d.评估维度配置,包括完整性、有效性、稳定性、准确性各方面配置参数进行评价对比。
7.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:还包括数据权限模块,由数据权限模块操作的数据通过系统管理员根据系统使用对象的职责范围的不同,对其进行不同数据的操作授权,以保证数据安全。
8.如权利要求1所述的一种基于知识图谱的大数据鉴真的系统,其特征在于:还包括运维管理模块,所述的运维管理模块对系统用户、角色、组织机构、操作日志进行维护管理,包括用户管理、角色管理、组织机构管理、职位管理、资源菜单管理、日志管理。
9.一种基于知识图谱的大数据鉴真的方法,其具体步骤如下:
步骤一、通过数据采集模块完成数据采集,利用采集工具汇聚数据,包括离散数据、实时数据、中间库;
对于离散数据:系统提供统一文件导入功能,采用Web方式对导入的文件进行模板配置、管理以及数据关系建立。导入分为添加数据和新增数据两种方式。添加数据即同一个表里在原有的数据下再次添加数据。新增数据即新建一张表,并新增数据。
对于实时数据和中间库采集:主要通过FTP、库对库方式接入数据,其采集管理依次包括数据源注册、采集任务创建和采集任务监控三部分。
步骤二、通过数据资源管理模块对数据进行管理,实现有效性验证、清洗、标准化,达到可以数据全文检索、分类检索、二次检索、一键特征关联分析、知识图谱分析,其他数据管理方式;
步骤三、通过数据鉴真模块完成构建自织网模型、自评估模型;其中自评估模型其创建流程如下:选择评估对象;选择评估维度;发布评估模型。
步骤四、在数据层面自动进行深度融合关联,建立知识图谱及多路径关联通道,构建人、事、物、组织一体化关联数据知识网,对数据有效性、时效性、正确性、真实性、价值度自动进行评估。
CN201911297284.4A 2019-12-17 2019-12-17 一种基于知识图谱的大数据鉴真方法与系统 Pending CN111680153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911297284.4A CN111680153A (zh) 2019-12-17 2019-12-17 一种基于知识图谱的大数据鉴真方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911297284.4A CN111680153A (zh) 2019-12-17 2019-12-17 一种基于知识图谱的大数据鉴真方法与系统

Publications (1)

Publication Number Publication Date
CN111680153A true CN111680153A (zh) 2020-09-18

Family

ID=72451258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911297284.4A Pending CN111680153A (zh) 2019-12-17 2019-12-17 一种基于知识图谱的大数据鉴真方法与系统

Country Status (1)

Country Link
CN (1) CN111680153A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084293A (zh) * 2020-09-07 2020-12-15 新疆泰克软件开发有限公司 用于公安领域的数据鉴真系统及数据鉴真方法
CN112749181A (zh) * 2021-01-20 2021-05-04 丁同梅 针对真实性验证和可信溯源的大数据处理方法及云服务器
CN113094393A (zh) * 2021-03-16 2021-07-09 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备
CN113392227A (zh) * 2021-05-31 2021-09-14 交控科技股份有限公司 面向轨道交通领域的元数据知识图谱引擎系统
WO2022068348A1 (zh) * 2020-09-30 2022-04-07 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN115374106A (zh) * 2022-07-15 2022-11-22 北京三维天地科技股份有限公司 一种基于知识图谱技术的数据智能分级方法
CN115688044A (zh) * 2022-08-25 2023-02-03 航天神舟智慧系统技术有限公司 一种用于全息档案的多维度融合方法及系统
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067229A (ja) * 2001-08-24 2003-03-07 Sharp Corp 電子データ内容証明方法及び情報処理装置
CN106296217A (zh) * 2016-08-02 2017-01-04 上海焕云网络技术有限公司 一种基于移动定位服务的产品鉴真推广系统
CN108766509A (zh) * 2018-05-16 2018-11-06 中国联合网络通信集团有限公司 基于区块链技术的鉴真方法、装置、终端及存储介质
CN108959310A (zh) * 2017-05-23 2018-12-07 易链科技(深圳)有限公司 基于区块链的数据处理方法、装置和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067229A (ja) * 2001-08-24 2003-03-07 Sharp Corp 電子データ内容証明方法及び情報処理装置
CN106296217A (zh) * 2016-08-02 2017-01-04 上海焕云网络技术有限公司 一种基于移动定位服务的产品鉴真推广系统
CN108959310A (zh) * 2017-05-23 2018-12-07 易链科技(深圳)有限公司 基于区块链的数据处理方法、装置和计算机可读存储介质
CN108766509A (zh) * 2018-05-16 2018-11-06 中国联合网络通信集团有限公司 基于区块链技术的鉴真方法、装置、终端及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084293A (zh) * 2020-09-07 2020-12-15 新疆泰克软件开发有限公司 用于公安领域的数据鉴真系统及数据鉴真方法
CN112084293B (zh) * 2020-09-07 2023-12-08 新疆泰克软件开发有限公司 用于公安领域的数据鉴真系统及数据鉴真方法
WO2022068348A1 (zh) * 2020-09-30 2022-04-07 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN112749181A (zh) * 2021-01-20 2021-05-04 丁同梅 针对真实性验证和可信溯源的大数据处理方法及云服务器
CN112749181B (zh) * 2021-01-20 2021-08-17 方正国际软件(广州)有限公司 针对真实性验证和可信溯源的大数据处理方法及云服务器
CN113094393A (zh) * 2021-03-16 2021-07-09 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备
CN113392227A (zh) * 2021-05-31 2021-09-14 交控科技股份有限公司 面向轨道交通领域的元数据知识图谱引擎系统
CN113392227B (zh) * 2021-05-31 2024-04-19 交控科技股份有限公司 面向轨道交通领域的元数据知识图谱引擎系统
CN115374106A (zh) * 2022-07-15 2022-11-22 北京三维天地科技股份有限公司 一种基于知识图谱技术的数据智能分级方法
CN115688044A (zh) * 2022-08-25 2023-02-03 航天神舟智慧系统技术有限公司 一种用于全息档案的多维度融合方法及系统
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法
CN115688707B (zh) * 2022-12-08 2023-06-16 中国传媒大学 一种多语言混合的新闻价值排序方法

Similar Documents

Publication Publication Date Title
CN111680153A (zh) 一种基于知识图谱的大数据鉴真方法与系统
Battle et al. Characterizing exploratory visual analysis: A literature review and evaluation of analytic provenance in tableau
Wang et al. Industrial big data analytics: challenges, methodologies, and applications
CN113377850B (zh) 认知物联网大数据技术平台
Jaseena et al. Issues, challenges, and solutions: big data mining
US10706377B2 (en) Communication data analysis and processing system and method
Panayotova et al. Modeling and data processing of information systems
Adekitan et al. Data mining approach for predicting the daily Internet data traffic of a smart university
Schintler et al. Encyclopedia of big data
Nguyen et al. Vasabi: Hierarchical user profiles for interactive visual user behaviour analytics
CN111125068A (zh) 一种元数据治理方法和系统
CN113722301A (zh) 基于教育信息的大数据处理方法、装置及系统、存储介质
CN112966162A (zh) 一种基于数据仓库与中间件的科技资源集成方法及装置
da Cruz et al. Towards integration of data-driven agronomic experiments with data provenance
CN105786810B (zh) 类目映射关系的建立方法与装置
Shi et al. Can big data improve public policy analysis?
Ekaputra et al. Semantic-enabled architecture for auditable privacy-preserving data analysis
Zhao et al. Analysis-oriented metadata for data lakes
VandanaKolisetty et al. Integration and classification approach based on probabilistic semantic association for big data
Goel et al. Data governance for managing data quality in process mining
KR20180131829A (ko) 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법
Schütz et al. Using visual analytics for decision making
Agre et al. Science and technology issues relating to data quality in C2 systems
Liu et al. Research on security assessment based on big data and multi-entity profile
Li Information Retrieval Method of Natural Resources Data based on Hash Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination