CN106326472A - 一种侦查信息完整性验证方法 - Google Patents
一种侦查信息完整性验证方法 Download PDFInfo
- Publication number
- CN106326472A CN106326472A CN201610790372.8A CN201610790372A CN106326472A CN 106326472 A CN106326472 A CN 106326472A CN 201610790372 A CN201610790372 A CN 201610790372A CN 106326472 A CN106326472 A CN 106326472A
- Authority
- CN
- China
- Prior art keywords
- data
- investigation information
- feature
- rule
- integrity verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011835 investigation Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000012795 verification Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000010365 information processing Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 24
- 238000003066 decision tree Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000012812 general test Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 15
- 230000000750 progressive effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 108091029480 NONCODE Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种侦查信息完整性验证方法,包括:从数据库中读取侦查信息;基于预处理规则库对所述侦查信息预处理和特征提取获得特征向量;将获取的特征向量作为模糊推理机的输入向量,获取特征向量的特征级完整性验证结果;对特征级完整性验证结果进行综合决策处理,得到侦查信息完整性验证结果。设计了适于侦查信息完整性验证方法,对侦查信息进行递进式的三次预处理,且处理过程可以回溯,使得处理规则易于修改,提高了侦查信息处理效率及处理精度,并先基于特征级进行完整性验证,再根据冲突及欧式距离对特征级验证进行修正后进行完整性验证,提高了侦查信息完整性验证的精度及处理速度。
Description
技术领域
本发明涉及数据处理技术领域,特别是一种侦查信息完整性验证方法。
背景技术
当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量都能满足用户的要求。有必要用元数据来表示数据质量。以形式化的方法定义了数据的一致性、正确性、完整性和最小性这四个指标。数据根据在信息系统中这些指标得到满足的程度,进而提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标。用户应根据应用的需求选择其中一部分,指标分为两类:数据质量指示器和数据质量参数。前者是客观的信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据来源的可信度、数据的及时性等。数据预处理的目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量。
在自动化和信息化并存的时代,信息与数据的自动共享与交换已经轻而易举。政法部门例如法院、检察院、公安、司法等政法部门都已经拥有本部门的信息系统办公平台,各部门的信息资料得到了集中性的管理,并且信息的存储量非常大。在一些部门的工作中需要向其他部门采集相关的信息资料,可现阶段在各部门之间的信息数据交换多为人工方式或者接口定制开发,对交换共享出去的数据无法做到有效监控和管理,这样无疑是加大了工作的成本与时间,也无法实现部门与部门之间信息的迅速查询需求。
一个地级市每年有几万宗刑事案件,涉案犯罪嫌疑人员多达近百万万人次,涉案信息(包括人、物、地、组织、机构)多达一千多万条,而且这些信息多数以图形和视频的形式存在,这些分散在公安、检察院、法院、司法部门的信息如果没有信息共享平台的支持,其传递、共享就很难高效实现,上级领导也就很难及时了解整个社会的治安情况,也很难为上级领导决策提供及时可靠的依据。
例如,佛山市政法网信息共享平台采集的犯罪数据来源广泛,涉及公检法相关的近百个职能部门。其采集过程从本质上讲,由于提取犯罪的案件特征后的犯罪信息存在模糊性,无法生成准确的推理规则。如何保证这些信息的完整性一直是困扰政法系统的大问题。
综合上述分析结果可以看出,现有政法系统中的数据预处理方式仅仅是对数据进行一次预处理,而不能递进地、回溯式地进行数据的预处理,数据处理效率低,精度差,且处理规则难以修改,更不能对提取后的海量数据进行完整性验证,导致海量的数据难以使用。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种侦查信息完整性验证方法,所述方法包括以下步骤:
侦查信息读取步骤,从数据库中读取侦查信息;
预处理以及特征向量获取步骤,基于预处理规则库对所述侦查信息进行预处理,以及进行特征提取来获得特征向量;
特征级完整性验证结果获取步骤,将获取的特征向量作为模糊推理机的输入向量,获取特征向量的特征级完整性验证结果;以及
侦查信息完整性验证结果获取步骤,对特征级完整性验证结果进行综合决策处理,得到侦查信息完整性验证结果。
更进一步地,所述侦查信息是存储在公安、检察院、法院、司法和/或监狱信息处理系统中的侦查信息。
更进一步地,所述侦查信息读取步骤具体操作为:
通过通用数据访问接口ODBC和/或JDBC从Oracle、SQLServer、DB2和/或Sybase数据库中读取所述侦查信息;
或者通过文本数据读取函数从文本文件读取侦查信息;
或者通过Excel文件数据读取函数从Excel文件读取侦查信息;
或者通过Word文件数据读取函数从Word文件读取侦查信息;
或者通过数据库系统提供的API函数读取加密级别高的侦查信息。
更进一步地,加密级别高的异构数据是指需要相应的用户权限才能够读取的数据。
更进一步地,所述预处理以及特征向量获取步骤具体操作包括:
构建所述预处理规则库,所述预处理规则库包括基础规则库、动态规则库和扩展规则库;
构建所述基础规则库,所述基础规则库是用于存储数据预处理基础规则的元数据库,针对侦查信息,通过对行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误数据字典,确定数据预处理基础规则,使用数据预处理基础规则对所述侦查信息进行加载和提取得到第一数据集;
构建所述动态规则库,从所述第一数据集中选取第一样本数据集,使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习,生成动态数据预处理规则,使用动态数据预处理规则对所述第一数据集进行加载和提取,得到第二数据集,从第二数据集中选取第二样本数据集;以及
构建所述扩展规则库,用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则,和使用第二样本数据集对数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则,使用数据预处理扩展规则对所述第二数据集进行加载和提取,得到特征向量。
更进一步地,所述数据库是基于MapReduce和Hadoop分布式文件系统构建的分布式数据库。
更进一步地,所述特征级完整性验证结果获取步骤具体操作为:
对标准数据集进行训练,获取决策树分类模型;
确定侦查信息特征级完整性验证的正确率;以及
基于所述决策树分类模型和正确率对特征向量中的每个特征进行判断,得到特征级完整性验证结果。
更进一步地,所述侦查信息完整性验证结果获取步骤具体操作为:
将特征级完整性验证结果映射到一个n×n特征矩阵K中,aij为特征矩阵K中的一个元素,表示两个特征之间冲突值;
使用n×n特征矩阵K计算一个特征到其余特征之间的欧式距离,得到距离矩阵D,dij为距离矩阵D中的一个元素,表示一个特征与其余特征之间的欧式距离;
根据对距离矩阵D进行归一化处理得到矩阵M;
获取特征的权重向量w,wi为权重向量w的中元素,表示特征的权重;
使用矩阵M乘以向量w得到判别矩阵P,pij为判别矩阵P中的一个元素,表示特征的可信度;
将pij小于一阈值对应的特征i从特征向量中删除获得修正后的特征向量;以及
对修正后的特征向量进行两两特征验证,获得侦查信息完整性验证结果;
其中,n为特征向量的个数,n>0,0≤i≤n,0≤j≤n。
本发明的技术效果为:设计了适于侦查信息完整性验证方法,对侦查信息进行递进式的三次预处理,且处理过程可以回溯,使得处理规则易于修改,提高了侦查信息处理效率及处理精度,并先基于特征级进行完整性验证,再根据冲突及欧式距离对特征级验证进行修正后进行完整性验证,提高了侦查信息完整性验证的精度及处理速度。
附图说明
图1是本发明的一种侦查信息完整性验证方法的流程图;
图2是本发明的基础规则库示意图;
图3是本发明的动态规则库示意图;以及
图4是本发明的扩展规则库示意图。
具体实施方式
下面结合附图1-4进行具体说明。
图1示出了本发明的一种异构数据源的数据预处理方法,所述方法包括以下步骤:
S1:侦查信息读取步骤,从数据库中读取侦查信息;
S2:预处理以及特征向量获取步骤,基于预处理规则库对所述侦查信息进行预处理,以及进行特征提取来获得特征向量;
S3:特征级完整性验证结果获取步骤,将获取的特征向量作为模糊推理机的输入向量,获取特征向量的特征级完整性验证结果;以及
S4:侦查信息完整性验证结果获取步骤,对特征级完整性验证结果进行综合决策处理,得到侦查信息完整性验证结果
所述侦查信息是存储在公安、检察院、法院、司法和/或监狱信息处理系统中的侦查信息。通过公安的反恐协作平台搭建贯穿各级政法部门的侦查信息共享平台,达到信息互通、资源共享、安全可靠的目标。政法各部门的业务信息孤立不互通,其中最主要的是侦查信息具有一定的特殊性,侦查信息被保护在边界接入平台内,要求侦查信息不主动对外输出。因此采取将各部门的侦查信息统一整合在政法边界内的侦查信息共享区,从而安全可靠地实现各个政法部门间的侦查信息共享。本发明在资源整合的基础上,打通在政法边界外部的政法专线,在政法边界内的侦查信息共享区搭建平台的综合门户,让各个政法部门通过门户提供的综合查询和请求接口服务来获取政法共享侦查信息,并对政法信息的完整性进行验证。
在侦查信息收集过程中,因数据来源不同,数据载体格式也多种多样,一般来说,所述多个侦查信息存储的文件类型包括Oracle、SQLServer、DB2、Sybase、Excel文件、文本文件、Word文件以及影音视频文件(如mp3、mp4、avi、jpg、jpeg等等)等等。
对于这类文件:Oracle、SQLServer、DB2、Sybase,一般通过通用数据访问接口ODBC和/或JDBC从Oracle、SQLServer、DB2和/或Sybase数据库中读取,这也是标准的数据读取方式。
对于文本文件,通过文本数据读取函数从文本文件读取侦查信息,可通过各种编程语言(如C++)设计文本数据读取函数,并进行封装,在后续的程序中可以直接调用。
对于Excel文件,通过Excel文件数据读取函数从Excel文件读取侦查信息,可通过各种编程语言(如C++)设计Excel文件数据读取函数,并进行封装,在后续的程序中可以直接调用。
对于Word文件,通过Word文件数据读取函数从Word文件读取侦查信息,可通过各种编程语言(如C++)设计Word文件数据读取函数来读取函数,并进行封装,在后续的程序中可以直接调用。
对于其他类型的文件,如mp3、mp4、avi、jpg、jpeg等等,可通过各种编程语言(如C++)设计相应的文件读取函数,并进行封装,在后续的程序中可以直接调用。
各种函数的封装格式与编程语言相关,如在C++编程语言中,各读取函数可以封装在DLL(动态链接库)中。
而对于一些敏感数据,如身份证号码等,需要通过数据库系统提供的API函数读取加密级别高的异构数据,即加密级别高的异构数据是指需要相应的用户权限才能够读取的数据,也就是说只有特定权限的用户才可以读取相应的加密级别高的数据。
近年来,随着信息技术的飞速发展和全球数据的爆炸性增长对各种研究机构和企业数据分析提出了巨大的挑战。Hadoop是一个从单一服务器集群扩展到成千上万的服务器的开源分布式计算框架,用于分布式处理大型数据集。近年来Hadoop云计算是专业互联网公司和研究机构一直应用最广泛的平台,核心Hadoop技术包括MapReduce和Hadoop分布式文件系统。MapReduce是专注于大数据在并行处理的分布式云计算框架。MapReduce具有高可靠性、高可扩展性和高兼容性的特点,MapReduce最大的优势主要在于其是开源的,可以提供一个低成本处理大数据的解决方案。犯罪电子取证重在知识的发现和获取,但通常提取的冗余、噪声数据较多,需要对大规模的取证数据进行整理和过滤,因此,为了满足犯罪调查及时性和低成本的要求,必须应用分布式计算来收集和分析数据,即本发明的数据库是基于MapReduce和Hadoop分布式文件系统构建的分布式数据库。
所述基于预处理规则库对所述侦查信息预处理和特征提取获得特征向量的具体操作包括:
构建所述预处理规则库,所述预处理规则库包括基础规则库、动态规则库和扩展规则库;
构建所述基础规则库,所述基础规则库是用于存储数据预处理基础规则的元数据库,针对侦查信息,通过对行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误数据字典,确定数据预处理基础规则,使用数据预处理基础规则对所述侦查信息进行加载和提取得到第一数据集;
构建所述动态规则库,从所述第一数据集中选取第一样本数据集,使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习,生成动态数据预处理规则,使用动态数据预处理规则对所述第一数据集进行加载和提取,得到第二数据集,从第二数据集中选取第二样本数据集;
构建所述扩展规则库,用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则,和使用第二样本数据集对数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则,使用数据预处理扩展规则对所述第二数据集进行加载和提取,得到特征向量。
特征向量可以采用多种数据结构表示,如数组、链表等,特征向量中的每个特征表示一项作为侦查信息的证据,也就是通过侦查信息的预处理及特征提取将侦查信息存储为一个向量的形式,便于后续进行验证。
规则库(指本发明中的基础规则库、动态规则库和扩展规则库)是大量规则(指本发明中的数据预处理基础规则、动态数据预处理规则和数据预处理扩展规则)的集合,利用规则触发不同的执行条件将处理程序中的逻辑运算,利用规则描述来增强程序的可移植性和可扩充性。用来存放数据预处理规则的元数据库。数据预处理是领域相关的,领域知识对成功的数据预处理是必不可少的,所以规则库中不仅存放有预处理动作规则,而且存放有领域知识规则。规则库记录着每条规则的如下信息:规则类型、执行条件、待预处理的记录集的名称、待预处理的字段的名称、预处理的策略、规则的优先级、执行预处理的动作。
特征级的完整性验证方法主要有K阶最近邻、参数模板法、模糊推理、人工模糊推理、联合概率数据关联和聚类算法。下面描述一下模糊推理机(系统)的方法。
模糊推理以其独特的性能是目前计算机犯罪案件侦控中应用最广的一种方法。模糊推理机(FIS)是一个扩展的语言命题、规则和推理过程建模方法,直接用模糊集表示,如下:
在FIS知识库中的所有知识都被表示为一组规则,这些规则的模式描述为
“IF.....THEN.......”
FIS算法包涵以下几个步骤:
1)对输入的属性进行模糊化处理,每个属性都包含模糊量词,按照前面所叙述的理论都应该赋给它一个相应的值,用来表示属性的确定性程度,采用隶属函数进行量化处理;
2)对所有的属性进行赋值获得一个模糊输入规则;
3)把输入变量每个属性的适配度相乘得到规则的激励强度,输出变量即决策属性的适配度,然后计算最后的规则置信水平;
4)得到输出规则;以及
5)得到输出规则集合。
图2示出了本发明的基础规则库。在基础规则库建立之前,经过分析,由于侦查信息可能为多源异构数据,存在的模式层数据质量问题主要有:
(1)数据表中应该建立主键却没有建立主键;
(2)数据表间应该建立外键约束却没有建立外键约束。
同时还需要检查以下模式层的数据质量问题:
(1)表结构的一致性检查。即业务表(非代码表)的主外键命名一致,业务表的表字段个数,字段命名一致等;
(2)代码表的内容一致性检查。代码表除了需要检查业务表所可能出现的数据质量外,还需要检查是否表中数据记录个数是否一致,记录内容是否一致等。
基础规则库中不仅存放有数据预处理基础规则也存放领域知识规则,它要通过元数据信息,找到字段映射规则的信息,加载进行相应的数据预处理基础规则,形成数据预处理基础规则的执行队列,再解析与处理数据。基础规则库中的数据预处理基础规则主要含有:规则类型、规则函数名称、所属记录集ID、待预处理的字段ID、预处理的策略、排序ID(优先级)、错误描述等信息。数据的清洗指标可以通过访谈部门操作员、业务负责任及行业专家制定。
此外,为了清洗数据,构建了错误数据字典,在实际应用中,错误数据字典里主要有以下7种类型:
1)数据长度不正确:如数据字段长度超出数据库设计的理论长度;
2)数据类型不正确:如应为日期类型的数据,实际却是字符串格式;应为金额的数据,实际填写了带有金额的单位或者币种等;
3)数据格式不正确:如中国公民的身份证格式应该符合国家相关标准格式,企业的组织机构代码格式应该符合GB 11714—1997;
4)数据格式不统一:如日期类型格式有很多种,如2011-9-22、2011年09月22日、2011.09.22、09/22/2011、09-22-2011、2011年09月22日23点35分和2011-09-22 23:35:35等;
5)数据逻辑含义不正确:如出生日期为1899-12-30等;
6)数据所属的字典范围不正确:如性别只可能是男、女或未知,而实际的数据可能是男性和女性等(这样的数据在实际应用中需要根据具体的情况进行转义);
7)数据之间逻辑关系不正确:如企业登记日期是2011-09-22,而注销日期是1999-01-10;企业的签订合同人数和未签订合同人数总和不等于企业的总人数等。
使用数据预处理基础规则对所述异构数据进行加载和提取得到第一数据集的具体操作为:使用模式层的数据预处理方式,建立单独的基于模式层的数据预处理运行库,在所述数据预处理运行库中,需要建立标准库,标准库的建立包括:对于业务表,需要储存业务表的表名、表字段个数、主键名、外键约束名、表字段定义的长度和字段类型信息;对于代码表,将原有的标准代码表存储在了所述数据预处理运行库中,针对每个标准代码表存储之后进行重命名作为区别于原标准代码表;将标准库中的所有数据作为第一数据集。
图3示出了本发明的动态规则库。可以使用深度学习算法对数据集和数据预处理基础规则进行学习。通过对数据进行检测和评估效果来实现对数据的修正,系统能够对特定类型数据进行快速批量处理,从而可以提高处理速度。首先是从根据基础规则库处理后第一数据集中提取一个子集,基于数据检测及评估提取效果(如通过汇集最常见的用户或专家错误与处理办法进行检测及评估,其目的就是为了规范入库数据,提高数据质量,达到了一定的数据预处理要求)。因为这个数据子集量不是很大,因而采用各种实际的数据质量控制处理办法是可行的。但是,就是规则库必须是动态的。因此,使用深度学习算法进行数据学习及规则学习,生成动态数据预处理规则,然后进行整个第一数据集的数据处理。
图4示出了本发明的扩展规则库。数据预处理扩展规则可以是具有权限的用户通过人机交互接口定义的,也可以是使用动态规则库处理后数据集提取出来的样本数据集对数据预处理基础规则和动态数据预处理规则进行学习生成的,其可以是基于提取算法进行调整,人工维护,可以根据规则是否匹配进行调整,也可以根据数据的结果评估后进行规则的调整。可以实现以下功能:人们对数据预处理的理解通常认为是实例层的数据预处理,因为相对于模式层数据质量问题而言,其问题出现的更为直观,对数据质量的影响更为明显。同时模式层数据质量问题在实例层可见,例如,缺少主键为明显的模式层的数据质量问题,人们根本不会发现缺少主键对数据质量有什么影响。但是缺少主键会引起实例层问题,如重复记录,而重复记录能够直观的被人们所感知。
从图2-4及上述描述可以得到,本发明的重要发明点之一是,侦查信息预处理和特征提取获得特征向量的主要处理流程是:针对侦查信息,通过行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误分类整理的字典信息,确定预处理规则格式,制定基础规则库,再选取样本数据集实现基于规则库的二级预处理,并检测、评估预处理规则及相应算法,从而通过评价匹配最佳预处理规则实现干净数据的加载提取,三级预处理进入政法业务抽取数据库,按照预处理效果,还可以通过算法及人工加入新的预处理规则、扩展规则库,进行回溯后再预处理。通过连续的样本训练建立越来越完善的规则库,不断提高后续数据抽取质量。通过上述多级规则库匹配预处理策略,将其分步嵌入到数据应用系统中,除非常少的个别错误数据要单独汇总处理外,预处理速度适中,基本实现了数据规范化,为进一步的数据应用、共享展示提供了可靠基础。
此外,在数据预处理基础规则、动态数据预处理规则和数据预处理扩展规则执行前,对数据预处理基础规则、动态数据预处理规则和数据预处理扩展规则分别进行解析,根据优先级或依赖关系确定数据预处理基础规则、动态数据预处理规则和数据预处理扩展规则的执行顺序。这样也可以提高数据预处理的效率。
所述将获取的特征向量作为模糊推理机的输入向量获取特征向量的特征级完整性验证结果的具体操作为:
对标准数据集进行训练,获取决策树分类模型;
确定侦查信息特征级完整性验证的正确率;
基于所述决策树分类模型和正确率对特征向量中的每个特征进行判断,得到特征级完整性验证结果。
标准数据集是指经过人工核实的标准特征向量级,特征级完整性验证是指每个特征向量中的特征本身是否存在错误,特征级完整性验证结果可以存储在一个向量中,存储形式为数组等。
对特征进行量化后,通过决策树算法来构造分类模型。决策树的数据结构是树形的,通过一个特征值对决策树内部节点进行分割,通过分割产生决策树的分叉,而决策树的不同的分布都在叶子节点上。该算法自上而下、一步一步的来构造决策树气起初在决策树的根节点来存储所有数据的,并以特征字段来标记所有的数据,然后再按照事先设定的特征方式来递归进行分割处理,通过统计的或者启发式的方式来选择特征。在决策树建立时,实际上很多数据都是无用的,属于异常情况。因此决策树建立后的下一步主要工作就是剪枝的操作,去掉决策树建立过程中产生的孤立和干扰节点,对这些异常的数据进行处理气如果借助统计度量来将最不可靠的分枝剪掉,就可以进行较快的分类。
侦查信息特征级完整性验证的正确率能够用被分类模型正确分类的检测样本的百分比表示,用于指导政法部门发生的案件进行分类是可接受的。
例如,涉案数额是连续的,可以将其离散化到区间不同的区间,分为三个区间:高、一般、小。其中大于等于100万表示高,大于等于10万,小于100万表示一般,小于10万表示低;嫌疑人资产情况是连续的,可以将其离散化到区间不同的区间,分为三个区间:富有、一般、贫穷。其中大于等于100万表示富有,大于等于10万,小于100万表示一般,小于10万表示贫穷。
例如:如果嫌疑人是一个富有的人,也就是说他自身的资产大于100万,所以他进行涉案的话,涉案金额在10万以下的情况可能性就不大。但是如果相反的情况,即侦查信息特征级完整性验证并不一定准确,还需要其他特征综合判断。
本发明的另一个重要发明点为对特征级完整性验证结果进行综合决策处理得到侦查信息完整性验证结果的具体操作为:
将特征级完整性验证结果映射到一个n×n特征矩阵K中,aij为特征矩阵K中的一个元素,表示两个特征之间冲突值;
使用n×n特征矩阵K计算一个特征到其余特征之间的欧式距离,得到距离矩阵D,dij为距离矩阵D中的一个元素,表示一个特征与其余特征之间的欧式距离;
根据对距离矩阵D进行归一化处理得到矩阵M;
获取特征的权重向量w,wi为权重向量w的中元素,表示特征的权重;
使用矩阵M乘以向量w得到判别矩阵P,pij为判别矩阵P中的一个元素,表示特征的可信度;
将pij小于一阈值对应的特征i从特征向量中删除获得修正后的特征向量;以及
对修正后的特征向量进行两两特征验证,获得侦查信息完整性验证结果;
其中,n为特征向量的个数,n>0,0≤i≤n,0≤j≤n。
少数服从多数的多数规则是群体决策中应用最为普遍的一个重要方法。多数的概念往往是在群体决策中需要综合多数持有的观点。从不同信息来源得来的证据为“决策者”。假设在证据完整性验证的过程,当一个证据和其他的大多数证据具有较高的冲突,那么这个证据是少数,而具有低冲突的大多数其他证据被认为是多数证据属于多数被视为等效证据,被认为是100%可靠。基于上述理论,将特征级完整性验证结果映射到一个n×n特征矩阵K中,aij为特征矩阵K中的一个元素,表示两个特征之间冲突值。该矩阵K所有的对角元素是零,表明证据本身并不矛盾。
在侦查信息完整性验证中,由于人为以及外界环境等的影响,常常会使某些信息源输出的信息与其它信息源输出的正确信息存在着很大的冲突。设有两个证据源,为了可以有效地表示两个证据之间的相似性,要定义一个度量证据体间相似程度的证据距离函数。该函数为欧式距离函数,表示证据之间的相似程度,距离值越小,表示两个证据之间越相似,冲突越小;反之,则冲突越大,这种可称为相对冲突。各证据之间的距离可以构成一个证据距离矩阵。因此,使用n×n特征矩阵K计算一个特征到其余特征之间的欧式距离,得到距离矩阵D,dij为距离矩阵D中的一个元素,表示一个特征与其余特征之间的欧式距离;并根据对距离矩阵D进行归一化处理得到矩阵M。
如果证据的信任度较低,在系统中的重要程度较小,因此它的权重也较小;反之,证据的信任度较高,因此,需要获取特征的权重向量w,wi为权重向量w的中元素,表示特征的权重;即不能将所有的证据统一处理,基于权重的不同区分证据的重要程度。
然后,使用矩阵M乘以向量w得到判别矩阵P,pij为判别矩阵P中的一个元素,表示特征的可信度;将pij小于一阈值对应的特征i从特征向量中删除获得修正后的特征向量;修正这一步很重要,其舍去错误的证据,使得验证结果正确,最后,对修正后的特征向量进行两两特征验证,获得侦查信息完整性验证结果。即综合考虑多个特征之间的联系,得到准确的侦查信息完整性验证结果,其表明侦查信息是否正确,能否形成证据链。
本发明所述的方法,可以通过计算机程序实现,也可以将计算机程序存储在存储介质上,处理器从存储介质上读取计算机程序,并执行相应的方法,完成串联补偿装置的工作状态的监测,确保其工作安全。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种侦查信息完整性验证方法,其特征在于,所述方法包括以下步骤:
侦查信息读取步骤,从数据库中读取侦查信息;
预处理以及特征向量获取步骤,基于预处理规则库对所述侦查信息进行预处理,以及进行特征提取来获得特征向量;
特征级完整性验证结果获取步骤,将获取的特征向量作为模糊推理机的输入向量,获取特征向量的特征级完整性验证结果;以及
侦查信息完整性验证结果获取步骤,对特征级完整性验证结果进行综合决策处理,得到侦查信息完整性验证结果。
2.根据权利要求1所述的方法,其特征在于,所述侦查信息是存储在公安、检察院、法院、司法和/或监狱信息处理系统中的侦查信息。
3.根据权利要求1所述的方法,其特征在于,侦查信息读取步骤具体为:
通过通用数据访问接口ODBC和/或JDBC从Oracle、SQLServer、DB2和/或Sybase数据库中读取所述侦查信息;
或者通过文本数据读取函数从文本文件读取侦查信息;
或者通过Excel文件数据读取函数从Excel文件读取侦查信息;
或者通过Word文件数据读取函数从Word文件读取侦查信息;
或者通过数据库系统提供的API函数读取加密级别高的侦查信息。
4.根据权利要求3所述的方法,其特征在于,加密级别高的异构数据是指需要相应的用户权限才能够读取的数据。
5.根据权利要求4所述的方法,其特征在于,所述预处理以及特征向量获取步骤包括:
构建所述预处理规则库,所述预处理规则库包括基础规则库、动态规则库和扩展规则库;
构建所述基础规则库,所述基础规则库是用于存储数据预处理基础规则的元数据库,针对侦查信息,通过对行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误数据字典,确定数据预处理基础规则,使用数据预处理基础规则对所述侦查信息进行加载和提取得到第一数据集;
构建所述动态规则库,从所述第一数据集中选取第一样本数据集,使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习,生成动态数据预处理规则,使用动态数据预处理规则对所述第一数据集进行加载和提取,得到第二数据集,从第二数据集中选取第二样本数据集;以及
构建所述扩展规则库,用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则,和使用第二样本数据集对数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则,使用数据预处理扩展规则对所述第二数据集进行加载和提取,得到特征向量。
6.根据权利要求5所述的方法,其特征在于,所述数据库是基于MapReduce和Hadoop分布式文件系统构建的分布式数据库。
7.根据权利要求6所述的方法,其特征在于,所述特征级完整性验证结果获取步骤为:
对标准数据集进行训练,获取决策树分类模型;
确定侦查信息特征级完整性验证的正确率;以及
基于所述决策树分类模型和正确率对特征向量中的每个特征进行判断,得到特征级完整性验证结果。
8.根据权利要求6所述的方法,其特征在于,所述对侦查信息完整性验证结果获取步骤为:
将所述特征级完整性验证结果映射到一个n×n特征矩阵K中,aij为特征矩阵K中的一个元素,表示两个特征之间冲突值;
使用n×n特征矩阵K计算一个特征到其余特征之间的欧式距离,得到距离矩阵D,dij为距离矩阵D中的一个元素,表示一个特征与其余特征之间的欧式距离;
根据对距离矩阵D进行归一化处理得到矩阵M;
获取特征的权重向量w,wi为权重向量w的中元素,表示特征的权重;
使用矩阵M乘以向量w得到判别矩阵P,pij为判别矩阵P中的一个元素,表示特征的可信度;
将pij小于一阈值对应的特征i从特征向量中删除获得修正后的特征向量;以及
对修正后的特征向量进行两两特征验证,获得侦查信息完整性验证结果;
其中,n为特征向量的个数,n>0,0≤i≤n,0≤j≤n。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610790372.8A CN106326472B (zh) | 2016-08-31 | 2016-08-31 | 一种侦查信息完整性验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610790372.8A CN106326472B (zh) | 2016-08-31 | 2016-08-31 | 一种侦查信息完整性验证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106326472A true CN106326472A (zh) | 2017-01-11 |
CN106326472B CN106326472B (zh) | 2017-06-16 |
Family
ID=57789124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610790372.8A Active CN106326472B (zh) | 2016-08-31 | 2016-08-31 | 一种侦查信息完整性验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106326472B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109828623A (zh) * | 2018-12-28 | 2019-05-31 | 北京农业信息技术研究中心 | 温室作物情景感知的生产管理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937798A (zh) * | 2012-11-30 | 2013-02-20 | 重庆大学 | 一种人机结合的数控机床故障信息采集方法 |
CN104361105A (zh) * | 2014-11-28 | 2015-02-18 | 国家电网公司 | 基于本体推理的配电网模型及拓扑校验方法 |
-
2016
- 2016-08-31 CN CN201610790372.8A patent/CN106326472B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937798A (zh) * | 2012-11-30 | 2013-02-20 | 重庆大学 | 一种人机结合的数控机床故障信息采集方法 |
CN104361105A (zh) * | 2014-11-28 | 2015-02-18 | 国家电网公司 | 基于本体推理的配电网模型及拓扑校验方法 |
Non-Patent Citations (1)
Title |
---|
王其军 等: "基于模糊推理的矿井安全监测系统完整性与估计方法研究", 《2006(沈阳)国际安全科学与技术学术研讨会论文集》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109828623A (zh) * | 2018-12-28 | 2019-05-31 | 北京农业信息技术研究中心 | 温室作物情景感知的生产管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106326472B (zh) | 2017-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372185B (zh) | 一种异构数据源的数据预处理方法 | |
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN107633030B (zh) | 基于数据模型的信用评估方法及装置 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN111538741B (zh) | 一种面向警情大数据的深度学习分析方法及系统 | |
Oard et al. | Jointly minimizing the expected costs of review for responsiveness and privilege in e-discovery | |
CN112966100B (zh) | 一种数据分类分级模型的训练方法、装置及电子设备 | |
CN110633371A (zh) | 一种日志分类方法及系统 | |
CN113221960B (zh) | 一种高质量漏洞数据收集模型的构建方法及收集方法 | |
Ippolito et al. | Tax Crime Prediction with Machine Learning: A Case Study in the Municipality of São Paulo. | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
Orooji et al. | Predicting louisiana public high school dropout through imbalanced learning techniques | |
Sun et al. | Financial distress prediction based on similarity weighted voting CBR | |
CN110011990A (zh) | 内网安全威胁智能分析方法 | |
Enamorado | Active learning for probabilistic record linkage | |
CN106326472B (zh) | 一种侦查信息完整性验证方法 | |
CN117312904A (zh) | 一种数据分类分级方法和相关产品 | |
Bella et al. | Semi-supervised approach for recovering traceability links in complex systems | |
CN115310606A (zh) | 基于数据集敏感属性重构的深度学习模型去偏方法及装置 | |
Wei et al. | Using machine learning to detect PII from attributes and supporting activities of information assets | |
Enamorado | A Primer on Probabilistic Record Linkage | |
CN112966901A (zh) | 面向检察业务协同流程的世系数据质量分析与验证方法 | |
CN113254512A (zh) | 一种军民融合政策信息数据分析优化系统 | |
CN112836993B (zh) | 一种基于知识网络的知识质量评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |