CN110471926B - 一种档案建立方法及装置 - Google Patents
一种档案建立方法及装置 Download PDFInfo
- Publication number
- CN110471926B CN110471926B CN201910755364.3A CN201910755364A CN110471926B CN 110471926 B CN110471926 B CN 110471926B CN 201910755364 A CN201910755364 A CN 201910755364A CN 110471926 B CN110471926 B CN 110471926B
- Authority
- CN
- China
- Prior art keywords
- target
- data
- attribute
- field
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013507 mapping Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 5
- 239000000047 product Substances 0.000 description 27
- 238000010586 diagram Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种档案建立方法及装置,其中,该方法包括:获取多个数据表中属性字段以及所述属性字段对应的数据;根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据;根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,因此,可以解决相关技术中由于数据缺少可比性,建立的档案数据准确性低的问题,通过设置的数据表的数据权重和/或属性字段的字段权重选取最优属性字段,将最优属性字段的数据作为目标档案的目标数据,提高了属性字段的准确性,从而可以提高建立的档案数据的准确性。
Description
技术领域
本发明涉及信息处理领域,具体而言,涉及一种档案建立方法及装置。
背景技术
在当今高速发展的社会中,嫌疑人犯案的手段越来越多样化、隐蔽化。公安民警在对犯罪嫌疑人进行分析时,如何系统全面的掌握犯罪嫌疑人属性信息就显得尤为重要。当前的公安行业从不缺乏各种数据源,如常住人口信息、流动人口信息、执法办案平台信息、在逃人员信息、吸毒人员信息、入所人员信息等等,但是全面展示嫌疑人属性的数据源却少之又少,基本上需要查询多次或者人为的二次分析整理才能获得全面的嫌疑人属性信息。所以如何利用当前的数据源构建系统的嫌疑人属性模型就成为对犯罪嫌疑人分析的重中之重。
当今的公安行业有很多大数据系统,同时也接入了大部分与嫌疑人相关的数据源,但是在数据源处理上却做得很少。业界针对嫌疑人的多种数据源处理方式主要分为以下两种:
第一种方式:仅对各种数据源进行汇总,对具体的数据不做任何分析处理。该类的产品以公安云搜索系统为例。当用户输入检索的嫌疑人关键字,就可以搜索出所有相关的数据,类似于百度搜索,一个人存在多条记录信息,如常住人口信息中检索一条,吸毒人员信息中检索一条等等。
由于只对嫌疑人相关的数据进行了汇总,当用户使用嫌疑人的关键字进行检索时,会搜索到多条与嫌疑人相关的信息,信息也是五花八门,可能会存在嫌疑人属性信息重复,或不一致等情况。如在常住人口中,当户籍发生变更时,同一人可能存在多条记录。同时,如现住址、学历、服务场所、联系方式等属性信息,在常住人口信息中保留的都是户籍登记时候的信息,信息比较陈旧,但在执法办案平台的数据又是比较新的。不仅如此,在构建嫌疑人的完整的属性需要将多条搜索结果人为的合并在一起,才能构建完整的嫌疑人属性。信息种类繁多以及需要人工干预的过程,这不仅是对人力警力的一大考验,同时也会对案件分析带来误导的可能性。
第二种方式:相对于第一种方式,不仅对数据源进行汇总,同时建立数据的关联关系,构建了嫌疑人的人员档案和社会关系网,如东方网力科技股份有限公司的公安大数据平台。用户输入嫌疑人的关键字,就可以搜索出嫌疑人的“超级档案”。“超级档案”中包含了嫌疑人的基本信息、手机、银行卡、车辆、时空轨迹等信息。该大数据平台构建的嫌疑人属性包含了人员标签(是否入所、是否吸毒),人员基本属性(姓名、证件号码、国籍、籍贯、民族、婚姻状况、教育情况、现址、电话号码、邮箱、),生物特征(口音、体貌特征、指纹、DNA、足迹)等等。
虽然建立的嫌疑人的关联关系,关联了嫌疑人大部分的社会关系,但是在嫌疑人基本属性建设不够全面,构建嫌疑人的属性基本上来源于执法办案平台、在逃人员库、吸毒人员库,使用的数据源相对来说比较少。这样带来的问题就是嫌疑人属性信息缺失,如缺失工作单位、职业、专长、宗教信仰、政治面貌、兵役状况、身份、血型、曾用名、别名等属性。同时,数据源较少的话会带来数据准确性的问题,单一的数据源由于数据长时间未更新或者数据录入有误,数据缺少可比性,造成当前的数据与实际情况不一致的问题。
针对相关技术中由于数据缺少可比性,建立的档案数据准确性低的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种档案建立方法及装置,以至少解决相关技术中由于数据缺少可比性,建立的档案数据准确性低的问题。
根据本发明的一个实施例,提供了一种档案建立方法,包括:
获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
可选地,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据包括:
将所述多个数据表中的属性字段确定为所述目标档案的所述目标属性字段;
在所述多个数据表中的属性字段累计为一个的情况下,将所述属性字段确定为所述目标属性字段并将所述属性字段的数据确定为所述目标属性字段对应的目标数据;
在所述多个数据表中的属性字段累计为多个的情况下,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象中所述目标属性字段对应的目标数据。
可选地,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象中所述目标属性字段对应的目标数据包括:
将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据包括:
在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重对应的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,在获取多个数据表中属性字段以及所述属性字段对应的数据之前,所述方法还包括:
为所述目标对象的目标档案设置所述目标属性字段。
可选地,获取多个数据表中属性字段以及所述属性字段对应的数据包括:
从所述多个数据表中获取与所述目标属性字段匹配的一个或多个属性字段以及所述一个或多个属性字段对应的数据。
可选地,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据包括:
在与所述目标属性字段匹配的属性字段为多个的情况下,将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据包括:
在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,在获取多个数据表中的属性字段之前,所述方法还包括:
根据所述每个数据表的属性字段是否全面和/或对所述目标对象属性所起作用为所述多个数据表设置所述数据权重;
根据所述每个数据表中属性字段的数据质量和/或更新时间分别为所述每个数据表中的属性字段设置所述字段权重。
可选地,在根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案之后,所述方法还包括:
在所述目标档案中标记与所述多个数据表的映射关系。
根据本发明的另一个实施例,还提供了一种档案建立装置,包括:
获取模块,用于获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
确定模块,用于根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
建立模块,用于根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
可选地,所述装置还包括:
第一设置模块,用于为所述目标对象的目标档案设置所述目标属性字段。
可选地,所述获取模块,还用于
从所述多个数据表中获取与所述目标属性字段匹配的一个或多个属性字段以及所述一个或多个属性字段对应的数据。
可选地,所述确定模块包括:
第一确定子模块,用于在与所述目标属性字段匹配的属性字段为多个的情况下,将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
第二确定子模块,用于将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
第三确定子模块,用于将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,所述第三确定子模块,还用于
在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,所述装置还包括:
第二设置模块,用于根据所述每个数据表的属性字段是否全面和/或对所述目标对象属性所起作用为所述多个数据表设置所述数据权重;
第三设置模块,用于根据所述每个数据表中属性字段的数据质量和/或更新时间分别为所述每个数据表中的属性字段设置所述字段权重。
可选地,所述装置还包括
标记模块,用于在所述目标档案中标记与所述多个数据表的映射关系。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取多个数据表中属性字段以及所述属性字段对应的数据;根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据;根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,因此,可以解决相关技术中由于数据缺少可比性,建立的档案数据准确性低的问题,通过设置的数据表的数据权重和/或属性字段的字段权重选取最优属性字段,将最优属性字段的数据作为目标档案的目标数据,提高了属性字段的准确性,从而可以提高建立的档案数据的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种档案建立方法的移动终端的硬件结构框图;
图2是根据本发明实施例的档案建立方法的流程图;
图3是根据本发明实施例的数据源的属性划分的示意图;
图4是根据本发明实施例的目标对象属性字段构建的示意图;
图5是根据本发明实施例的档案建立装置的框图;
图6是根据本发明优选实施例的档案建立装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种档案建立方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端,本实施例提供了一种档案建立方法,图2是根据本发明实施例的档案建立方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
步骤S204,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
步骤S206,根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
通过上述步骤,获取多个数据表中属性字段以及所述属性字段对应的数据;根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据;根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,因此,可以解决相关技术中由于数据缺少可比性,建立的档案数据准确性低的问题,通过设置的数据表的数据权重和/或属性字段的字段权重选取最优属性字段,将最优属性字段的数据作为目标档案的目标数据,提高了属性字段的准确性,从而可以提高建立的档案数据的准确性。
本发明实施例中,上述目标档案中的目标属性字段可以是根据多个数据表中的属性字段确定,也可以是预先设置好目标属性字段,在从数据表中获取数据时,只获取目标属性字段对应的数据。
在一可选的实施例中,上述步骤S204具体可以包括:
S11,将所述多个数据表中的属性字段确定为所述目标档案的所述目标属性字段;
S12,在所述多个数据表中的属性字段累计为一个的情况下,将所述属性字段确定为所述目标属性字段并将所述属性字段的数据确定为所述目标属性字段对应的目标数据;
S13,在所述多个数据表中的属性字段累计为多个的情况下,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象中所述目标属性字段对应的目标数据。
进一步地,上述步骤S13包括:
将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中所述数据权重与所述字段权重的最大乘积或最大和值对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
进一步的,在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重对应的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
本发明实施例中,在获取多个数据表中属性字段以及所述属性字段对应的数据之前,为所述目标对象的目标档案设置所述目标属性字段。相应的,从所述多个数据表中获取与所述目标属性字段匹配的一个或多个属性字段以及所述一个或多个属性字段对应的数据。
在另一可选的实施例中,上述步骤S204具体还可以包括:
S21,在与所述目标属性字段匹配的属性字段为多个的情况下,将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
S22,将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
S23,将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
进一步的,上述步骤S23具体可以包括:在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
本发明实施例中,设置权重的方式可以有多种,不局限于当前的设置方式,也可以对数据源添加参数,设置系数等方式。其主要目的就是为了对数据源进行分类,优先选择哪类数据进行构建。选择最优字段方式也不局限于使用两层权重相乘,相加、每层乘以不同系数等方式都可以达到最优字段选择,分层也不局限于当前的两层,三层也可以实现此方式。
本发明实施例中,在获取多个数据表中的属性字段之前,需要设置数据表的数据属性和属性字段的字段权重,具体的,根据所述每个数据表的属性字段是否全面和/或对所述目标对象属性所起作用为所述多个数据表设置所述数据权重;根据所述每个数据表中属性字段的数据质量和/或更新时间分别为所述每个数据表中的属性字段设置所述字段权重。
本发明实施例中,在根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案之后,在所述目标档案中标记与所述多个数据表的映射关系,可以从档案中看出目标属性字段的来源。
下面以目标对象为嫌疑人,多个数据表对应多个数据源为例,为嫌疑人构建档案。
本发明实施例基于多种数据源构建嫌疑人属性的,数据源越多对嫌疑人属性的构建分析就越准确。在构建嫌疑人属性之前,需要确认确定有什么样的数据源,数据源中有哪些嫌疑人属性字段,以及构造什么样的嫌疑人属性目标表。
以当前常见的人口相关数据源为例来构建嫌疑人的属性信息,常见的人口相关数据源主要包括以下几种:常住人口信息、执法办案嫌疑人信息、在逃人员信息、入所人员信息、重点人员信息、吸毒人员信息,这六种数据源涵盖了嫌疑人大部分基本属性信息。同时,为了对嫌疑人有全面的属性描述,构建了嫌疑人的属性“宽表”,也就是嫌疑人属性档案,档案属性字段如表1所示。
表1
确定好以上两点之后,接下来就可以开始构造嫌疑人属性流程了,具体的构建流程分为以下几个步骤:
步骤一:数据源划分。图3是根据本发明实施例的数据源的属性划分的示意图,如图3所示,数据源的划分是基于嫌疑人属性的涵盖范围、数据质量、数据类型进行的,按照划分的类别,为各种数据源设置权重。针对当前的嫌疑人数据源,将数据源大致分为3类:第一类,嫌疑人基准属性数据源(常住人口信息)。基准数据源是涵盖嫌疑人属性最多的、数据质量最好的数据源,为其设置的权重也是最高的,例如在本实施例中该类的权重就设置为W=0.6;第二类,嫌疑人属性补充、属性校验数据源(执法办案嫌疑人信息、在逃人员信息、入所人员信息),该类的数据源,主要是为了补充嫌疑人的属性,同时对基准属性数据源进行校验的,权重相对第一类设置要低点,例如在本文中权重就设置为W=0.3;第三类,嫌疑人标签属性数据源(在逃人员信息、入所人员信息、重点人信息、吸毒人员信息),该类数据源是为了标识嫌疑人的标签,如是否吸毒、重点人、是否在逃等,权重也是最低的,本文中将其权重设置为W=0.1。设置权限的大小可以根据数据源的不同进行调整,将数据源建立的权重关系称之为数据源层。
步骤二:构建数据源和嫌疑人属性“宽表”的字段映射关系。在第一步的基础之上,建立数据源和目标表之间的属性映射关系,并在映射关系上添加权重。例如在本文中,字段之间映射的权重设置可以参考以下的设置标准。设置权重的依据标准:W=1的情况,多个数据源中只有一个数据源字段映射到目标属性字段,其属性字段数据质量高,几乎可以百分之百确定属性的内容。W=0.7的情况,该映射的数据源属性字段更新时间最新,数据质量较高,大概率可以确定属性的内容。W=0.3的情况,该映射的数据源属性字段近期未更新或数据内容与当前的实际数据内容存在出入,数据质量一般,含义存在不明确的可能性。W=0的情况,数据源的属性字段填写有误、为空,不存在实质性的映射关系。字段之间映射关系层统称为字段映射层。
图4是根据本发明实施例的目标对象属性字段构建的示意图,如图4所示,权重是可以调整的,根据不同的数据源,可以设置不同的权重。但为了选择最优的属性映射字段,尽可能的避免在不同层级中使用多个相同的权重。
步骤三,嫌疑人属性字段的构建。根据步骤二建立的属性映射权重关系,将权重分为两个层级,数据源层和字段映射层,嫌疑人属性字段的构建主要基于以上两个权重层的权重选择。例如在本文中,选择属性字段时主要基于以下规则进行的:1.字段映射层W=1时,则直接选择该数据源的映射字段,无需考虑数据源层的权重;2.字段映射层W=0时,则不使用该映射关系的字段。3.字段映射层既不是W=1,又不是W=0的时,字段的选取需要考虑数据源层的权重,选取字段映射层和数据源层权重相乘结果最大的作为字段映射的结果。
通过上述步骤,可以构建嫌疑人完善的、准确的嫌疑人属性信息。完善了嫌疑人的属性信息,构建了嫌疑人系统的属性档案,输出了嫌疑人属性“宽表”,比业界的嫌疑人属性信息更加全面。民警在对嫌疑人分析时能一次检索看到更加详细的嫌疑人信息,提升了办案的效率。通过对数据源进行层级划分、数据源与嫌疑人属性目标表之间的映射关系设置权重,选择最优的映射字段作为嫌疑人的属性字段,提高了嫌疑人属性构建的准确率,避免民警在对嫌疑人属性分析时走弯路。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例,还提供了一种档案建立装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的档案建立装置的框图,如图5所示,包括:
获取模块52,用于获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
确定模块54,用于根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
建立模块56,用于根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
可选地,所述装置还包括:
第一设置模块,用于为所述目标对象的目标档案设置所述目标属性字段。
可选地,所述获取模块52,还用于
从所述多个数据表中获取与所述目标属性字段匹配的一个或多个属性字段以及所述一个或多个属性字段对应的数据。
图6是根据本发明优选实施例的档案建立装置的框图,如图6所示,所述确定模块54包括:
第一确定子模块62,用于在与所述目标属性字段匹配的属性字段为多个的情况下,将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
第二确定子模块64,用于将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
第三确定子模块66,用于将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,所述第三确定子模块66,还用于
在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
可选地,所述装置还包括:
第二设置模块,用于根据所述每个数据表的属性字段是否全面和/或对所述目标对象属性所起作用为所述多个数据表设置所述数据权重;
第三设置模块,用于根据所述每个数据表中属性字段的数据质量和/或更新时间分别为所述每个数据表中的属性字段设置所述字段权重。
可选地,所述装置还包括
标记模块,用于在所述目标档案中标记与所述多个数据表的映射关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
S2,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
S3,根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
S2,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
S3,根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种档案建立方法,其特征在于,包括:
获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
根据预先为所述多个数据表设置的数据权重和预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
2.根据权利要求1所述的方法,其特征在于,在获取多个数据表中属性字段以及所述属性字段对应的数据之前,所述方法还包括:
为所述目标对象的目标档案设置所述目标属性字段。
3.根据权利要求2所述的方法,其特征在于,获取多个数据表中属性字段以及所述属性字段对应的数据包括:
从所述多个数据表中获取与所述目标属性字段匹配的一个或多个属性字段以及所述一个或多个属性字段对应的数据。
4.根据权利要求3所述的方法,其特征在于,根据预先为所述多个数据表设置的数据权重和/或预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据包括:
在与所述目标属性字段匹配的属性字段为多个的情况下,将多个属性字段中最大字段权重对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中最大数据权重对应的数据表的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据;
将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
5.根据权利要求4所述的方法,其特征在于,将所述多个属性字段中所述数据权重与所述字段权重的最大乘积对应的属性字段的数据确定为所述目标档案中所述目标属性字段对应的目标数据包括:
在所述多个属性字段中所述数据权重与所述字段权重的最大乘积为多个相同乘积的情况下,将所述多个相同乘积中的最大字段权重的数据确定为所述目标档案中所述目标属性字段对应的目标数据。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在获取多个数据表中的属性字段之前,所述方法还包括:
根据所述每个数据表的属性字段是否全面和/或对所述目标对象属性所起作用为所述多个数据表设置所述数据权重;
根据所述每个数据表中属性字段的数据质量和/或更新时间分别为所述每个数据表中的属性字段设置所述字段权重。
7.根据权利要求6所述的方法,其特征在于,在根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案之后,所述方法还包括:
在所述目标档案中标记与所述多个数据表的映射关系。
8.一种档案建立装置,其特征在于,包括:
获取模块,用于获取多个数据表中属性字段以及所述属性字段对应的数据,其中,所述多个数据表中每个数据表包含用于描述目标对象的属性的一个或多个属性字段以及所述一个或多个属性字段对应的数据;
确定模块,用于根据预先为所述多个数据表设置的数据权重和预先为所述多个数据表中属性字段设置的字段权重确定所述目标对象的目标属性字段对应的目标数据,其中,所述目标属性字段用于描述所述目标对象的属性;
建立模块,用于根据所述目标属性字段以及所述目标属性字段对应的目标数据为所述目标对象建立目标档案,其中,所述目标档案由所述目标属性字段以及所述目标属性字段对应的目标数据组成。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序, 其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910755364.3A CN110471926B (zh) | 2019-08-15 | 2019-08-15 | 一种档案建立方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910755364.3A CN110471926B (zh) | 2019-08-15 | 2019-08-15 | 一种档案建立方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110471926A CN110471926A (zh) | 2019-11-19 |
CN110471926B true CN110471926B (zh) | 2022-07-19 |
Family
ID=68510275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910755364.3A Active CN110471926B (zh) | 2019-08-15 | 2019-08-15 | 一种档案建立方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110471926B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078774A (zh) * | 2019-12-05 | 2020-04-28 | 中国科学技术大学智慧城市研究院(芜湖) | 一种数据的自动整合方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034629A (zh) * | 2009-07-20 | 2013-04-10 | 佛山市顺德区顺达电脑厂有限公司 | 档案浏览系统及其方法 |
CN102968454B (zh) * | 2012-10-26 | 2016-08-03 | 北京百度网讯科技有限公司 | 一种用于获取推广对象搜索结果的方法和设备 |
US9317417B2 (en) * | 2013-05-07 | 2016-04-19 | Verizon Patent And Licensing Inc. | Smart digital message archival |
CN106533921B (zh) * | 2016-12-02 | 2018-02-13 | 深圳市小满科技有限公司 | 基于电子邮件信息的快速建档方法及系统 |
CN107844560B (zh) * | 2017-10-30 | 2020-09-08 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN109284353B (zh) * | 2018-09-10 | 2023-10-03 | 平安科技(深圳)有限公司 | 医案检索方法、装置、计算机设备和存储介质 |
CN109582691B (zh) * | 2018-11-15 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | 用于控制数据查询的方法和装置 |
-
2019
- 2019-08-15 CN CN201910755364.3A patent/CN110471926B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110471926A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807085B (zh) | 故障信息的查询方法及装置、存储介质、电子装置 | |
CN111031017B (zh) | 一种异常业务账号识别方法、装置、服务器及存储介质 | |
CN109919781A (zh) | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 | |
CN109524065B (zh) | 医疗数据查询方法、医疗数据平台及相关装置 | |
CN109639771B (zh) | 推送服务的方法及装置、计算机设备、存储介质 | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
CN109416684A (zh) | 分析平台的摄取管理器 | |
CN112506925A (zh) | 一种基于区块链的数据检索系统及方法 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
CN109558384A (zh) | 日志分类方法、装置、电子设备和存储介质 | |
CN112463859A (zh) | 基于大数据和业务分析的用户数据处理方法及大数据平台 | |
CN111177481A (zh) | 用户标识映射方法及装置 | |
CN110471926B (zh) | 一种档案建立方法及装置 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
US20110289086A1 (en) | System, method and apparatus for data analysis | |
CN110895587A (zh) | 用于确定目标用户的方法和装置 | |
CN117313058A (zh) | 信息的识别方法、装置、计算机设备和存储介质 | |
CN112784025A (zh) | 一种目标事件的确定方法和装置 | |
CN110543457A (zh) | 轨迹类文档处理方法和装置、存储介质及电子装置 | |
CN113704624B (zh) | 基于用户分流的策略推荐方法、装置、设备及介质 | |
CN106959903A (zh) | 陷阱指令Trap的处理方法及装置 | |
CN110493368B (zh) | 设备标识的匹配方法及装置 | |
CN111934958B (zh) | 一种idc资源调度服务管理平台 | |
CN114648010A (zh) | 数据表标准化方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210918 Address after: 100124 room 650, 6th floor, building 11, Huashan Garden Cultural Media Industrial Park, 1376 folk culture street, Gaobeidian village, Gaobeidian Township, Chaoyang District, Beijing Applicant after: Beijing Zhizhi Heshu Technology Co.,Ltd. Address before: A1002, 10th floor, building 1, yard 1, Zhongguancun East Road, Haidian District, Beijing 100086 Applicant before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |