CN110968584B - 一种画像生成系统、方法、电子设备及可读存储介质 - Google Patents
一种画像生成系统、方法、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110968584B CN110968584B CN201911218644.7A CN201911218644A CN110968584B CN 110968584 B CN110968584 B CN 110968584B CN 201911218644 A CN201911218644 A CN 201911218644A CN 110968584 B CN110968584 B CN 110968584B
- Authority
- CN
- China
- Prior art keywords
- information
- information content
- data
- fusion
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Abstract
本申请提供了一种画像生成系统、方法、电子设备及可读存储介质,其中,该画像生成系统包括:信息获取单元,用于获取第一个人信息;第一个人信息中携带有人员身份标识、第一信息内容和溯源标识;溯源标识用于表征第一信息内容所在的数据表;信息处理单元,用于针对每个人员身份标识,将人员身份标识所对应的第一信息内容进行处理,以生成人员身份标识所对应的融合信息;画像生成单元,用于根据融合信息生成人员画像。本申请通过将每个人员身份标识对应的第一信息内容进行融合,对多个数据源中的个人信息进行了有效处理,在一定程度上完善了个人信息,进而可以根据融合信息得到比较完整的人员画像。
Description
技术领域
本申请涉及信息处理技术领域,尤其是涉及一种画像生成系统、方法、电子设备及可读存储介质。
背景技术
随着信息化技术的高速发展,各个行业积累了大量的数据。通常情况下,工作人员需要对这些数据进行梳理、分类、分析、优化、挖掘等操作,才能使得这些数据为行业各个部门提供利用价值。
目前的数据处理流程只是对数据进行简单的清洗,未对数据进行有效的处理,因此无法实现数据的利用价值。例如在公安领域,人员信息复杂繁多,相关技术中只是对个人信息进行简单的关联操作,由于对来自多个数据源中的数据没有进行正确处理,因此无法形成完整的人员画像,影响相关工作的进行。
发明内容
有鉴于此,本申请的目的在于提供一种画像生成系统、方法、电子设备及可读存储介质,通过对个人信息进行有效处理,生成完整的人员画像。
第一方面,本申请实施例提供了一种画像生成系统,包括:
信息获取单元,用于获取第一个人信息;所述第一个人信息中携带有人员身份标识、第一信息内容和溯源标识;所述溯源标识用于表征第一信息内容所在的数据表;
信息处理单元,用于针对每个人员身份标识,将所述人员身份标识所对应的第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息;
画像生成单元,用于根据所述融合信息生成人员画像。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述信息处理单元包括:
判断单元,用于针对每个人员身份标识,判断所述融合信息中的第一信息内容是否与所述人员身份标识相对应;
溯源单元,用于若所述融合信息中的第一信息内容与所述人员身份标识不对应时,则根据所述溯源标识对所述第一信息内容所在的数据表进行溯源,以获取所述数据表中当前记载的第二信息内容;
更新单元,用于根据所述数据表中当前记载的第二信息内容对所述融合信息进行更新,以生成更新后的融合信息。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述信息处理单元还包括:
删除单元,用于若所述融合信息中的第一信息内容与所述人员身份标识不对应时,则删除所述第一信息内容。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述信息处理单元包括:
排序单元,用于针对每个人员身份标识,对该人员身份标识对应的多个第一信息内容的优先级进行排序;
处理单元,用于按照优先级顺序对第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息。
结合第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述处理单元包括:
计算单元,用于针对每个人员身份标识,计算第一信息内容对的相似度;所述第一信息内容对中两个第一信息内容所在的数据表不同;
去重单元,用于对达到预设相似度阈值的所述第一信息内容对进行去重。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述信息获取单元,还用于根据所述第一个人信息提取第二个人信息。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述信息获取单元,还用于获取保存在数据库中的第一个人信息。
第二方面,本申请实施例还提供一种画像生成方法,包括:
获取个人信息;所述个人信息中携带有第一信息内容、人员身份标识和溯源标识;所述溯源标识用于表征第一信息内容所在的数据表;
针对每个人员身份标识,将所述人员身份标识所对应的第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息;
根据所述融合信息生成人员画像。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第二方面的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第二方面的步骤。
本申请实施例提供的一种画像生成系统,包括:信息获取单元,用于获取第一个人信息;第一个人信息中携带有人员身份标识、第一信息内容和溯源标识;溯源标识用于表征第一信息内容所在的数据表;信息处理单元,用于针对每个人员身份标识,将人员身份标识所对应的第一信息内容进行处理,以生成人员身份标识所对应的融合信息;画像生成单元,用于根据融合信息生成人员画像。本申请通过将每个人员身份标识对应的第一信息内容进行融合,对多个数据源中的个人信息进行了有效处理,在一定程度上完善了个人信息,进而可以根据融合信息得到比较完整的人员画像。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种画像生成系统的结构示意图;
图2示出了本申请实施例所提供的一种信息处理单元的结构示意图;
图3示出了本申请实施例所提供的处理单元的结构示意图;
图4示出了本申请实施例所提供的另一种信息处理单元的结构示意图;
图5示出了本申请实施例所提供的一种画像生成方法的流程示意图;
图6示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到在公安领域,人员信息复杂繁多,相关技术中只是对个人信息进行简单的关联操作,由于对来自多个数据源中的数据没有进行正确处理,因此无法形成完整的人员画像,影响相关工作的进行。基于此,本申请实施例提供了一种画像生成系统、方法、电子设备及可读存储介质,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种画像生成系统进行详细介绍。
本申请实施例所公开的一种画像生成系统可以应用于任何需要对个人信息进行处理的场景中,例如生成人员画像、绘制知识图谱等。尤其适用于公安领域对个人进行融合,以生成人员画像的场景中。
如图1所示的一种画像生成系统的结构示意图中,本申请实施例所公开的一种画像生成系统,包括:
信息获取单元101,用于获取第一个人信息;第一个人信息中携带有人员身份标识、第一信息内容和溯源标识;溯源标识用于表征第一信息内容所在的数据表。
信息处理单元102,用于针对每个人员身份标识,将该人员身份标识所对应的第一信息内容进行处理,以生成该人员身份标识所对应的融合信息。
画像生成单元103,用于根据融合信息生成人员画像。
在该画像生成系统中,首先,信息获取单元101可以获取不同人员的多个第一个人信息,信息获取单元101将获取到的第一个人信息发送给信息处理单元102,然后信息处理单元102针对每个人员身份标识,将该人员身份标识所对应的第一信息内容进行处理,生成该人员身份标识所对应的融合信息,并且信息处理单元102将融合信息发送给画像生成单元103,最后画像生成单元103根据融合信息生成人员画像。
这里需要解释的是,第一个人信息指的是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,具体可以包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。
在具体实施中,第一个人信息可以是存储在远端各个系统中的个人信息,也可以是通过本地系统通过接口从远端系统获取后存储在本地数据库中的个人信息。也就是第一个人信息具有不同的数据源,可以来源于不同的系统、平台或数据库。
第一个人信息可以以表格的形式存储在相应的数据表中。其中,数据表中包含字段名称、字段类型、字段注视和数据样例等信息,这些信息可以表征数据表的数据结构。
其中,人员身份标识指的是可以确定人员身份的标识,人员身份标识可以是身份证号,也可以是其他可以确定人员身份的标识。针对每个人员,都有唯一一个人员身份标识,并且每个人员的所有第一个人信息所在的数据表中都携带有该人员的人员身份标识。
第一信息内容指的是与人员身份标识相对应的信息内容。每个第一信息内容都有对应的字段。
溯源标识指的是人为设置的且用于表征第一信息内容所在的数据表的标识。也就是通过溯源标识,可以确定出第一信息内容所在的数据表。
在具体实施中,信息获取单元101可以获取到多个人员的不同的第一个人信息。其中,第一个人信息的来源可以不相同,例如人员的财产状况信息可以来源于银行信息系统;人员的学历信息可以来源于教育部门的信息系统等。也就是信息获取单元101可以获取到来自不同部门的信息系统的第一个人信息。
通过前文所述的第一个人信息的存储方式可知,第一个人信息的数据源可以为远端系统,也可以为本地数据库,因此与第一个人信息的存储方式相对应地,信息获取单元101获取第一个人信息的方式可以包括至少以下两种:
第一种方式,信息获取单元101可以通过数据传输接口从远端各个系统中直接调用第一个人信息。
第二种方式,本地系统可以先通过数据传输接口从远端各个系统中获取第一个人信息,存储在本地数据库中,然后信息获取单元101从本地数据库获取第一个人信息。
在上述两种获取方式中,均可以通过创建Python脚本的方式获取数据源中的第一个人信息。具体地,首先根据提供的数据源的IP(Internet Protocol,即互联网协议)地址,或者是数据源的用户名及密码,或者是数据源的名字,利用Python脚本与数据源建立连接,然后再通过数据传输接口从数据源获取到第一个人信息。
利用第一种获取第一个人信息的方式,无需预先通过数据获取工具将第一个人信息保存到本地数据库,可以减少数据的冗余存储。利用第二种获取第一个人信息的方式,可以在一定程度上避免由于远端系统不稳定造成数据获取失败的情况。而在具体实施时,可以根据实际情况采用相应的获取方式。
在具体实施中,信息获取单元101还可以从第一个人信息中获取第二个人信息。
第二个人信息指的是可以包含在第一个人信息中的,并且能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的信息。
例如,信息获取单元101可以从某人员的身份证号中获取到该人员的性别、出生日期等信息。再如,信息获取单元101可以从某人员的行踪轨迹视频信息中获取到该人员的体貌特征等信息。
上述通过从第一个人信息中获取第二个人信息的方式适用于某些无法直接获取到第二个人信息或可以从第一个人信息中获取到而不必然需要通过其他数据表中获取的应用场景中,并且通过这种方式不仅可以尽快完善个人信息,还可以提高获取个人信息的效率。
在访问数据源时,信息获取单元101可以访问指定的数据源,也可以访问所有的数据源,还可以随机访问预设个数的数据源或者预设个数存储有数据的数据源。通过访问数据源,可以获取到数据源中数据表的数据结构和数据质量。根据数据表的数据结构和数据质量,信息处理单元102可以创建目标表。
而目标表指的是包含有对数据表中的数据进行融合处理后的数据的表格。目标表中包含有人员的相对完整、清楚、准确的个人信息。通过目标表中的个人信息可以生成相对完整、清楚、准确的人员画像,绘制知识图谱以及为工作人员提供其他使用价值等。
信息处理单元102在创建目标表时,可以根据数据表的数据结构,对数据表中的原始字段进行融合,生成目标表的融合字段,并通过数据表的原始字段和目标表的融合字段建立目标表与数据表之间的映射。数据表中的原始字段为名字,目标表的融合字段为姓名,名字下的数据与姓名下的数据应该是相同的,因此,通过数据表的原始字段和目标表的融合字段将数据表与目标表建立映射关系。当需要在目标表的融合字段下添加数据时,可以根据映射关系,找到对应的数据表的原始字段,然后将原始字段下的数据添加到融合字段下即可。
在建立映射关系的过程中,还可以设置数据表的优先级,也就是设置第一信息内容的优先级。
在具体实施中,如图2所示的一种信息处理单元的结构示意图中,信息处理单元102可以包括排序单元201。排序单元201用于针对每个人员身份标识,对该人员身份标识对应的多个第一信息内容的优先级进行排序。
这里需要解释的是,优先级可以指的是在针对每个人员身份标识,第一个人信息中的第一信息内容被处理的先后顺序。
当对于同一个人员身份标识,可以根据该人员身份标识对应的多个第一信息内容的优先级,筛选出优先级最高的第一信息内容。
例如,对于同一个人员身份标识,排序单元201可以对其工作经历、学习经历和家庭信息进行优先级排序,以筛选出优先级最高的第一信息内容。
针对同一个人员身份标识,还可以设置目标表中的某个融合字段是否对应多个属性相同的原始字段,也就是该融合字段下是否可以存储多个属性相同的第一信息内容。如果可以,那么可以按照第一信息内容的优先级顺序,将多个属性相同的第一信息内容存储在该融合字段下,并按照该优先级顺序对属性相同的第一信息内容进行处理。
例如,针对张三,可以在目标表的姓名下面存储当前使用的姓名,也可以存储多个曾用名,排序单元201可以按照曾用名的使用时间进行优先级排序。
信息处理单元102还可以包括处理单元202。处理单元202用于按照优先级顺序对第一信息内容进行处理,以生成该人员身份标识所对应的融合信息。
处理单元202在对第一信息内容进行处理时,可以对第一信息内容进行去重,具体地,如图3所示的处理单元的结构示意图中,处理单元202可以包括:
计算单元301,用于针对每个人员身份标识,计算第一信息内容对的相似度;第一信息内容对中两个第一信息内容的属性相同。
去重单元302,用于对达到预设相似度阈值的第一信息内容对进行去重。
其中,第一信息内容对指的是两个第一信息内容的原始字段可以与同一融合字段形成映射关系,也就是两个第一信息内容的属性相同。例如,两个第一信息内容都用于描述某人员的外貌特征。
一般情况下,计算单元301可以利用相似度算法计算相似度,主要是对文本形式的第一信息内容对的相似度进行计算,例如对文本中的词语进行计算。
去重单元302可以将达到预设相似度阈值的第一信息内容对进行去重。
在具体实施中,处理单元202还可以通过对融合字段进行处理,以完善目标表。
具体地,处理单元202可以根据原始字段对融合字段进行补充,处理单元202通过某融合字段提取其他融合字段,例如通过身份证号对性别、出生日期和籍贯地进行提取。处理单元202还可以对融合字段进行删除,例如删除第一信息内容为空的融合字段。处理单元202还可以对融合字段进行归一化处理,例如将北京海淀区的信息内容和北京丰台区的信息内容归一化为北京市的信息内容。除此之外,处理单元202还可以对融合字段进行时间戳转换等操作。
由于融合信息中可能包含错误、缺失的第一信息内容或者是第一信息内容可能会发生变化,因此信息处理单元102在对第一信息内容进行融合后,还可以对融合信息进行更新。具体地,如图4所示的另一种信息处理单元的结构示意图中,信息处理单元102可以包括:
判断单元203,用于针对每个人员身份标识,判断融合信息中的第一信息内容是否与人员身份标识相对应。
溯源单元204,用于若融合信息中的第一信息内容与人员身份标识不对应时,则根据溯源标识对第一信息内容所在的数据表进行溯源,以获取数据表中当前记载的第二信息内容。
更新单元205,用于根据数据表中当前记载的第二信息内容对融合信息进行更新,以生成更新后的融合信息。
判断单元203用于判断融合信息中的第一信息内容是否与人员身份标识相对应,具体地可以判断第一信息内容是否属于该人员身份标识;也可以判断第一信息内容是否发生变化,与该人员身份标识不符合,例如住址发生变化的情况。
当判断单元203判断出融合信息中的第一信息内容与所述人员身份标识不对应时,溯源单元204可以根据溯源标识对该第一信息内容所在的数据表进行溯源,也就是溯源单元204根据溯源标识确定该第一信息内容所在的数据表。
这里可以判断融合信息中是否包含其他人员身份标识对应的第一信息内容,如果是,则可以对该第一信息内容进行修改、添加、删除等操作。
这里,信息处理单元102还可以包括删除单元206,用于在融合信息中的第一信息内容与所述人员身份标识不对应时,删除第一信息内容。因此,可以通过信息处理单元102中的删除单元206对错误的第一信息内容进行删除。
如果判断融合信息中的第一信息内容发生了变化,可以利用获取信息获取单元101获取数据表中当前记载的第二信息内容。
其中,第二信息内容指的是数据表中记载的相对于第一信息内容而言最新的信息内容。
更新单元205则根据数据表中当前记载的第二信息内容对融合信息进行更新处理,以生成更新后的融合信息。
在具体实施中,信息处理单元102中的判断单元203可以按照预设周期对融合信息中的第一信息内容进行判断,以保证融合信息的准确性和完整性。
当有新的业务需求,需要在目标表中添加新的融合字段的时候,信息处理单元102可以直接将新的融合字段添加到目标表中,然后将与融合字段建立映射关系的原始字段所在的数据表中的第一信息内容添加到目标表中,信息处理单元102再对目标表中的第一信息内容进行处理,以生成信息融合信息。
在具体实施中,融合信息可以包含多个人员的融合信息。具体地,融合信息可以是表格形式的信息,表格中每行融合信息都对应同一个人员身份标识,表格中每列信息都是属性相同的信息,也就是对应的融合字段相同。
最后,画像生成单元103,用于根据融合信息生成人员画像。针对每个人员身份标识,画像生成单元103将其对应的融合信息生成人员画像。
在该画像生成系统中,还可以包括知识图谱绘制单元,可以根据融合信息生成包含有多个人员的关系图谱。
本申请实施例通过将每个人员身份标识对应的第一信息内容进行融合,对多个数据源中的个人信息进行了有效处理,在一定程度上完善了个人信息,进而可以根据融合信息得到比较完整的人员画像。
基于相同的技术构思,本申请实施例还提供一种画像生成方法,可以应用于上述的画像生成系统。如图5所示的一种画像生成方法的流程示意图中,该画像生成方法包括:
S501:获取个人信息;个人信息中携带有第一信息内容、人员身份标识和溯源标识;溯源标识用于表征第一信息内容所在的数据表。
S502:针对每个人员身份标识,将人员身份标识所对应的第一信息内容进行处理,以生成人员身份标识所对应的融合信息。
S503:根据融合信息生成人员画像。
在步骤S501中,第一个人信息指的是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,具体可以包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。
在具体实施中,第一个人信息可以是存储在远端各个系统中的个人信息,也可以是通过本地系统通过接口从远端系统获取后存储在本地数据库中的个人信息。也就是第一个人信息具有不同的数据源,可以来源于不同的系统、平台或数据库。
第一个人信息可以以表格的形式存储在相应的数据表中。其中,数据表中包含字段名称、字段类型、字段注视和数据样例等信息,这些信息可以表征数据表的数据结构。
其中,人员身份标识指的是可以确定人员身份的标识,人员身份标识可以是身份证号,也可以是其他可以确定人员身份的标识。针对每个人员,都有唯一一个人员身份标识,并且每个人员的所有第一个人信息所在的数据表中都携带有该人员的人员身份标识。
第一信息内容指的是与人员身份标识相对应的信息内容。每个第一信息内容都有对应的字段。
溯源标识指的是人为设置的且用于表征第一信息内容所在的数据表的标识。也就是通过溯源标识,可以确定出第一信息内容所在的数据表。
在具体实施中,可以获取到多个人员的不同的第一个人信息。其中,第一个人信息的来源可以不相同,例如人员的财产状况信息可以来源于银行信息系统;人员的学历信息可以来源于教育部门的信息系统等。也就是可以获取到来自不同部门的信息系统的第一个人信息。
通过前文所述的第一个人信息的存储方式可知,第一个人信息的数据源可以为远端系统,也可以为本地数据库,因此与第一个人信息的存储方式相对应地,获取第一个人信息的方式可以包括至少以下两种:
第一种方式,可以通过数据传输接口从远端各个系统中直接调用第一个人信息。
第二种方式,本地系统可以先通过数据传输接口从远端各个系统中获取第一个人信息,存储在本地数据库中,然后从本地数据库获取第一个人信息。
利用第一种获取第一个人信息的方式,无需预先通过数据获取工具将第一个人信息保存到本地数据库,可以减少数据的冗余存储。利用第二种获取第一个人信息的方式,可以在一定程度上避免由于远端系统不稳定造成数据获取失败的情况。而在具体实施时,可以根据实际情况采用相应的获取方式。
在访问数据源时,可以访问指定的数据源,也可以访问所有的数据源,还可以随机访问预设个数的数据源或者预设个数存储有数据的数据源。通过访问数据源,可以获取到数据源中数据表的数据结构和数据质量。
在步骤S502中,据数据表的数据结构和数据质量,可以创建目标表。
而目标表指的是包含有对数据表中的数据进行融合处理后的数据的表格。目标表中包含有人员的相对完整、清楚、准确的个人信息。
在创建目标表时,可以根据数据表的数据结构,对数据表中的原始字段进行融合,生成目标表的融合字段,并通过数据表的原始字段和目标表的融合字段建立目标表与数据表之间的映射。数据表中的原始字段为名字,目标表的融合字段为姓名,名字下的数据与姓名下的数据应该是相同的,因此,通过数据表的原始字段和目标表的融合字段将数据表与目标表建立映射关系。当需要在目标表的融合字段下添加数据时,可以根据映射关系,找到对应的数据表的原始字段,然后将原始字段下的数据添加到融合字段下即可。
将原始字段下的数据添加到融合字段后,可以根据原始字段对融合字段进行补充,具体地可以通过某融合字段提取其他融合字段,例如通过身份证号对性别、出生日期和籍贯地进行提取。还可以对融合字段进行删除,例如删除第一信息内容为空的融合字段。还可以对融合字段进行归一化处理,例如将北京海淀区的信息内容和北京丰台区的信息内容归一化为北京市的信息内容。除此之外,处还可以对融合字段进行时间戳转换等操作。
由于融合信息中可能包含错误、缺失的第一信息内容或者是第一信息内容可能会发生变化,因此信息处理单元在对第一信息内容进行融合后,还可以对融合信息进行更新。
在步骤S503中,针对每个人员身份标识,可以将其对应的融合信息生成人员画像。
基于相同的技术构思,本申请实施例还提供一种电子设备以及计算机可读存储介质等,具体可参见以下实施例。
如图6所示,为本申请实施例所提供的一种电子设备600的结构示意图,该电子设备600包括:至少一个处理器601,至少一个网络接口604和至少一个用户接口603,存储器605,至少一个通信总线602。通信总线602用于实现这些组件之间的连接通信。用户接口603,包括显示器(例如,触摸屏)、键盘或者点击设备(例如,触感板或者触摸屏等)。
存储器605可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器605的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器605存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统6051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序6052,包含各种应用程序,用于实现各种应用业务。
在本申请实施例中,通过调用存储器605存储的程序或指令,处理器601用于:
获取个人信息;所述个人信息中携带有第一信息内容、人员身份标识和溯源标识;所述溯源标识用于表征第一信息内容所在的数据表;
针对每个人员身份标识,将所述人员身份标识所对应的第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息;
根据所述融合信息生成人员画像。
本申请实施例所提供的进行画像生成方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种画像生成系统,其特征在于,包括:
信息获取单元,用于获取第一个人信息;所述第一个人信息中携带有人员身份标识、第一信息内容和溯源标识;所述溯源标识用于表征第一信息内容所在的数据表;
信息处理单元,用于针对每个人员身份标识,将所述人员身份标识所对应的第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息;信息处理单元,还用于根据数据表的数据结构,对数据表中的原始字段进行融合,生成目标表的融合字段,并通过数据表的原始字段和目标表的融合字段建立目标表与数据表之间的映射;目标表指的是包含有对数据表中的数据进行融合处理后的数据的表格;
画像生成单元,用于根据所述融合信息生成人员画像;
所述信息处理单元包括:判断单元,用于针对每个人员身份标识,判断所述融合信息中的第一信息内容是否与所述人员身份标识相对应;
溯源单元,用于若所述融合信息中的第一信息内容与所述人员身份标识不对应时,则根据所述溯源标识对所述第一信息内容所在的数据表进行溯源,以获取所述数据表中当前记载的第二信息内容;所述第二信息内容指的是数据表中记载的相对于第一信息内容而言最新的信息内容;
更新单元,用于根据所述数据表中当前记载的第二信息内容对所述融合信息进行更新,以生成更新后的融合信息。
2.根据权利要求1所述的画像生成系统,其特征在于,所述信息处理单元还包括:
删除单元,用于若所述融合信息中的第一信息内容与所述人员身份标识不对应时,则删除所述第一信息内容。
3.根据权利要求1所述的画像生成系统,其特征在于,所述信息处理单元包括:
排序单元,用于针对每个人员身份标识,对该人员身份标识对应的多个第一信息内容的优先级进行排序;
处理单元,用于按照优先级顺序对第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息。
4.根据权利要求3所述的画像生成系统,其特征在于,所述处理单元包括:
计算单元,用于针对每个人员身份标识,计算第一信息内容对的相似度;所述第一信息内容对中两个第一信息内容所在的数据表不同;
去重单元,用于对达到预设相似度阈值的所述第一信息内容对进行去重。
5.根据权利要求1所述的画像生成系统,其特征在于,所述信息获取单元,还用于根据所述第一个人信息提取第二个人信息。
6.根据权利要求1所述的画像生成系统,其特征在于,所述信息获取单元,还用于获取保存在数据库中的第一个人信息。
7.一种画像生成方法,其特征在于,包括:
获取个人信息;所述个人信息中携带有第一信息内容、人员身份标识和溯源标识;所述溯源标识用于表征第一信息内容所在的数据表;
针对每个人员身份标识,将所述人员身份标识所对应的第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息;
根据所述融合信息生成人员画像;
所述针对每个人员身份标识,将所述人员身份标识所对应的第一信息内容进行处理,以生成所述人员身份标识所对应的融合信息包括:
针对每个人员身份标识,判断所述融合信息中的第一信息内容是否与所述人员身份标识相对应;
若所述融合信息中的第一信息内容与所述人员身份标识不对应时,则根据所述溯源标识对所述第一信息内容所在的数据表进行溯源,以获取所述数据表中当前记载的第二信息内容;
根据所述数据表中当前记载的第二信息内容对所述融合信息进行更新,以生成更新后的融合信息;
根据数据表的数据结构,对数据表中的原始字段进行融合,生成目标表的融合字段,并通过数据表的原始字段和目标表的融合字段建立目标表与数据表之间的映射;目标表指的是包含有对数据表中的数据进行融合处理后的数据的表格。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求7所述的画像生成方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求7所述的画像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911218644.7A CN110968584B (zh) | 2019-12-03 | 2019-12-03 | 一种画像生成系统、方法、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911218644.7A CN110968584B (zh) | 2019-12-03 | 2019-12-03 | 一种画像生成系统、方法、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968584A CN110968584A (zh) | 2020-04-07 |
CN110968584B true CN110968584B (zh) | 2023-03-14 |
Family
ID=70032645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911218644.7A Active CN110968584B (zh) | 2019-12-03 | 2019-12-03 | 一种画像生成系统、方法、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968584B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652658A (zh) * | 2020-06-11 | 2020-09-11 | 北京妙医佳健康科技集团有限公司 | 画像融合方法、装置、电子设备及计算机可读存储介质 |
CN112052270A (zh) * | 2020-08-26 | 2020-12-08 | 南京越扬科技有限公司 | 一种通过大数据进行用户画像深度分析的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101212337A (zh) * | 2006-12-30 | 2008-07-02 | 上海复旦光华信息科技股份有限公司 | 自动构建网络个人身份库的方法 |
WO2013000351A1 (zh) * | 2011-06-29 | 2013-01-03 | 国民技术股份有限公司 | 一种移动支付方法及系统 |
CN103310009A (zh) * | 2013-06-28 | 2013-09-18 | 北京小米科技有限责任公司 | 一种更新网页数据的方法、装置和终端设备 |
CN104252481A (zh) * | 2013-06-27 | 2014-12-31 | 阿里巴巴集团控股有限公司 | 主从数据库一致性的动态校验方法和装置 |
CN105893734A (zh) * | 2016-01-15 | 2016-08-24 | 镇江市民卡有限公司 | 一种基于智能卡的居民健康信息记录和诊疗数据清算系统及分析方法 |
CN109711874A (zh) * | 2018-12-17 | 2019-05-03 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6430539B1 (en) * | 1999-05-06 | 2002-08-06 | Hnc Software | Predictive modeling of consumer financial behavior |
US20060265397A1 (en) * | 2001-03-06 | 2006-11-23 | Knowledge Vector, Inc. | Methods, systems, and computer program products for extensible, profile-and context-based information correlation, routing and distribution |
CN103714185B (zh) * | 2014-01-17 | 2017-02-01 | 武汉大学 | 主题事件更新方法库及城市多源时空信息并行更新方法 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
-
2019
- 2019-12-03 CN CN201911218644.7A patent/CN110968584B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101212337A (zh) * | 2006-12-30 | 2008-07-02 | 上海复旦光华信息科技股份有限公司 | 自动构建网络个人身份库的方法 |
WO2013000351A1 (zh) * | 2011-06-29 | 2013-01-03 | 国民技术股份有限公司 | 一种移动支付方法及系统 |
CN104252481A (zh) * | 2013-06-27 | 2014-12-31 | 阿里巴巴集团控股有限公司 | 主从数据库一致性的动态校验方法和装置 |
CN103310009A (zh) * | 2013-06-28 | 2013-09-18 | 北京小米科技有限责任公司 | 一种更新网页数据的方法、装置和终端设备 |
CN105893734A (zh) * | 2016-01-15 | 2016-08-24 | 镇江市民卡有限公司 | 一种基于智能卡的居民健康信息记录和诊疗数据清算系统及分析方法 |
CN109711874A (zh) * | 2018-12-17 | 2019-05-03 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110968584A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6590355B1 (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
CN108399240B (zh) | 企业变更信息数据挖掘方法和系统 | |
CN108009137B (zh) | 一种基于配置文件的规范文书处理方法、装置及系统 | |
US10489637B2 (en) | Method and device for obtaining similar face images and face image information | |
CN112287914B (zh) | Ppt视频段提取方法、装置、设备及介质 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN110837998A (zh) | 一种合同审核方法、装置、设备以及介质 | |
CN110968584B (zh) | 一种画像生成系统、方法、电子设备及可读存储介质 | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN110851209A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113379398B (zh) | 一种项目需求的生成方法、装置、电子设备及存储介质 | |
CN105787028A (zh) | 一种名片校对方法及系统 | |
CN110580304A (zh) | 数据融合方法、装置、计算机设备及计算机存储介质 | |
CN110874570A (zh) | 面部识别方法、装置、设备及计算机可读存储介质 | |
JP4630691B2 (ja) | データベース装置とその処理方法 | |
CN108170838B (zh) | 话题演变的可视化展现方法、应用服务器及计算机可读存储介质 | |
CN110705297A (zh) | 一种企业曾用名识别方法、系统、介质及设备 | |
CN115756486A (zh) | 一种数据接口解析方法及装置 | |
CN114443727A (zh) | 一种人脉数据处理方法、装置、设备及存储介质 | |
WO2021059848A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN114049686A (zh) | 签名识别模型训练方法、装置及电子设备 | |
JP5188290B2 (ja) | アノテーション装置、アノテーション方法およびプログラム | |
CN109949090A (zh) | 客户推荐方法、装置、电子设备及介质 | |
CN114996482B (zh) | 知识图谱构建、视频搜索方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |