CN109492114A - 一种实体信息识别方法 - Google Patents
一种实体信息识别方法 Download PDFInfo
- Publication number
- CN109492114A CN109492114A CN201811365914.2A CN201811365914A CN109492114A CN 109492114 A CN109492114 A CN 109492114A CN 201811365914 A CN201811365914 A CN 201811365914A CN 109492114 A CN109492114 A CN 109492114A
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- data
- decision
- belonging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实体信息识别方法,包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。本发明通过属性映射过程、属性决策过程和实体对齐过程,使得实体信息具有可溯源和灵活决策的特点,并且可以对实体数据进行归并,增加实体信息的完整性。
Description
技术领域
本发明涉及业务数据处理,特别是涉及一种实体信息识别方法。
背景技术
在现实信息应用系统中如:多媒体、社交网络、物联网等诸多领域每天都积累了zb级的大数据。这些数据信息丰富多样,记录形式也多种多样。因此在给定的大数据集中准确发现属于同一实体的不同记录并将其聚合在一起,使得每个实体簇在现实世界中表示同一对象这一过程显得尤为重要。传统的业务数据处理方法,同一种数据类型中根据唯一标识确定了唯一的实体,将实体相关的各项信息简单合并在一起,未对同种数据类型不同格式或者不同数据类型中的信息进行识别合并,不贴近用户的业务需求,这种情况下,同一实体在现实世界的行为和关系数据也无法进行聚合。在分析实体时,实体的重要信息无法全部进行关联,难以适应新的业务需求,后续分析往往仍需要大量的开发工作。究其原因,主要是因为在不同的数据源类型中,通过多种多样的形式记录数据,传统的方法对不同数据源中的数据未进行聚合,导致同一实体的信息分散,并没有从业务本身的需要出发,对数据进行完整性的管理。
发明内容
发明目的:本发明的目的是提供一种实体信息识别方法,能够对同种数据类型不同格式或者不同数据类型中的信息进行识别合并。
技术方案:本发明所述的实体信息识别方法,包括:
属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;
属性决策过程:对不同数据中属性的值可能不同的情况进行决策;
实体对齐过程:对数据根据业务元素进行建模。
进一步,所述属性映射过程包括以下步骤:
S11:根据业务应用的需要,建立实体的本体模型;
S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;
S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。
进一步,所述属性决策过程包括以下步骤:
S21:寻找实体原属性;
S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进入步骤S23;
S23:比较步骤S13得到的转换后的实体属性的时间与实体原属性的时间:如果步骤S13得到的转换后的实体属性的时间晚于实体原属性的时间,则进入步骤S25;否则,进入步骤S24;
S24:比较步骤S13得到的转换后的实体属性的使用频次与实体原属性的使用频次:如果步骤S13得到的转换后的实体属性的使用频次高于实体原属性的使用频次,则进入步骤S25;否则,进入步骤S26;
S25:更新实体的属性值和属性来源;
S26:结束。
进一步,所述属性决策过程采用人为可信度决策、时序决策和使用频率决策中的一种或多种决策依据。
进一步,所述实体对齐过程包括以下步骤:
S31:根据分区字段和方式对实体进行分区,构建由多个实体对组成的实体对集合;
S32:计算每个实体对中两个实体之间的相似度;
S33:根据相似度的大小来决策实体对中的两个实体是否指向同一个实体。
有益效果:本发明公开了一种实体信息识别方法,通过属性映射过程、属性决策过程和实体对齐过程,使得实体信息具有可溯源和灵活决策的特点,并且可以对实体数据进行归并,增加实体信息的完整性。
附图说明
图1为本发明具体实施方式中属性映射过程的示意图;
图2为本发明具体实施方式中属性决策过程的示意图。
具体实施方式
本具体实施方式公开了一种实体信息识别方法,包括:
属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;
属性决策过程:对不同数据中属性的值可能不同的情况进行决策;
实体对齐过程:对数据根据业务元素进行建模。
其中,属性映射过程包括以下步骤:
S11:根据业务应用的需要,建立实体的本体模型;
S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;映射关系包括属性字段的对应关系和转换方法;
S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。
属性决策使用内存库,提高属性决策的性能和效率。属性决策过程采用人为可信度决策、时序决策和使用频率决策中的一种或多种决策依据。例如,同时采用以上三种决策依据,则属性决策过程包括以下步骤:
S21:寻找实体原属性;
S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进入步骤S23;
S23:比较步骤S13得到的转换后的实体属性的时间与实体原属性的时间:如果步骤S13得到的转换后的实体属性的时间晚于实体原属性的时间,则进入步骤S25;否则,进入步骤S24;
S24:比较步骤S13得到的转换后的实体属性的使用频次与实体原属性的使用频次:如果步骤S13得到的转换后的实体属性的使用频次高于实体原属性的使用频次,则进入步骤S25;否则,进入步骤S26;
S25:更新实体的属性值和属性来源;
S26:结束。
实体对齐过程使用大数据分析工具Spark,提高实体对齐的效率。实体对齐过程首先需要进行实体对齐建模,定义对齐的基本信息,包括:
模型名称:用户业务语言描述模型名称,便于理解
数据类型:用户业务语言描述待分析的实体类型
模型ID:用来唯一标识模型
分区字段:用户业务定义的分区属性字段
分区方式:用户业务定义的分区方式
比较属性:用户业务定义的待比较的属性信息,该属性信息可以包含实体的属性信息,同时可以扩展包含实体的关系信息和行为信息。
相似度算法:用户业务定义的相似度的计算算法,根据实体的属性、关系和行为计算相似度。
实体对齐过程包括以下步骤:
S31:根据分区字段和方式对实体进行分区,构建由多个实体对组成的实体对集合;
S32:计算每个实体对中两个实体之间的相似度;
S33:根据相似度的大小来决策实体对中的两个实体是否指向同一个实体。可以对不同的相似度算法设置一个阈值,超过指定阈值的相似实体可以认为是同一个实体,记录并标识实体信息。
下面以一个实施例,对本具体实施方式进行进一步的介绍。
当前系统有一下需求:
1、系统内有多个数据,有户籍数据、住宿数据、乘车记录
2、不同数据中对属性的值存在不同的情况,如“户籍”表中人A(以身份证唯一标识)的出生日期与“人员住宿信息表”的同一个人A的出生日期不同,那么对于人员A,其出生日期到底是哪个呢?
3、系统中包含的人员信息有多样,户籍数据、住宿数据以身份证号码标识实体(人)中,乘车记录以姓名和手机号码标识人的信息,将这两类信息中同一个人识别出来,并将相关的属性结合在一起。
下面使用本方法解决以上问题。
第一步:属性映射过程
1.建立人员信息的本体模型
2.建立映射关系
3.实体属性信息抽取
根据上述的映射关系,直接从数据中抽取出单个实体信息。
第二步:属性决策过程
1.人为可信度决策:我们可以认为“XX户籍”中的信息可信度更高,则以A的为准;
2.时序决策:以时间最新的值为准;
对于如何选择属性,以下为两种
3.先后顺序融合:实时过程中,根据数据的发生时间处理数据,认为数据信息时间更新的更准确,存储最新的数据
4.置信度融合:记录每个数据项的置信值(可以使用来源数据源或数据源的置信值表达),对新数据的置信值与原数据置信值进行比较,存储置信度较高的信息。
第三步:实体对齐过程
先根据不同的标识对实体进行融合,如人的信息,根据各类证件信息,每一个证件信息融合出一个人的信息,然后根据信息之间的关联性,将不同实体进行对齐和归一化。模型如下:
有了此类模型以后,可以定时的在Spark上运行该模型,将一段时间得到的实体信息进行归一化。
Claims (5)
1.一种实体信息识别方法,其特征在于:包括:
属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;
属性决策过程:对不同数据中属性的值可能不同的情况进行决策;
实体对齐过程:对数据根据业务元素进行建模。
2.根据权利要求1所述的实体信息识别方法,其特征在于:所述属性映射过程包括以下步骤:
S11:根据业务应用的需要,建立实体的本体模型;
S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;
S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。
3.根据权利要求2所述的实体信息识别方法,其特征在于:所述属性决策过程包括以下步骤:
S21:寻找实体原属性;
S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进入步骤S23;
S23:比较步骤S13得到的转换后的实体属性的时间与实体原属性的时间:如果步骤S13得到的转换后的实体属性的时间晚于实体原属性的时间,则进入步骤S25;否则,进入步骤S24;
S24:比较步骤S13得到的转换后的实体属性的使用频次与实体原属性的使用频次:如果步骤S13得到的转换后的实体属性的使用频次高于实体原属性的使用频次,则进入步骤S25;否则,进入步骤S26;
S25:更新实体的属性值和属性来源;
S26:结束。
4.根据权利要求1所述的实体信息识别方法,其特征在于:所述属性决策过程采用人为可信度决策、时序决策和使用频率决策中的一种或多种决策依据。
5.根据权利要求1所述的实体信息识别方法,其特征在于:所述实体对齐过程包括以下步骤:
S31:根据分区字段和方式对实体进行分区,构建由多个实体对组成的实体对集合;
S32:计算每个实体对中两个实体之间的相似度;
S33:根据相似度的大小来决策实体对中的两个实体是否指向同一个实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811365914.2A CN109492114A (zh) | 2018-11-16 | 2018-11-16 | 一种实体信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811365914.2A CN109492114A (zh) | 2018-11-16 | 2018-11-16 | 一种实体信息识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492114A true CN109492114A (zh) | 2019-03-19 |
Family
ID=65695159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811365914.2A Pending CN109492114A (zh) | 2018-11-16 | 2018-11-16 | 一种实体信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492114A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145523A (zh) * | 2017-04-12 | 2017-09-08 | 浙江大学 | 基于迭代匹配的大型异构知识库对齐方法 |
CN107844482A (zh) * | 2016-09-17 | 2018-03-27 | 复旦大学 | 基于全局本体的多数据源模式匹配方法 |
CN108647318A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 一种基于多源数据的知识融合方法 |
-
2018
- 2018-11-16 CN CN201811365914.2A patent/CN109492114A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844482A (zh) * | 2016-09-17 | 2018-03-27 | 复旦大学 | 基于全局本体的多数据源模式匹配方法 |
CN107145523A (zh) * | 2017-04-12 | 2017-09-08 | 浙江大学 | 基于迭代匹配的大型异构知识库对齐方法 |
CN108647318A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 一种基于多源数据的知识融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stone et al. | Autotagging facebook: Social network context improves photo annotation | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
CN104899273A (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN109800600A (zh) | 面向保密需求的海洋大数据敏感度评估系统及防范方法 | |
WO2017084205A1 (zh) | 一种网络用户身份认证方法及系统 | |
US20200090058A1 (en) | Model variable candidate generation device and method | |
CN108268886B (zh) | 用于识别外挂操作的方法及系统 | |
WO2017075912A1 (zh) | 一种新闻事件抽取方法及系统 | |
CN112420187A (zh) | 一种基于迁移联邦学习的医疗疾病分析方法 | |
CN104636408A (zh) | 基于用户生成内容的新闻认证预警方法及系统 | |
CN111538741A (zh) | 一种面向警情大数据的深度学习分析方法及系统 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN111259167B (zh) | 用户请求风险识别方法及装置 | |
CN111510368A (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
CN110458094B (zh) | 基于指纹相似度的设备分类方法 | |
CN112925877A (zh) | 一种基于深度度量学习的一人多案关联识别方法及系统 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
CN108415971B (zh) | 采用知识图谱推荐供求信息的方法和装置 | |
WO2023272862A1 (zh) | 基于网络行为数据的风控识别方法、装置、电子设备及介质 | |
CN109492114A (zh) | 一种实体信息识别方法 | |
CN111062484B (zh) | 基于多任务学习的数据集选取方法及装置 | |
CN110147497B (zh) | 一种面向青少年群体的个性化内容推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |