CN112507042B - 一种支持增量实体关联的关系图谱计算方法 - Google Patents
一种支持增量实体关联的关系图谱计算方法 Download PDFInfo
- Publication number
- CN112507042B CN112507042B CN202110132769.9A CN202110132769A CN112507042B CN 112507042 B CN112507042 B CN 112507042B CN 202110132769 A CN202110132769 A CN 202110132769A CN 112507042 B CN112507042 B CN 112507042B
- Authority
- CN
- China
- Prior art keywords
- map information
- relation
- relationship
- historical
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持增量实体关联的关系图谱计算方法,包括以下步骤:获取增量数据;对增量数据内的证号信息进行串联得到第一关系图谱信息;通过证号信息与历史关系图谱信息进行串联;将第一关系图谱信息和历史关系图谱信息合并为第二关系图谱信息;第一关系图谱信息根据第二关系图谱信息更新为第三关系图谱信息;历史关系图谱信息根据第二关系图谱信息更新为第四关系图谱信息;将第三关系图谱信息和第四关系图谱信息合并得到第五关系图谱信息。所建立的关系图谱通过向量化、增量学习和特征组合,提高了关系图谱计算的准确性;相比传统的人工分析的方式可以大大提高关联关系获取效率。
Description
技术领域
本发明涉及数据处理技术领域,具体来说,涉及一种支持增量实体关联的关系图谱计算方法。
背景技术
关系图谱是用来表示每个数据或信息之间的关系,目前的关系图谱存在一次生成后,便无法支持增量更新的问题,对于一些增量数据,需要与存量关系图谱进行更新,最终得到最新正确完整的关系图谱,在增量数据处理的过程中,无法保证执行性能;且现在关联关系主要依赖人工对繁杂的信息分析处理,使得关联关系获取效率降低。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种支持增量实体关联的关系图谱计算方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:一种支持增量实体关联的关系图谱计算方法,包括以下步骤:
S1获取增量数据;
S2对所述增量数据内的证号信息进行串联得到第一关系图谱信息;
S3通过所述证号信息与历史关系图谱信息进行串联,得到历史关系图谱信息和第一关系图谱信息的关系;
S4将所述第一关系图谱信息和所述历史关系图谱信息合并为第二关系图谱信息;并得出第一关系图谱信息与所述第二关系图谱信息的关系、所述历史关系图谱信息与所述第二关系图谱信息的关系;
S5根据S4中所述第一关系图谱信息与所述第二关系图谱信息的关系,所述第一关系图谱信息更新为第三关系图谱信息;
S6根据S4中所述历史关系图谱信息与所述第二关系图谱信息的关系,所述历史关系图谱信息更新为第四关系图谱信息;
S7将所述第三关系图谱信息和所述第四关系图谱信息合并得到第五关系图谱信息。
进一步地,在S1中,按照创建时间、状态位或相关条件获取增量数据。
进一步地,在S2中,每获取依次增量数据,需对增量数据进行串并,将所述增量数据经过hash处理后得到第一关系图谱ID。
进一步地,在S3中,使用证号信息和历史关系图谱信息进行加入关联,得到历史关系图谱ID和第一关系图谱ID的关系映射。
进一步地,在S4中,需要保存第一关系图谱ID和第二关系图谱ID的关系映射及历史关系图谱ID和第二关系图谱ID的关系映射。
进一步地,所述第一关系图谱更新为第三关系图谱。
进一步地,所述历史关系图谱更新为第四关系图谱。
本发明的有益效果:根据多个增量数据的证号信息,可以生成相应的关系图谱;通过与历史关系图谱的关系映射,可以获得新的关系图谱并不会覆盖历史数据;所建立的关系图谱通过向量化、增量学习和特征组合,提高了关系图谱计算的准确性;相比传统的人工分析的方式可以大大提高关联关系获取效率;在动态关系图谱背景下,能够有很好的数据处理性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种支持增量实体关联的关系图谱计算方法的流程框图;
图2是根据本发明实施例所述的一种支持增量实体关联的关系图谱计算方法的关系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种支持增量实体关联的关系图谱计算方法,包括以下步骤:
S1获取增量数据;
S2对所述增量数据内的证号信息进行串联得到第一关系图谱信息;
S3通过所述证号信息与历史关系图谱信息进行串联,得到历史关系图谱信息和第一关系图谱信息的关系;
S4将所述第一关系图谱信息和所述历史关系图谱信息合并为第二关系图谱信息;并得出第一关系图谱信息与所述第二关系图谱信息的关系、所述历史关系图谱信息与所述第二关系图谱信息的关系;
S5根据S4中所述第一关系图谱信息与所述第二关系图谱信息的关系,所述第一关系图谱信息更新为第三关系图谱信息;
S6根据S4中所述历史关系图谱信息与所述第二关系图谱信息的关系,所述历史关系图谱信息更新为第四关系图谱信息;
S7将所述第三关系图谱信息和所述第四关系图谱信息合并得到第五关系图谱信息。
在本发明的一个具体实施例中,在S1中,按照创建时间、状态位或相关条件获取增量数据。
在本发明的一个具体实施例中,在S2中,每获取依次增量数据,需对增量数据进行串并,将所述增量数据经过hash处理后得到第一关系图谱ID。
在本发明的一个具体实施例中,在S3中,使用证号信息和历史关系图谱信息进行加入关联,得到历史关系图谱ID和第一关系图谱ID的关系映射。
在本发明的一个具体实施例中,在S4中,需要保存第一关系图谱ID和第二关系图谱ID的关系映射及历史关系图谱ID和第二关系图谱ID的关系映射。
在本发明的一个具体实施例中,所述第一关系图谱更新为第三关系图谱。
在本发明的一个具体实施例中,所述历史关系图谱更新为第四关系图谱。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的一种支持增量实体关联的关系图谱计算方法,获取增量数据;按照创建时间或者其他条件、状态位获取增量数据;
通过对增量数据的证号信息进行串联;每获取一批增量数据,首先对增量数据进行串并,即是增量的这部分数据,如:jq1,id1;jq2,id1;jq2,id2;jq3,id2经过hash处理后输id1、id2-->11 jq1、jq2、jq3-->11,这样得到了第一关系图谱ID。
通过证号信息和历史关系图谱进行串联,得到历史关系图谱和第一关系图谱信息的关系;使用id1、id2和存量关系图谱进行关联,得到历史关系图谱ID和第一关系图谱ID的关系映射;
对得到的历史和新关系图谱关系映射,针对老关系图谱关联多个新关系图谱场景,做一遍图遍历,合并为最终的图谱关系。
历史关系图谱信息和第一关系图谱信息关联关系得到第二关系图谱信息,保存历史关系图谱ID和第二关系图谱ID的关系映射及第一关系图谱ID和第二关系图谱ID的关系映射;
通过历史关系图谱和最终关系图谱的ID的关系映射,将历史关系图谱ID更新为第三关系图谱ID;通过第一关系图谱ID和第二关系图谱ID的关系映射,将第一关系图谱ID更新为第四关系图谱ID。
第三关系图谱数据和第四关系图谱数据合并到一起,最终形成成第五关系图谱数据。
如图2所示,警情为例,其他文本串并都可以使用此方法处理;
对警情增量中串联要素,其中,警情主要是使用证号包括:身份证号、电话号码、车牌号、微信号、QQ号或银行卡号,对警情进行证号串联;
输入jq1,id1;jq2,id1;jq2,id2;jq3,id2经过hash处理后输id1、id2-->1 jq1、jq2、jq3-->1;
根据第一关系图谱的数据和历史关系图谱的数据生成临时表,保存历史关系图谱ID和第一关系图谱ID,并将第一关系图谱ID和历史关系图谱ID合并得到第二关系图谱ID;根据第一关系图谱信息和历史关系图谱ID与第二关系图谱信息关系映射,分别得到第三关系图谱ID和第四关系图谱ID,将第三关系图谱ID和第四关系图谱ID合并。
综上所述,借助于本发明的上述技术方案,根据多个增量数据的证号信息,可以生成相应的关系图谱;通过与历史关系图谱的关系映射,可以获得新的关系图谱并不会覆盖历史数据;所建立的关系图谱通过向量化、增量学习和特征组合,提高了关系图谱计算的准确性;相比传统的人工分析的方式可以大大提高关联关系获取效率;在动态关系图谱背景下,能够有很好的数据处理性能。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种支持增量实体关联的关系图谱计算方法,其特征在于,包括以下步骤:
S1获取增量数据;
S2对所述增量数据内的证号信息进行串联得到第一关系图谱信息,根据所述第一关系图谱信息的数据和历史关系图谱信息的数据生成临时表,保存成历史关系图谱ID和第一关系图谱ID;
S3通过所述证号信息与所述历史关系图谱信息进行串联,得到历史关系图谱信息和第一关系图谱信息的关系;
S4将所述第一关系图谱信息和所述历史关系图谱信息合并为第二关系图谱信息;并得出第一关系图谱信息与所述第二关系图谱信息的关系、所述历史关系图谱信息与所述第二关系图谱信息的关系,将所述第一关系图谱ID和所述历史关系图谱ID合并得到第二关系图谱ID;
S5根据S4中所述第一关系图谱信息与所述第二关系图谱信息的关系,所述第一关系图谱信息更新为第三关系图谱信息;
S6根据S4中所述历史关系图谱信息与所述第二关系图谱信息的关系,所述历史关系图谱信息更新为第四关系图谱信息;
S7将所述第三关系图谱信息和所述第四关系图谱信息合并得到第五关系图谱信息。
2.根据权利要求1所述的一种支持增量实体关联的关系图谱计算方法,其特征在于,在S1中,按照创建时间、状态位或相关条件获取增量数据。
3.根据权利要求1所述的一种支持增量实体关联的关系图谱计算方法,其特征在于,在S2中,每获取一次增量数据,需对增量数据进行串并,将所述增量数据经过hash处理后得到所述第一关系图谱ID。
4.根据权利要求1所述的一种支持增量实体关联的关系图谱计算方法,其特征在于,在S3中,使用证号信息和历史关系图谱信息进行关联,得到所述历史关系图谱ID和所述第一关系图谱ID的关系映射。
5.根据权利要求1所述的一种支持增量实体关联的关系图谱计算方法,其特征在于,在S4中,需要保存所述第一关系图谱ID和所述第二关系图谱ID的关系映射及所述历史关系图谱ID和所述第二关系图谱ID的关系映射。
6.根据权利要求5所述的一种支持增量实体关联的关系图谱计算方法,其特征在于,所述第一关系图谱更新为第三关系图谱。
7.根据权利要求6所述的一种支持增量实体关联的关系图谱计算方法,其特征在于,所述历史关系图谱更新为第四关系图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110132769.9A CN112507042B (zh) | 2021-02-01 | 2021-02-01 | 一种支持增量实体关联的关系图谱计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110132769.9A CN112507042B (zh) | 2021-02-01 | 2021-02-01 | 一种支持增量实体关联的关系图谱计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507042A CN112507042A (zh) | 2021-03-16 |
CN112507042B true CN112507042B (zh) | 2021-05-18 |
Family
ID=74952629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110132769.9A Active CN112507042B (zh) | 2021-02-01 | 2021-02-01 | 一种支持增量实体关联的关系图谱计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507042B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095484A (zh) * | 2015-08-17 | 2015-11-25 | 北京京东世纪贸易有限公司 | 一种数据拉链方法 |
CN110598021A (zh) * | 2018-05-25 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 获取图片的知识图谱的方法、装置和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100162129A1 (en) * | 2008-12-19 | 2010-06-24 | Morris Robert P | Methods, Systems, And Computer Program Products For Synchronizing Second Level Resources With First Level Resources Of A Multi-Level Navigation History |
-
2021
- 2021-02-01 CN CN202110132769.9A patent/CN112507042B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095484A (zh) * | 2015-08-17 | 2015-11-25 | 北京京东世纪贸易有限公司 | 一种数据拉链方法 |
CN110598021A (zh) * | 2018-05-25 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 获取图片的知识图谱的方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112507042A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103902698B (zh) | 一种数据存储系统和存储方法 | |
CN103514201B (zh) | 一种非关系型数据库的数据查询方法和装置 | |
US20140244654A1 (en) | Data migration | |
CN107992492B (zh) | 一种数据区块的存储方法、读取方法、其装置及区块链 | |
CN112182036A (zh) | 数据的发送与写入方法、装置、电子设备及可读存储介质 | |
CN110765773A (zh) | 地址数据获取方法以及装置 | |
CN111966707A (zh) | 查询语句生成方法、装置、电子设备和计算机可读介质 | |
CN112860802B (zh) | 数据库操作语句的处理方法、装置及电子设备 | |
CN102486772A (zh) | 一种数据的导出方法及装置 | |
CN112507042B (zh) | 一种支持增量实体关联的关系图谱计算方法 | |
CN110633318A (zh) | 一种数据提取的处理方法、装置、设备和存储介质 | |
CN107766519B (zh) | 一种可视化配置数据结构的方法 | |
CN108241705B (zh) | 一种数据插入方法及装置 | |
CN113407565A (zh) | 跨库数据查询方法、装置和设备 | |
CN112506931A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN110096505B (zh) | 一种数据存储方法和系统、设备及存储介质 | |
CN112486988A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111611242A (zh) | 一种实现Excel数据向数据库导入的方法 | |
CN107315806B (zh) | 一种基于文件系统的嵌入式存储方法和装置 | |
CN112269806B (zh) | 数据查询方法、装置、设备以及计算机存储介质 | |
CN109324963A (zh) | 自动测试收益结果的方法及终端设备 | |
CN115114297A (zh) | 数据轻量存储及查找方法、装置、电子设备及存储介质 | |
CN108073694A (zh) | 一种基于双基准的企业属性标准化系统及其实现方法 | |
CN111897793A (zh) | 数据的导入方法、装置、电子设备及计算机可读存储介质 | |
CN111736808B (zh) | 一种交易报告单的签约处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |