CN110516011B - 一种多源实体数据融合方法、装置及设备 - Google Patents
一种多源实体数据融合方法、装置及设备 Download PDFInfo
- Publication number
- CN110516011B CN110516011B CN201910801562.9A CN201910801562A CN110516011B CN 110516011 B CN110516011 B CN 110516011B CN 201910801562 A CN201910801562 A CN 201910801562A CN 110516011 B CN110516011 B CN 110516011B
- Authority
- CN
- China
- Prior art keywords
- entity
- book
- data
- entities
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 claims abstract description 68
- 230000004927 fusion Effects 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 13
- 238000012015 optical character recognition Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种多源实体数据融合方法、装置及设备。方案包括:确定待融合的国际标准书号;根据国际标准书号获取来自多个数据源的国际标准书号对应的多个实体类型的实体数据;实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;确定每个实体类型对应的目标实体数据,得到多个目标实体数据集合;将每个目标实体数据集合中的目标实体数据进行融合,得到每个实体类型对应的融合后实体数据集;建立各融合后实体数据集之间的关联关系;将融合后的实体数据以及关联关系存储到数据库中。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种多源实体数据融合方法、装置及设备。
背景技术
随着互联网信息技术的迅速发展,互联网数据中的信息量日益递增,海量的数据被上传至互联网中,海量的数据由不同的端口进行上传,用户在进行查询时,可以从多个平台查找到相关的信息,但是通过不同平台查找到的信息可能会不同。
以图书信息为例,根据国际标准书号(International Standard Book Number,简称ISBN)可以在多家平台上查询到图书信息,但是由于海量数据由人工进行上传或补充,查询到的图书信息可能存在错误或者有些平台存储的信息不完整,另外,由于各个平台出于想增加图书销售额的初衷,平台可能会就一个国际标准书号在一个页面中对应存储了多本图书的信息数据,导致用户在多方图书平台搜索得到的图书内容不一致、信息不准确,内容不完整。
发明内容
有鉴于此,本说明书一个或多个实施例提供了一种多源实体数据融合方法、装置及设备,用于使最后存储到数据库中的关联关系能够实现一个国际标准书号能唯一对应一个图书实体,且该图书实体能对应完整准确的图书信息。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种多源实体数据融合方法,包括:
确定待融合的国际标准书号;
根据所述国际标准书号获取来自多个数据源的所述ISBN编号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
建立各所述融合后实体数据集之间的关联关系;
将所述融合后的实体数据集以及所述关联关系存储到数据库中。
本说明书实施例提供的一种多源实体数据融合装置,包括:
国际标准书号确定模块,用于确定待融合的国际标准书号;
实体数据确定模块,用于根据所述国际标准书号获取来自多个数据源的所述ISBN编号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
目标实体数据确定集合,用于确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
数据融合模块,用于将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
关联关系建立模块,用于建立各所述融合后实体数据集之间的关联关系;
存储模块,用于将所述融合后的实体数据集以及所述关联关系存储到数据库中。
本说明书实施例提供的一种设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
确定待融合的国际标准书号;
根据所述国际标准书号获取来自多个数据源的所述ISBN编号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
建立各所述融合后实体数据集之间的关联关系;
将所述融合后的实体数据集以及所述关联关系存储到数据库中。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种多源实体数据融合方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过确定待融合的国际标准书号;根据所述国际标准书号获取来自多个数据源的所述ISBN编号对应的实体数据;确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;建立各所述融合后实体数据集之间的关联关系;将所述融合后的实体数据集以及所述关联关系存储到数据库中;根据国际标准书号从多个数据源中获取实体数据,且实体数据包括多个类型的数据,使最后存储到数据库中的关联关系能够实现一个国际标准书号能唯一对应一个图书实体,且该图书实体能对应完整准确的图书信息。
附图说明
此处所说明的附图用来提供对本说明书一个或多个实施例的进一步理解,构成本说明书一个或多个实施例的一部分,本说明书的示意性实施例及其说明用于解释本说明书一个或多个实施例,并不构成对本说明书一个或多个实施例的不当限定。在附图中:
图1为本说明书实施例提供的一种多源实体数据融合方法的整体示意图;
图2为本说明书实施例提供的一种多源实体数据融合方法的流程示意图;
图3为本说明书实施例提供的对应于图2的一种多源实体数据融合装置的结构示意图;
图4为本说明书实施例提供的对应于图2的一种多源实体数据融合设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
现有技术中,一些综合库中也提供图书信息,但是其综合性也就意味着其在图书这一细分领域表现并不完美,由于各个平台出于想增加图书销售额的初衷,平台可能会就一个国际标准书号在一个页面中对应存储了多本图书的信息数据,导致采用一个国际标准书号可能会对应多本图书,或者其中一本图书的信息不准确,不同平台查找到的图书信息不相同。比如:根据国际标准书号A从平台1查找的图书为图书A1,从平台2查找的图书为图书A2,从平台3查找的图书为图书A3,从平台4查找的图书为图书B1,此时B1为错误的图书信息。或者通过国际标准书号A查找到的图书A1在不同的平台对应的作者、译者、出版社、出版社品牌或者简介信息并不完全相同,导致某些平台的图书信息会出现错误,且不完整。
为了克服现有技术中的缺陷,以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的一种多源实体数据融合方法的整体示意图。如图1所示,在实际应用中,首先从多个数据源中提取实体数据,比如,如图1所示,根据待融合的国际标准书号ISBN从数据源1、数据源2……数据源n中获取该待融合的国际标准书号ISBN对应的实体数据,获取到的实体数据中可以包括出版社实体数据、图书实体数据、人物实体数据、出版品牌实体数据以及实体间的关系数据,将获取到的实体数据进行数据清洗(比如:去除书名中的空格、特殊字符,将多个人物名字或者出版社名称进行拆分等),对于出版社实体数据来说,将从指定出版社中的官方数据进行融合,再将非官方数据也进行融合,得到融合后出版社实体数据;对于图书实体数据来说,首先确定候选集,再确定图书目标实体,然后对图书实体对应的目标实体数据进行融合,得到融合后图书实体数据;对于人物实体数据来说,确定候选集,确定候选集中各实体的相似实体,将人物实体数据进行融合,得到融合后的人物实体数据;对于出版品牌数据来说,其数据融合过程与人物实体数据相同,得到融合后出版品牌实体数据;然后根据实体间的关系数据建立待融合的国际标准书号与融合后出版社实体数据、融合后人物实体数据、融合后图书实体数据以及融合后出版品牌实体数据之间的关联关系,并对融合后的实体数据以及关联关系进行质量评估,得到质量评估结果,将满足质量评估条件的融合后的实体数据以及关联关系存储在数据库中,此时,数据库中的任意一个ISBN仅对应一本图书,且该图书的人物信息、出版社信息以及出版品牌信息都准确且完整。
针对说明书实施例提供的一种多源实体数据融合方法结合附图进行具体说明:
图2为本说明书实施例提供的一种多源实体数据融合方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。
如图2所示,该流程可以包括以下步骤:
步骤202:确定待融合的国际标准书号。
国际标准书号(International Standard Book Number),简称ISBN,可以是为识别图书等文献而设计的国际编号。ISBN可以由13位数字组成,以四个连接号或四个空格加以分割,分为5段,即在原来的10位数字前加上3位EAN(欧洲商品编号)图书产品代码"978"。每组数字都有固定的含义:第一组为978或979,第二组为国家、语言或区位代码;第三组是出版社代码;由各国家或地区的国际标准书号分配中心,分给各个出版社。第四组是书序码,该出版物代码,由出版社具体给出,第五组是校验码。只有一位,从0到9。在联机书目中ISBN可以作为一个检索字段,从而为用户增加了一种检索途径。
步骤204:根据所述国际标准书号获取来自多个数据源的所述国际标准书号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体。
数据源(Data Source)可以是提供某种所需要数据的器件、原始媒体或者原始平台。在实际应用中,采用国际标准书号获取实体数据时,多个数据源可以表示的是多个能够查找到相关出版物的平台。
实体可以表示的是具体事物、个别主体、现象的支持者等意义,其含义一般可以是指能够独立存在的、作为一切属性的基础和万物本原的东西。在出版物领域中,实体可以表示一个个体,如一本书,一个人,在某一个数据源中实体可以是唯一的,但是在多个数据源中可能重复出现。
采用一个国际标准书号从多个平台中获取的实体数据可以有多种类型,比如:实体类型可以包括图书实体、人物实体、出版社实体以及出版品牌实体等。
在实际应用中,根据确定出的国际标准书号能获取来自多个数据源的且包括多个类型的实体数据。
在进行数据抽取时,可以从互联网数据中进行抽取,例如:在图书方面,网页中所展示的内容绝大部分为半结构化数据,可以判别提取到的信息的种类。在图书这一细分领域,相关的实体可以包括:图书,人物(作者,译者等),出版社,出版品牌(版权方)。各个实体的属性信息在不同的平台中展示的信息可以不相同。
除此之外,在确定每个所述实体类型对应的目标实体数据之前,还可以包括:
对所述实体数据进行数据清洗。
具体的数据清洗方法如下:
从Web网页中提取的信息不能直接应用于后续的实体融合阶段。需要对数据进行清洗,针对不同的实体类型,数据清洗的方式也可以不同:
当实体类型为图书实体时,在进行数据清洗时,书名:去除空格,特殊符号转换(英文转中文),ISBN:去除ISBN格式不正确的实体,内容介绍:去掉格式信息,特殊符号英文转中文,去除重复段落,此外,为保证在后续图书实体融合的效果,根据关联关系,将其对应的作者,译者和出版社信息(清洗后,融合前)也作为一个属性,参与比较。
当实体类型为人物实体时:
姓名:将多个名字进行拆分,形成多个实体。特殊字符转换,删除空格。去除无用的实体,如:著,译,编,简介:特殊符号转换,姓名拆分后,相应的人物简介业务要进行对应拆分
当实体类型为出版社实体时:
名称:出版社名称拆分,根据规则剔除噪音,如(中信集团有限公司中信出版社,拆分后将中信集团有限公司去除),简介:特殊符号转换,名称拆分后,相应的出版社简介也需要进行拆分。
当实体类型为出版品牌实体时,进行去噪操作。
步骤206:确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合。
目标实体可以表示的是唯一的目标实体。实体与目标实体间的关系可以是:在单个数据源中,一个实体可以对应唯一对应一个目标实体,但是在多个数据源中,多个实体可以同时指向同一个目标实体。
目标实体数据可以包括实体类型对应的属性数据,比如:当实体类型为图书实体时,图书实体的属性可以是图书书名、国际标准书号、图书简介等。如果是出版社实体,则出版社实体对应的属性数据可以是出版社名称、出版社介绍以及出版社ISBN等。
每个实体类型对应一个目标实体数据集,根据多个实体类型,可以得到对应的多个目标实体数据集合。
步骤208:将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集。
数据融合可以指的是将多个数据源的数据和信息加以联合、相关及组合,获得更为精确的信息,从而实现准确、完整评价的处理过程。
将每个实体类型对应的目标实体数据进行融合。比如,针对一个国际标准书号来说,可以将一个国际标准书号对应的多个数据源中的数据进行融合,假设根据一个国际标准书号A,从数据源1中获得实体数据1,从数据源2获得实体数据2,从数据源3获得实体数据3,此时,可以将数据源1-3中的实体数据进行融合,具体在融合时需要按照实体类型,先确定各实体类型对应的目标实体数据,将每个所述目标实体数据集合中的目标实体数据进行融合。
步骤210:建立各所述融合后实体数据集之间的关联关系。
关联关系可以指的是各实体之间相关性,比如:图书实体为图书A,国际标准书号为X,人物实体为作者B,出版社实体为C出版社,出版品牌为D,此时,各实体之间的关联关系可以是:国际标准书号X对应的图书A的作者为作者B,由D出版品牌在C出版社进行出版。当然,在本方案中的应用中,在具体融合时,融合后的数据还可以包括图书的详细简介,图书的编者、译者以及其他与图书相关的信息。
需要说明的是,出版社可以理解为具有国家官方牌照或国家标准书号的、进行图书、图画、杂志,报纸和电子物品等有版权物品的出版活动的组织。出版品牌没有国家牌照,也不具有书号;因此,在实际应用中,出版社可以将自己具有的书号卖个出版品牌,出版品牌拿到书号进行出书。
步骤212:将所述融合后的实体数据集以及所述关联关系存储到数据库中。
需要说明的是,在最终的数据库中每个目标实体只对应一个实体,数据库中存储着准确且完整的实体数据之间的关联关系。
应当理解,本说明书一个或多个实施例所述的应用架构部署方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
图2中的方法,通过根据国际标准书号从多个数据源中获取多个实体类型对应的实体数据,并分别对每个实体类型对应的目标实体数据进行融合,然后建立融合后实体数据与国际标准书号之间的关联关系,将关联关系存储到数据库中,使最终的数据库中针对相应的国际标准书号存储着准确且完整的图书信息,保证一个国际标准书号能唯一对应一个图书实体,且查询到的该图书实体对应有完整详细的图书信息,提升了用户体验。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
所述确定每个所述实体类型对应的目标实体数据,具体可以包括:
确定每个所述实体类型对应的实体候选集;
从所述实体候选集中确定所述实体类型对应的目标实体数据。
在确定目标实体数据时,首先可以先确定每个实体类型对应的实体候选集,然后从实体候选集中确定每个实体类型对应的目标实体数据。
在具体的过程中,数据清洗后,需要对来自多个数据源的多类型实体数据进行融合,具体的融合过程可以按照实体类型进行分别说明:
方法一、当实体类型为图书实体时:
可以首先根据图书的国际标准书号,在数据源中快速确定图书的候选集;在采用聚类方法对候选集实体进行关联性分析,排除不一致实体,最后利用OCR光学字符识别技术,根据实体所在网页的相关信息结合实体属性的完整度等信息确定该实体的可靠度,利用可靠度进行数据融合。
光学字符识别(Optical Character Recognition,简称OCR),可以表示通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
更为具体地,所述实体类型为图书实体,所述确定所述实体类型对应的实体候选集,具体可以包括:
根据所述国际标准书号从所述实体数据中确定具有同一所述国际标准书号的图书实体,得到图书实体候选集。
在构建图书实体候选集时,可以直接根据国际标准书号从多个数据源中获取到具有相同国际标准书号的图书,作为图书实体候选集。
所述根据所述实体候选集确定所述实体类型对应的目标实体数据,具体可以包括:
采用层次聚类的方法对所述图书实体候选集进行划分,得到至少一个第一图书实体候选集集合;
确定所述第一图书实体候选集集合中各个候选集包含的图书实体的数量;
将所述图书实体数量最多的候选集对应的所述第一图书目标实体作为所述图书实体对应的图书目标实体;
确定所述图书实体数量最多的候选集中各图书实体的置信度;
根据所述置信度从所述图书实体数量最多的候选集中将满足所述置信度条件的各实体的属性数据作为所述图书目标实体对应的目标实体数据。
需要说明的是,实体候选集中的实体可能不相同,甚至一些实体的信息可能会发生错误,比如:数据源2错将B的ISBN写成了A的ISBN,此时,候选集中出现A1,A2,A3,B2。此时可以进行实体关联分析,分析候选集中实体之间的关联性,确定候选集中对应的实体是A1,A2,A3,将B2排除。
具体地,在采用层次聚类的方法对所述图书实体候选集进行划分时,可以在不同层次对数据集进行划分,然后设定候选集中各实体之间的距离阈值,并通过设定阈值的划分候选集,并确定各个候选集所指向的实体,判断各个候选集中图书实体的数量,将数量最多的候选集所指向的实体确定为图书目标实体。
更为具体地,采用层次聚类的方法对候选集进行聚类时,可以定义候选集中实体之间的距离,实体之间的距离由各个属性之间的距离加权获得。即:
其中:A的属性为A1,A2,…Ai,…,An,B的属性为B1,B2,…Bi,…,Bn,wi为属性i的权重,disi(Ai,Bi)表示A,B在属性i上的距离。
在具体计算属性上的距离时,计算依据可以是:
1)对于书名来说:看书名是否相同、前后缀是否相同、分词后交集所占百分比。
2)对于看作者和译者来说:若有一方为空,则距离为0.5。对数据进行数据预处理(比如:拆分)后,拆分后可以判断每个拆分后的部分是否相同,前后缀是否相同,编辑距离。针对作者加译者(作为补充字段):也可以将两个属性合并再次比较。
针对出版社与作者,译者处理逻辑相似,区别是:针对出版社与作者、译者的处理逻辑中不需要比较编辑距离。
4)对于简介来说:可以删除特殊字符,计算编辑距离,若低于阈值,则判定两者相同。否则,根据词频-逆向文件频率技术(TF-IDF(term frequency–inverse documentfrequency)筛选两者关键词,计算cosine距离(余弦距离)。
5)计算实体距离加权求和时,在实际应用中,两个实体在某一个属性上的值一般不为空,但是不能排除属性为空的可能性,当两个实体在某一个属性上的值为空时,不比较,并相应调整其它属性权重的值。
另外,在确定图书目标实体时,还可以通过多数投票的方式来决定该ISBN所对应的目标实体。具体地,可以使用动态权重多数投票的方式,可以根据实体来源的可信程度,为每个数据源分配其投票的权重,可信度高的,最后得票数多的目标实体作为该ISBN对应的目标实体
上述方法中,采用层次聚类的方法确定目标实体,除此之外,还可以采用其他聚类方法进行处理,上述方法仅作为本方案中的一个可实现的实施例,并不对本方案的范围构成任何影响。通过上述方法,保证确定出的实体类型对应的目标实体更为准确。
所述图书实体数据包括图书书名、国际标准书号以及图书简介中的一个或多个;所述将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集,具体可以包括:
将所述图书目标实体对应的目标实体数据进行融合,得到所述图书目标实体对应的融合后实体数据集,所述图书目标实体对应的融合后实体数据集中一个所述国际标准书号对应一个所述图书书名和/或一个所述图书简介。
在进行图书实体对应的实体数据融合时,可以判定候选集中各个实体的置信度,具体可以根据图书封面的CCR信息,实体来源、实体所在web网页的相关信息以及属性的数量来进行计算。根据计算得到的置信度,选取置信度最高的一个实体作为融合后的实体主干。对于其他满足置信度条件的实体,判断与该实体在各个属性上的差异,并根据置信度来决定是否将信息补充到融合后的实体当中。
在具体计算置信度时,可以采用方式:
所述确定所述图书实体数量最多的候选集中各图书实体的置信度,具体可以包括:
确定所述图书实体数量最多的候选集中各图书实体对应的封面光学字符识别信息;
确定所述图书实体数量最多的候选集中各图书实体的数据来源的优先级;
确定所述图书实体数量最多的候选集中各图书实体对应的属性数量;
根据所述封面光学字符识别信息、所述数据来源的优先级以及所述属性数量计算所述图书实体数量最多的候选集中每个图书实体的置信度。
为了了解置信度的计算方法,可以举例进行说明。
例如:某图书实体中,
图书封面的OCR结果为:
[{"words":"日]太宰治·著烨伊·译"}
,{"words":"人间失格"},
{"words":"胆小鬼连幸福都会害怕,"},
{"words":"碰到棉花都会受伤,有时还会被幸福所伤。"},
{"words":"与川端康成、三岛由纪夫并驾齐驱的战后日本文学巨匠"},
{"words":"太宰治遗稿《Goodbye》"},
{"words":"首次在大陆正式出版发行"}
,{"words":"生的困惑,爱的无能,凄美的文字,绝望的剖白"},
{"words":"一部纯粹的“私小说”,太宰治的灵魂之书"},
{"words":"武汉出版社"}]},
但是查询到的实体数据为:图书实体的名称为《人间失格》,作者:无,出版社:为人民出版社,译者:无,ISBN为:9787543064089,来源优先级:比如:平台1为1.2,平台2为0.8。
从上述信息中可以看出:出版社字段:人民出版社和封面中的武汉出版社不对应,5个属性中有一个错误,评分可以记为0.8,实体来源:平台2为0.85个实体属性数量,作者和译者两个为空,可记为0.6,Web的评论信息:28000+人评价,多于阈值10000,加分:1.3。
所以最终的置信度可以表示为0.8*0.8*0.6*1.3=0.4992。
通过上述融合方法,可以保证融合后的实体信息准确,可信度高,且保证该实体对应的信息完整,提升融合效果。
方法二、当实体类型为人物实体时:
所述实体类型为人物实体,实体数据还包括各所述实体之间的关系数据;在确定所述实体类型对应的实体候选集时,可以根据各所述实体之间的关系数据,确定所述图书目标实体对应的第一人物实体候选集。
确定候选集之后,可以从第一人物实体候选集中选择名称较长的人物实体作为人物目标实体;
从互联网数据中确定所述人物实体候选集中各人物实体对应的相似实体,放入所述人物实体候选集中,得到第二人物实体候选集;
根据所述第二人物实体候选集中各人物实体搜索来源的置信度从所述第二人物实体候选集中将满足所述置信度条件的各实体的属性数据作为所述人物目标实体对应的目标实体数据。
人物实体可以包括作者,译者,编者等。在确定候选集时,可以根据上述抽取到的各实体之间的关系数据与上述步骤中得到的图书目标实体为依据,可以以每一本书为单位划分人物实体集。同一本书对应的人物实体集中,需要说明的是,本方案中仅考虑一本书的作者同名即是同一人,不考虑同名两个人的情况。选取名称最长(最完整)的名字作为融合后人物实体的名称,其它实体名称若不同则作为别名。简介若不相同,则放在一起,以特殊符号分割,缩小人物实体集的数量,采用别名可以扩大召回率,使得指向同一个目标实体的实体不会被漏掉,得到第一候选集。
在从互联网数据中确定所述人物实体候选集中各人物实体对应的相似实体时,可以根据候选集中的人物名称和简介寻找每一个实体的相似实体,并将这些实体放入候选集中,接着将候选集中每一个实体的相似实体放入候选集中,形成新的候选集。在新的候选集中的每一个实体都有一个和最初实体的距离。这个距离可以由人名和简介加权得到。通过设定阈值的方式,得到对应于同一目标实体的人物实体候选集。
在人物构建的过程中考虑到同名的可能性,可以采用延迟决策的策略:
除了第一步同一本书内的作者关联分析外,广域的候选集构建时,将不存在简介的同名人物认为与存在简介的人物不同,将其单独归为一类,指向没有简介的人物目标实体。在使用该目标实体时,将决策权交给使用者。
所述将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集,具体可以包括:
将所述人物目标实体对应的目标实体数据进行融合,得到所述人物目标实体对应的融合后实体数据集。上述方法中,根据不同源中图书实体和人物实体的关联关系,初步确立一个图书目标实体对应的人物目标实体的实体候选集。对这个候选集进行关联性分析,将指向同一目标实体的实体融合,缩小数据量。对于每一个实体,在上一步得到的实体集中搜索并记录与自己相似的实体。然后集联相似实体,形成最终候选集。这种方法可以在大量的人物实体信息中快速确立候选集。
对候选集中的各个实体确定相似实体并放入候选集中,能保证确定出的目标实体的准确性,且能为后续的数据融合提供更加完整的信息。
在进行人物实体融合时,可以根据数据源的置信度选择置信度最高的实体作为结果的人物实体的姓名和简介属性,其它的实体的属性值则放到额外属性当中。
当实体类型为出版品牌实体时,其目标实体数据的融合方法可以参见上述方法二中对于人物实体对应的目标实体数据融合的方法来实现。
方法三、当实体类型为出版社实体时:
每个图书ISBN都可以解析出对应的出版社ISBN。若该ISBN出现在官方公开信息中,则使用官方信息。若未出现,则将相同ISBN的出版社作为候选集,采用多数投票的方式决定该出版社目标实体对应的出版社实体。
具体地,所述确定所述实体类型对应的实体候选集,具体可以包括:
按照解析规则从所述国际标准书号解析得到所述国际标准书号对应的出版社的国际标准书号代码;
根据所述国际标准书号代码从指定网站中确定所述国际标准书号对应的出版社目标实体以及所述出版社实体对应的目标实体数据;
在实际应用中,每一个出版社都会被分配ISBN,在出版图书时将出版社的ISBN将出现在图书的ISBN中,并可以根据规则从图书的ISBN中解析出出版社的ISBN。即每一个出版社ISBN对应一个出版社目标实体,这一步是将出版社实体集映射到对应的出版社目标实体中。
在对出版社实体对应的目标实体数据进行融合时,可以首先确定指定网站中是否存在简称或者改名的实体,比如:XX科学技术出版社,XX科技出版社。如果存在,可以将存在简称或改名的实体作为出版社目标实体的别名进行记录。
按照解析规则从所述国际标准书号解析得到所述国际标准书号对应的出版社的国际标准书号代码之后,还可以包括:
根据所述国际标准书号代码从非指定网站中确定所述国际标准书号对应的出版社实体候选集;
采用多数投票的方式确定所述出版社实体候选集中的出版社目标实体。
指定网站可以表示的是能够给出权威信息的网站,可以理解为从指定网站得到的信息为准确的信息,可以以指定网站中的信息为比对标准信息,判断实体信息是否与官方数据匹配。
通过上述方法,消除了提取得到的图书、人物、出版社、出版品牌实体数据的冗余,并将指向同一目标实体的实体数据进行融合,融合后实体数据中的实体可以认为与目标实体一一对应。克服了现有技术中同一ISBN搜索对象不唯一、信息不完整且不准确的缺陷。
在将各实体类型对应的目标实体数据进行融合后,可以建立各所述融合后实体数据集之间的关联关系,具体可以包括:
根据各所述实体之间的关系数据建立所述国际标准书号、所述各实体类型以及所述各实体类型融合后实体数据集之间的关联关系。
通过这一步骤是建立ISBN与各实体之间的关系:如:A书是一个实体,人物B是一个实体,他们之间的关系为作者,此时,B就是A书的作者。
在信息提取的过程中,除了得到实体信息外,还提取到了实体之间的关系。在上一步实体融合中,保存了最终得到的目标实体与原实体之间的对应关系。可以根据原实体之间的对应关系,映射到融合后的目标实体的对应关系,从而确定目标实体之间是否存在关系。由于数据源多样,为了确定关联关系的类别,需要定义不同数据源之间的映射关系:包括同位关系(如authors和作者),或者上下位关系(如某些源中,作者关系还指代了译者和编者,而其它源则严格划分)。对于同位关系,只需要做简单的映射即可,对于上下位关系,可以选择使用下位的关系即更具体的关系作为两者之间的关系类型。
在对各实体类型以及ISBN进行关联关系建立时,可以根据各个目标实体所对应的实体之间的关系,可以确定各个图书,人物,出版社,出版品牌目标实体之间是否存在关系。根据各个来源之间关系的对应关系,确定目标实体(最终合成的实体)之间的关系类别。需要说明的是,将所述融合后的实体数据集以及所述关联关系存储到数据库中之前,还可以包括:
对所述关联关系以及所述融合后的实体数据集进行评估,得到评估结果;
根据所述评估结果,将满足评估条件的关联关系以及融合后的实体数据集存储到图书库中。
质量评估可以理解为评估目标实体以及关联关系的质量。为了保证数据库中存储的实体数据的质量,需要审核通过才能存储到数据库中。
质量评估可以分为两个阶段:自动评估和人工评估
自动评估是可以训练一个神经网络模型,对生成的实体的属性质量进行评估,并抛出质量不好交给人工评估。根据图书实体封面OCR,判断实体之间关系的质量。并将置信度低的交给人工评估。
人工评估可以手动评估由前一阶段抛出的置信度低的实体与实体间的关系。并从通过前一阶段的集合中抽取一定百分比进行复审。
通过上述方法,可以保证存储到数据库中的实体数据的准确性和完整性,加快复杂查询的响应速度,可以构建一个可靠完整的图书信息库,为外界提供较为准确的图书信息。构造图书实体的同时也构造了相关本体:人物,出版社,出版品牌,为其它业务提供数据支撑。建立的各个实体之间的复杂关系可以支持快速响应复杂查询。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图3为本说明书实施例提供的对应于图2的一种多源实体数据融合装置的结构示意图。如图3所示,该装置可以包括:
国际标准书号确定模块302,用于确定待融合的国际标准书号;
实体数据确定模块304,用于根据所述国际标准书号获取来自多个数据源的所述ISBN编号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
目标实体数据确定模块306,用于确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
数据融合模块308,用于将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
关联关系建立模块310,用于建立各所述融合后实体数据集之间的关联关系;
存储模块312,用于将所述融合后的实体数据集以及所述关联关系存储到数据库中。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
可选的,所述目标实体数据确定模块306,具体可以包括:
第一实体候选集确定单元,用于确定每个所述实体类型对应的实体候选集;
第一目标实体数据确定单元,用于从所述实体候选集中确定所述实体类型对应的目标实体数据。
可选的,所述实体类型为图书实体,所述第一实体候选集确定单元,具体可以用于:
根据所述国际标准书号从所述实体数据中确定具有同一所述国际标准书号的图书实体,得到图书实体候选集。
可选的,所述第一目标实体数据确定单元,具体可以用于:
采用层次聚类的方法对所述图书实体候选集进行划分,得到至少一个第一实体候选集集合;
确定所述第一实体候选集集合中各个候选集包含的图书实体的数量;
确定所述图书实体数量最多的候选集中各图书实体的置信度;
将满足所述置信度条件的各图书实体的属性数据作为所述图书实体对应的目标实体数据。
可选的,所述图书实体数据包括图书书名、国际标准书号以及图书简介中的一个或多个;
所述数据融合模块308,具体可以包括:
第一数据融合单元,用于将所述图书实体对应的目标实体数据进行融合,得到所述图书实体对应的融合后实体数据集,所述图书实体对应的融合后实体数据集中一个所述国际标准书号对应一个所述图书书名和/或一个所述图书简介。
可选的,所述实体类型为人物实体,所述实体数据还包括各所述实体之间的关系数据;所述第二实体候选集单元,具体可以用于:
根据各所述实体之间的关系数据,确定所述图书实体对应的第一人物实体候选集。
可选的,所述第二目标实体数据确定单元,具体可以用于:
从互联网数据中确定所述人物实体候选集中各人物实体对应的相似实体,放入所述人物实体候选集中,得到第二实体候选集;
根据所述第二实体候选集中各人物实体来源的置信度从所述第二实体候选集中将满足所述置信度条件的各人物实体的属性数据作为所述人物实体对应的目标实体数据。
可选的,所述人物实体数据包括作者名称、译者名称及编者名称中的一个或多个;
所述数据融合模块308,具体可以用于:
第二数据融合单元,用于将所述人物实体对应的目标实体数据进行融合,得到所述人物实体对应的融合后实体数据集。
可选的,所述实体类型为出版社实体,所述第三实体候选集,具体可以用于:
按照解析规则从所述国际标准书号解析得到所述国际标准书号对应的出版社的国际标准书号代码;
根据所述国际标准书号代码从指定网站中确定所述国际标准书号对应的出版社实体以及所述出版社实体对应的目标实体数据。
可选的,所述第三实体候选集,还可以用于:
根据所述国际标准书号代码从非指定网站中确定所述国际标准书号对应的出版社实体候选集;
采用多数投票的方式确定所述出版社实体候选集中的出版社目标实体以及所述出版社实体对应的目标实体数据。
可选的,所述关联关系建立模块310,具体可以包括:
关联关系建立单元,用于根据各所述实体之间的关系数据建立所述国际标准书号、所述各实体类型以及所述各实体类型融合后实体数据集之间的关联关系。
可选的,所述第一数据融合单元,具体可以用于:
确定所述图书实体数量最多的候选集中各图书实体对应的封面光学字符识别信息;
确定所述图书实体数量最多的候选集中各图书实体的数据来源的优先级;
确定所述图书实体数量最多的候选集中各图书实体对应的属性数量;
根据所述封面光学字符识别信息、所述数据来源的优先级以及所述属性数量计算所述图书实体数量最多的候选集中每个图书实体的置信度。
可选的,所述装置,还可以包括:
评估模块,用于对所述关联关系以及所述融合后的实体数据集进行评估,得到评估结果;
存储模块,用于根据所述评估结果,将满足评估条件的关联关系以及融合后的实体数据集存储到图书库中。
可选的,所述装置,还可以包括:
数据清洗模块,用于对所述实体数据进行数据清洗。
图4为本说明书实施例提供的对应于图2的一种多源实体数据融合设备的结构示意图。如图4所示,设备400可以包括:
至少一个处理器410;以及,
与所述至少一个处理器通信连接的存储器430;其中,
所述存储器430存储有可被所述至少一个处理器410执行的指令420,所述指令被所述至少一个处理器410执行,以使所述至少一个处理器410能够:
确定待融合的国际标准书号;
根据所述国际标准书号获取来自多个数据源的所述ISBN编号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
建立各所述融合后实体数据集之间的关联关系;
将所述融合后的实体数据集以及所述关联关系存储到数据库中。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定人物或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行人物。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。
Claims (14)
1.一种多源实体数据融合方法,其特征在于,包括:
确定待融合的国际标准书号;
根据所述国际标准书号获取来自多个数据源的所述国际标准书号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
建立各所述融合后实体数据集之间的关联关系;
将所述融合后实体数据集以及所述关联关系存储到数据库中;
其中,所述确定每个所述实体类型对应的目标实体数据,具体包括:
确定每个所述实体类型对应的实体候选集;
从所述实体候选集中确定所述实体类型对应的目标实体数据;
其中,所述确定所述实体类型对应的实体候选集,具体包括:
根据所述国际标准书号从所述实体数据中确定具有同一所述国际标准书号的图书实体,得到图书实体候选集;
其中,所述根据所述实体候选集确定所述实体类型对应的目标实体数据,具体包括:
采用层次聚类的方法对所述图书实体候选集进行划分,得到至少一个第一实体候选集集合;
确定所述第一实体候选集集合中各个候选集包含的图书实体的数量;
确定所述图书实体数量最多的候选集中各图书实体的置信度;
将满足置信度条件的各图书实体的属性数据作为所述图书实体对应的目标实体数据。
2.如权利要求1所述的方法,其特征在于,所述图书实体数据包括图书书名、国际标准书号以及图书简介中的一个或多个;
所述将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集,具体包括:
将所述图书实体对应的目标实体数据进行融合,得到所述图书实体对应的融合后实体数据集,所述图书实体对应的融合后实体数据集中一个所述国际标准书号对应一个所述图书书名和/或一个所述图书简介。
3.如权利要求1所述的方法,其特征在于,所述实体类型为人物实体,所述实体数据还包括各所述实体之间的关系数据;所述确定所述实体类型对应的实体候选集,具体包括:
根据各所述实体之间的关系数据,确定所述图书实体对应的第一人物实体候选集。
4.如权利要求3所述的方法,其特征在于,所述根据所述实体候选集确定所述实体类型对应的目标实体数据,具体包括:
从互联网数据中确定所述人物实体候选集中各人物实体对应的相似实体,放入所述人物实体候选集中,得到第二实体候选集;
根据所述第二实体候选集中各人物实体来源的置信度从所述第二实体候选集中将满足置信度条件的各人物实体的属性数据作为所述人物实体对应的目标实体数据。
5.如权利要求4所述的方法,其特征在于,所述人物实体数据包括作者名称、译者名称及编者名称中的一个或多个;
所述将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集,具体包括:
将所述人物实体对应的目标实体数据进行融合,得到所述人物实体对应的融合后实体数据集。
6.如权利要求1所述的方法,其特征在于,所述实体类型为出版社实体,所述从所述实体候选集中确定所述实体类型对应的目标实体数据,具体包括:
按照解析规则从所述国际标准书号解析得到所述国际标准书号对应的出版社的国际标准书号代码;
根据所述国际标准书号代码从指定网站中确定所述国际标准书号对应的出版社实体以及所述出版社实体对应的目标实体数据。
7.如权利要求6所述的方法,其特征在于,按照解析规则从所述国际标准书号解析得到所述国际标准书号对应的出版社的国际标准书号代码之后,还包括:
根据所述国际标准书号代码从非指定网站中确定所述国际标准书号对应的出版社实体候选集;
采用多数投票的方式确定所述出版社实体候选集中的出版社目标实体以及所述出版社实体对应的目标实体数据。
8.如权利要求3所述的方法,其特征在于,所述建立各所述融合后实体数据集之间的关联关系,具体包括:
根据各所述实体之间的关系数据建立所述国际标准书号、所述各实体类型以及所述各实体类型融合后实体数据集之间的关联关系。
9.如权利要求1所述的方法,其特征在于,所述确定所述图书实体数量最多的候选集中各图书实体的置信度,具体包括:
确定所述图书实体数量最多的候选集中各图书实体对应的封面光学字符识别信息;
确定所述图书实体数量最多的候选集中各图书实体的数据来源的优先级;
确定所述图书实体数量最多的候选集中各图书实体对应的属性数量;
根据所述封面光学字符识别信息、所述数据来源的优先级以及所述属性数量计算所述图书实体数量最多的候选集中每个图书实体的置信度。
10.如权利要求1所述的方法,其特征在于,所述将所述融合后实体数据集以及所述关联关系存储到数据库中之前,还包括:
对所述关联关系以及所述融合后实体数据集进行评估,得到评估结果;
根据所述评估结果,将满足评估条件的关联关系以及融合后实体数据集存储到图书库中。
11.如权利要求1所述的方法,其特征在于,所述确定每个所述实体类型对应的目标实体数据之前,还包括:
对所述实体数据进行数据清洗。
12.一种多源实体数据融合装置,其特征在于,包括:
国际标准书号确定模块,用于确定待融合的国际标准书号;
实体数据确定模块,用于根据所述国际标准书号获取来自多个数据源的所述国际标准书号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
目标实体数据确定模块,用于确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
数据融合模块,用于将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
关联关系建立模块,用于建立各所述融合后实体数据集之间的关联关系;
存储模块,用于将所述融合后实体数据集以及所述关联关系存储到数据库中;
其中,所述确定每个所述实体类型对应的目标实体数据,具体包括:
确定每个所述实体类型对应的实体候选集;
从所述实体候选集中确定所述实体类型对应的目标实体数据;
其中,所述确定所述实体类型对应的实体候选集,具体包括:
根据所述国际标准书号从所述实体数据中确定具有同一所述国际标准书号的图书实体,得到图书实体候选集;
其中,所述根据所述实体候选集确定所述实体类型对应的目标实体数据,具体包括:
采用层次聚类的方法对所述图书实体候选集进行划分,得到至少一个第一实体候选集集合;
确定所述第一实体候选集集合中各个候选集包含的图书实体的数量;
确定所述图书实体数量最多的候选集中各图书实体的置信度;
将满足置信度条件的各图书实体的属性数据作为所述图书实体对应的目标实体数据。
13.一种多源实体数据融合设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
确定待融合的国际标准书号;
根据所述国际标准书号获取来自多个数据源的所述国际标准书号对应的实体数据;所述实体数据包括多个实体类型的数据;所述实体类型包括图书实体、人物实体、出版社实体以及出版品牌实体;
确定每个所述实体类型对应的目标实体数据,得到多个目标实体数据集合;
将每个所述目标实体数据集合中的目标实体数据进行融合,得到每个所述实体类型对应的融合后实体数据集;
建立各所述融合后实体数据集之间的关联关系;
将所述融合后实体数据集以及所述关联关系存储到数据库中;
其中,所述确定每个所述实体类型对应的目标实体数据,具体包括:
确定每个所述实体类型对应的实体候选集;
从所述实体候选集中确定所述实体类型对应的目标实体数据;
其中,所述确定所述实体类型对应的实体候选集,具体包括:
根据所述国际标准书号从所述实体数据中确定具有同一所述国际标准书号的图书实体,得到图书实体候选集;
其中,所述根据所述实体候选集确定所述实体类型对应的目标实体数据,具体包括:
采用层次聚类的方法对所述图书实体候选集进行划分,得到至少一个第一实体候选集集合;
确定所述第一实体候选集集合中各个候选集包含的图书实体的数量;
确定所述图书实体数量最多的候选集中各图书实体的置信度;
将满足置信度条件的各图书实体的属性数据作为所述图书实体对应的目标实体数据。
14.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至11中任一项所述的多源实体数据融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910801562.9A CN110516011B (zh) | 2019-08-28 | 2019-08-28 | 一种多源实体数据融合方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910801562.9A CN110516011B (zh) | 2019-08-28 | 2019-08-28 | 一种多源实体数据融合方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516011A CN110516011A (zh) | 2019-11-29 |
CN110516011B true CN110516011B (zh) | 2022-06-21 |
Family
ID=68628695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910801562.9A Active CN110516011B (zh) | 2019-08-28 | 2019-08-28 | 一种多源实体数据融合方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516011B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925856B (zh) * | 2019-12-06 | 2023-09-19 | 中国移动通信集团重庆有限公司 | 实体关系分析方法、装置、分析设备及计算机存储介质 |
CN111414408B (zh) * | 2020-03-11 | 2023-08-01 | 成都数融科技有限公司 | 基于区块链的数据可信表示的方法及装置 |
CN112231524A (zh) * | 2020-10-22 | 2021-01-15 | 北京天融信网络安全技术有限公司 | 一种数据融合方法、装置、存储介质及电子设备 |
CN112765183B (zh) * | 2021-02-02 | 2022-02-11 | 浙江公共安全技术研究院有限公司 | 多源数据融合方法、装置、存储介质及电子设备 |
CN113971216B (zh) * | 2021-10-22 | 2023-02-03 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201207773D0 (en) * | 2012-05-03 | 2012-06-13 | Casselden Thomas | Modular alpine ski system |
CN103729457A (zh) * | 2014-01-09 | 2014-04-16 | 中南出版传媒集团股份有限公司湖南教育出版社分公司 | 基于互联网的数字化图书辅助阅读系统及其方法 |
CN107341220A (zh) * | 2017-06-28 | 2017-11-10 | 阿里巴巴集团控股有限公司 | 一种多源数据融合方法和装置 |
CN107545046A (zh) * | 2017-08-17 | 2018-01-05 | 北京奇安信科技有限公司 | 一种多源异构数据的融合方法及装置 |
CN109582842A (zh) * | 2018-10-26 | 2019-04-05 | 深圳壹账通智能科技有限公司 | 信息录入方法、装置、计算机设备及存储介质 |
CN109615004A (zh) * | 2018-12-07 | 2019-04-12 | 江苏瑞中数据股份有限公司 | 一种多源数据融合的防窃电预警方法 |
-
2019
- 2019-08-28 CN CN201910801562.9A patent/CN110516011B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201207773D0 (en) * | 2012-05-03 | 2012-06-13 | Casselden Thomas | Modular alpine ski system |
CN103729457A (zh) * | 2014-01-09 | 2014-04-16 | 中南出版传媒集团股份有限公司湖南教育出版社分公司 | 基于互联网的数字化图书辅助阅读系统及其方法 |
CN107341220A (zh) * | 2017-06-28 | 2017-11-10 | 阿里巴巴集团控股有限公司 | 一种多源数据融合方法和装置 |
CN107545046A (zh) * | 2017-08-17 | 2018-01-05 | 北京奇安信科技有限公司 | 一种多源异构数据的融合方法及装置 |
CN109582842A (zh) * | 2018-10-26 | 2019-04-05 | 深圳壹账通智能科技有限公司 | 信息录入方法、装置、计算机设备及存储介质 |
CN109615004A (zh) * | 2018-12-07 | 2019-04-12 | 江苏瑞中数据股份有限公司 | 一种多源数据融合的防窃电预警方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110516011A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516011B (zh) | 一种多源实体数据融合方法、装置及设备 | |
Ehrmann et al. | Extended overview of CLEF HIPE 2020: named entity processing on historical newspapers | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
US20120102002A1 (en) | Automatic data validation and correction | |
CN107122400B (zh) | 使用视觉提示细化查询结果的方法、计算系统及存储介质 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
US20130226559A1 (en) | Apparatus and method for providing internet documents based on subject of interest to user | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
Geiß et al. | Neckar: A named entity classifier for wikidata | |
Alexander et al. | Metaphor, popular science, and semantic tagging: Distant reading with the Historical Thesaurus of English | |
CN105653547A (zh) | 一种提取文本关键词的方法和装置 | |
CN112948449A (zh) | 一种信息推荐的方法及装置 | |
Chardonnens et al. | Mining user queries with information extraction methods and linked data | |
CN109492401B (zh) | 一种内容载体风险检测方法、装置、设备及介质 | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和系统 | |
CN110096571B (zh) | 一种机构名简称生成方法和装置、计算机可读存储介质 | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
Neumaier et al. | Geo-semantic labelling of open data | |
JP2020123321A (ja) | クリップボードデータに基づく検索処理方法および装置 | |
JP2004240488A (ja) | 文書管理装置 | |
Silcock et al. | Newswire: A Large-Scale Structured Database of a Century of Historical News | |
Efremova et al. | A geo-tagging framework for address extraction from web pages | |
CN113535895A (zh) | 搜索文本处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100000 room 701, 6 / F, building 1, No. 1, xidawang Road, Chaoyang District, Beijing Applicant after: Beijing Mind Creation Information Technology Co.,Ltd. Address before: Room 2802, 24 / F, building 4, 89 Jianguo Road, Chaoyang District, Beijing Applicant before: Beijing Mind Creation Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |