CN116450634B - 一种数据源权重评估方法及其相关装置 - Google Patents
一种数据源权重评估方法及其相关装置 Download PDFInfo
- Publication number
- CN116450634B CN116450634B CN202310705768.8A CN202310705768A CN116450634B CN 116450634 B CN116450634 B CN 116450634B CN 202310705768 A CN202310705768 A CN 202310705768A CN 116450634 B CN116450634 B CN 116450634B
- Authority
- CN
- China
- Prior art keywords
- data source
- data
- evaluation
- acquiring
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 abstract description 37
- 230000007547 defect Effects 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 abstract description 2
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 102100039217 3-ketoacyl-CoA thiolase, peroxisomal Human genes 0.000 description 1
- 101100153048 Homo sapiens ACAA1 gene Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据源权重评估方法及其相关装置,涉及数据清洗技术领域。包括:获取第一数据集;基于所述第一数据集,获取第二数据集;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重。本申请通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。
Description
技术领域
本申请涉及数据清洗技术领域,具体为一种数据源权重评估方法及其相关装置。
背景技术
真值发现是一种用于从冲突数据中提取有效信息的先进技术,是数据融合中的重要组成部分,能有效提高数据质量,极大降低虚假信息带来的影响。在真值发现任务中,最主要的任务就是对数据源的可信度(在真值发现算法中,数据源的可信度即是以其对应的权重体现的)进行准确估计。
目前,常用的数据源的可信度评估方法有一致性方法和先验方法。其中,一致性方法,即对每个数据源分配同样的权重,此种方法在数据源完全遵从独立性假设时是可行的。但是在实际应用中,数据源之间可能存在信息复制拷贝,尤其是当部分数据源提供的数据是从不可靠数据源复制而来的时候,数据源的独立性假设将会失效。而目前所公开的先验方法,多种多样,例如:有学者通过数据源之间的相似性来获取数据源的权重,但这种方法无法处理独立的数据源;有些学者则利用已知的数据源的外部信息来获取权重,但这些数据源的权重并不总是已知的;还有些学者尝试通过检测数据源之间的复制拷贝关系来调整权重,但当提供相似观测值的数据源是从可靠的数据源的复制的时,该方法则会失效。
发明内容
本申请的目的在于提供一种数据源权重评估方法及其相关装置,可以解决真值发现算法中由于数据源权重不准确而导致的算法准确率低的问题。
为实现上述目的,本申请提供如下技术方案:
第一方面,本申请实施例提供一种数据源权重评估方法,所述方法包括:获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定。
在本申请的一个实施方式中,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。
在本申请的一个实施方式中,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。
在本申请的一个实施方式中,所述数据源偏离度的获取方法包括:基于所述第一数据集,获取至少一个第一聚类簇;基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;基于各个数据源之间的距离,获取所述数据源偏离度。
在本申请的一个实施方式中,所述数据源独立性的获取方法包括:基于所述第一聚类簇,获取至少一个第二聚类簇;基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:
其中,为数据源,/>为第一聚类簇/>形成的第二聚类簇数,/>为第二聚类簇/>中的数据源总数。
在本申请的一个实施方式中,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重,包括:基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;基于所述模糊评价矩阵,获取模糊综合评价向量;基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
第二方面,本申请的实施例提供一种数据源权重评估装置,包括:
获取模块,用于获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;以及,基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;
处理模块,用于基于所述第一数据集和所述第二数据集,获取至少一个评价因素;以及,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定;
在本申请的一个实施方式中,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。
在本申请的一个实施方式中,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。
在本申请的一个实施方式中,所述处理模块还用于,基于所述第一数据集,获取至少一个第一聚类簇;以及,基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;以及,基于各个数据源之间的距离,获取所述数据源偏离度。
在本申请的一个实施方式中,所述处理模块还用于,基于所述第一聚类簇,获取至少一个第二聚类簇;以及,基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:
其中,为数据源,/>为第一聚类簇/>形成的第二聚类簇数,/>为第二聚类簇/>中的数据源总数。
在本申请的一个实施方式中,所述处理模块还用于,基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;以及,基于所述模糊评价矩阵,获取模糊综合评价向量;以及,基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
在本申请的一个实施方式中,所述真值发现算法包括:TruthFinder算法、IRVote算法和IRDVote算法。
第三方面,本申请的实施例提供一种数据源权重评估设备,包括:存储器和处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如第一方面中任意一种实施例所述的数据源权重评估方法。
第四方面,本申请的实施例提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被执行时能够实现如第一方面中任意一种实施例所述的数据源权重评估方法。
与现有技术相比,本申请的有益效果是:
该方法通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。
附图说明
图1为本申请实施例所提出的数据源权重评估方法流程图;
图2为本申请实施例所提出的数据源权重评估装置的示意图;
图3为本申请实施例所提出的数据源权重评估设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地,描述显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如:第一数据集和第二数据集分别表示为不同的数据集,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据集在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
在了解本申请之前,需要清楚的是,由本申请的背景技术可知,本申请的技术方案主要是针对于真值发现的应用场景,而真值发现的应用场景是众多的,例如:医疗保健、群智感知、众包聚合以及人工智能等技术领域。由于,本申请方法的应用领域众多,因此,无法对各个领域进行一一介绍。在本申请的实施例中,以评估图书的数据源信息的权重为应用场景对本申请的方法及其相关装置进行说明。容易理解的是,本申请以评估图书的数据源信息的权重为应用场景,只是为了本领域的技术人员能够更加清楚和充分的理解本申请的数据源权重评估方法,其不代表本申请仅限于这一应用场景,在其他的应用场景中,遇到类似的技术问题时,也可以采用下述实施例中的技术方案,以解决类似的技术问题。下面以评估图书的数据源信息的权重这一应用场景,对本申请的技术方案进行详细说明。
如图1所示,本申请提供一种技术方案:一种数据源权重评估方法,该方法包括:
步骤S100:获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;
具体的,在本申请的实施例中第一数据集是指,需要进行权重评估所有收集到的所有数据源的集合,其通常包含有多个数据源。而目标对象是指,数据源中的信息描述的对象,在不同的应用场景中,其是不同的,例如:在以评估图书的数据源信息的权重这一应用场景中,图书即为目标对象,而数据源,是指用于描述目标对象信息的来源,例如:来自某些网站,或者来自某些纸质媒介等。容易联想到的是,在本申请中的实施例中,第一数据集的获取方式是多种多样的,其获取的方式不作为本申请的限制,例如:可以基于人工从网络上获取,也可以基于人工智能模型从网络上获取,也可以提前建立数据源库,从数据源库中进行提取。
在本申请一个具体的实施例中,第一数据集为,其中/>是数据源的总数,数据源/>描述的目标对象的集合为/>,数据源/>对目标对象/>的描述记为/>。
步骤S200:基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;也就是说,在本申请的实施例中,当获取第一数据集后,可以针对第一数据集中的目标对象,来获取第二数据集。
由上文可知,目标对象是指数据源进行描述的对象,第二数据集可以是所有的数据源描述的目标对象的总和,例如:数据源S1描述了n个目标对象,而数据源S2描述了m个目标对象,当数据源S1中n个目标对象与数据源S2中m个目标对象完全重合,且m大于n时,则第二数据集至少为包含有m个目标对象;最多为包含有m+n个目标对象的数据集。容易理解的是,在实施例中,第二数据集为,其中/>为目标对象的总数,其中n也为所有的数据源描述的目标对象的总个数。
在本申请的其他实施例中,第二数据集可以是不同数据源提供的目标对象的属性信息的总和,例如:在以评估图书的数据源信息的权重这一应用场景中,图书对象包含的属性信息如下:“国际编号:9787115205988;书名:ADOBEPHOTOSHOPCS4标准培训教材;作者:ACAA专家委员会,DDC传媒”等。不同的数据源针对同一个图书对象/>提供的属性信息可能会不同。
步骤S300:基于所述第一数据集和所述第二数据集,获取至少一个评价因素;
具体的,在本申请中评价因素是指,第一数据集中各个数据源之间的关联性,需要清楚的是,获取评价因素的目的是为了获取各个数据源之间的隶属度的定量评价,其方法众多,例如:模糊综合评价法、综合指数法和层次分析法等。
本申请实施例提出了以下评价因素:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性。
具体的,在本申请的实施例中,所述数据源覆盖度是指数据源中的包含的目标对象在第二数据集中所占据的比例,需要清楚的是,当这个比例越高,说明数据源中所描述的目标对象就越多,说明第一数据集中的数据源权威性较高。
需要清楚的是,基于上述的原理,可以采用多种方法来计算数据源覆盖度,例如:可以基于第二数据集中与数据源中的目标对象的信息条数计算数据源覆盖度。在本申请的一个具体的实施例中,所述数据源覆盖度至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例,具体的,其计算公式如下:
其中,为数据源覆盖度,/>为数据源/>中的描述的目标对象个数,n为第一数据集中目标对象的总个数,目标对象覆盖度越高,说明数据源的权威性越高。
具体的,在本申请的实施例中,所述数据源重要性,需要参考各个数据源的外部评价,可以根据数据源的具体类型而调整,对此不做任何限制。例如:当数据源来自于网站时,可以使用百度或者谷歌等搜索引擎对该网站的排名或网页级别(PageRank,PR)等数据源来充当该评估指标。
因此,在本申请的一个具体的实施例中,所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;具体的,其计算公式如下:
需要清楚的是,在本申请的其他实施例中,可以按照实际需求,修改或者调整数据源重要性,例如:可以将数据源重要性为1的PR值范围,由修改为/>5,或者将PR值范围为/>,数据源所对应的数据源重要性修改为0.7,对此不做任何限制。
所述数据源权威性,主要从数据源来源是否权威来对数据源进行评判。例如:数据源来源是国家政府行政机构、知名企业或相关领域专家、其他等,因此,在本申请的一个具体的实施例中,所述数据源权威性至少包括:各个数据源的来源评分,也即针对不同的数据源的来源,给数据源赋予不同的评分,具体的,其公式如下:
需要清楚的是,在本申请的其他实施例中,可以按照实际需求,修改或者调整数据源权威性,例如:可以将数据源权威性为1的来源,由政府行政机构修改为国家官方媒体,或者将数据源来源为知名企业,所对应的数据源权威性修改为0.7,对此不做任何限制。
具体的,在本申请的实施例中,数据源偏离度和数据源独立性是指对第一数据集合提供的目标对象描述集合的准确性及独立性进行来评估数据源的权重。需要清楚的是,评估数据源的准确性和独立性的方法是多种多样的,在本申请中,可以采用任意一种常见的方法来评估数据源的准确性和独立性,在本申请一个具体的实施例中,所述数据源偏离度的获取方法包括:
步骤S310:基于所述第一数据集,获取至少一个第一聚类簇;
具体的,聚类的方式是多样的,其可以采用任意种常见的以数据源之间的相似度进行聚类方式,例如:以数据源中的相同的目标对象数量进行聚类,或者以数据源中相同的目标对象的描述信息数据源进行聚类。
在本申请的一个具体的实施例中,将第一数据集中所有的数据源按照目标对象集合的重复度进行聚类。此时任意两个数据源和/>之间的距离使用如下公式计算:
其中,为数据源/>和数据源/>描述的所有实体对象的总数,/>为数据源/>和数据源/>共同描述的实体对象的总数。使用k-means算法将第一数据集S划分为/>个类,其聚类结果记为/>,也就是说获取了k个第一聚类簇。
步骤S320:基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;
具体的,计算任意两个数据源之间的距离方法是多种多样的,例如:欧式距离、曼哈顿距离、切比雪夫距离、余弦距离、相关系数距离和马氏距离等,在本申请中对其距离的计算方法,可以采用任意种方法进行计算,不做任何限制。
在本申请的一个具体的实施例中,对于第一次聚类形成的第一聚类簇中的数据源,按如下公式计算任意两个数据源/>和/>之间的距离。具体如下:
其中,的计算方法可以根据/>和/>类型的不同而调整。比如,对于单真值发现任务可以使用编辑距离或欧式距离等来计算相似度,而对于多真值发现任务,可以使用jaccard相似度来计算,具体对此不做限制。
步骤S330:基于各个数据源之间的距离,获取所述数据源偏离度。
具体的,理想情况下,每一个簇中的数据源之间的距离越近越好,这说明他们针对相似的实体对象提供的描述也相似,可信度越高即权重越高。反之,数据源分布的越分散,描述的可信度越低,权重也就越低。计算数据源偏离度时,也可以采用任意种常用的方法,在本申请一个具体的实施例中,通过计算每个数据源的局部离群因子(LocalOutlierFactor,LOF)来衡量数据源的偏离度lof_score。具体的,各个数据源的数据源偏离度计算公式如下:
其中,为数据源/>的/>距离邻域,/>距离邻域指的是与数据源/>之间距离小于p的所有其他数据源组成的集合,/>为数据源/>的局部可达密度。/>)值越大,那么数据源/>偏离度就越大,权重越低。/>值越接近1,那么该数据源/>的权重就越高。
在本申请的一个实施方式中,所述数据源独立性的获取方法包括:
步骤S340:基于所述第一聚类簇,获取至少一个第二聚类簇;
具体的,聚类的方式是多样的,其可以采用任意种常见的以数据源之间的相似度进行聚类方式,例如:以数据源中相同的目标对象的描述信息的相似度进行聚类。
在本申请一个具体的实施例中,基于所述第一聚类簇,获取至少一个第二聚类簇的方式如下:
步骤S341:先计算每个第一聚类簇中的数据源的偏离度平均值;
步骤S342:若偏离度平均值小于指定阈值,那么认为第一聚类簇/>中的数据源分布比较集中,为了扩大数据源之间的不相似性,需要对数据源之间的距离/>进行最大最小归一化。
具体的,在本实施例中,指定阈值可以为任意合适的数值,例如:指定阈值/>可以为0.8。而在本实施例中,也可以采用任意的最大最小归一化方法对数据源之间的距离进行处理,在此不做赘述。
步骤S343:使用DBSCAN算法对第一聚类簇中的数据源进行第二次聚类,将/>第二次聚类结果记为/>,也即,第一聚类簇/>被划分为z个第二聚类簇。
步骤S350:基于所述第二聚类簇,获取所述数据源独立性;
在第二次聚类结果中,被分配到同一个簇第二聚类簇中的数据源的相似度较高,有较大可能性存在复制拷贝关系。为了简化计算,这里使用如下方式计算数据源的独立性,所述数据源独立性包括:
其中,为数据源,/>为第一聚类簇/>形成的第二聚类簇数,/>为第二聚类簇/>中的数据源总数。
需要清楚的是,在本申请的其他实施例中,评价因素可以为数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。
步骤S400:基于各个评价因素和各个评价因素的评价权重,计算各个数据源的权重;所述各个评价因素的评价权重预先设定;
需要清楚的是,在本申请的一个具体的实施例中,所述基于各个评价因素和各个评价因素的评价权重,计算各个数据源的权重,包括:
步骤S410:基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;
具体的,其方法如下:
步骤S411:构建综合评价的因素集。将数据源覆盖度、数据源重要性、数据源权威性/>、数据源偏离度/>、数据源独立性/>等指标加入评价因素集中。记其评价因素集为/>,并指定各个指标的权重为),且/>,需要清楚的是,在本实施例中各个指标的权重可以按照需求进行设置。
步骤S412:构造对象评价集。本实施例中将数据源的可信度划分为三个等级:特别可信,一般可信,很不可信三个层次的可信度表示,因此模糊评价集:。
步骤S413:构造模糊评价矩阵。针对每个数据源构建其单因素模糊评价矩阵。其中/>表示因素集/>中的第/>个因素对评价集/>中第/>个元素的隶属度。
步骤S420:基于所述模糊评价矩阵,获取模糊综合评价向量;
具体的,在本实施例中,针对每个数据源使用公式计算其评价向量B,其中/>表示数据源对评价集/>中第/>个元素的隶属度。
步骤S430:基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
具体的,采用加权平均算子是为了进一步量化权重,计算出的数值为数据源最终的权重评分,即数据源的权重。
需要清楚的是,在本申请的实施例中,获取各个数据源的权重的目的是,为了配合真值发现算法,从冲突矛盾的数据中找出真相发现真值。由于真值发现算法,是较为成熟的现有技术,因此,在本申请方法中不做展开赘述。容易理解的是,在本申请中所述真值发现算法包括但不仅限于:TruthFinder算法、IRVote算法和IRDVote算法。
同时,为了进一步的说明本申请方法的有效性与可靠性,本申请以在真实的ISBN-作者的这一应用场景,对本发明提出的数据源权重评估方法进行说明,其中ISBN-作者数据集中一共包括来自3个数据源(以S1、S2和S3进行标记)的161153本书上的共325400个观察值,部分观察值如表1所示。以ISBN为9787115205988的书籍为例,从表1上可以看到,不同的网站给出的作者信息相互冲突。如何从这些相互冲突的信息中找到正确的信息,即为本申请方法要解决的问题。
表1
常见的真值发现算法,以TruthFinder算法为例,通常给每个数据源赋予同样的信任度,表现在算法中,即每个数据源的初始权重都相等(一般设为1)。这种权重分配方案在数据源完全遵从独立性假设的时候是可行的,但在实际应用中,大部分的数据源之间可能并不服从独立性假设,因此,这种权重分配方案并不合理。为了解决这个问题,可以先使用本申请中的模糊综合评价方法对数据源的权重进行评估,并将得到的权重值作为TruthFinder等算法中的数据源的权重值。其具体计算过程如下:
计算各个数据源的数据源覆盖度:在本实施例中,各个数据源的实体覆盖度,可以通过各个数据源所描述的书籍总量与所有数据源描述的书籍总量的比值来计算。经计算,S1、S2、S3的实体覆盖度结果为:0.97、0.12、0.9。
计算各个数据源的数据源重要性:通过查询这三个数据源在谷歌搜索引擎上的PR值来计算其重要性。最终S1、S2、S3的重要性评分依次为:1、1、1。
计算各个数据源的数据源权威性:上述三个数据源中,S1为政府机构,S2、S3为知名企业,所以其各个数据源的权威性得分依次为:1、0.8、0.8。
计算各个数据源的数据源偏离度:
第一次聚类:此时根据数据源的对象结合的重合度计算数据源之间的距离,经计算,其距离矩阵如下:
根据上述矩阵,使用k-means算法对这三个数据源进行分组。最终将S1和S3分为一组,S2单独分为一组。
计算同一个簇中数据源之间的距离。因为S2自成一组,所以这里只需要计算S1和S3之间的距离。因为每一本书的作者不一定只有一个,所以本实施中的问题是多真值发现问题,可以采用jaccard相似度计算描述项之间的相似性。经计算,数据源S1和S3之间的距离为:。
计算标数据源偏离度:因为S1和S3分到了同一组,S2单独成一组,所以这里将这三个数据源的偏离度的得分都设为1。
计算各个数据源的数据源独立性:
第二次聚类:使用DBSCAN算法对S1和S2继续进行聚类,这里将他们分开,即S1、S2各自单独成一组。接着计算各个数据源的独立性评分。其最终独立性评分结果为:1、1、1。
收集以上数据源然后使用模糊综合评价方法对数据源的权重进行评估,其最终的权重评分为:0.95、0.4、0.8。接着将上述数据源权重数值传入TruthFinder算法中(以Fuzzy_TruthFinde标记),并与现有技术中的TruthFinder算法的结果进行比较。其结果如表2所示下:
表2
通过表2可知,通过本申请数据源权重评估方法获取权重配合TruthFinder算法所获得的结果准确率优于一致性方法所获得的结果准确率。
由上可知,在本申请实施例中,所获取的各个数据源的权重也就是各个数据源的可信度。因此,容易联想到的是,在某些实施例中,可以利用本申请的数据源权重评估方法来各个数据源的权重,来作为各个数据源的可信度。
上述的数据源权重评估方法,通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。
在介绍了本申请实施例的方法之后,接下来,参考图2对本申请数据源权重评估装置10进行介绍,所述装置包括:
获取模块11,用于获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;以及,基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;
处理模块12,用于基于所述第一数据集和所述第二数据集,获取至少一个评价因素;以及,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定;
在本申请的一个实施例中,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。
在本申请的一个实施例中,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。
在本申请的一个实施例中,所述处理模块12还用于,基于所述第一数据集,获取至少一个第一聚类簇;以及,基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;以及,基于各个数据源的数据源距离,获取所述数据源偏离度。
在本申请的一个实施例中,所述处理模块12还用于,基于所述第一聚类簇,获取至少一个第二聚类簇;以及,基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:
其中,为数据源,/>为第一聚类簇/>形成的第二聚类簇数,/>为第二聚类簇/>中的数据源总数。
在本申请的一个实施例中,所述处理模块12还用于,基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;以及,基于所述模糊评价矩阵,获取模糊综合评价向量;以及,基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
在本申请的一个实施例中,所述真值发现算法包括:TruthFinder算法、IRVote算法和IRDVote算法。
上述的数据源权重初始化装置,通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。
在介绍了本申请实施例的装置之后,接下来,参考图3对本申请数据源权重初始化设备20进行介绍,所述设备包括:
存储器21和处理器22;其中,所述存储器21上存储有可执行代码,当所述可执行代码被所述处理器22执行时,使所述处理器22执行如第一方面中任意一种实施例所述的数据源权重评估方法。
上述的数据源权重初始化设备,通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。
在介绍了本申请实施例的设备之后,接下来,对存储有计算机程序的计算机可读存储介质进行介绍,所述计算机程序被执行时能够实现如第一方面中任意一种实施例所述的数据源权重评估方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
尽管已经示出和描述了本申请的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种数据源权重评估方法,其特征在于,所述方法包括:
获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;
基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;
基于所述第一数据集和所述第二数据集,获取评价因素;
基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定;
所述评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性;
所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;
所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分;
所述数据源偏离度的获取方法包括:
基于所述第一数据集,获取至少一个第一聚类簇;
基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;
基于各个数据源之间的距离,获取所述数据源偏离度;
所述数据源独立性的获取方法包括:
基于所述第一聚类簇,获取至少一个第二聚类簇;
基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:
其中,为数据源,/>为第一聚类簇/>形成的第二聚类簇数,/>为第二聚类簇/>中的数据源总数。
2.根据权利要求1所述的数据源权重评估方法,其特征在于,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重,包括:
基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;
基于所述模糊评价矩阵,获取模糊综合评价向量;
基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
3.一种数据源权重评估装置,其特征在于,包括:
获取模块,用于获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;以及,基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;
处理模块,用于基于所述第一数据集和所述第二数据集,获取评价因素;以及,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定;
所述评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性;
所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;
所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分;
所述数据源偏离度的获取方法包括:
基于所述第一数据集,获取至少一个第一聚类簇;
基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;
基于各个数据源之间的距离,获取所述数据源偏离度;
所述数据源独立性的获取方法包括:
基于所述第一聚类簇,获取至少一个第二聚类簇;
基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:
其中,为数据源,/>为第一聚类簇/>形成的第二聚类簇数,/>为第二聚类簇/>中的数据源总数。
4.一种数据源权重评估设备,其特征在于,包括:存储器和处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1或2所述的数据源权重评估方法。
5.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被执行时能够实现如权利要求1或2所述的数据源权重评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310705768.8A CN116450634B (zh) | 2023-06-15 | 2023-06-15 | 一种数据源权重评估方法及其相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310705768.8A CN116450634B (zh) | 2023-06-15 | 2023-06-15 | 一种数据源权重评估方法及其相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116450634A CN116450634A (zh) | 2023-07-18 |
CN116450634B true CN116450634B (zh) | 2023-09-29 |
Family
ID=87134099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310705768.8A Active CN116450634B (zh) | 2023-06-15 | 2023-06-15 | 一种数据源权重评估方法及其相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450634B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015085967A1 (zh) * | 2013-12-10 | 2015-06-18 | 腾讯科技(深圳)有限公司 | 一种用户行为数据的分析方法和装置 |
CN104933178A (zh) * | 2015-07-01 | 2015-09-23 | 北京奇虎科技有限公司 | 官方网站确定方法及系统 |
CN105528399A (zh) * | 2015-12-01 | 2016-04-27 | 中国联合网络通信集团有限公司 | 多源终端参数数据融合方法及装置 |
CN105933316A (zh) * | 2016-04-21 | 2016-09-07 | 国家电网公司 | 网络安全级别的确定方法和装置 |
CN106802945A (zh) * | 2017-01-09 | 2017-06-06 | 四川用联信息技术有限公司 | 基于VSM的模糊c均值聚类算法实现搜索引擎关键词优化 |
CN109002978A (zh) * | 2018-07-05 | 2018-12-14 | 山东省城市供排水水质监测中心 | 一种基于模糊综合数学的混凝剂效能评价方法 |
CN111260197A (zh) * | 2020-01-10 | 2020-06-09 | 光明网传媒有限公司 | 网络文章评价方法、系统、计算机设备及可读存储介质 |
CN114004802A (zh) * | 2021-10-29 | 2022-02-01 | 平安医疗健康管理股份有限公司 | 基于模糊综合评价法的数据标注方法、装置及存储介质 |
CN114118398A (zh) * | 2020-08-31 | 2022-03-01 | 中移(苏州)软件技术有限公司 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499098B (zh) * | 2009-03-04 | 2012-07-11 | 阿里巴巴集团控股有限公司 | 一种网页评估值的确定及运用的方法、系统 |
US20180130068A1 (en) * | 2016-11-06 | 2018-05-10 | Serviont Global Solutions Limited | System and method for analysing and evaluating customer effort |
-
2023
- 2023-06-15 CN CN202310705768.8A patent/CN116450634B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015085967A1 (zh) * | 2013-12-10 | 2015-06-18 | 腾讯科技(深圳)有限公司 | 一种用户行为数据的分析方法和装置 |
CN104933178A (zh) * | 2015-07-01 | 2015-09-23 | 北京奇虎科技有限公司 | 官方网站确定方法及系统 |
CN105528399A (zh) * | 2015-12-01 | 2016-04-27 | 中国联合网络通信集团有限公司 | 多源终端参数数据融合方法及装置 |
CN105933316A (zh) * | 2016-04-21 | 2016-09-07 | 国家电网公司 | 网络安全级别的确定方法和装置 |
CN106802945A (zh) * | 2017-01-09 | 2017-06-06 | 四川用联信息技术有限公司 | 基于VSM的模糊c均值聚类算法实现搜索引擎关键词优化 |
CN109002978A (zh) * | 2018-07-05 | 2018-12-14 | 山东省城市供排水水质监测中心 | 一种基于模糊综合数学的混凝剂效能评价方法 |
CN111260197A (zh) * | 2020-01-10 | 2020-06-09 | 光明网传媒有限公司 | 网络文章评价方法、系统、计算机设备及可读存储介质 |
CN114118398A (zh) * | 2020-08-31 | 2022-03-01 | 中移(苏州)软件技术有限公司 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
CN114004802A (zh) * | 2021-10-29 | 2022-02-01 | 平安医疗健康管理股份有限公司 | 基于模糊综合评价法的数据标注方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于模糊综合评价的油菜网络信息可信度研究;王晓乔等;《中国农学通报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116450634A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | Academic social networks: Modeling, analysis, mining and applications | |
EP3571606B1 (en) | Query language interoperability in a graph database | |
CN110168523B (zh) | 改变监测跨图查询 | |
CN111512303B (zh) | 分层图形数据结构 | |
US9805081B2 (en) | Record linkage algorithm for multi-structured data | |
US11328128B2 (en) | System and method for analysis and navigation of data | |
US9189539B2 (en) | Electronic content curating mechanisms | |
US20160292304A1 (en) | Knowledge representation on action graph database | |
CN108292310A (zh) | 用于数字实体相关的技术 | |
US11770450B2 (en) | Dynamic routing of file system objects | |
EP2973039A1 (en) | Apparatus, systems, and methods for grouping data records | |
WO2008121700A1 (en) | Method and system for managing entities | |
US10885065B2 (en) | Data convergence | |
US20160055144A1 (en) | String comparison results for character strings using frequency data | |
US11321359B2 (en) | Review and curation of record clustering changes at large scale | |
Qian et al. | Time and location aware points of interest recommendation in location-based social networks | |
CN104199924B (zh) | 选择具有快照关系的网络表格的方法及装置 | |
CN116450634B (zh) | 一种数据源权重评估方法及其相关装置 | |
Hackl et al. | Clinical information systems research in the pandemic year 2020 | |
CN117093556A (zh) | 日志分类方法、装置、计算机设备及计算机可读存储介质 | |
Shin et al. | Prediction of local quality of protein structure models considering spatial neighbors in graphical models | |
Luo et al. | A collective approach to scholar name disambiguation | |
US9792348B2 (en) | Overlay dataset | |
JP2023534239A (ja) | 修飾された関係スコアを用いたマスタデータの改善されたエンティティ解決 | |
CN112185568A (zh) | 信息处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |