CN115185939A - 多源数据的数据处理方法 - Google Patents
多源数据的数据处理方法 Download PDFInfo
- Publication number
- CN115185939A CN115185939A CN202211088435.7A CN202211088435A CN115185939A CN 115185939 A CN115185939 A CN 115185939A CN 202211088435 A CN202211088435 A CN 202211088435A CN 115185939 A CN115185939 A CN 115185939A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- indirect
- class
- trusted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种多源数据的数据处理方法,包括:分别从每一参考数据源获取对应的信息数据集;获取目标区域对应的目标区域标识;若目标区域具有对应的可信数据源标识,则从对应数据源标识与可信数据源标识相同的信息数据集中,确定出对应的区域标识与目标区域标识相同的信息数据组作为可信数据组;在可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将对应的区域标识与目标区域标识相同,且对应的数据源标识与可信数据源标识不同的信息数据组作为间接数据组;对于为空集的每一可信第一类数据,确定出对应的间接目标第一类数据;将每一间接目标第一类数据建立与目标区域的关联关系。由此,可以提高对缺失的数据进行补充的效率。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种多源数据的数据处理方法。
背景技术
在应用程序的开发完成后,用户可以在应用程序中对若干区域的信息进行查看,区域可以设置为酒店。
目前对于每一区域,可以从该区域的可信数据源中获取对应的数据,然后将数据存储至应用程序对应的数据库中,此时用户可以在应用程序中查看根据该数据处理得到的信息,即用户可以在应用程序中查看该区域的信息。
但是,若某一区域的可信数据源中对应的数据是有数据缺失的,需要用户或测试人员反馈在应用程序查看不到该区域的部分信息或全部信息,接着需要人工排查可信数据源以外的其他数据源,直至找到该区域缺失的数据对应的补充数据,再将该补充数据补充至应用程序对应的数据库中,因此,对缺失的数据进行补充的效率较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种多源数据的数据处理方法,该方法包括:
分别从每一参考数据源获取对应的信息数据集;每一信息数据集均包括对应的数据源标识和对应的参考数据源所对应的每一区域的信息数据组,每一信息数据组包括区域标识、若干第一类数据,若干第一类数据分别用于表示对应的区域的不同属性信息;
获取目标区域对应的目标区域标识;
判断目标区域是否具有对应的可信数据源标识;可信数据源标识为可信数据源的唯一标识,可信数据源中对应目标区域的数据的数据优先级,高于不为可信数据源的每一参考数据源中对应目标区域的数据的数据优先级;
若目标区域具有对应的可信数据源标识,则确定若干信息数据集对应的数据源标识中是否存在与可信数据源标识相同的数据源标识;
若存在,则从对应数据源标识与可信数据源标识相同的信息数据集中,确定出对应的区域标识与目标区域标识相同的信息数据组作为可信数据组;
在可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将对应的区域标识与目标区域标识相同,且对应的数据源标识与可信数据源标识不同的每一信息数据组均作为间接数据组;
对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据;
将每一间接目标第一类数据均存储至目标数据库,并建立与目标区域的关联关系。
本发明至少具有以下有益效果:
在目标区域具有可信数据源的情况下,服务器可以确定出该可信数据源中该目标区域对应的可信数据组是否有为空集的可信第一类数据,即服务器可以确定该目标区域对应的可信数据组中是否有数据缺失,若有数据缺失,服务器可以从若干间接数据组中确定缺失的数据对应的间接目标第一类数据,并将间接目标第一类数据存储至目标数据库中,无需人工排查缺失的数据和缺失的数据对应的间接目标第一类数据,提高对缺失的数据进行补充的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多源数据的数据处理的方法流程图。
图2为本发明实施例提供的参考数据源的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种多源数据的数据处理方法,其中,该方法可以由以下任意一项或其任意组合完成:终端、服务器、其他具备处理能力的设备,本发明实施例对此不作限定。
本发明实施例以服务器为例,下面将参照图1所示的多源数据的数据处理的方法流程图,对多源数据的数据处理方法进行介绍。
该方法包括以下步骤:
步骤S100,分别从每一参考数据源获取对应的信息数据集。
其中,每一信息数据集均包括对应的数据源标识和对应的参考数据源所对应的每一区域的信息数据组,每一信息数据组包括区域标识、若干第一类数据,若干第一类数据分别用于表示对应的区域的不同属性信息。
在一种可能的实施方式中,参照图2所示的参考数据源的示意框图,每一参考数据源均与服务器连接,一个参考数据源可以设置为一个应用程序对应的数据源,不同的参考数据源对应的应用程序不同;数据源标识用于唯一标识对应的参考数据源,数据源标识可以设置为对应的参考数据源的数据源ID(Identity document,身份标识号码),区域标识用于唯一标识对应的区域,区域标识可以设置为区域ID,区域可以设置为酒店;服务器可以通过每一参考数据源的数据源标识从对应的参考数据源中获取数据集,然后对获取的数据集中的数据进行数据格式的转换,得到每一参考数据源对应的一个信息数据集;若干参考数据源中的至少部分参考数据源对应的若干区域并不完全相同,例如,参考数据源A与区域a、区域b和区域c对应,参考数据源B也与区域a、区域b和区域c对应,但参考数据源C与区域a、区域d和区域e对应。
在另一种可能的实施方式中,服务器可以通过每一参考数据源的数据源标识从对应的参考数据源中获取数据集,每一数据集均包括对应的数据源标识和对应的参考数据源所对应的每一区域的数据组,每一数据组包括区域标识和若干第一类数据、名称数据和坐标数据,若干第一类数据、名称数据和坐标数据分别用于表示对应的区域的不同属性信息;若干第一类数据中包括地址数据,区域标识可以为区域ID,坐标数据可以设置为经纬度坐标。
获取待关联区域对应的待关联数据组,待关联数据组包括待关联区域标识、待关联地址数据、待关联名称数据和待关联坐标数据。
获取每一数据集对应的相似度组;相似度组为对应的数据集对应的每一区域与待关联区域的数据相似度,数据相似度根据对应的区域的名称数据和待关联区域的名称数据的相似度,以及对应的区域的地址数据和待关联区域的地址数据的相似度得到的;例如,s=0.6*prox(a1,a0)+0.4*prox(b1,b0),其中,s为任一数据集中的任一区域和待关联区域的数据相似度,a1为该数据集中的该区域对应的名称数据,a0为待关联名称数据,b1为该数据集中的该区域对应的地址数据,b0为待关联地址数据,prox()为相似度确定函数。
对每一相似度组均可以进行如下处理:
根据相似度由大至小的规则对该相似度组内的相似度进行排序,并在排序后获取该相似度组内前m个相似度作为目标值;根据第一关联规则确定与待关联区域标识具有对应关系的区域标识,第一关联规则包括:若第一个目标值大于第一阈值且第一个目标值与第二个目标值的差值大于第二阈值,则将第一个目标值对应的区域标识与待关联区域标识建立关联关系;若第一个目标值小于等于第一阈值、第一个目标值大于第三阈值且第一个目标值与第二个目标值的差值大于第四阈值,则将第一个目标值对应的区域标识与待关联区域标识建立关联关系;其中,第四阈值大于第二阈值。
对每一相似度组均还可以进行如下处理:
若通过第一关联规则无法确定出与GM具有对应关系的区域标识,则根据第二关联规则确定与GM具有对应关系的区域标识;第二关联规则包括:获取间距值集,间距值集包括每一目标值对应的坐标数据对应的位置与待关联坐标数据对应的位置之间的距离;若间距值集中小于第五阈值的间距值对应的区域标识有一个,则将间距值集中小于第五阈值的间距值对应的区域标识与待关联区域标识建立关联关系;若间距值集中小于第五阈值的间距值对应的区域标识有多个,则将间距值集中小于第五阈值的若干间距值中对应的目标值最大的间距值对应的区域标识与待关联区域标识建立关联关系。
基于上述,待关联区域可以设置为多个,即待关联数据组可以设置为多个,对每一待关联区域均可以通过上述方式将对应的待关联区域标识与若干区域标识建立关联关系,接着对于每一待关联区域标识,可以将每一数据集中与该待关联区域标识建立关联关系的区域标识更新为与该待关联区域标识相同的标识,在上述多个关联区域标识对应的区域标识均更新完成后,可以对每一数据集中除区域标识以外的其他数据均进行数据格式的转换,并将格式转换后的每一数据组均作为信息数据组,将格式转换后的每一数据集均作为信息数据集。
步骤S200,获取目标区域对应的目标区域标识。
在一种可能的实施方式中,可以确定一个目标区域,该目标区域可以为若干待关联区域中的任一区域,并获取该目标区域对应的目标区域ID。
步骤S300,判断目标区域是否具有对应的可信数据源标识;若目标区域具有对应的可信数据源标识,则进入步骤S400。
其中,可信数据源标识为可信数据源的唯一标识,可信数据源中对应目标区域的数据的数据优先级,高于不为可信数据源的每一参考数据源中对应目标区域的数据的数据优先级。
在一种可能的实施方式中,若干区域中至少部分区域具有可信数据源,可信数据源可以设置为对应的区域的直营平台对应的数据源,对于任一具有可信数据源的区域,该区域对应的可信数据源中与该区域对应的数据的数据优先级最高,即目标区域对应的可信数据源可以为目标区域的直营平台对应的数据源,目标区域的可信数据源中对应目标区域的数据的数据优先级,高于不为目标区域的可信数据源的每一参考数据源中对应目标区域的数据的数据优先级;服务器中可以存储有配置表,配置表用于存储具有可信数据源的每一区域的区域标识和对应的可信数据源标识之间的关联关系,配置表还用于存储不具有可信数据源的每一区域的区域标识和对应的字符标识之间的关联关系,字符标识用于表示对应区域不具有可信数据源,例如,每一字符标识均可以设置为字母、数字、运算符号和标点符号等;在服务器得到目标区域对应的目标区域标识后,可以根据配置表,判断该目标区域标识是否具有对应的可信数据源标识,若目标区域标识具有对应的可信数据源标识,则进入步骤S400的处理。
步骤S400,确定若干信息数据集对应的数据源标识中是否存在与可信数据源标识相同的数据源标识。
在一种可能的实施方式中,若目标区域标识具有对应的可信数据源标识,则可以遍历若干信息数据集对应的数据源标识,确定遍历的若干数据源标识中是否存在与可信数据源标识相同的数据源标识。
步骤S500,若存在,则从对应数据源标识与可信数据源标识相同的信息数据集中,确定出对应的区域标识与目标区域标识相同的信息数据组作为可信数据组。
在一种可能的实施方式中,如果若干信息数据集对应的数据源标识中存在与可信数据源标识相同的数据源标识,则从与可信数据源标识相同的数据源标识对应的若干信息数据组中,确定出对应区域标识与目标区域标识相同的信息数据组作为目标区域的可信数据组。
步骤S600,在可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将对应的区域标识与目标区域标识相同,且对应的数据源标识与可信数据源标识不同的每一信息数据组均作为间接数据组。
在一种可能的实施方式中,可信数据组中的每一第一类数据均为可信第一类数据,在若干可信第一类数据中的至少一个可信第一类数据为空集的情况下,将所有信息数据组中对应的区域标识与目标区域标识相同的每一信息数据组中除可信数据组以外的每一信息数据组均作为间接数据组。
步骤S700,对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据。
在一种可能的实施方式中,对于为空集的每一可信第一类数据,可以在若干间接数据组的第一类数据中确定出该为空集的可信第一类数据对应的一个第一类数据,并将该第一类数据作为间接目标第一类数据,进而可以得到为空集的每一可信第一类数据对应的间接目标第一类数据。
步骤S800,将每一间接目标第一类数据均存储至目标数据库,并建立与目标区域的关联关系。
在一种可能的实施方式中,目标数据库可以设置为应用程序对应的数据库,用户使用应用程序查看根据目标数据库中的数据处理得到的信息;可以将目标区域标识和为空集的每一可信第一类数据对应的间接目标第一类数据均存储至目标数据库,并建立每一间接目标第一类数据与目标区域标识的关联关系。
因此,在目标区域具有可信数据源的情况下,服务器可以确定出该可信数据源中该目标区域对应的可信数据组是否有为空集的可信第一类数据,即服务器可以确定该目标区域对应的可信数据组中是否有数据缺失,若有数据缺失,服务器可以从若干间接数据组中确定缺失的数据对应的间接目标第一类数据,并将间接目标第一类数据存储至目标数据库中,无需人工排查缺失的数据和缺失的数据对应的间接目标第一类数据,提高对缺失的数据进行补充的效率。
可选的,每一信息数据组还包括第二类数据;第二类数据的数据优先级小于第一类数据;
基于此,该方法还包括如下具体处理:
在可信数据组中的可信第二类数据为空集,且若干可信第一类数据中至少一个为空集的情况下,分别将每一间接目标第一类数据对应的数据源标识作为候选数据源标识;
确定每一候选数据源标识对应的间接目标第一类数据的数量;
将对应间接目标第一类数据的数量最大的候选数据源标识对应的第二类数据作为间接目标第二类数据;
将间接目标第二类数据存储至目标数据库,并建立与目标区域的关联关系。
在一种可能的实施方式中,第一类数据可以设置为酒店对应的地址、酒店介绍、设施、在应用程序中的标签或图片等数据优先级较高的数据,第二类数据可以设置为酒店对应的疫情政策或星级等数据优先级较低的数据,上述名称数据和地址数据也均可以作为第二类数据,坐标可以设置为经纬度坐标,对数据优先级较高的数据的准确性和齐全程度等要求比数据优先级较低的数据更高;可信第二类数据为可信数据组中的第二类数据;在可信数据组中的可信第二类数据为空集,且若干可信第一类数据中至少一个为空集的情况下,服务器可以分别将每一间接目标第一类数据对应的数据源标识均作为候选数据源标识,然后将若干候选数据源标识中对应的间接目标第一类数据最多的候选数据源标识对应的第二类数据作为间接目标第二类数据,可以将为空集的可信第二类数据对应的间接目标第二类数据存储至目标数据库,并建立间接目标第二类数据与目标区域标识的关联关系。
因此,可以根据每一间接目标第一类数据对应的数据源标识确定为空集的可信第二类数据对应的间接目标第二类数据,进而同一可信数据组中为空集的每一可信第二类数据均使用同一参考数据源中的数据进行数据补充,可以节省计算资源。
可选的,目标数据库中存储有配置文件,配置文件用于存储每一信息数据集对应的数据源标识;
基于此,该方法还包括如下具体处理:
确定每一信息数据集对应的数据总数量;数据总数量为对应的信息数据集中不为空集的第一类数据的数量和不为空集的第二类数据的数量的和;
将配置文件中的若干数据源标识按照对应的数据总数量由大至小的顺序进行排列;
基于此,上述将对应间接目标第一类数据的数量最大的候选数据源标识对应的第二类数据作为间接目标第二类数据,可以包括如下具体处理:
若对应间接目标第一类数据的数量最大的候选数据源标识为一个,则将对应间接目标第一类数据的数量最大的候选数据源标识对应的第二类数据作为间接目标第二类数据;
若对应间接目标第一类数据的数量最大的候选数据源标识为多个,则将对应间接目标第一类数据的数量最大的若干候选数据源标识中,在配置文件中排列最前的候选数据源标识对应的第二类数据作为间接目标第二类数据。
在一种可能的实施方式中,可以在服务器的目标数据库中存储配置文件,并根据每一数据源标识对应的数据总数量对配置文件中的若干数据源标识进行顺序排列;如果若干候选数据源标识中对应的间接目标第一类数据最多的候选数据源标识为一个,则将该候选数据源标识对应的第二类数据作为为空集的第二类数据对应的间接目标第二类数据;如果若干候选数据源标识中对应的间接目标第一类数据最多的候选数据源标识为多个,则将若干候选数据源标识中对应的间接目标第一类数据最多的每一候选数据源标识均作为第一标识,并在顺序排列后的配置文件中确定与每一第一标识相同的数据源标识,将相同的数据源标识在配置文件中排列最前的第一标识对应的第二类数据作为间接目标第二类数据。
可选的,若干第一类数据中包括地址数据;
基于此,上述对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,可以包括如下具体处理:
若可信数据组中的可信地址数据为空集,则将若干间接数据组对应的地址数据中具有符合预设的字符串表达式的字符串的每一地址数据作为第一数据;
将若干第一数据中对应的数据长度最大的第一数据作为可信地址数据对应的间接目标地址数据。
在一种可能的实施方式中,可信地址数据为可信数据组中的地址数据,符合预设的字符串表达式的字符串可以为符合门牌号表达式的门牌号字符串,若可信地址数据为空集,则可以从若干间接数据组中确定间接目标地址数据,具体处理如下:如果若干间接数据组对应的地址数据中具有门牌号字符串,则服务器可以将若干间接数据组对应的地址数据中具有门牌号字符串的每一地址数据均作为第一数据;如果若干间接数据组对应的地址数据中不具有门牌号字符串,则服务器可以将每一间接数据组对应的地址数据均作为第一数据;若第一数据为一个,则可以将第一数据作为间接目标地址数据,若第一数据为多个,则可以将若干第一数据中对应的数据长度最大的第一数据作为间接目标地址数据,第一数据对应的数据长度可以为第一数据的字符数量。
可选的,上述将若干第一数据中对应的数据长度最大的第一数据作为可信地址数据对应的间接目标地址数据,可以包括如下具体处理:
如果若干第一数据中对应的数据长度最大的第一数据为一个,则将若干第一数据中对应的数据长度最大的第一数据作为可信地址数据对应的间接目标地址数据;
如果若干第一数据中对应的数据长度最大的第一数据为多个,则在若干第一数据中对应的数据长度最大的若干第一数据中,将对应的数据源标识在配置文件中排列最前的第一数据作为可信地址数据对应的间接目标地址数据。
在一种可能的实施方式中,如果若干第一数据中对应的数据长度最大的第一数据为一个,则可以将若干第一数据中对应的数据长度最大的第一数据作为间接目标地址数据;如果若干第一数据中对应的数据长度最大的第一数据为多个,则若干第一数据中对应的数据长度最大的每一第一数据对应的数据源标识均作为第二标识,并在顺序排列后的配置文件中确定与每一第二标识相同的数据源标识,将相同的数据源标识在配置文件中排列最前的第二标识对应的第一数据作为间接目标地址数据。
可选的,若干第一类数据中还包括摘要数据;
基于此,上述对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,还可以包括如下具体处理:
若可信数据组中的可信摘要数据为空集,则将若干间接数据组对应的摘要数据中具有目标标识的每一摘要数据作为第二数据;目标标识为图像数据的格式标识;
将若干第二数据中对应的数据长度最大的第二数据作为可信摘要数据对应的间接目标摘要数据。
在一种可能的实施方式中,摘要数据可以设置为对应的酒店的酒店介绍,可信摘要数据为可信数据组中的摘要数据,目标标识可以设置为图片的文件扩展名,例如.bmp或.jpg等,若可信摘要数据为空集,则可以从若干间接数据组中确定间接目标摘要数据,具体处理如下:如果若干间接数据组对应的摘要数据中具有目标标识,则服务器可以将若干间接数据组对应的摘要数据中具有目标标识的每一摘要数据均作为第二数据;如果若干间接数据组对应的摘要数据中不具有目标标识,则服务器可以将每一间接数据组对应的摘要数据均作为第二数据;若第二数据为一个,则可以将第二数据作为间接目标摘要数据,若第二数据为多个,则可以将若干第二数据中对应的数据长度最大的第二数据作为间接目标摘要数据;摘要数据可以包括图像数据和文字数据,第二数据对应的数据长度可以为第二数据的文字数据的字符数量。
可选的,上述将若干第二数据中对应的数据长度最大的第二数据作为可信摘要数据对应的间接目标摘要数据,可以包括如下处理:
如果若干第二数据中对应的数据长度最大的第二数据为一个,则将若干第二数据中对应的数据长度最大的第二数据作为可信摘要数据对应的间接目标摘要数据;
如果若干第二数据中对应的数据长度最大的第二数据为多个,则在若干第二数据中对应的数据长度最大的若干第二数据中,将对应的数据源标识在配置文件中排列最前的第二数据作为可信摘要数据对应的间接目标摘要数据。
在一种可能的实施方式中,如果若干第二数据中对应的数据长度最大的第二数据为一个,则可以将若干第二数据中对应的数据长度最大的第二数据作为间接目标摘要数据;如果若干第二人数据中对应的数据长度最大的第二数据为多个,则若干第二数据中对应的数据长度最大的每一第二数据对应的数据源标识均作为第三标识,并在顺序排列后的配置文件中确定与每一第三标识相同的数据源标识,将相同的数据源标识在配置文件中排列最前的第三标识对应的第二数据作为间接目标摘要数据。
在另一种可能的实施方式中,如果若干第二数据中对应的数据长度最大的第二数据为多个,则将若干第二数据中对应的数据长度最大的多个第二数据作为第三数据,确定每一第三数据对应的目标标识的数量,将对应的目标标识的数量最大的第三数据对应的第二数据作为间接目标摘要数据。
可选的,若干第一类数据中还包括设施数据;设施数据包括若干设施信息组和/或第一类设施标识,每一设施信息组包括若干第二类设施标识;第一类设施标识用于表示对应的区域的设施的属性,第二类设施标识用于表示对应的区域具有的设施;
基于此,上述对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,还可以包括如下具体处理:
若可信数据组中的可信设施数据为空集,则将若干间接数据组对应的设施数据中具有第一类设施标识的每一设施数据均作为第四数据;
确定每一第四数据对应的设施信息组的数量;
将对应的设施信息组数量最大的每一第四数据均作为第五数据;
确定每一第五数据对应的第二类设施标识的数量;
将对应的第二类设施标识数量最大的第五数据作为间接目标设施数据。
在一种可能的实施方式中,第一类设施标识可以设置为无窗、无空调或空调收费等标签的ID,第二类设施标识可以设置为空调或窗户等设施的ID;若可信设施数据为空集,则可以从若干间接数据组中确定间接目标设施数据,具体处理如下:
如果若干间接数据组对应的设施数据中具有第一类设施标识,则服务器可以将若干间接数据组对应的设施数据中具有第一类设施标识的每一设施数据均作为第四数据;如果若干间接数据组对应的设施数据中不具有第一类设施标识,则服务器可以将每一间接数据组对应的设施数据均作为第四数据;若第四数据为一个,则将第四数据设置为间接目标设施数据,若第四数据为多个,则将对应的设施信息组数量最大的第四数据作为第五数据;若第五数据为一个,则将第五数据作为间接目标设施数据,若第五数据为多个,则确定对应的第二类设施标识数量最大的第五数据的数量;若对应的第二类设施标识数量最大的第五数据为一个,则将对应的第二类设施标识数量最大的第五数据作为间接目标设施数据,若对应的第二类设施标识数量最大的第五数据为多个,则对应的第二类设施标识数量最大的每一第五数据对应的数据源标识均作为第四标识,并在顺序排列后的配置文件中确定与每一第四标识相同的数据源标识,将相同的数据源标识在配置文件中排列最前的第四标识对应的第五数据作为间接目标设施数据。
可选的,若干第一类数据中还包括标签数据,标签数据包括若干标签组,每一标签组包括若干标签;
基于此,上述对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,还可以包括如下具体处理:
若可信数据组中的可信标签数据为空集,则将若干间接数据组对应的标签数据均作为第六数据;
确定每一第六数据对应的标签组的数量;
将对应的标签组数量最大的每一第六数据均作为第七数据;
确定每一第七数据对应的标签的数量;
将对应的标签数量最大的第七数据作为间接目标标签数据。
在一种可能的实施方式中,标签可以设置为网红酒店或经济适用酒店等标签;若可信标签数据为空集,则可以从若干间接数据组中确定间接目标标签数据,具体处理如下:服务器可以将若干间接数据组对应的标签数据均作为第六数据;若第六数据为一个,则将第六数据设置为间接目标标签数据,若第六数据为多个,则将对应的标签组数量最大的第六数据作为第七数据;若第七数据为一个,则将第七数据作为间接目标标签数据,若第七数据为多个,则确定对应的标签数量最大的第七数据的数量;若对应的标签数量最大的第七数据为一个,则将对应的标签数量最大的第七数据作为间接目标标签数据,若对应的标签数量最大的第七数据为多个,则对应的标签数量最大的每一第七数据对应的数据源标识均作为第五标识,并在顺序排列后的配置文件中确定与每一第五标识相同的数据源标识,将相同的数据源标识在配置文件中排列最前的第五标识对应的第七数据作为间接目标标签数据。
可选的,若干第一类数据中还包括图像数据,图像数据包括若干图像信息组,每一图像信息组包括若干图像;同一图像数据中的若干图像的分辨率相同;
基于此,上述对于为空集的每一可信第一类数据,从若干间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,还可以包括如下具体处理:
若可信数据组中的可信图像数据为空集,则将若干间接数据组对应的图像数据均作为第八数据;
将对应的若干图像中不具有目标图像元素的每一第八数据均作为第九数据;
将对应图像的分辨率最高的每一第九数据均作为第十数据;
确定每一第十数据对应的图像信息组的数量;
将对应图像信息组的数量最大的第十数据作为间接目标图像数据。
在一种可能的实施方式中,目标图像元素可以设置为水印;若可信图像数据为空集,则可以从若干间接数据组中确定间接目标图像数据,具体处理如下:服务器可以将若干间接数据组对应的图像数据均作为第八数据;若第八数据为一个,则将第八数据设置为间接目标图像数据,若第八数据为多个,则将对应的若干图像中不具有目标图像元素的每一第八数据均作为第九数据;若第九数据为一个,则将第九数据作为间接目标图像数据,若第九数据为多个,则将对应图像的分辨率最高的第九数据均作为第十数据;若第十数据为一个,则将第十数据作为间接目标图像数据,若第十数据为多个,则确定对应图像信息组的数量最大的第十数据,若对应图像信息组的数量最大的第十数据为一个,则将对应图像信息组的数量最大的第十数据作为间接目标图像数据,若对应图像信息组的数量最大的第十数据为多个,则将对应图像信息组的数量最大的每一第十数据对应的数据源标识均作为第六标识,并在顺序排列后的配置文件中确定与每一第六标识相同的数据源标识,将相同的数据源标识在配置文件中排列最前的第六标识对应的第十数据作为间接目标图像数据。
可选的,该方法还可以包括如下具体处理:
若目标区域不具有对应的可信数据源标识,则将对应的区域标识与目标区域标识相同的每一信息数据组均作为间接数据组;
从若干间接数据组对应的地址数据中,确定出间接目标地址数据;
从若干间接数据组对应的摘要数据中,确定出间接目标摘要数据;
将间接目标地址数据和间接目标摘要数据均储至目标数据库,并建立与目标区域的关联关系。
在一种可能的实施方式中,若目标区域标识不具有对应的可信数据源标识,则将所有信息数据组中对应的区域标识与目标区域标识相同的每一信息数据组均作为间接数据组,接着可以从若干间接数据组中确定出间接目标地址数据、间接目标摘要数据、间接目标设施数据、间接目标标签数据和间接目标图像数据,本发明实施例已公开从若干间接数据组中确定出间接目标地址数据、间接目标摘要数据、间接目标设施数据、间接目标标签数据和间接目标图像数据的具体处理过程,在此不再赘述。
将目标区域标识、间接目标地址数据、间接目标摘要数据、间接目标设施数据、间接目标标签数据和间接目标图像数据均储至目标数据库,并建立目标区域标识与间接目标地址数据的关联关系、建立目标区域标识与间接目标摘要数据的关联关系、建立目标区域标识与间接目标设施数据的关联关系、建立目标区域标识与间接目标标签数据的关联关系以及建立目标区域标识与间接目标图像数据的关联关系。
可选的,该方法还可以包括如下具体处理:
在可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将若干可信第一类数据中不为空集的每一可信第一类数据均存储至目标数据库,并建立与目标区域的关联关系。
在一种可能的实施方式中,在可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将若干可信第一类数据中不为空集的每一可信第一类数据均存储至目标数据库,并建立不为空集的每一可信第一类数据与目标数据库中的目标区域标识的关联关系。
可选的,方法还包括:
在可信数据组中的若干可信第一类数据均不为空集的情况下,将若干可信第一类数据均存储至目标数据库,并建立与目标区域的关联关系。
在一种可能的实施方式中,在可信数据组中的若干可信第一类数据均不为空集的情况下,将目标区域标识和若干可信第一类数据均存储至目标数据库,并建立每一可信第一类数据与目标区域的关联关系。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种多源数据的数据处理方法,其特征在于,所述方法包括:
分别从每一参考数据源获取对应的信息数据集;每一所述信息数据集均包括对应的数据源标识和对应的参考数据源所对应的每一区域的信息数据组,每一所述信息数据组包括区域标识和若干第一类数据,若干所述第一类数据分别用于表示对应的区域的不同属性信息;
获取目标区域对应的目标区域标识;
判断所述目标区域是否具有对应的可信数据源标识;所述可信数据源标识为可信数据源的唯一标识,所述可信数据源中对应所述目标区域的数据的数据优先级,高于不为所述可信数据源的每一所述参考数据源中对应所述目标区域的数据的数据优先级;
若所述目标区域具有对应的可信数据源标识,则确定若干所述信息数据集对应的数据源标识中是否存在与所述可信数据源标识相同的数据源标识;
若存在,则从对应数据源标识与所述可信数据源标识相同的信息数据集中,确定出对应的区域标识与所述目标区域标识相同的信息数据组作为可信数据组;
在所述可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将对应的区域标识与目标区域标识相同,且对应的数据源标识与可信数据源标识不同的每一所述信息数据组均作为间接数据组;
对于为空集的每一可信第一类数据,从若干所述间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据;
将每一所述间接目标第一类数据均存储至目标数据库,并建立与所述目标区域的关联关系。
2.根据权利要求1所述的方法,其特征在于,每一所述信息数据组还包括第二类数据;所述第二类数据的数据优先级小于所述第一类数据;
所述方法还包括:
在所述可信数据组中的可信第二类数据为空集,且若干可信第一类数据中至少一个为空集的情况下,分别将每一间接目标第一类数据对应的数据源标识作为候选数据源标识;
确定每一候选数据源标识对应的间接目标第一类数据的数量;
将对应间接目标第一类数据的数量最大的候选数据源标识对应的第二类数据作为间接目标第二类数据;
将所述间接目标第二类数据存储至所述目标数据库,并建立与所述目标区域的关联关系。
3.根据权利要求2所述的方法,其特征在于,所述目标数据库中存储有配置文件,所述配置文件用于存储每一所述信息数据集对应的数据源标识;
所述方法还包括:
确定每一所述信息数据集对应的数据总数量;所述数据总数量为对应的信息数据集中不为空集的第一类数据的数量和不为空集的第二类数据的数量的和;
将所述配置文件中的若干所述数据源标识按照对应的数据总数量由大至小的顺序进行排列;
所述将对应间接目标第一类数据的数量最大的候选数据源标识对应的第二类数据作为间接目标第二类数据,包括:
若对应间接目标第一类数据的数量最大的候选数据源标识为一个,则将对应间接目标第一类数据的数量最大的候选数据源标识对应的第二类数据作为间接目标第二类数据;
若对应间接目标第一类数据的数量最大的候选数据源标识为多个,则将对应间接目标第一类数据的数量最大的若干候选数据源标识中,在所述配置文件中排列最前的候选数据源标识对应的第二类数据作为间接目标第二类数据。
4.根据权利要求3所述的方法,其特征在于,若干所述第一类数据中包括地址数据;
所述对于为空集的每一可信第一类数据,从若干所述间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,包括:
若所述可信数据组中的可信地址数据为空集,则将若干所述间接数据组对应的地址数据中具有符合预设的字符串表达式的字符串的每一所述地址数据作为第一数据;
将若干所述第一数据中对应的数据长度最大的第一数据作为所述可信地址数据对应的间接目标地址数据。
5.根据权利要求4所述的方法,其特征在于,所述将若干所述第一数据中对应的数据长度最大的第一数据作为所述可信地址数据对应的间接目标地址数据,包括:
如果若干所述第一数据中对应的数据长度最大的第一数据为一个,则将若干所述第一数据中对应的数据长度最大的第一数据作为所述可信地址数据对应的间接目标地址数据;
如果若干所述第一数据中对应的数据长度最大的第一数据为多个,则在若干所述第一数据中对应的数据长度最大的若干第一数据中,将对应的数据源标识在所述配置文件中排列最前的第一数据作为所述可信地址数据对应的间接目标地址数据。
6.根据权利要求4所述的方法,其特征在于,若干所述第一类数据中还包括摘要数据;
所述对于为空集的每一可信第一类数据,从若干所述间接数据组对应的第一类数据中,确定出对应的间接目标第一类数据,还包括:
若所述可信数据组中的可信摘要数据为空集,则将若干所述间接数据组对应的摘要数据中具有目标标识的每一所述摘要数据作为第二数据;所述目标标识为图像数据的格式标识;
将若干所述第二数据中对应的数据长度最大的第二数据作为所述可信摘要数据对应的间接目标摘要数据。
7.根据权利要求6所述的方法,其特征在于,所述将若干所述第二数据中对应的数据长度最大的第二数据作为所述可信摘要数据对应的间接目标摘要数据,包括:
如果若干所述第二数据中对应的数据长度最大的第二数据为一个,则将若干所述第二数据中对应的数据长度最大的第二数据作为所述可信摘要数据对应的间接目标摘要数据;
如果若干所述第二数据中对应的数据长度最大的第二数据为多个,则在若干所述第二数据中对应的数据长度最大的若干第二数据中,将对应的数据源标识在所述配置文件中排列最前的第二数据作为所述可信摘要数据对应的间接目标摘要数据。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
若所述目标区域不具有对应的可信数据源标识,则将对应的区域标识与目标区域标识相同的每一所述信息数据组均作为间接数据组;
从若干所述间接数据组对应的地址数据中,确定出间接目标地址数据;
从若干所述间接数据组对应的摘要数据中,确定出间接目标摘要数据;
将所述间接目标地址数据和所述间接目标摘要数据均储至目标数据库,并建立与所述目标区域的关联关系。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述可信数据组中的若干可信第一类数据中至少一个为空集的情况下,将若干所述可信第一类数据中不为空集的每一可信第一类数据均存储至目标数据库,并建立与所述目标区域的关联关系。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述可信数据组中的若干可信第一类数据均不为空集的情况下,将若干所述可信第一类数据均存储至目标数据库,并建立与所述目标区域的关联关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088435.7A CN115185939B (zh) | 2022-09-07 | 2022-09-07 | 多源数据的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088435.7A CN115185939B (zh) | 2022-09-07 | 2022-09-07 | 多源数据的数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115185939A true CN115185939A (zh) | 2022-10-14 |
CN115185939B CN115185939B (zh) | 2022-11-18 |
Family
ID=83522772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211088435.7A Active CN115185939B (zh) | 2022-09-07 | 2022-09-07 | 多源数据的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115185939B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401090A (zh) * | 2023-04-23 | 2023-07-07 | 中航信移动科技有限公司 | 一种基于数据更新的异常数据源确定方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180138999A1 (en) * | 2016-11-14 | 2018-05-17 | Fujitsu Limited | Information processing method, information processing device, and storage medium |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN110555072A (zh) * | 2019-09-10 | 2019-12-10 | 中国建设银行股份有限公司 | 数据访问方法、装置、设备和介质 |
CN113793174A (zh) * | 2021-09-01 | 2021-12-14 | 北京爱笔科技有限公司 | 数据关联方法、装置、计算机设备和存储介质 |
CN114297204A (zh) * | 2021-12-31 | 2022-04-08 | 奇安信科技集团股份有限公司 | 一种异构数据源的数据存储、检索方法及装置 |
CN114860879A (zh) * | 2022-05-11 | 2022-08-05 | 深圳市思为软件技术有限公司 | 数据关联方法、装置、设备及计算机存储介质 |
-
2022
- 2022-09-07 CN CN202211088435.7A patent/CN115185939B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180138999A1 (en) * | 2016-11-14 | 2018-05-17 | Fujitsu Limited | Information processing method, information processing device, and storage medium |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN110555072A (zh) * | 2019-09-10 | 2019-12-10 | 中国建设银行股份有限公司 | 数据访问方法、装置、设备和介质 |
CN113793174A (zh) * | 2021-09-01 | 2021-12-14 | 北京爱笔科技有限公司 | 数据关联方法、装置、计算机设备和存储介质 |
CN114297204A (zh) * | 2021-12-31 | 2022-04-08 | 奇安信科技集团股份有限公司 | 一种异构数据源的数据存储、检索方法及装置 |
CN114860879A (zh) * | 2022-05-11 | 2022-08-05 | 深圳市思为软件技术有限公司 | 数据关联方法、装置、设备及计算机存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401090A (zh) * | 2023-04-23 | 2023-07-07 | 中航信移动科技有限公司 | 一种基于数据更新的异常数据源确定方法 |
CN116401090B (zh) * | 2023-04-23 | 2024-01-30 | 中航信移动科技有限公司 | 一种基于数据更新的异常数据源确定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115185939B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442744B (zh) | 提取图像中目标信息的方法、装置、电子设备及可读介质 | |
US8249744B2 (en) | Mail routing system including a data block analyzer | |
US9430716B2 (en) | Image processing method and image processing system | |
US8429154B2 (en) | Document search device, imaging forming apparatus, and document search system | |
JPH0696276A (ja) | 高度なデータ収集方法及びデータ処理システム | |
JP2001265811A (ja) | 画像検索システムおよび画像検索方法 | |
CN115185939B (zh) | 多源数据的数据处理方法 | |
CN109783589B (zh) | 电子地图解析地址的方法、装置及存储介质 | |
CN112100422A (zh) | 工程图纸处理方法、装置、设备及存储介质 | |
US20120143598A1 (en) | Server, dictionary creation method, dictionary creation program, and computer-readable recording medium recording the program | |
CN111782595A (zh) | 海量文件管理方法、装置、计算机设备和可读存储介质 | |
CN110990651B (zh) | 地址数据处理方法、装置、电子设备及计算机可读介质 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN112860993A (zh) | 兴趣点的分类方法、装置、设备、存储介质及程序产品 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN115238023B (zh) | 基于多源数据进行数据关联的方法 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN111339776B (zh) | 简历解析方法、装置、电子设备和计算机可读存储介质 | |
CN114169331A (zh) | 地址解析方法、装置、计算机设备和存储介质 | |
CN113536005B (zh) | 一种相似图片或字体查找方法和系统 | |
CN111506756A (zh) | 相似图片的查找方法及系统、电子设备、存储介质 | |
EP0798653A2 (en) | Method for retrieving an element of an image over a network | |
JP4259889B2 (ja) | データベース管理システム、データベース管理装置、データベース管理方法、及びデータベース管理プログラム | |
CN111263421A (zh) | 无线网络的匹配方法、装置、电子设备及存储介质 | |
US10956754B2 (en) | Information processing apparatus and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |