CN110990437A

CN110990437A - 一种数据融合方法、装置及计算机设备

Info

Publication number: CN110990437A
Application number: CN201911233494.7A
Authority: CN
Inventors: 董磊
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-10

Abstract

本发明实施例公开了一种数据融合方法、装置及计算机设备，其中，方法包括：获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词；根据所述查询关键词确定数据查询结果；计算所述数据查询结果的相似度；如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。本发明实施例的技术方案能够实现对数据查询结果的去冗余处理，从而提高数据查询结果的精准性、简练性和可靠性。

Description

一种数据融合方法、装置及计算机设备

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据融合方法、装置及计算机设备。

背景技术

数据查询可以根据用户的查询需求为用户提供海量的查询信息。数据查询可以广泛应用在各种领域，如各种APP(Application，应用程序)或数据查询系统等。

当一个数据查询系统集成了多个关联的数据查询平台时，如果用户对数据查询系统发送一个数据查询请求，则该数据查询系统会向用户反馈所有关联的数据查询平台返回的数据查询结果。在这些反馈的数据查询结果中，存在明显的数据查询结果重复问题，导致数据查询结果的冗余度较高。

发明内容

本发明实施例提供一种数据融合方法、装置及计算机设备，以实现对数据查询结果的去冗余处理，从而提高数据查询结果的精准性、简练性和可靠性。

第一方面，本发明实施例提供了一种数据融合方法，包括：

获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词；

根据所述查询关键词确定数据查询结果；

计算所述数据查询结果的相似度；

如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

第二方面，本发明实施例还提供了一种数据融合装置，包括：

数据查询请求获取模块，用于获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词；

数据查询结果确定模块，用于根据所述查询关键词确定数据查询结果；

相似度计算模块，用于计算所述数据查询结果的相似度；

数据查询结果融合模块，用于如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的数据融合方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的数据融合方法。

本发明实施例通过根据用户输入的包括查询关键词的数据查询请求确定数据查询结果，并计算数据查询结果的相似度，在如果确定数据查询结果的相似度满足数据融合条件时，对数据查询结果进行融合，解决现有数据查询系统存在的数据查询结果冗余度较高的问题，实现对数据查询结果的去冗余处理，从而提高数据查询结果的精准性、简练性和可靠性。

附图说明

图1是本发明实施例一提供的一种数据融合方法的流程图；

图2a是本发明实施例二提供的一种数据融合方法的流程图；

图2b是本发明实施例提供的一种数据融合方法的流程图；

图3是本发明实施例三提供的一种数据融合装置的示意图；

图4为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本发明实施例一提供的一种数据融合方法的流程图，本实施例可适用于对冗余的数据查询结果进行融合的情况，该方法可以由数据融合装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在计算机设备中。相应的，如图1所示，该方法包括如下操作：

S110、获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词。

其中，数据查询请求可以是查询目标数据的请求，目标数据可以是诸如商家数据、词条数据或音视频数据等。示例性的，对于团购平台来说，目标数据可以是各类商家数据，包括但不限于商家名称、联系方式及地址信息等。对于音视频平台来说，目标数据可以是各类音视频数据，包括但不限于音视频名称、文件大小及文件格式等。本发明实施例并不对目标数据及对应的数据查询请求的具体类型进行限定。设定数量可以是根据实际需求设定的数值，如2、3或5等，本发明实施例并不对设定数量的具体数值进行限定。查询关键词可以是数据查询请求包括的关键词，查询关键词的类型及数量可以根据数据查询平台的应用类型确定。例如，数据查询平台为某一团购平台，则查询关键词可以是“城市”、“区域”、“好评数”及“关键字”等。数据查询平台可以是APP，也可以是网页应用等，任何可以提供数据查询功能的平台均可以作为数据查询平台，本发明实施例并不对数据查询平台的类型进行限定。

首先，本发明实施例的技术方案主要适用于这样一种应用场景：数据查询系统可以集成多种类型的数据查询平台。示例性的，对于团购平台来说，可以包括“XX团”或“XX点评网”等，对于搜索平台来说，可以包括“AA搜索”或“SS搜索”等。同一类型的数据查询平台针对相同目标数据的存储资源可能并不相同。示例性的，商家在XX团的注册信息为“地址：CY区CY区南AA路1号BB中心4层4-6号；店名：CC烤肉(三里屯店)；电话：010-560XX30”，在XX点评网的注册信息为“地址：CY区AA路1号BB中心4层4-6；店名：CC烤肉(三里屯店)；电话：010-560XX30”。现有技术中，当用户使用数据查询系统输入数据查询请求“BJ市CY区CC烤肉”时，数据查询系统会得到所有团购平台关于“CY区CC烤肉”的数据查询结果。例如，XX团可能反馈100条关于“CY区CC烤肉”的数据查询结果，XX点评网可能反馈50条关于“CY区CC烤肉”的数据查询结果，且上述团购平台反馈的数据查询结果均为关于“CY区CC烤肉”的团购信息或商家信息等。为了实现对数据查询结果的去冗余处理，可以针对关于“CY区CC烤肉”重复的团购信息或商家信息进行融合，得到关于“CY区CC烤肉”最全面的信息作为融合结果，或者也还可以根据业务需求将其中某一团购平台反馈的关于“CY区CC烤肉”的团购信息或商家信息作为最终的融合结果，并将最终的融合结果反馈给用户。用户根据反馈的融合结果可以快速定位获取目标信息，从而减少用户排除数据查询结果的时间。

在本发明实施例中，为了实现数据融合效果，首先需要获取用户输入的包括设定数量查询关键词的数据查询请求。例如，“BJ市CY区CC烤肉”或“林JJ的最新单曲”等均可以作为数据查询请求。

S120、根据所述查询关键词确定数据查询结果。

其中，数据查询结果可以是数据查询系统中各个数据查询平台反馈的所有数据查询结果的集合。例如，对于数据查询请求“BJ市CY区CC烤肉”，数据查询结果可以是XX团反馈的100条关于“CY区CC烤肉”的数据查询结果，以及XX点评网反馈的50条关于“CY区CC烤肉”的数据查询结果。

相应的，在获取到用户输入的数据查询请求后，数据查询系统即可根据数据查询请求中包括的查询关键词确定数据查询结果。需要说明的是，数据查询结果可以是某一类型数据查询平台提供的数据查询结果，也可以是多个类型数据查询平台提供的数据查询结果，本发明实施例对此并不进行限制。

示例性的，对于数据查询请求“林JJ的最新单曲”，数据查询结果可以是音视频平台提供的音视频资源集合，如AA音视频平台或BB音视频平台提供的林JJ的最新单曲的音视频集合，也还可以是搜索平台提供的关于林JJ的最新单曲的百科资料或在线音视频资料等，如AA搜索平台或SS搜索平台提供的关于林JJ的最新单曲的百科资料或在线音视频资料等。

在本发明的一个可选实施例中，所述根据所述查询关键词确定数据查询结果，可以包括：根据各所述查询关键词确定数据查询条件；根据所述数据查询条件在数据源中进行查询，以确定数据查询结果；其中，所述数据查询结果为至少一个数据查询平台提供的查询结果列表；所述查询结果列表包括至少一个查询结果。

其中，数据查询条件可以是根据各查询关键词组装的用于查询数据查询结果的条件。数据源可以是各数据查询平台对应的线上或线下的数据源。例如，AA音视频平台对应云服务器存储的数据以及数据查询系统本地存储的BB音视频平台的数据等均可以作为数据源。数据查询列表可以是各数据查询平台存放对应查询结果的列表。

在本发明实施例中，在根据查询关键词确定数据查询结果时，可以首先根据各查询关键词确定数据查询条件。例如，假设查询关键词包括第一查询关键词(城市)、第二查询关键词(区域)以及第三查询关键词(关键词)，则数据查询条件可以是“城市+区域+关键词”。然后，即可根据数据查询条件在数据源中查询以确定数据查询结果。

需要说明的是，数据查询系统在数据源中查询时，可以有各数据查询平台分别在对应的数据源中进行查询，如AA音视频平台在其对应云服务器存储的音视频数据中查询，BB音视频平台在数据查询系统本地存储的音视频数据中查询。或者，也还可以由数据查询系统通过与各数据查询平台对应的接口统一在各数据源中进行查询，本发明实施例对此并不进行限制。

另外还需说明的是，为了对各数据查询结果的整理，可以将各数据查询平台提供的查询结果添加至对应的查询结果列表中。也即，每个数据查询平台对应存在一个查询结果列表，以存放本数据查询平台针对数据查询请求确定的查询结果。

S130、计算所述数据查询结果的相似度。

相应的，在确定数据查询结果后，即可计算数据查询结果的相似度。

S140、如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

其中，数据融合条件可以是针对相似度设定的对数据查询结果进行融合的条件。示例性的，数据融合条件可以是：当相似度大于50％时，可以对两个数据查询结果融合。

在本发明实施例中，获取到数据查询结果的相似度后，在确定数据查询结果的相似度满足数据融合条件时，即可对数据查询结果进行融合。

在本发明的一个可选实施例中，在对所述两个查询结果进行融合之后，还可以包括：将融合后的查询结果的数据身份标识添加至数据关联表。

其中，数据身份标识可以用于唯一标识数据查询结果。数据关联表可以用于存储融合后的查询结果的数据身份标识。

在本发明实施例中，为了避免针对同一数据查询结果反复进行融合操作。在对两个查询结果进行融合之后，还可以将融合后的查询结果的数据身份标识添加至数据关联表。可选的，还可以在数据关联表中建立数据查询请求与数据身份标识的映射关系。当用户再次输入相同的数据查询请求时，数据查询系统可以跳过确定数据查询结果、计算数据查询结果的相似度以及对数据查询结果进行融合的操作，可以直接根据数据查询请求访问数据关联表，并获取该数据查询请求对应的数据身份标识，以根据数据身份标识确定对应的融合后的查询结果，并将融合后的查询结果直接反馈给用户，从而缩减融合计算过程，提高数据融合和数据查询效率。

实施例二

图2a是本发明实施例二提供的一种数据融合方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了计算所述数据查询结果的相似度的具体实现方式。本发明实施例适用于数据查询请求用于查询目标对象的通讯关联信息的情况，相应的，如图2a所示，本实施例的方法可以包括：

S210、获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词。

其中，数据查询请求用于查询目标对象的通讯关联信息。目标对象可以是任意具有地理位置信息的对象，如实体商家、名胜古迹或具有注册地址的公司等。通讯关联信息可以是目标对象关联的通讯信息，可以包括但不限于通讯地址及联系电话等。本发明实施例并不对目标对象及目标对象的通讯关联信息的具体内容进行限定。

S220、根据所述查询关键词确定数据查询结果。

其中，所述数据查询结果为至少一个数据查询平台提供的查询结果列表；所述查询结果列表包括至少一个查询结果。

S230、计算所述数据查询结果的相似度；如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

相应的，S230具体可以包括下述操作：

S231、判断各查询结果是否存在地理位置信息，若是，执行S232，否则执行S233。

其中，地理位置信息可以是包括经纬度的地理坐标信息等。

可以理解的是，由于目标对象为具有地理位置信息的对象，因此在对数据查询结果进行数据融合时，可以首先判断查询结果列表中各查询结果是否存在地理位置信息。

S232、计算每两个查询结果之间的地理位置距离。

其中，地理位置距离可以是两个查询结果地理坐标之间的实际距离，地理位置距离可以用于计算两个查询结果之间的名称相似度。

在本发明实施例中，如果确定各查询结果存在地理位置信息，则可以计算每两个查询结果之间的地理位置距离。

S233、计算每两个查询结果之间的地址相似度。

其中，地址相似度可以是两个查询结果通讯地址的相似程度。示例性的，如果两个查询结果的地址分别为“CY区AA路1号BB中心4层4-6”和“CY区CY区南AA路1号BB中心4层4-6号”，则可以认为两个查询结果的地址是相似的。如果两个查询结果的地址分别为“CY区AA路1号BB中心4层4-6”和“HP区CC路1号DD中心8层”，则可以认为两个查询结果的地址不是相似的。

在本发明实施例中，如果确定各查询结果不存在地理位置信息，则可以计算每两个查询结果之间的地址相似度，以进行后续的融合判断。

S234、判断地理位置距离是否满足第一相似度计算条件，若是，执行S236，否则，执行S235。

其中，第一相似度条件可以是判断两个查询结果中包括的目标对象对应的地理位置是否相似的条件，示例性的，第一相似度计算条件可以是：两个查询结果的地理位置距离不超过100米等。

可以理解的是，不同的平台即使针对统一目标对象存储了相关数据，但存储的数据也可能存在一定的差别。示例性的，假设XX团和XX点评网都存储了商家CC的数据，则XX团和XX点评网存储的商家CC的地理位置信息可能会存在微小偏差，如地理位置距离相差10米等。这种微小偏差实际上可以忽略不计，以避免将同一目标对象确定为不同的目标对象，从而判定两个查询结果不相似进而省略了数据融合过程。

S235、判断地址相似度是否满足第二相似度计算条件，若是，执行S236，否则，执行S240。

其中，第二相似度计算条件可以是判断两个查询结果中包括的目标对象对应的地址信息是否相似的条件。

在本发明实施例中，还可以判断两个查询结果之间的地址相似度是否满足第二相似度计算条件。当两个查询结果之间的地理位置距离不满足第一相似度计算条件，且两个查询结果之间的地址相似度不满足第二相似度计算条件时，表明两个查询结果对应的目标对象是不同，此时可以直接确定两个查询结果的相似度不满足数据融合条件，则不对两个查询结果进行融合。

S236、计算所述两个查询结果之间的名称相似度和联系信息相似度。

其中，名称相似度可以是两个查询结果中目标对象名称的相似程度。示例性的，如果两个查询结果的目标对象名称分别为“RX咖啡(AA路店)”和“RX咖啡甜点(AA店)”，则可以认为两个查询结果中目标对象名称是相似的。联系信息相似度可以是两个查询结果中目标对象联系信息的相似程度。联系信息可以是任意类型的联系方式信息，如联系电话、传真、网址或邮箱等，本发明实施例并不对联系信息的具体类型进行限定。

示例性的，如果两个查询结果的目标对象联系信息均为“1591234567890”和“1591234567890”，则可以认为两个查询结果中目标对象名称是相似的。

相应的，如果两个查询结果之间的地理位置距离满足第一相似度计算条件，和/或，两个查询结果之间的地址相似度满足第二相似度计算条件，则可以进一步计算两个查询结果之间的名称相似度。

S237、判断名称相似度是否满足第三相似度计算条件，且两个查询结果的联系信息相似度是否满足第四相似度计算条件，若是，执行S238，否则，执行S239。

其中，第三相似度计算条件可以是判断两个查询结果中包括的目标对象对应的名称是否相似的条件。第四相似度计算条件可以是判断两个查询结果中包括的目标对象对应的联系信息是否相似的条件。

在本发明实施例中，在得到两个查询结果之间的名称相似度之后，可以进一步判断名称相似度是否满足第三相似度计算条件，且两个查询结果的联系信息是否满足第四相似度计算条件。

S238、对所述两个查询结果进行融合。

相应的，如果名称相似度满足第三相似度计算条件，且两个查询结果的联系信息满足第四相似度计算条件，则可以对两个查询结果进行融合。具体的，可以根据业务需求保留其中一个查询结果作为最终的融合数据，也还可以保留两个查询结果中信息更为完整的查询结果作为最终的融合数据，本发明实施例对此并不进行限制。

示例性的，对于两个查询结果的地址分别为“CY区AA路1号BB中心4层4-6”和“CY区CY区南AA路1号BB中心4层4-6号”，确定其相似度满足数据融合条件，则可以将信息更为完整的“CY区CY区南AA路1号BB中心4层4-6号”作为最终的融合数据，也还可以根据业务需求保留“CY区AA路1号BB中心4层4-6”作为最终的融合数据。

需要说明的是，对查询结果列表包括的查询结果进行融合时，可以分别对每个查询结果列表中包括的查询结果进行两两对比融合。也可以将所有查询结果列表包括的所有查询结果作为一个整体，并对查询结果进行两两对比融合。本发明实施例对此并不进行限制。

例如，数据查询结果包括XX图案的查询结果列表1和XX点评网的查询结果列表2。其中，查询结果列表1包括100条查询结果，查询结果列表2包括60条查询结果。对查询结果进行融合时，可以分别将查询结果列表1中包括的查询结果和查询结果列表2中包括的查询结果进行两两对比融合，则对比次数为100*60＝600次。也可以将查询结果列表1和查询结果列表2包括的所有查询结果作为一个整体，也即160条查询结果，并对160条查询结果行两两对比融合。

S239、判断名称相似度是否不满足第三相似度计算条件，且两个查询结果的联系信息满足第四相似度计算条件，若是，执行S23B，否则，执行S23A。

S23A、判断名称相似度是否满足第三相似度计算条件，且两个查询结果的联系信息不满足第四相似度计算条件，若是，执行S23B，否则，执行S240。

S23B、将所述两个查询结果的关联信息添加至数据日志中。

其中，数据日志可以用于存储只满足第三相似度计算条件和第四相似度计算条件两者之一的查询结果对，以通过人工判断两个查询结果的相似度，并根据判断结果对两个查询结果进行融合。两个查询结果的关联信息包括但不限于两个查询结果以及对应的数据查询请求等。

相应的，如果确定名称相似度不满足第三相似度计算条件，且两个查询结果的联系信息满足第四相似度计算条件，或，名称相似度满足第三相似度计算条件，且两个查询结果的联系信息不满足第四相似度计算条件，则将两个查询结果的关联信息添加至数据日志中。数据日志可以用于工作人员对其中包括的查询结果对一一进行人工审核，并在确认查询结果对中包括的目标对象为同一目标对象时，对查询结果对的两个查询结果进行合并；否则，确定查询结果对不满足数据融合条件，不对查询结果对的两个查询结果进行融合。

S240、确定所述两个查询结果的相似度不满足所述数据融合条件。

在本发明实施例中，如果确定两个查询结果的相似度不满足数据融合条件，则可以不对两个查询结果进行融合。

需要说明的是，图2a仅是一种实现方式的示意图，S239和S23A之间并没有先后顺序关系，可以先实施S239，再实施步骤S23A，也可以先实施步骤S23A，再实施步骤S239，还可以两者并行实施。

在上述实施例的基础上，计算所述数据查询结果的相似度，可以包括：对两个查询结果进行分词处理，获取所述两个查询结果对应的分词结果；分别计算所述查询结果中各所述分词结果的词频；根据各所述分词结果的词频计算各所述查询结果的词频向量；根据各所述查询结果的词频向量计算两个所述查询结果的相似度。可选的，可以基于如下公式根据各所述查询结果的词频向量计算两个所述查询结果的相似度：

其中，θ表示两个词频向量之间的夹角，cos(θ)表示两个词频向量的余弦值，X_i表示第一查询结果的词频向量的分量，Y_i表示第二查询结果的词频向量的分量，n表示所述两个查询结果的分词结果的总数量。

其中，第一查询结果和第二查询结果即为判断是否可以进行融合的两个查询结果。

在一个具体的例子中，假设第一查询结果为：咿呀满赞(麒麟路店)，第二查询结果为：咿呀满赞丰满牛肉(麒麟店)。计算两个查询结果的相似度时，可以对第一查询结果和第二查询结果进行分词处理；获取两个查询结果对应的分词结果。其中，第一查询结果的分词结果为：咿呀/满赞/麒麟/路/店；第二查询结果的分词结果为：咿呀/满赞/丰满/牛肉/麒麟/店。相应的，两个查询结果包括的总的分词结果为：咿呀/满赞/丰满/牛肉/麒麟/路/店。然后，分别计算查询结果中各分词结果的词频。其中，第一查询结果的分词结果的词频为：咿呀1满赞1丰满0牛肉0麒麟1路1店1；第二查询结果的分词结果的词频为：咿呀1满赞1丰满1牛肉1麒麟1路0店1。进一步的，根据各分词结果的词频计算各查询结果的词频向量。其中，第一查询结果的词频向量为(1，1，0，0，1，1，1)，其中，x1＝1，x2＝1，x3＝0，x4＝0，x5＝1，x6＝1，x7＝1。第二查询结果的词频向量为(1，1，1，1，1，0，1)，其中，x1＝1，x2＝1，x3＝1，x4＝1，x5＝1，x6＝0，x7＝1。进一步的，根据各查询结果的词频向量计算两个查询结果的相似度。

当获取到各查询结果的词频向量时，计算数据查询结果的相似度就可以转换为计算查询结果对应词频向量的相似度。具体的，可以基于如下公式根据各查询结果的词频向量计算两个查询结果的相似度：

其中，θ表示两个词频向量之间的夹角，cos(θ)表示两个词频向量的余弦值，x_i表示第一查询结果的词频向量的分量，y_i表示第二查询结果的词频向量的分量，n表示两个查询结果的分词结果的总数量。

相应的，利用上述公式的计算过程为：

将第一查询结果的词频向量的分量x1＝1，x2＝1，x3＝0，x4＝0，x5＝1，x6＝1，x7＝1，以及第二查询结果的词频向量的分量x1＝1，x2＝1，x3＝1，x4＝1，x5＝1，x6＝0，x7＝1代入上述公式，得到的结果为0.7303。

需要说明的是，本发明实施例中的名称相似度及地址相似度均可以采用上述计算数据查询结果的相似度的方法来计算。

图2b是本发明实施例提供的一种数据融合方法的流程图。在一个具体的例子中，如图2b所示，假设数据查询系统支持XX团及XX点评网的团购平台。如果用户输入的数据查询请求为“BJ市CY区CC烤肉”，则可以根据数据查询请求“BJ市CY区CC烤肉”中查询关键词“城市+区域+关键词”确定数据查询条件。然后根据XX团及XX点评网的数据源，分别获取XX团的针对“CC烤肉”商家的查询结果列表1，以及XX点评网的针对“CC烤肉”商家的查询结果列表2。然后，可以判断两个查询结果列表中的查询结果是否都存在经纬度信息。如果确定存在经纬度信息，则计算查询结果列表1及查询结果列表2每两个查询结果中两个商家间的距离；否则，计算查询结果列表1及查询结果列表2每两个查询结果中两个商家的地址相似度。如果确定距离小于100米或地址相似度大于50％，则可以进一步计算两个商家的名称相似度，并获取两个查询结果包括的电话号码；如果距离小于100米或地址相似度大于50％的条件都不满足，则确定两个查询结果对应的两个商家不是同一商家，不需要对查询结果进行融合。相应的，如果确定距离小于100米或地址相似度大于50％，并且名称相似度大于50％且电话号码中有一个相同(两个查询结果包括的电话号码有一个相同)，则确定查询结果中的两个商家是同一商家，并可以对查询结果进行融合，然后将融合后的查询结果的商家编号加入数据关联表中。如果确定距离小于100米或地址相似度大于50％，并且名称相似度大于50％或电话号码中有一个相同，则无法确定查询结果中的两个商家是否为同一商家，此时可以将该查询结果对加入数据日志中，以通过人工判断该查询结果对是否可以融合。如果确定距离小于100米或地址相似度大于50％，并且名称相似度不大于50％且电话号码都不相同，则确定查询结果中的两个商家不是同一商家，不需要对查询结果进行融合。

假设XX团针对数据查询请求“BJ市CY区CC烤肉”获取到1000条查询结果，可以取其中距离最短的100条查询结果加入查询结果列表1。XX点评网针对数据查询请求“BJ市CY区CC烤肉”获取到100条查询结果，可以取其中距离最短的64条查询结果加入查询结果列表2。其中，确定数据查询结果的相似度满足数据融合条件的数量为9条，则最终反馈给用户的查询结果可以为(100-9)+(64-9)+9＝146条。

综上所述，本发明实施例通过对用户输入的包括查询关键词的数据查询请求确定数据查询条件，以确定数据查询结果，并计算数据查询结果的多种类型的相似度，从而在确定数据查询结果的相似度满足数据融合条件时，则对数据查询结果进行融合，解决现有数据查询系统存在的数据查询结果冗余度较高的问题，实现对数据查询结果的去冗余处理，从而提高数据查询结果的精准性、简练性和可靠性。

需要说明的是，以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。

实施例三

图3是本发明实施例三提供的一种数据融合装置的示意图，如图3所示，所述装置包括：数据查询请求获取模块310、数据查询结果确定模块320、相似度计算模块330以及数据查询结果融合模块340，其中：

数据查询请求获取模块310，用于获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词；

数据查询结果确定模块320，用于根据所述查询关键词确定数据查询结果；

相似度计算模块330，用于计算所述数据查询结果的相似度；

数据查询结果融合模块340，用于如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

可选的，所述数据查询结果确定模块320用于：根据各所述查询关键词确定数据查询条件；根据所述数据查询条件在数据源中进行查询，以确定数据查询结果；其中，所述数据查询结果为至少一个数据查询平台提供的查询结果列表；所述查询结果列表包括至少一个查询结果。

可选的，所述数据查询请求用于查询目标对象的通讯关联信息；相似度计算模块330用于：如果确定各所述查询结果存在地理位置信息，则计算每两个查询结果之间的地理位置距离；所述地理位置距离用于计算所述两个查询结果之间的名称相似度；否则，计算每两个查询结果之间的地址相似度。

可选的，相似度计算模块330用于：如果所述地理位置距离满足第一相似度计算条件，和/或，所述地址相似度满足第二相似度计算条件，则计算所述两个查询结果之间的名称相似度和联系信息相似度；如果所述地理位置距离不满足第一相似度计算条件，且所述地址相似度不满足第二相似度计算条件，则确定所述两个查询结果的相似度不满足所述数据融合条件。

可选的，数据查询结果融合模块340用于：如果确定所述名称相似度满足第三相似度计算条件，且所述两个查询结果的联系信息相似度满足第四相似度计算条件，则对所述两个查询结果进行融合；如果确定所述名称相似度不满足第三相似度计算条件，且所述两个查询结果的联系信息相似度满足第四相似度计算条件，或，所述名称相似度满足第三相似度计算条件，且所述两个查询结果的联系信息相似度不满足第四相似度计算条件，则将所述两个查询结果的关联信息添加至数据日志中；其中，所述数据日志用于人工判断所述两个查询结果的相似度，并根据判断结果对所述两个查询结果进行融合。

可选的，所述装置还包括数据身份标识添加模块，用于将融合后的查询结果的数据身份标识添加至数据关联表。

可选的，相似度计算模块330具体用于：对两个查询结果进行分词处理，获取所述两个查询结果对应的分词结果；分别计算所述查询结果中各所述分词结果的词频；根据各所述分词结果的词频计算各所述查询结果的词频向量；根据各所述查询结果的词频向量计算两个所述查询结果的相似度。

可选的，相似度计算模块330具体用于：基于如下公式根据各所述查询结果的词频向量计算两个所述查询结果的相似度：

上述数据融合装置可执行本发明任意实施例所提供的数据融合方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的数据融合方法。

由于上述所介绍的数据融合装置为可以执行本发明实施例中的数据融合方法的装置，故而基于本发明实施例中所介绍的数据融合方法，本领域所属技术人员能够了解本实施例的数据融合装置的具体实施方式以及其各种变化形式，所以在此对于该数据融合装置如何实现本发明实施例中的数据融合方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中数据融合方法所采用的装置，都属于本申请所欲保护的范围。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的计算机设备412的框图。图4显示的计算机设备412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于：一个或者多个处理器416，存储装置428，连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块426的程序436，可以存储在例如存储装置428中，这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信，还可与一个或者多个使得用户能与该计算机设备412交互的设备通信，和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口422进行。并且，计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arraysof Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的数据融合方法。

也即，所述处理单元执行所述程序时实现：获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词；根据所述查询关键词确定数据查询结果；计算所述数据查询结果的相似度；如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

实施例五

本发明实施例五还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的数据融合方法：获取用户输入的数据查询请求；其中，所述数据查询请求包括设定数量的查询关键词；根据所述查询关键词确定数据查询结果；计算所述数据查询结果的相似度；如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read OnlyMemory，ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnlyMemory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据融合方法，其特征在于，包括：

根据所述查询关键词确定数据查询结果；

计算所述数据查询结果的相似度；

2.根据权利要求1所述的方法，其特征在于，所述根据所述查询关键词确定数据查询结果，包括：

根据各所述查询关键词确定数据查询条件；

根据所述数据查询条件在数据源中进行查询，以确定数据查询结果；

3.根据权利要求2所述的方法，其特征在于，所述数据查询请求用于查询目标对象的通讯关联信息；

所述计算所述数据查询结果的相似度，包括：

如果确定各所述查询结果存在地理位置信息，则计算每两个查询结果之间的地理位置距离；所述地理位置距离用于计算所述两个查询结果之间的名称相似度；

否则，计算每两个查询结果之间的地址相似度。

4.根据权利要求3所述的方法，其特征在于，所述计算所述数据查询结果的相似度，包括：

如果所述地理位置距离满足第一相似度计算条件，和/或，所述地址相似度满足第二相似度计算条件，则计算所述两个查询结果之间的名称相似度和联系信息相似度；

如果所述地理位置距离不满足第一相似度计算条件，且所述地址相似度不满足第二相似度计算条件，则确定所述两个查询结果的相似度不满足所述数据融合条件。

5.根据权利要求4所述的方法，其特征在于，所述如果确定所述数据查询结果的相似度满足数据融合条件，则对所述数据查询结果进行融合，包括：

如果确定所述名称相似度满足第三相似度计算条件，且所述两个查询结果的联系信息相似度满足第四相似度计算条件，则对所述两个查询结果进行融合；

如果确定所述名称相似度不满足第三相似度计算条件，且所述两个查询结果的联系信息相似度满足第四相似度计算条件，或，所述名称相似度满足第三相似度计算条件，且所述两个查询结果的联系信息相似度不满足第四相似度计算条件，则将所述两个查询结果的关联信息添加至数据日志中；

其中，所述数据日志用于人工判断所述两个查询结果的相似度，并根据判断结果对所述两个查询结果进行融合。

6.根据权利要求5所述的方法，其特征在于，在对所述两个查询结果进行融合之后，还包括：

将融合后的查询结果的数据身份标识添加至数据关联表。

7.根据权利要求2-6任一所述的方法，其特征在于，所述计算所述数据查询结果的相似度，包括：

对两个查询结果进行分词处理，获取所述两个查询结果对应的分词结果；

分别计算所述查询结果中各所述分词结果的词频；

根据各所述分词结果的词频计算各所述查询结果的词频向量；

根据各所述查询结果的词频向量计算两个所述查询结果的相似度。

8.根据权利要求7所述的方法，其特征在于，所述根据各所述查询结果的词频向量计算两个所述查询结果的相似度，包括：

基于如下公式根据各所述查询结果的词频向量计算两个所述查询结果的相似度：

9.一种数据融合装置，其特征在于，包括：

相似度计算模块，用于计算所述数据查询结果的相似度；

10.根据权利要求9所述的装置，其特征在于，所述数据查询结果确定模块用于：

根据各所述查询关键词确定数据查询条件；

11.根据权利要求10所述的装置，其特征在于，所述数据查询请求用于查询目标对象的通讯关联信息；

所述相似度计算模块用于：如果确定各所述查询结果存在地理位置信息，则计算每两个查询结果之间的地理位置距离；所述地理位置距离用于计算所述两个查询结果之间的名称相似度；

否则，计算每两个查询结果之间的地址相似度。

12.根据权利要求11所述的装置，其特征在于，所述相似度计算模块用于：

13.根据权利要求12所述的装置，其特征在于，所述数据查询结果融合模块用于：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括数据身份标识添加模块，用于将融合后的查询结果的数据身份标识添加至数据关联表。

15.根据权利要求10-14任一所述的装置，其特征在于，所述相似度计算模块具体用于：

分别计算所述查询结果中各所述分词结果的词频；

16.根据权利要求15所述的装置，其特征在于，所述相似度计算模块具体用于：

17.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的数据融合方法。