CN107818144A

CN107818144A - 一种基于Solr对多数据源数据进行整合的方法

Info

Publication number: CN107818144A
Application number: CN201710962637.2A
Authority: CN
Inventors: 尚平平
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2018-03-20

Abstract

本发明公开了一种基于Solr对多数据源数据进行整合的方法，包括以下步骤：制定数据属性的集合；设定集合中数据属性的权重；选取数据属性个数最多的数据源作为基数据；对基数据中的每条数据在solr中建立索引，将其他数据源中的数据去solr中检索，根据检索结果对数据进行合并或新建。本发明利于数据的分析，提高数据整合的效率和准确率。

Description

一种基于Solr对多数据源数据进行整合的方法

技术领域

本发明涉及计算机技术领域,具体地说是一种基于Solr对多数据源数据进行整合的方法。

背景技术

Solr是一个高性能、采用Java开发、基于Lucene的全文搜索服务器。同时对Lucene进行了扩展，提供了比Lucene更为丰富的查询语言，实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

Solr对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

在实际生产环境中，存在这样一种场景：来自不同数据源的数据，包含的信息既有区别，又有一定的关联，我们需要将数据进行整合，得到综合各数据源信息的数据。目前已有的挖掘数据之间关联的方法称为关联分析，常用的有Apriori算法和FP-growth算法。由于这些算法过程较复杂，而且不能加入个人经验，因此对于本文的数据整合场景，有很大的局限性。

发明内容

本发明的目的在于提供一种基于Solr对多数据源数据进行整合的方法，用于解决现有挖掘数据关联的方法过程复杂、分析时间长的问题。

本发明解决其技术问题所采用的技术方案是：一种基于Solr对多数据源数据进行整合的方法，包括以下步骤：

制定数据属性的集合；

设定集合中数据属性的权重；

选取数据属性个数最多的数据源作为基数据；

对基数据中的每条数据在solr中建立索引，将其他数据源中的数据去solr中检索，根据检索结果对数据进行合并或新建。

进一步地，所述制定数据属性的集合的具体过程为：

获取所有数据源中数据的属性；

分析所述数据的属性，获取唯一标识事物特征的属性；

将所述唯一标识事物特征的属性加入到数据属性的集合中。

进一步地，所述数据属性的权重按照标识事物特征唯一性的强弱来设定，标识事物特征的唯一性越强，权重越高。

进一步地，在将其他数据源中的数据去solr中检索之前还包括制定相似度算法的步骤，所述相似度算法通过定义相似值计算公式来确定两条数据的相似性。

进一步地，所述相似值计算公式为：s(a,b)＝x₁*w₁+x₂*w₂+…+x_n*w_n；

其中，a和b表示两条数据,w₁，w₂，…,w_n表示每个数据属性的权重，x₁，w₂，…，x_n的取值为0或1。

进一步地，所述将其他数据源中的数据去solr中检索，根据检索结果对数据进行合并或新建的具体过程为：

对每条数据去solr中检索，将每条数据与基数据中的数据进行比较，根据相似度算法，获得两条数据的相似值；

设定相似值的阈值，在检索结果中，将相似值大于或等于阈值的数据源中的数据与基数据中对应数据的索引进行合并；将相似值小于阈值的数据源中的数据在solr中建立新的索引。

进一步地，在所述检索结果中，对其他数据源中的数据，根据与基数据中数据的相似值进行排序，相似值越大，排序越靠前。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

1、从数据源中选取基数据，将其他数据与基数据进行对比，通过对结果的分析，将多数据源中的数据进行整合；其中基数据为包含数据属性个数最多的数据源，将此作为基数据，与其他数据比较时，跟容易获取存在相似性的结果，利于数据的分析，提高数据整合的效率。

2、将能够唯一标识事物特征的属性加入到数据属性的集合中，并设定权重，使指定相似性算法提供了前提条件，且由于数据属性对事物特征标识的唯一性，使数据整合的结果更加准确可靠。

3、相似性算法中，采用相似值计算公式来衡量两条数据之间的相似值，标准客观，增加数据整合结果的可靠性；同时简化过程，提高数据整合的效率。

附图说明

图1是本发明的方法流程图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明的一种基于Solr对多数据源数据进行整合的方法，包括以下步骤：

S1，制定数据属性的集合；

S2，设定集合中数据属性的权重；

S3，选取数据属性个数最多的数据源作为基数据；

S4，对基数据中的每条数据在solr中建立索引，将其他数据源中的数据去solr中检索，根据检索结果对数据进行合并或新建。

步骤S1的具体实现过程为：

S11，获取所有数据源中数据的属性；

S12，分析所述数据的属性，获取唯一标识事物特征的属性；

S13，将所述唯一标识事物特征的属性加入到数据属性的集合中。

步骤S11中，适用本实施例场景的数据源有很多，每个数据源包含的属性也有很大的不同。比如水电费缴纳时的数据，包含用户姓名、户号及费用等属性；公共场合的上网登录数据，包含手机号、上网时间、上网时长等属性。

步骤S12中，对于水电费缴纳时的数据和公共场合上网登录的数据中。比如手机号、身份证号、户号等信息能较为准确的、唯一的标识一个事物的属性。

步骤S13中，这里将手机号、身份证号、户号等这些属性集合记为集合A，而上网时长这些信息只是说明信息，就不能加入集合A。

步骤S2中，为集合A中的属性制定权重。越能唯一的标识一个事物特征的数据属性，权重越高。举例来说，如果这里的事物代表“人”，则“身份证号”比“手机号”更能唯一的标识一个人，“手机号”比“住址”更能唯一的标识一个人，因此省份证号、手机号、住址这三个数据属性的权重依次降低。权重的取值范围为0.1～1.0。各属性的具体权重，都是经验值，根据我们的日常经验制定。与现有数据分析整合算法不同，在算法中加入日常经验，使算法更加灵活。

步骤S3中，基数据为包含数据属性个数最多的数据源，将此作为基数据，与其他数据比较时，跟容易获取存在相似性的结果，利于数据的分析，提高数据整合的效率。

步骤S4中，对基数据中的每条数据在Solr中建立索引。比如水电缴费列表数据中的一条数据，我们就对其中的手机号、户号建索引。

在将其他数据源中的数据去solr中检索之前还包括制定相似度算法的步骤，相似度算法通过定义相似值计算公式来确定两条数据的相似性。

因为solr的查询结果是按照相似性来排序的，跟我们的查询数据关系越大的结果显示越靠前。根据我们的数据整合场景，自定义了相似度算法。由于属性值不同代表不同的事物，比如手机号，即使两个手机号相差一位，也代表不同的两个事物，根据这一特点，我们定义了一个公式计算两条数据的相似性。假设有两条数据a和b，a和b的属性集合为(p₁,p₂,…,p_n),每个属性都有自己的权重w₁，w₂，…,w_n，相似值计算公式为s(a,b)＝x₁*w₁+x₂*w₂+…+x_n*w_n，x的值为0或者1，当a和b在某属性上的值相同时，x取值1，反之取值为0。

将其他数据源中的数据去solr中检索，根据检索结果对数据进行合并或新建的具体过程为：

在检索结果中，对其他数据源中的数据，根据与基数据中数据的相似值进行排序，相似值越大，排序越靠前。

按照上述步骤处理完所有数据源，得到一个整合后的数据集合。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视为本发明的保护范围。

Claims

1.一种基于Solr对多数据源数据进行整合的方法，其特征是：包括以下步骤：

制定数据属性的集合；

设定集合中数据属性的权重；

选取数据属性个数最多的数据源作为基数据；

2.根据权利要求1所述的方法，其特征是：所述制定数据属性的集合的具体过程为：

获取所有数据源中数据的属性；

分析所述数据的属性，获取唯一标识事物特征的属性；

将所述唯一标识事物特征的属性加入到数据属性的集合中。

3.根据权利要求1所述的方法，其特征是：所述数据属性的权重按照标识事物特征唯一性的强弱来设定，标识事物特征的唯一性越强，权重越高。

4.根据权利要求1所述的方法，其特征是：在将其他数据源中的数据去solr中检索之前还包括制定相似度算法的步骤，所述相似度算法通过定义相似值计算公式来确定两条数据的相似性。

5.根据权利要求4所述的方法，其特征是：所述相似值计算公式为：

s(a,b)＝x₁*w₁+x₂*w₂+…+x_n*w_n；

6.根据权利要求5所述的方法，其特征是：所述将其他数据源中的数据去solr中检索，根据检索结果对数据进行合并或新建的具体过程为：

7.根据权利要求6所述的方法，其特征是：在所述检索结果中，对其他数据源中的数据，根据与基数据中数据的相似值进行排序，相似值越大，排序越靠前。