CN107818144A - 一种基于Solr对多数据源数据进行整合的方法 - Google Patents

一种基于Solr对多数据源数据进行整合的方法 Download PDF

Info

Publication number
CN107818144A
CN107818144A CN201710962637.2A CN201710962637A CN107818144A CN 107818144 A CN107818144 A CN 107818144A CN 201710962637 A CN201710962637 A CN 201710962637A CN 107818144 A CN107818144 A CN 107818144A
Authority
CN
China
Prior art keywords
data
attribute
solr
similar value
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710962637.2A
Other languages
English (en)
Inventor
尚平平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710962637.2A priority Critical patent/CN107818144A/zh
Publication of CN107818144A publication Critical patent/CN107818144A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Solr对多数据源数据进行整合的方法,包括以下步骤:制定数据属性的集合;设定集合中数据属性的权重;选取数据属性个数最多的数据源作为基数据;对基数据中的每条数据在solr中建立索引,将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建。本发明利于数据的分析,提高数据整合的效率和准确率。

Description

一种基于Solr对多数据源数据进行整合的方法
技术领域
本发明涉及计算机技术领域,具体地说是一种基于Solr对多数据源数据进行整合的方法。
背景技术
Solr是一个高性能、采用Java开发、基于Lucene的全文搜索服务器。同时对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
Solr对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
在实际生产环境中,存在这样一种场景:来自不同数据源的数据,包含的信息既有区别,又有一定的关联,我们需要将数据进行整合,得到综合各数据源信息的数据。目前已有的挖掘数据之间关联的方法称为关联分析,常用的有Apriori算法和FP-growth算法。由于这些算法过程较复杂,而且不能加入个人经验,因此对于本文的数据整合场景,有很大的局限性。
发明内容
本发明的目的在于提供一种基于Solr对多数据源数据进行整合的方法,用于解决现有挖掘数据关联的方法过程复杂、分析时间长的问题。
本发明解决其技术问题所采用的技术方案是:一种基于Solr对多数据源数据进行整合的方法,包括以下步骤:
制定数据属性的集合;
设定集合中数据属性的权重;
选取数据属性个数最多的数据源作为基数据;
对基数据中的每条数据在solr中建立索引,将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建。
进一步地,所述制定数据属性的集合的具体过程为:
获取所有数据源中数据的属性;
分析所述数据的属性,获取唯一标识事物特征的属性;
将所述唯一标识事物特征的属性加入到数据属性的集合中。
进一步地,所述数据属性的权重按照标识事物特征唯一性的强弱来设定,标识事物特征的唯一性越强,权重越高。
进一步地,在将其他数据源中的数据去solr中检索之前还包括制定相似度算法的步骤,所述相似度算法通过定义相似值计算公式来确定两条数据的相似性。
进一步地,所述相似值计算公式为:s(a,b)=x1*w1+x2*w2+…+xn*wn
其中,a和b表示两条数据,w1,w2,…,wn表示每个数据属性的权重,x1,w2,…,xn的取值为0或1。
进一步地,所述将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建的具体过程为:
对每条数据去solr中检索,将每条数据与基数据中的数据进行比较,根据相似度算法,获得两条数据的相似值;
设定相似值的阈值,在检索结果中,将相似值大于或等于阈值的数据源中的数据与基数据中对应数据的索引进行合并;将相似值小于阈值的数据源中的数据在solr中建立新的索引。
进一步地,在所述检索结果中,对其他数据源中的数据,根据与基数据中数据的相似值进行排序,相似值越大,排序越靠前。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、从数据源中选取基数据,将其他数据与基数据进行对比,通过对结果的分析,将多数据源中的数据进行整合;其中基数据为包含数据属性个数最多的数据源,将此作为基数据,与其他数据比较时,跟容易获取存在相似性的结果,利于数据的分析,提高数据整合的效率。
2、将能够唯一标识事物特征的属性加入到数据属性的集合中,并设定权重,使指定相似性算法提供了前提条件,且由于数据属性对事物特征标识的唯一性,使数据整合的结果更加准确可靠。
3、相似性算法中,采用相似值计算公式来衡量两条数据之间的相似值,标准客观,增加数据整合结果的可靠性;同时简化过程,提高数据整合的效率。
附图说明
图1是本发明的方法流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明的一种基于Solr对多数据源数据进行整合的方法,包括以下步骤:
S1,制定数据属性的集合;
S2,设定集合中数据属性的权重;
S3,选取数据属性个数最多的数据源作为基数据;
S4,对基数据中的每条数据在solr中建立索引,将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建。
步骤S1的具体实现过程为:
S11,获取所有数据源中数据的属性;
S12,分析所述数据的属性,获取唯一标识事物特征的属性;
S13,将所述唯一标识事物特征的属性加入到数据属性的集合中。
步骤S11中,适用本实施例场景的数据源有很多,每个数据源包含的属性也有很大的不同。比如水电费缴纳时的数据,包含用户姓名、户号及费用等属性;公共场合的上网登录数据,包含手机号、上网时间、上网时长等属性。
步骤S12中,对于水电费缴纳时的数据和公共场合上网登录的数据中。比如手机号、身份证号、户号等信息能较为准确的、唯一的标识一个事物的属性。
步骤S13中,这里将手机号、身份证号、户号等这些属性集合记为集合A,而上网时长这些信息只是说明信息,就不能加入集合A。
步骤S2中,为集合A中的属性制定权重。越能唯一的标识一个事物特征的数据属性,权重越高。举例来说,如果这里的事物代表“人”,则“身份证号”比“手机号”更能唯一的标识一个人,“手机号”比“住址”更能唯一的标识一个人,因此省份证号、手机号、住址这三个数据属性的权重依次降低。权重的取值范围为0.1~1.0。各属性的具体权重,都是经验值,根据我们的日常经验制定。与现有数据分析整合算法不同,在算法中加入日常经验,使算法更加灵活。
步骤S3中,基数据为包含数据属性个数最多的数据源,将此作为基数据,与其他数据比较时,跟容易获取存在相似性的结果,利于数据的分析,提高数据整合的效率。
步骤S4中,对基数据中的每条数据在Solr中建立索引。比如水电缴费列表数据中的一条数据,我们就对其中的手机号、户号建索引。
在将其他数据源中的数据去solr中检索之前还包括制定相似度算法的步骤,相似度算法通过定义相似值计算公式来确定两条数据的相似性。
因为solr的查询结果是按照相似性来排序的,跟我们的查询数据关系越大的结果显示越靠前。根据我们的数据整合场景,自定义了相似度算法。由于属性值不同代表不同的事物,比如手机号,即使两个手机号相差一位,也代表不同的两个事物,根据这一特点,我们定义了一个公式计算两条数据的相似性。假设有两条数据a和b,a和b的属性集合为(p1,p2,…,pn),每个属性都有自己的权重w1,w2,…,wn,相似值计算公式为s(a,b)=x1*w1+x2*w2+…+xn*wn,x的值为0或者1,当a和b在某属性上的值相同时,x取值1,反之取值为0。
将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建的具体过程为:
对每条数据去solr中检索,将每条数据与基数据中的数据进行比较,根据相似度算法,获得两条数据的相似值;
设定相似值的阈值,在检索结果中,将相似值大于或等于阈值的数据源中的数据与基数据中对应数据的索引进行合并;将相似值小于阈值的数据源中的数据在solr中建立新的索引。
在检索结果中,对其他数据源中的数据,根据与基数据中数据的相似值进行排序,相似值越大,排序越靠前。
按照上述步骤处理完所有数据源,得到一个整合后的数据集合。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (7)

1.一种基于Solr对多数据源数据进行整合的方法,其特征是:包括以下步骤:
制定数据属性的集合;
设定集合中数据属性的权重;
选取数据属性个数最多的数据源作为基数据;
对基数据中的每条数据在solr中建立索引,将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建。
2.根据权利要求1所述的方法,其特征是:所述制定数据属性的集合的具体过程为:
获取所有数据源中数据的属性;
分析所述数据的属性,获取唯一标识事物特征的属性;
将所述唯一标识事物特征的属性加入到数据属性的集合中。
3.根据权利要求1所述的方法,其特征是:所述数据属性的权重按照标识事物特征唯一性的强弱来设定,标识事物特征的唯一性越强,权重越高。
4.根据权利要求1所述的方法,其特征是:在将其他数据源中的数据去solr中检索之前还包括制定相似度算法的步骤,所述相似度算法通过定义相似值计算公式来确定两条数据的相似性。
5.根据权利要求4所述的方法,其特征是:所述相似值计算公式为:
s(a,b)=x1*w1+x2*w2+…+xn*wn
其中,a和b表示两条数据,w1,w2,…,wn表示每个数据属性的权重,x1,w2,…,xn的取值为0或1。
6.根据权利要求5所述的方法,其特征是:所述将其他数据源中的数据去solr中检索,根据检索结果对数据进行合并或新建的具体过程为:
对每条数据去solr中检索,将每条数据与基数据中的数据进行比较,根据相似度算法,获得两条数据的相似值;
设定相似值的阈值,在检索结果中,将相似值大于或等于阈值的数据源中的数据与基数据中对应数据的索引进行合并;将相似值小于阈值的数据源中的数据在solr中建立新的索引。
7.根据权利要求6所述的方法,其特征是:在所述检索结果中,对其他数据源中的数据,根据与基数据中数据的相似值进行排序,相似值越大,排序越靠前。
CN201710962637.2A 2017-10-17 2017-10-17 一种基于Solr对多数据源数据进行整合的方法 Pending CN107818144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710962637.2A CN107818144A (zh) 2017-10-17 2017-10-17 一种基于Solr对多数据源数据进行整合的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710962637.2A CN107818144A (zh) 2017-10-17 2017-10-17 一种基于Solr对多数据源数据进行整合的方法

Publications (1)

Publication Number Publication Date
CN107818144A true CN107818144A (zh) 2018-03-20

Family

ID=61608036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710962637.2A Pending CN107818144A (zh) 2017-10-17 2017-10-17 一种基于Solr对多数据源数据进行整合的方法

Country Status (1)

Country Link
CN (1) CN107818144A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765492A (zh) * 2020-12-31 2021-05-07 浙江省方大标准信息有限公司 一种检验检测机构排序方法
CN112989887A (zh) * 2019-12-16 2021-06-18 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257983A (zh) * 2012-09-10 2013-08-21 苏州大学 一种基于唯一性约束的Deep Web实体识别方法
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN104699796A (zh) * 2015-03-18 2015-06-10 浪潮集团有限公司 一种基于数据仓库的数据清洗方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257983A (zh) * 2012-09-10 2013-08-21 苏州大学 一种基于唯一性约束的Deep Web实体识别方法
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
CN104699796A (zh) * 2015-03-18 2015-06-10 浪潮集团有限公司 一种基于数据仓库的数据清洗方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王武: "数据清洗方法研究及工具设计", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989887A (zh) * 2019-12-16 2021-06-18 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备
CN112765492A (zh) * 2020-12-31 2021-05-07 浙江省方大标准信息有限公司 一种检验检测机构排序方法

Similar Documents

Publication Publication Date Title
WO2019153607A1 (zh) 智能应答方法、电子装置及存储介质
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
CN102612691B (zh) 给文本评分的方法和系统
US9305083B2 (en) Author disambiguation
US9477747B2 (en) Method and apparatus for acquiring hot topics
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN110069698B (zh) 信息推送方法和装置
WO2011097053A2 (en) Generating and presenting lateral concepts
CN102402619A (zh) 一种搜索方法和装置
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN109446328A (zh) 一种文本识别方法、装置及其存储介质
CN104462245A (zh) 一种用户上网偏好数据识别方法
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN108427690A (zh) 信息投放方法及装置
CN113220835B (zh) 文本信息处理方法、装置、电子设备以及存储介质
CN104067273A (zh) 将搜索结果分组为简档页面
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
CN110245357B (zh) 主实体识别方法和装置
CN112507139A (zh) 基于知识图谱的问答方法、系统、设备及存储介质
CN112231452A (zh) 基于自然语言处理的问答方法、装置、设备及存储介质
CN110413882B (zh) 信息推送方法、装置及设备
US20150127657A1 (en) Method and Computer for Indexing and Searching Structures
CN107818144A (zh) 一种基于Solr对多数据源数据进行整合的方法
CN109299238B (zh) 一种数据查询方法和装置
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200525

Address after: 250101 floor 27, S01, Inspur Science Park, No. 1036, Inspur Road, Jinan City, Shandong Province

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180320