CN107609154A - 一种多源异构数据的处理方法及装置 - Google Patents
一种多源异构数据的处理方法及装置 Download PDFInfo
- Publication number
- CN107609154A CN107609154A CN201710869354.3A CN201710869354A CN107609154A CN 107609154 A CN107609154 A CN 107609154A CN 201710869354 A CN201710869354 A CN 201710869354A CN 107609154 A CN107609154 A CN 107609154A
- Authority
- CN
- China
- Prior art keywords
- data
- index field
- mapping relations
- index
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 title claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 97
- 230000008676 import Effects 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 13
- 230000005055 memory storage Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 230000011218 segmentation Effects 0.000 abstract 1
- 101100328886 Caenorhabditis elegans col-2 gene Proteins 0.000 description 13
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 101100496854 Caenorhabditis elegans col-12 gene Proteins 0.000 description 4
- 101100328877 Caenorhabditis elegans col-13 gene Proteins 0.000 description 4
- 101100328879 Caenorhabditis elegans col-14 gene Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 101100328884 Caenorhabditis elegans sqt-3 gene Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种多源异构数据的处理方法及装置,该方法可以包括:创建包括有至少一个第一索引字段的数据表模板;针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系;根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应;根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。本方案能够缩短数据的查找时间,查找过程较为简便。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种多源异构数据的处理方法及装置。
背景技术
随着信息技术的不断发展,政府、企业等信息化程度越来越高,各部门业务系统产生的数据量越来越大,数据结构类型越来越复杂,数据来源也越来也多。
目前,当用户需要查找某类数据时,需要人工分别从不同的数据源中一一查找所需数据。
但是,由于需要查找的数据源个数较多,可见,通过人工的方式逐一从各数据源中查找所需数据将会耗费大量时间,查找过程较为繁琐。
发明内容
本发明实施例提供了一种多源异构数据的处理方法及装置,能够缩短数据的查找时间,查找过程较为简便。
第一方面,本发明实施例提供了一种多源异构数据的处理方法,
创建包括有至少一个第一索引字段的数据表模板;
针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系;还包括:
根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应;
根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。
优选地,
在所述根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中之前,进一步包括:
针对每一个所述第一索引字段,建立所述当前第一索引字段与指定的文档属性的第二映射关系;
在所述根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引之前,进一步包括:
根据所述第二映射关系,将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
优选地,
所述创建包括有至少一个第一索引字段的数据表模板,包括:
创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板;
进一步包括:
建立不同编码与不同数据源之间的第三映射关系;
在所述根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中之后,进一步包括:
根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系,在每一行所对应的所述第二索引字段中填写相应的编码。
优选地,
进一步包括:
预先建立不同数据源与不同展示模型之间的第四映射关系;
在所述根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引之后,进一步包括:
接收外部输入的至少一个关键字;
根据所述至少一个关键字以及构建的分词索引,从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据;
根据所述目标数据对应的数据源以及所述第四映射关系,以相应的所述展示模型输出所述目标数据。
第二方面,本发明实施例提供了一种多源异构数据的处理装置,包括:
创建单元、映射关系建立单元、数据导入单元和分词索引单元,其中,
所述创建单元,用于创建包括有至少一个第一索引字段的数据表模板;
所述映射关系建立单元,用于针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系;
所述数据导入单元,用于根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应;
所述分词索引单元,用于根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。
优选地,
所述映射关系建立单元,进一步用于针对每一个所述第一索引字段,建立所述当前第一索引字段与指定的文档属性的第二映射关系;
所述数据导入单元,进一步用于根据所述第二映射关系,将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
优选地,
进一步包括:数据分类单元;
所述创建单元,用于创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板;
所述映射关系建立单元,进一步用于建立不同编码与不同数据源之间的第三映射关系;
所述数据分类单元,用于根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系,在每一行所对应的所述第二索引字段中填写相应的编码。
优选地,
进一步包括:查询单元;
所述映射关系建立单元,进一步用于预先建立不同数据源与不同展示模型之间的第四映射关系;
所述查询单元,用于在所述分词索引单元对导入至各个所述第一索引字段中的数据进行分词索引之后,接收外部输入的至少一个关键字;根据所述至少一个关键字以及构建的分词索引,从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据;根据所述目标数据对应的数据源以及所述第四映射关系,以相应的所述展示模型输出所述目标数据。
第三方面,本发明实施例提供了一种计算机可读介质,其特征在于,包括计算机执行指令,当存储控制器的处理器执行所述计算机执行指令时,所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。
第四方面,本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。
本发明实施例提供了一种多源异构数据的处理方法及装置,通过预先创建包括有至少一个第一索引字段的数据表模板,以及预先针对每一个第一索引字段,建立每一个第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系,从而之后可以通过各个第一索引字段以及第一映射关系,将不同数据源中的相应数据映射到同一个第一索引字段上,实现不同数据源之间的数据整合,最后针对导入的数据建立分词索引,这样,用户在查找数据时,可从导入数据的数据表模板中找到不同数据源中的所需数据,从而无需再逐一的从每一个数据源中查找数据,因此缩短了数据查找的时间,查找的过程较为简便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种多源异构数据的处理方法流程图;
图2是本发明另一个实施例提供的一种多源异构数据的处理方法流程图;
图3是本发明一个实施例提供的一种多源异构数据的处理装置的结构示意图;
图4是本发明另一个实施例提供的一种多源异构数据的处理装置的结构示意图;
图5是本发明又一个实施例提供的一种多源异构数据的处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种多源异构数据的处理方法,该方法可以包括以下步骤:
步骤101:创建包括有至少一个第一索引字段的数据表模板。
步骤102:针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系。
步骤103:根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
步骤104:根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。
本发明实施例提供了一种多源异构数据的处理方法,通过预先创建包括有至少一个第一索引字段的数据表模板,以及预先针对每一个第一索引字段,建立每一个第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系,从而之后可以通过各个第一索引字段以及第一映射关系,将不同数据源中的相应数据映射到同一个第一索引字段上,实现不同数据源之间的数据整合,最后针对导入的数据建立分词索引,这样,用户在查找数据时,可从导入数据的数据表模板中找到不同数据源中的所需数据,从而无需再逐一的从每一个数据源中查找数据,因此缩短了数据查找的时间,查找的过程较为简便。
为了将word、pdf等文档类的非关系型数据导入至数据表模板中,在本发明一个实施例中,在所述步骤103之前,可进一步包括:
针对每一个所述第一索引字段,建立所述当前第一索引字段与指定的文档属性的第二映射关系。
在所述步骤104之前,可进一步包括:
根据所述第二映射关系,将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
上述实施例中,为各个第一索引字段建立的第一映射关系,主要是针对存放在各种关系型数据库(如MySQL、sqlserver、Oracle等)中的关系型数据,而为各个第一索引字段建立的第二映射关系,主要是针对存放在word、pdf等文档中的非关系型数据。那么为了减轻压力,可将待导入的关系型数据和非关系型数据导入至不同的sorl中。
其中,文档属性可以是文档路径、文档大小、文档内容、文档创建时间和文档修改时间中的任意一个或多个。
例如,针对某文档,其文档路径为D/rall/12.docx、文档大小为10.7KB、文档内容为趵突泉水位20.5米以及文档创建时间为2017/9/1/08:00,且创建的数据表模板中包括有四个第一索引字段Col11、Col12、Col13和Col14,则建立的第二映射关系可包括有:
文档路径------Col11;文档大小------Col12;文档内容------Col13;文档创建时间------Col14。
那么将相应的数据导入至四个第一索引字段后的数据表模板可如下表1所示。
表1
Col11 | Col12 | Col13 | Col14 |
… | … | … | … |
D/rall/12.docx | 10.7KB | 趵突泉水位20.5米 | 2017/9/1/08:00 |
… | … | … | … |
在表1中还包括有从其他关系型数据库中导入的数据,此处并未展开说明。由表1可以看出,Col11、Col12、Col13和Col14中的处于同一行的数据是一一对应的。
另外,无论是导入关系型数据,亦或非关系型数据,可设置一个周期阈值,如24小时,每隔24小时周期性的导入数据。那么在第一次导入时,可进行全量导入,而从第2次开始,可进行增量导入,也即只导入相邻的上一次导入时间之后所改变的数据。
为了区分来自不同数据源的数据,在本发明一个实施例中,所述步骤101的具体实施方式,可包括:
创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板。
进一步包括:
建立不同编码与不同数据源之间的第三映射关系。
在所述步骤103之后,可进一步包括:
根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系,在每一行所对应的所述第二索引字段中填写相应的编码。
例如,有三个外部的不同数据源,分别是实时雨水情、微信和舆情,那么为了区分所导入数据的来源,设置的第三映射关系包括有:
实时雨水情------1;微信------2;舆情------3。
那么在将实时雨水情中的各个目标字段中的数据分别导入至相应的第一索引字段时,如,实时雨水情中的001导入至第一索引字段Col2中的第一行,实时雨水情中的趵突泉水位站导入至第一索引字段Col3中的第一行,即001和趵突泉水位站处于同一行,那么由于第一行数据对应的数据源为实时雨水情,则根据第三映射关系,则第二索引字段的第一行的值为1。
为了能够对不同数据源的数据进行不同的展示,在本发明一个实施例中,可进一步包括:
预先建立不同数据源与不同展示模型之间的第四映射关系。
在所述步骤104之后,可进一步包括:
接收外部输入的至少一个关键字;
根据所述至少一个关键字以及构建的分词索引,从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据;
根据所述目标数据对应的数据源以及所述第四映射关系,以相应的所述展示模型输出所述目标数据。
上述实施例中,可以根据第二索引字段中的编码以及第三映射关系,确定目标数据的数据源。
下面将详细说明本发明实施例提供的一种多源异构数据的处理方法,如图2所示,该方法可以包括以下步骤:
步骤201:创建包括有两个第一索引字段和一个第二索引字段的数据表模板。
在本发明实施例中,创建的数据表模板可如下表2所示。
表2
Col1 | Col2 | Col3 |
其中,Col1为第二索引字段,Col2和Col3均为第一索引字段。
步骤202:针对每一个第一索引字段,建立当前第一索引字段分别与三个不同数据源对应的源数据表中的目标字段的第一映射关系。
在本发明实施例中,三个不同的数据源分别为实时雨水情、微信和舆情。其中,实时雨水情对应的源数据表如下表3所示、微信对应的源数据表如下表4所示以及舆情对应的源数据表如下表5所示。
表3
测站编码 | 测站名称 |
001 | 趵突泉水位站 |
表4
微信号 | 内容 |
101929** | 趵突泉水位20.5米 |
表5
网站名称 | 正文 |
今日济南 | 趵突泉水位持续上涨… |
针对第一索引字段Col2,建立的第一映射关系包括有:
测站编码------Col2;微信号------Col2;网站名称------Col2。
针对第一索引字段Col3,建立的第一映射关系包括有:
测站名称------Col3;内容------Col3;正文------Col3。
步骤203:针对每一个第一索引字段,建立当前第一索引字段与指定的文档属性的第二映射关系。
在本发明实施例中,除了表3、表4和表5的关系型数据外,还包括有文档类的非关系型数据。如,文档路径为D/acr/1.doxc的word文件中存储有文档内容为趵突泉位于山东省济南市历下区,南靠千佛山,东临泉城广场,北望大明湖、五龙潭,趵突泉面积达158亩,是以泉为主…的数据。
相应的,针对第一索引字段Col2,建立的第二映射关系包括有:
文档路径------Col2。
针对第一索引字段Col3,建立的第二映射关系包括有:
文档内容------Col3。
步骤204:建立不同编码与不同数据源之间的第三映射关系。
为了区分不同数据源的数据,建立的第三映射关系可如下表6所示。
表6
编码 | 数据源 |
1 | 实时雨水情 |
2 | 微信 |
3 | 舆情 |
4 | 文档 |
由表6可以看出,当从数据源实时雨水情中导入数据时,相应的编码为1,其他数据源依次类推,不再赘述。
步骤205:建立不同数据源与不同展示模型之间的第四映射关系。
步骤206:根据第一映射关系,将与每一个第一索引字段对应的各个目标字段中的数据分别从相应数据源导入至相应的第一索引字段中,其中,各个第一索引字段中处于同一行的各个数据一一对应。
根据上述步骤202,将测站编码字段中的001、微信号字段中的101929**以及网站名称字段中的今日济南导入至第一索引字段Col2中。
将测站名称字段中的趵突泉水位站、内容中的趵突泉水位20.5米以及正文中的趵突泉水位持续上涨…导入至第一索引字段Col3中。
其中,处于第一索引字段Col2中的001和处于第一索引字段Col3中的趵突泉水位站处于数据表模板中的同一行,也即数据表模板中导入的每一行的各个数据之间是一一对应的。其它相应的数据之间也是如此,不再赘述。
步骤207:根据第二映射关系,将与每一个第一索引字段对应的文档属性所对应的数据从相应数据源导入至相应的第一索引字段中,其中,各个第一索引字段中处于同一行的各个数据一一对应。
根据上述步骤203,将文档路径所对应的D/acr/1.doxc导入至第一索引字段Col2中。
将文档内容所对应的趵突泉位于山东省济南市历下区,南靠千佛山,东临泉城广场,北望大明湖、五龙潭,趵突泉面积达158亩,是以泉为主…导入至第一索引字段Col3中。
步骤208:根据各个第一索引字段中处于每一行的各个数据所对应的数据源以及第三映射关系,在每一行所对应的第二索引字段中填写相应的编码。
以处于第一索引字段Col2中的001和处于同一行的第一索引字段Col3中的趵突泉水位站为例,对应的数据源为实时雨水情,那么根据上述步骤204中的表6,则在同一行的第二索引字段Col1中填写的编码即为1。
在本发明实施例中,最终导入数据后的数据表模板如下表7所示。
表7
步骤209:根据预设的配置,对导入至各个第一索引字段中的数据进行分词索引。
本发明实施例中,可采用IK分词器进行分词。而且,在分词过程中为避免一些专业术语或者规定用词被拆分,则引入词库,即将业务相关的专业术语和固定词语加入词库,这样,分词的时候就不会对其拆分。
以“趵突泉水位20.5米”为例,则会被分词为趵突泉/水位/20.5/米。
步骤210:接收外部输入的一个关键字。
例如,关键字为趵突泉。
步骤211:根据关键字以及构建的分词索引,从不同数据源导入数据的数据表模板中查找与该关键字对应的目标数据。
在本发明实施例中,当关键字为趵突泉时,将会搜索出上述步骤208中的四条关于趵突泉的数据。
若当查询结果有多条时,可使用edismax来进行权重计算排序,返回最优结果。
步骤212:根据目标数据对应的数据源以及第四映射关系,以相应的展示模型输出目标数据。
本发明实施例中,还可对系统的查询日志进行分析,统计出用户查询最多的内容,做为推荐在页面展示,方便用户查找。
如图3所述,本发明实施例提供了一种多源异构数据的处理装置,包括:
创建单元301、映射关系建立单元302、数据导入单元303和分词索引单元304,其中,
所述创建单元301,用于创建包括有至少一个第一索引字段的数据表模板;
所述映射关系建立单元302,用于针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系;
所述数据导入单元303,用于根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应;
所述分词索引单元304,用于根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。
为了将word、pdf等文档类的非关系型数据导入至数据表模板中,在本发明一个实施例中,
所述映射关系建立单元302,进一步用于针对每一个所述第一索引字段,建立所述当前第一索引字段与指定的文档属性的第二映射关系;
所述数据导入单元303,进一步用于根据所述第二映射关系,将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
为了区分来自不同数据源的数据,在本发明一个实施例中,
如图4所示,可进一步包括:数据分类单元401;
所述创建单元301,用于创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板;
所述映射关系建立单元302,进一步用于建立不同编码与不同数据源之间的第三映射关系;
所述数据分类单元401,用于根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系,在每一行所对应的所述第二索引字段中填写相应的编码。
为了能够对不同数据源的数据进行不同的展示,在本发明一个实施例中,
如图5所示,可进一步包括:查询单元501;
所述映射关系建立单元302,进一步用于预先建立不同数据源与不同展示模型之间的第四映射关系;
所述查询单元501,用于在所述分词索引单元304对导入至各个所述第一索引字段中的数据进行分词索引之后,接收外部输入的至少一个关键字;根据所述至少一个关键字以及构建的分词索引,从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据;根据所述目标数据对应的数据源以及所述第四映射关系,以相应的所述展示模型输出所述目标数据。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种计算机可读介质,包括计算机执行指令,当存储控制器的处理器执行所述计算机执行指令时,所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。
综上,本发明各个实施例至少具有如下有益效果:
1、在本发明实施例中,通过预先创建包括有至少一个第一索引字段的数据表模板,以及预先针对每一个第一索引字段,建立每一个第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系,从而之后可以通过各个第一索引字段以及第一映射关系,将不同数据源中的相应数据映射到同一个第一索引字段上,实现不同数据源之间的数据整合,最后针对导入的数据建立分词索引,这样,用户在查找数据时,可从导入数据的数据表模板中找到不同数据源中的所需数据,从而无需再逐一的从每一个数据源中查找数据,因此缩短了数据查找的时间,查找的过程较为简便。
2、在本发明实施例中,通过建立每一个第一索引字段与指定的文档属性的第二映射关系,则可以依据该第二映射关系,将word、pdf等文档类的非关系型数据导入至数据表模板中,从而实现各个数据源中的数据整合。
3、在本发明实施例中,通过建立不同编码与不同数据源之间的第三映射关系,则可以依据该第三映射关系,区分数据表模板中导入的各个数据的来源,从而也为之后的分类搜索或分类显示等奠定基础。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种多源异构数据的处理方法,其特征在于,
创建包括有至少一个第一索引字段的数据表模板;
针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系;还包括:
根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应;
根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。
2.根据权利要求1所述的方法,其特征在于,
在所述根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中之前,进一步包括:
针对每一个所述第一索引字段,建立所述当前第一索引字段与指定的文档属性的第二映射关系;
在所述根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引之前,进一步包括:
根据所述第二映射关系,将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
3.根据权利要求1所述的方法,其特征在于,
所述创建包括有至少一个第一索引字段的数据表模板,包括:
创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板;
进一步包括:
建立不同编码与不同数据源之间的第三映射关系;
在所述根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中之后,进一步包括:
根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系,在每一行所对应的所述第二索引字段中填写相应的编码。
4.根据权利要求1至3任一所述的方法,其特征在于,
进一步包括:
预先建立不同数据源与不同展示模型之间的第四映射关系;
在所述根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引之后,进一步包括:
接收外部输入的至少一个关键字;
根据所述至少一个关键字以及构建的分词索引,从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据;
根据所述目标数据对应的数据源以及所述第四映射关系,以相应的所述展示模型输出所述目标数据。
5.一种多源异构数据的处理装置,其特征在于,包括:
创建单元、映射关系建立单元、数据导入单元和分词索引单元,其中,
所述创建单元,用于创建包括有至少一个第一索引字段的数据表模板;
所述映射关系建立单元,用于针对每一个所述第一索引字段,建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系;
所述数据导入单元,用于根据所述第一映射关系,将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应;
所述分词索引单元,用于根据预设的配置,对导入至各个所述第一索引字段中的数据进行分词索引。
6.根据权利要求5所述的装置,其特征在于,
所述映射关系建立单元,进一步用于针对每一个所述第一索引字段,建立所述当前第一索引字段与指定的文档属性的第二映射关系;
所述数据导入单元,进一步用于根据所述第二映射关系,将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中,其中,各个所述第一索引字段中处于同一行的各个数据一一对应。
7.根据权利要求5所述的装置,其特征在于,
进一步包括:数据分类单元;
所述创建单元,用于创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板;
所述映射关系建立单元,进一步用于建立不同编码与不同数据源之间的第三映射关系;
所述数据分类单元,用于根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系,在每一行所对应的所述第二索引字段中填写相应的编码。
8.根据权利要求5至7任一所述的装置,其特征在于,
进一步包括:查询单元;
所述映射关系建立单元,进一步用于预先建立不同数据源与不同展示模型之间的第四映射关系;
所述查询单元,用于在所述分词索引单元对导入至各个所述第一索引字段中的数据进行分词索引之后,接收外部输入的至少一个关键字;根据所述至少一个关键字以及构建的分词索引,从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据;根据所述目标数据对应的数据源以及所述第四映射关系,以相应的所述展示模型输出所述目标数据。
9.一种计算机可读介质,其特征在于,包括计算机执行指令,当存储控制器的处理器执行所述计算机执行指令时,所述存储控制器执行上述权利要求1至4任一项所述的方法。
10.一种存储控制器,其特征在于,包括:处理器、存储器和总线;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述存储控制器执行上述权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710869354.3A CN107609154A (zh) | 2017-09-23 | 2017-09-23 | 一种多源异构数据的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710869354.3A CN107609154A (zh) | 2017-09-23 | 2017-09-23 | 一种多源异构数据的处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107609154A true CN107609154A (zh) | 2018-01-19 |
Family
ID=61057552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710869354.3A Pending CN107609154A (zh) | 2017-09-23 | 2017-09-23 | 一种多源异构数据的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609154A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363768A (zh) * | 2018-02-07 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种基于Lucene的文档搜索方法、存储介质和服务器 |
CN108427736A (zh) * | 2018-02-28 | 2018-08-21 | 华为技术有限公司 | 一种用于查询数据的方法 |
CN109271490A (zh) * | 2018-11-01 | 2019-01-25 | 中企动力科技股份有限公司 | 动态字段的分类方法和系统 |
CN110489475A (zh) * | 2019-08-14 | 2019-11-22 | 广东电网有限责任公司 | 一种多源异构数据处理方法、系统及相关装置 |
CN110825805A (zh) * | 2019-11-12 | 2020-02-21 | 北京东软望海科技有限公司 | 一种数据的可视化方法及装置 |
CN111209324A (zh) * | 2019-12-31 | 2020-05-29 | 航天信息股份有限公司 | 存储数据的方法、装置、存储介质以及电子设备 |
CN111324649A (zh) * | 2020-02-13 | 2020-06-23 | 山东浪潮通软信息科技有限公司 | 一种基于异构系统归集内部交易的方法 |
CN111382226A (zh) * | 2018-12-29 | 2020-07-07 | 北京神州泰岳软件股份有限公司 | 一种数据库查询检索方法、装置和电子设备 |
CN111695000A (zh) * | 2020-06-16 | 2020-09-22 | 山东蓝海领航大数据发展有限公司 | 一种多源大数据加载方法及系统 |
CN111737364A (zh) * | 2020-07-22 | 2020-10-02 | 同盾控股有限公司 | 安全多方数据融合与联邦共享方法、装置、设备及介质 |
CN111985578A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 多源数据融合方法、装置、计算机设备及存储介质 |
CN112417225A (zh) * | 2020-11-30 | 2021-02-26 | 北京明略软件系统有限公司 | 一种多源异构数据的联合查询方法与系统 |
CN112597168A (zh) * | 2020-12-28 | 2021-04-02 | 恩亿科(北京)数据科技有限公司 | 多源客户数据的处理方法、装置、平台及存储介质 |
CN113642309A (zh) * | 2020-04-27 | 2021-11-12 | 北京国双科技有限公司 | 数据对比方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270436A1 (en) * | 2007-04-27 | 2008-10-30 | Fineberg Samuel A | Storing chunks within a file system |
CN102609452A (zh) * | 2012-01-11 | 2012-07-25 | 上海西本网络科技有限公司 | 数据的存储方法及装置 |
CN104216966A (zh) * | 2014-08-25 | 2014-12-17 | 浪潮软件股份有限公司 | 一种支持多种方式创建索引的方法 |
CN104394211A (zh) * | 2014-11-21 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种基于Hadoop用户行为分析系统设计与实现方法 |
-
2017
- 2017-09-23 CN CN201710869354.3A patent/CN107609154A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270436A1 (en) * | 2007-04-27 | 2008-10-30 | Fineberg Samuel A | Storing chunks within a file system |
CN102609452A (zh) * | 2012-01-11 | 2012-07-25 | 上海西本网络科技有限公司 | 数据的存储方法及装置 |
CN104216966A (zh) * | 2014-08-25 | 2014-12-17 | 浪潮软件股份有限公司 | 一种支持多种方式创建索引的方法 |
CN104394211A (zh) * | 2014-11-21 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种基于Hadoop用户行为分析系统设计与实现方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363768A (zh) * | 2018-02-07 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种基于Lucene的文档搜索方法、存储介质和服务器 |
CN108427736A (zh) * | 2018-02-28 | 2018-08-21 | 华为技术有限公司 | 一种用于查询数据的方法 |
CN109271490A (zh) * | 2018-11-01 | 2019-01-25 | 中企动力科技股份有限公司 | 动态字段的分类方法和系统 |
CN111382226A (zh) * | 2018-12-29 | 2020-07-07 | 北京神州泰岳软件股份有限公司 | 一种数据库查询检索方法、装置和电子设备 |
CN111382226B (zh) * | 2018-12-29 | 2023-09-19 | 北京神州泰岳软件股份有限公司 | 一种数据库查询检索方法、装置和电子设备 |
CN110489475A (zh) * | 2019-08-14 | 2019-11-22 | 广东电网有限责任公司 | 一种多源异构数据处理方法、系统及相关装置 |
CN110825805A (zh) * | 2019-11-12 | 2020-02-21 | 北京东软望海科技有限公司 | 一种数据的可视化方法及装置 |
CN110825805B (zh) * | 2019-11-12 | 2022-07-19 | 望海康信(北京)科技股份公司 | 一种数据的可视化方法及装置 |
CN111209324B (zh) * | 2019-12-31 | 2023-11-28 | 航天信息股份有限公司 | 存储数据的方法、装置、存储介质以及电子设备 |
CN111209324A (zh) * | 2019-12-31 | 2020-05-29 | 航天信息股份有限公司 | 存储数据的方法、装置、存储介质以及电子设备 |
CN111324649A (zh) * | 2020-02-13 | 2020-06-23 | 山东浪潮通软信息科技有限公司 | 一种基于异构系统归集内部交易的方法 |
CN113642309B (zh) * | 2020-04-27 | 2024-07-26 | 北京国双科技有限公司 | 数据对比方法及相关装置 |
CN113642309A (zh) * | 2020-04-27 | 2021-11-12 | 北京国双科技有限公司 | 数据对比方法及相关装置 |
CN111695000A (zh) * | 2020-06-16 | 2020-09-22 | 山东蓝海领航大数据发展有限公司 | 一种多源大数据加载方法及系统 |
CN111737364A (zh) * | 2020-07-22 | 2020-10-02 | 同盾控股有限公司 | 安全多方数据融合与联邦共享方法、装置、设备及介质 |
CN111985578A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 多源数据融合方法、装置、计算机设备及存储介质 |
CN112417225A (zh) * | 2020-11-30 | 2021-02-26 | 北京明略软件系统有限公司 | 一种多源异构数据的联合查询方法与系统 |
CN112597168A (zh) * | 2020-12-28 | 2021-04-02 | 恩亿科(北京)数据科技有限公司 | 多源客户数据的处理方法、装置、平台及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609154A (zh) | 一种多源异构数据的处理方法及装置 | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
He et al. | A database linking Chinese patents to China’s census firms | |
GB2569848A (en) | Question answering for data visualizations | |
CN109325019B (zh) | 数据关联关系网络构建方法 | |
Mađer et al. | Analysis of possibilities for linking land registers and other official registers in the Republic of Croatia based on LADM | |
CN104090907A (zh) | 一种用于特定应用领域的向用户提供信息的方法与装置 | |
CN112000773B (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
CN112487020B (zh) | 用于SQL to text的图到自然语言语句的转换方法及系统 | |
CN103970666A (zh) | 一种软件重复缺陷报告检测的方法 | |
CN101799830A (zh) | 可实现多维度自由剖析的流量数据处理方法 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN105550169A (zh) | 一种基于字符长度识别兴趣点名称的方法和装置 | |
CN108052609A (zh) | 一种基于词典和机器学习的地址匹配方法 | |
CN107644050A (zh) | 一种基于solr的Hbase的查询方法及装置 | |
CN112258061B (zh) | 一种项目全过程风险智能分析预警系统及预警方法 | |
CN112529743A (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN105279249B (zh) | 一种网站中兴趣点数据的置信度的判定方法和装置 | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
CN113743118B (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 | |
CN115098534A (zh) | 基于索引权重提升的数据查询方法、装置、设备及介质 | |
CN109033133A (zh) | 基于特征项权重增长趋势的事件检测与跟踪方法 | |
Li et al. | Offline handwritten mathematical expression recognition based on YOLOv5s |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180119 |