CN107798137A

CN107798137A - 一种基于可加模型的多源异构数据融合架构系统

Info

Publication number: CN107798137A
Application number: CN201711181949.6A
Authority: CN
Inventors: 刘志强
Original assignee: Huoerguosi Chi Chi Future Mdt Infotech Ltd
Current assignee: Huoerguosi Chi Chi Future Mdt Infotech Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-03-13
Anticipated expiration: 2037-11-23
Also published as: CN107798137B

Abstract

本发明提供一种基于可加模型的多源异构数据融合架构系统，包括多源异构数据预处理模块、多源异构数据融合模块、模型加和模块。所述架构系统工作时，通过从预先创建的元模型库中调取匹配的元模型，能够对各种不同格式的数据进行处理，并通过模型加和部件实现数据融合。本发明可有效解决多源异构数据处理过程中容易出现的数据丢失、需根据数据源的格式与目标数据源格式做适配的问题，同时还能分析每个新加入的外部数据源对目标领域问题的贡献，能够实现海量异构数据的高速处理和分析。

Description

一种基于可加模型的多源异构数据融合架构系统

技术领域

本发明涉及一种多源异构数据处理系统，具体涉及一种金融风控领域基于可加模型的多源异构数据融合架构系统，属于金融风控大数据处理领域。

背景技术

目前，随着我国金融业的发展，金融服务覆盖面逐渐扩大。对于有借贷需求的客户，银行通常会查询其之前的贷款记录，查询央行所储存的有关借贷人的信用记录，如贷款金额、次数、是否按时偿还等情况，同时还需要根据借贷人的年龄、职业、社保信息、收入、花销等各项资料分析借贷人的还款能力。随着金融业发展，尤其是互联网金融迅猛普及，有关借贷人信息资料的搜集将更全面、也更复杂。银行会搜集到与借贷人有关的海量的各种不同格式、不同来源的数据，而如何处理这些来源不同、格式各异的数据，并从中分析出借贷人将来的还款能力，是一大难题。

这些格式来源各异的数据称为多源异构数据，这些数据通常来自不同来源或者渠道，但表达的内容相似，以不同形式、不同来源、不同视角和不同背景等多种样式出现的数据。例如借贷人的年龄与收入，通常很难判断和比对。由于多源数据呈现出底层特征异构、高层语义相关的特性，传统的单源学习方法已无法适应多源数据的特性，因此，已经出现了一些针对多源异构数据的处理方法。

但是，目前存在的多源数据整合主要是建立外源数据与目标领域之间的桥梁，构建外源数据到目标领域的转化关系，进而解决目标领域的建模问题。这种做法主要有三个的缺点：1，在建立桥梁的过程中会有信息丢失；2，一般只解决两个领域之间的联合建模问题，无法自动整合多个数据源对目标领域问题的解释，很难衡量在给定条件下，新加入的外部数据对目标领域问题的贡献，现有技术中，通常采用先将不同的数据源格式转化后，整体打包再建模的方式，无法判断新加入的数据源对结果的贡献值；3，对不同领域的数据源的格式和生成逻辑有严格的要求，有多个外部数据源时，需要根据每个数据源自身的格式与目标数据源格式做适配。

中国发明专利(201310687009.X：多源异构数据高效汇聚存取架构系统)公开了一种多源异构数据高效汇聚存取架构系统，包括：多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统，用于实现异构数据的高效汇聚存储。该发明虽然能够解决多源异构数据的存储问题，但不能实现对多源异构数据数据的分析处理，无法用于分析多源异构数据对设定目标变量的贡献。

中国发明专利(201310548861.9：一种多源异构电网运行参数分析系统)公开了一种多源异构电网运行参数分析系统，包括数据获取解析模块，多专业参数融合模块，专业参数质量分析模块。能够实现对各个专业电网参数的融合，并能计算各个专业电网参数之间的参数差异度，对参数进行质量分析及参数修正，该方法虽然能提高分析结果的准确性与可信性，但无法分析每一个参数对总体的贡献值。

发明内容

为解决现有技术中存在的问题，本发明提供了一种基于可加模型的多源异构数据融合架构系统，其特征在于，包括：

多源异构数据预处理模块、多源异构数据融合模块、模型加和模块；

所述多源异构数据预处理模块包括多源异构数据分类模块和多源异构数据提取模块，其中，多源异构数据分类模块用于对数据库中不同类型的数据进行分类，多源异构数据提取模块用于提取多源异构数据；

所述多源异构数据融合模块包括元模型调取模块和元模型部件，其中，所述元模型调取模块用于从预先创建的元模型库中调取与每个所述多源异构数据相匹配的元模型部件，所述元模型部件用于对多源异构数据进行处理，得到一个评分；

所述模型加和模块用于将所有评分进行加和，得到一个总评分，并分析总评分对目标变量的解释性；

所述总评分为通过所述架构系统分析所得的结果。

优选地，所述元模型库包括若干个适用于不同数据类型的元模型部件，所述元模型库的创建过程包括如下步骤：

1)确定目标变量；

2)设定初始值作为第一个评分，分析目标变量与初始值之间的误差；

3)使用所述多源异构数据提取模块提取现有数据库的一个数据，根据数据类型确定一个元模型部件，使用该元模型部件处理该数据，得到一个评分；

4)分析步骤3)所得评分与步骤3)前一误差之间的差值，分析该差值是否超出设定的阈值；

若是，则通过误差回传部件回传所述差值，对步骤3)中所用元模型部件进行更新，并重新处理步骤3)中数据，得到一个评分，新得到的评分能够更好地解释步骤3)前一误差；

若否，则继续下一步骤；

5)使用模型加和部件将步骤4)中处理所得评分与步骤3)前的所有评分进行加和，分析所得总评分与目标变量间的误差；

6)重复步骤3)至5)，通过处理数据库中每一类型的数据，得到一个评分和一个误差，同时得到一个相应的元模型部件；

步骤6)中最终得到的所有元模型部件构成所述元模型库。

优选地，所述误差回传部件用于根据步骤4)中所述差值对所述元模型部件进行更新修正。

优选地，每一所述元模型部件为一个映射函数。

优选地，除初始值以外的所有评分都可用于解释所处理数据对目标变量的贡献。

优选地，所述多源异构数据包括数值数据，文本资料，交易记录，历史借贷记录，社保信息，工作年限，工作领域，上网记录。

优选地，所述数值数据包括待分析人的工资收入、支出，所述文本数据包括借贷人的通话记录、短信内容。

本发明还提供一种使用上述架构系统进行多源异构数据融合的方法，其特征在于，包括如下步骤：

1)确定待分析人，收集待分析人的各项资料数据，使用多源异构数据分类模块对所述各项资料数据进行分类整理；

2)设定目标变量；

3)设定初始值作为第一个评分，分析目标变量与初始值之间的误差；

4)使用所述多源异构数据提取模块提取所述待分析人的任一项数据，使用元模型调取模块从预先创建的元模型库中调取与该数据相匹配的元模型部件，使用所述元模型部件对多源异构数据进行处理，得到一个评分；

5)根据步骤4)所得评分与步骤4)前一步骤所述误差之间的距离，分析步骤4)中所处理数据对目标变量的贡献；

6)使用模型加和部件将步骤4)中所得评分与步骤4)前的所有评分进行加和，得到一个总评分；

7)计算步骤6)中所得总评分与目标变量间的误差，分析步骤6)中所得总评分对目标变量的解释性；

判断总评分对目标变量解释程度是否达到预期；

若是，则结束分析过程；

若否，则回到步骤4)，提取待分析人的另一项数据并继续分析。

与现有技术相对比，本发明产生的有益效果是：

(1)本发明提供的基于可加模型的多源异构数据融合架构系统，可以处理超大规模的外部数据源，对不同领域的数据源格式和生成逻辑没有要求，有多个外部数据源时，可以根据每个数据源自身的格式与目标数据格式做适配，不需要经过数据源的格式转化，解决了现有技术中多源数据转化过程中数据丢失问题。

(2)本发明提供的架构系统，对各外部数据源的格式与数据生成逻辑零假设，各外部数据源之间以及与目标领域问题之间保持独立。而现实世界中绝大多的数据源之间是很难用统一的格式和生成逻辑描述。

(3)本发明提供的架构系统，通过对每个外部数据源数据单独与目标问题进行建模，将建模结果进行加和的方式分析数据，可以直观判断每个外部数据源对目标问题的贡献值，可以准确评估新加入外部数据源对目标领域问题的贡献。

附图说明

图1为本发明提供的元模型库创建流程图；

图2为本发明提供的架构系统工作流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式作详细的说明。

应当注意，本发明中所标称数据或多源异构数据并不仅限于数字数据，也可以是其他各种形式的数据信息，例如可以是文字信息或其他涉及个人情况的各种信息资料数据。

本发明提供一种基于可加模型的多源异构数据融合架构系统，包括多源异构数据预处理模块，多源异构数据融合模块和模型加和模块。

其中，多源异构数据预处理模块包括多源异构数据分类模块和多源异构数据提取模块，多源异构数据分类模块负责将数据库中的数据根据数据类型的不同进行分类，多源异构数据提取模块负责在需要时提取多源异构数据。

多源异构数据融合模块包括元模型调取模块和元模型部件，其中，元模型调取模块用于从预先创建的元模型库中调取与每个提取出的多源异构数据相匹配的元模型部件，使用该元模型部件对多源异构数据进行处理，得到一个评分。

模型加和模块负责将通过元模型部件处理得到的所有评分进行加和，得到一个总评分，并分析所得总评分对目标变量的解释性。这个总评分就是通过该系统分析所得的结果。

应当注意，本发明所提供的系统在开始工作之前需要预先创建一个元模型库，该元模型库应当包含多种元模型部件，这些元模型部件彼此不同，且分别能够对彼此不同格式的数据进行处理。

图1为本发明所提供的元模型库的创建过程，具体步骤为：

1)确定目标变量；

具体是指，这个目标变量为预测的一个结果，例如可以预测还款能力为100％。

具体是指，初始值可根据实际需要预设，作为后续步骤中所称评分的第一个值，通常设为0；分析初始值与目标变量之间的误差是为了将下一步中所得评分与该误差进行比较。

3)调取现有数据库的一个数据，根据数据类型确定一个元模型部件，使用该元模型部件处理该数据，得到一个评分；

具体是指首选从现有数据库中调取一个数据，根据数据类型选择一个常用的函数作为元模型，对该数据进行初步处理，得到一个评分。现有数据库是指现有大数据中的资料，而非某一个确定的待分析人的资料。这是因为元模型库的创建过程目的是训练得到更多更能匹配各个数据类型的元模型部件，因此，所处理数据越多越好，可以直接从现有数据中调取。

若是，则通过误差回传部件回传所述差值，对步骤3)中所用元模型部件进行更新，并重新处理步骤3)中数据，得到一个评分，这个新得到的评分能够更好地解释步骤3)前一误差；

若否，则继续下一步骤。

具体是指，将步骤3)中计算所得评分与步骤3)之前的一个误差进行对比，分析二者之间的差值是否超过设定的阈值，这个阈值可以根据实际需要设定。如果超出阈值，则将二者之间的差值通过误差回传部件对步骤3)中所选元模型部件进行更新，使用更新后的元模型部件再次处理步骤3)中所调取的数据，得到一个新的评分，对元模型部件进行更新的目的是让这个新的评分能够对步骤3)之前的一个误差有更好的解释能力；如果没有超出阈值，说明现有评分已经能对步骤3)之前的一个误差有较好的解释能力，可继续进行步骤5)。

应当注意，步骤3)之前的一个误差在第一次计算时是指步骤2)中所标称的误差，但在重复步骤3)至5)的过程中，这个误差是指步骤5)中的误差。

具体是指，通过以上步骤将得到多个评分，以初始评分作为第一个可用评分，随后每次步骤4)所得评分作为可用评分，将截止到计算所得的最后一个可用评分为止的所有可用评分进行加和得到一个总评分，计算出所得总评分和目标变量之间的误差。

具体是指，每次处理一个数据，将通过误差回传部件更新之后的元模型处理所得评分作为可用评分，将步骤5)中所得误差作为可以进行下一个步骤误差，为了训练得到更多元模型，应当处理尽量多类型的数据。

步骤6)中最终得到的所有元模型部件构成所述元模型库；

具体是指，所有最终得到的元模型部件组成一个元模型库，即经过步骤4)更新并最终确定的元模型部件才可以作为元模型库的一个组成元素，所有中间形成的元模型部件并不作为组成元素。那么同样地，所有更新元模型库过程中产生的中间评分也不会经过模型加和部件的加和，只有更新后最终确定的元模型部件处理所得评分才能经过元模型部件的加和处理。

本发明中所称创建元模型库的实质工作是进行元模型的训练，通过对现有数据库中大量数据的分析处理，每得到一个评分都与上一误差进行比较，将二者之间的差距通过误差回传部件进行反馈，对所用元模型部件进行更新修改，以使得再次计算的评分能够与上一误差之间的差距尽可能小。通过不断循环这个过程，最终得到更适合的元模型部件，每完成一个这样的循环，就对所用元模型部件进行了一次训练。

随后使用模型加和部件将最终确定的元模型部件计算所得评分与之前的所有评分进行加和，分析所得总评分与目标变量之间的误差，重新选择一个数据，根据这个误差和重新选择的数据再确定一个元模型部件，重复上一段的工作，训练元模型。

采用以上方法处理尽可能多数量的数据，所处理数据还应属于尽可能多种类，这样才能训练得到更多个元模型部件。应当注意，本发明所提供的系统中，在创建元模型库时，所用数据的数量越多越好，因为数据越多，训练元模型的过程可以更长，所得到的元模型也更精确。

元模型部件训练完成后，将所有元模型部件集合在一起形成一个元模型库。

本发明所标称元模型部件其本质是一个映射函数，自变量为待处理的各种不同格式的信息数据，通过不同的映射关系对数据进行处理，并分别得到一个评分作为因变量，这些评分之间是互相可加的。

本发明中所用元模型部件可以是用于处理数字数据(例如月收入)的线性或非线性函数，也可以是用于处理文字信息(如短信内容、浏览记录等)或其他信息(如历史借贷情况、通话记录等)的其他映射关系，工作时应当根据数据格式不同而匹配不同格式的元模型部件。

附图2所示为本发明提供的系统工作流程图，实际工作过程与创建元模型库的过程有一些相似之处，不再赘述。下面仅针对部分内容予以详细解释。

在开始数据处理前，需要首先收集待分析人的资料，包括年龄、职业、社保信息、收入、花销以及历史借贷记录等各项信息。随后对这些资料进行整理后使用本发明提供的基于可加模型的多源异构数据融合架构系统分析借贷人的还款能力。

应当注意，本发明中所标称“可加模型”是指经元模型库中每个元模型处理所得的数据之间是可加的，这种可加不单单是指数值上的可加，而是基于元模型训练过程而产生的。在元模型训练中，每个步骤得到的评分都是用来解释之前所有评分加和所得总评分与目标变量间的误差，误差过大则会对该步骤所用元模型进行更新，以使所得评分能够尽量解释该误差。元模型训练过程中，每一次元模型部件的选择和更新，都是为了使新处理的数据所得评分能够更好解释现有所有总评分与目标变量之间的误差，因此，通过这种方法训练出来的元模型处理所得的数据本质上是可加的，也就是说，每一个新加入数据都对目标变量做了自己的贡献，这个贡献具体是多少能够通过元模型部件处理该数据所得评分确定。

应当注意，利用本发明提供的架构系统分析数据的方法中，步骤7)为：计算步骤6)中所得总评分与目标变量间的误差，分析步骤6)中所得总评分对目标变量的解释性；

判断总评分对目标变量解释程度是否达到预期；

若是，则结束分析过程；

其中，判断总评分对目标变量的解释程度是否达到预期，这个预期是根据实际需要设定的。例如，在本发明的一个具体实施例中，已经收集有待分析人的10项资料，设定的预期为只要计算所得总评分能够对目标变量有95％的解释性即可(也就是说，如果目标变量是100％，只要计算所得总评分能够达到95％即可)，在使用本发明提供的架构系统分析5项资料后所得总评分为96％，此时总评分对于目标变量的解释性为96％，这时可认为总评分已经对目标变量有较好的解释性，不必再进行后面数据的计算。

本发明提供的基于可加模型的多源异构数据融合架构特别适合于需要将多个不同领域的数据源整合起来，完成对一个特定问题的解释。可能每个外部数据源对该特定问题的贡献都是十分微小的。但是将他们按照本发明所使用的融合策略进行融合时，能够实现加和的效果。而且，本发明提供的系统中，将每一个计算所得评分与目标变量进行对比分析，即可得出该数据对目标变量的贡献值。

本发明提供的系统能够广泛应用于金融风控、广告、个性化推荐等领域，对大量多源异构数据都能有很好的处理能力。

上文所述的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并不是用以限制本发明的保护范围，在所述技术领域普通技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下作出的各种变化均属于本发明的保护范围。

Claims

1.一种基于可加模型的多源异构数据融合架构系统，其特征在于，包括：

所述总评分为通过所述架构系统分析所得的结果。

2.如权利要求1所述的架构系统，其特征在于，所述元模型库包括若干个适用于不同数据类型的元模型部件，所述元模型库的创建过程包括如下步骤：

1)确定目标变量；

若否，则继续下一步骤；

步骤6)中最终得到的所有元模型部件构成所述元模型库。

3.如权利要求2所述的架构系统，其特征在于，所述误差回传部件用于根据步骤4)中所述差值对所述元模型部件进行更新修正。

4.如权利要求1所述的架构系统，其特征在于，每一所述元模型部件为一个映射函数。

5.如权利要求1所述的架构系统，其特征在于，除初始值以外的所有评分都可用于解释所处理数据对目标变量的贡献。

6.如权利要求1所述的架构系统，其特征在于，所述多源异构数据包括数值数据，文本资料，交易记录，历史借贷记录，社保信息，工作年限，工作领域，上网记录。

7.如权利要求6所述的架构系统，其特征在于，所述数值数据包括待分析人的工资收入、支出，所述文本数据包括借贷人的通话记录、短信内容。

8.一种使用如权利要求1所述的架构系统进行多源异构数据融合的方法，其特征在于，包括如下步骤：

2)设定目标变量；

判断总评分对目标变量解释程度是否达到预期；

若是，则结束分析过程；