CN115392375A

CN115392375A - 一种多源数据融合度智能评估方法及其系统

Info

Publication number: CN115392375A
Application number: CN202211027451.5A
Authority: CN
Inventors: 孙想; 董婧婉; 王莉
Original assignee: Wuhan Donghu Big Data Trading Center Co ltd
Current assignee: Wuhan Donghu Big Data Trading Center Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-25

Abstract

本发明提供了一种多源数据融合度智能评估方法及其系统，包括如下步骤：S1：获取具体场景下的多源数据以及对应的目标客户任务信息；S2：建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型，收集映射数据并作为映射数据集；S3：将映射数据集作为KNN分类器的输入，训练KNN分类器；S4：利用分类后的数据集建立回归模型，评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。本发明所述的多源数据融合度智能评估方法及其系统可以对不同来源间数据的关系进行度量化，并得到目标用户的任务信息的融合评估指标，为多源数据融合应用提供了决策参考，减少了下一步数据融合认知计算和应用的盲目性。

Description

一种多源数据融合度智能评估方法及其系统

技术领域

本发明涉及数据融合技术领域，具体而言，涉及一种多源数据融合度智能评估方法及其系统。

背景技术

数据融合技术是指利用计算机对按时序获得的若干观测信息，在一定准则下加以自动分析、综合，以完成所需的决策和评估任务而进行的信息处理技术。

数据融合成为目前大数据应用和智能决策过程中一个瓶颈。因为大数据时代，数据源是多样的、自然形成的，海量的数据常常是半结构或无结构的，这就要求数据科学家和分析师驾驭多样、多源的数据，将它们梳理后进行挖掘和分析，而在这个过程中，数据能不能融合就成为不可或缺的一步。这个挑战引发了新一轮大数据工具的快速发展，但是一直没有一种有效的方法解决多源数据融合认知计算和应用的盲目性的问题。

发明内容

本发明要解决的问题是：没有一种有效的方法解决多源数据融合认知计算和应用的盲目性的问题。

为解决上述问题，一方面，本发明提供一种多源数据融合度智能评估方法，其中，包括如下步骤：

S1：获取具体场景下的多源数据以及对应的目标客户任务信息；

S2：建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型，收集映射数据并作为映射数据集；

S3：将映射数据集作为KNN分类器的输入，训练KNN分类器；

S4：利用分类后的数据集建立回归模型，评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。

优选地，所述步骤S2具体包括如下步骤：

将多源数据与目标客户任务信息进行归一化处理后并收集起来，建立映射数据集；

将一组归一化处理后的多源数据X的取值范围映射到目标客户任务信息数据的区间[a,b]：

其中，X_max是这组数据X中的最大值，X_min是这组数据X中的最小值，b为目标客户任务信息数据中的最大值，a为目标客户任务信息数据中的最小值，Y为映射后的数据。

优选地，所述步骤S3具体包括如下步骤：

(1)将映射数据集输入训练数据集

T＝f(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}

其中：

为n维的多源数据特征向量，其中，i＝1,2,…,N；

y_i∈C＝{c₁,c₂,…,c_K}

为多源数据的类别，其中，i＝1,2,…,N；

(2)根据给定的距离量度方法，即使用欧氏距离在训练数据集T中找出与x最相近的k个样本点，并将这k个样本点所表示的集合记为N_k(x)；

(3)根据下述公式的多数投票原则确定多源数据X所属类别c：

上式中I为指示函数：

优选地，所述步骤S4具体包括如下步骤：

根据分类后的数据集和逻辑回归分析法建立评估模型：

根据每个特征数据在匹配关系数据库中的分布计算其对应的评估概率；

根据所述每个特征数据的评估概率，确定其作为自变量在多元回归方程的权重，并建立多元回归方程；

所述多元回归方程表示为：

其中，P(y＝1|x)表示概率的预测值，x表示特征数据，y表示评估概率；g(x)＝w₀+w₁x₁+...+w_nx_n，w_d,d＝0,…,n代表自变量x_i,i＝1,…,n在多元回归方程的权重，n代表特征数据的数量。

另一方面，本发明还提供一种多源数据融合度智能评估系统，其中，所述系统包括：

多源数据采集模块，用于获取具体场景下的多源数据以及对应的目标客户任务信息；

多源数据映射模块，用于建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型，收集映射数据并作为映射数据集；

多源数据分类模块，用于将映射数据集作为KNN分类器的输入，训练KNN分类器；

多源数据融合评估模块，用于利用分类后的数据集建立回归模型，评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。

优选地，所述多源数据映射模块具体用于：

优选地，所述多源数据分类模块具体用于：

(1)将映射数据集输入训练数据集

T＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N))

其中：

为n维的多源数据特征向量，其中，i＝1,2,…,N；

y_i∈C＝{c₁,c₂,…,c_K}

为多源数据的类别，其中，i＝1,2,…,N；

(3)根据下述公式的多数投票原则确定多源数据X所属类别c：

上式中I为指示函数：

优选地，所述多源数据融合评估模块具体用于：

根据分类后的数据集和逻辑回归分析法建立评估模型：

所述多元回归方程表示为：

相对于现有技术，本发明所述的多源数据融合度智能评估方法及其系统具有以下有益效果：

(1)本发明所述的多源数据融合度智能评估方法及其系统可以对不同来源间数据的关系进行度量化，并得到目标用户的任务信息的融合评估指标，为多源数据融合应用提供了决策参考，减少了下一步数据融合认知计算和应用的盲目性，提高了多源数据融合方法在实际应用中的效率；

(2)本发明所述的多源数据融合度智能评估方法及其系统，利用KNN算法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别；

(3)本发明所述的多源数据融合度智能评估方法及其系统，通过训练KNN分类器，直至其分类误差达到阈值，实现了准确性高的多源数据融合度的预测评估，解决现有技术通常由于数据样本量有限，目标用户数据稀缺，而无法进行融合计算前准确评估预测的问题。

附图说明

图1为本发明的多源数据融合度智能评估方法流程图；

图2为本发明的多源数据融合度智能评估系统模块图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

实施例一

提供一种多源数据融合度智能评估方法，如图1所示，其中，包括如下步骤：

S3：将映射数据集作为KNN分类器的输入，训练KNN分类器；

本方法利用一定的多源数据的样本量，将其融合于一定的指标评估之中，通过在有限样本量及可信范围内获得并评估预测结果，解决多源数据融合认知计算和应用的盲目性的问题。

其中，所述步骤S1具体包括如下步骤：

以智能客服系统为例，获得待解答问题的问题数据；对所述问题数据进行语义解析，得到第一数量的业务场景信息及第二数量的用户意图信息；对所述业务场景信息及所述用户意图信息进行配对，得到业务场景信息与用户意图信息间的配对结果；

再比如，按照教学科目对教学内容进行分类得到教学科目内容；对教学科目内容进行信息抽取得到抽取信息；所述信息抽取包括：实体抽取、关系抽取以及事件抽取；采用语义相似度计算方法对抽取信息中的实体进行对齐得到融合信息；同时，判断融合信息中新增教学内容是否符合质量标准，若是，则将新增教学内容保留在融合信息中；若否，则将新增教学内容从融合信息中剔除。

其中，所述步骤S2具体包括如下步骤：

将多源数据与目标客户任务信息进行归一化处理后并收集起来，建立映射数据集。

映射是个术语，在数学及相关的领域经常等同于函数数学里，指两个元素集之间的元素相互“对应”的关系。映射的算法思想是：计算出N区间长度除以O区间长度，得出O区间上单位长度对应于N区间上的大小；再将O区间上某个数减去O区间最小值后，乘以O区间上单位长度对应于N区间上的大小；最后加上N区间最小值，实现O区间上的数映射到N区间上。

两个区间映射的公式：

其中N_x,_y为映射后的数，N_max为N区间最大值，N_min为N区间最小值，O_max为O区间最大值，O_min为O区间最小值，O_x,_y为映射前的数。

具体到本实施例，将一组归一化处理后的多源数据X的取值范围映射到目标客户任务信息数据的区间[a,b]：

其中，所述步骤S3具体包括如下步骤：

(1)将映射数据集输入训练数据集

T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}

其中：

为n维的多源数据特征向量，其中，i＝1,2,…,N；

y_i∈C＝{c₁,c₂,…,c_K}

为多源数据的类别，其中，i＝1,2,…,N；

(2)根据给定的距离量度方法(一般情况下使用欧氏距离)在训练数据集T中找出与x最相近的k个样本点，并将这k个样本点所表示的集合记为N_k(x)；

(3)根据下述公式的多数投票原则确定多源数据X所属类别c：

上式中I为指示函数：

KNN算法(K最邻近分类算法)的核心思想是，如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性，该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN是通过测量不同特征值之间的距离进行分类，它的具体思路是，如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中k通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象，该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。在KNN中，通过计算对象间距离来作为各个对象之间的非相似性指标，避免了对象之间的匹配问题，在这里距离一般使用欧氏距离：

或曼哈顿距离：

同时，KNN通过依据k个对象中占优的类别进行决策，而不是单一的对象类别决策。

其中，所述步骤S4具体包括如下步骤：

根据分类后的数据集和逻辑回归分析法建立评估模型：

所述多元回归方程表示为：

这样，本实施例中的方法通过训练KNN分类器，直至其分类误差达到阈值，实现了准确性高的多源数据融合度的预测评估，解决现有技术通常由于数据样本量有限，目标用户数据稀缺，而无法进行融合计算前准确评估预测的问题。

实施例二

提供一种多源数据融合度智能评估系统，如图2所示，其中，所述系统包括：

本系统利用一定的多源数据的样本量，将其融合于一定的指标评估之中，通过在有限样本量及可信范围内获得并评估预测结果，解决多源数据融合认知计算和应用的盲目性的问题。

其中，所述多源数据采集模块具体用于如下场景：

其中，所述多源数据映射模块具体用于：

其中，所述多源数据分类模块具体用于：

(1)将映射数据集输入训练数据集

T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}

其中：

为n维的多源数据特征向量，其中，i＝1,2,…,N；

y_i∈C＝{c₁,c₂,…,c_K}

为多源数据的类别，其中，i＝1,2,…,N；

(3)根据下述公式的多数投票原则确定多源数据X所属类别c：

上式中I为指示函数：

其中，所述多源数据融合评估模块具体用于：

根据分类后的数据集和逻辑回归分析法建立评估模型：

所述多元回归方程表示为：

这样，本实施例中的系统通过训练KNN分类器，直至其分类误差达到阈值，实现了准确性高的多源数据融合度的预测评估，解决现有技术通常由于数据样本量有限，目标用户数据稀缺，而无法进行融合计算前准确评估预测的问题。

应当了解，本说明书未详细阐述的部分都是已有技术。

虽然本发明披露如上，但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。