CN115392375A - 一种多源数据融合度智能评估方法及其系统 - Google Patents
一种多源数据融合度智能评估方法及其系统 Download PDFInfo
- Publication number
- CN115392375A CN115392375A CN202211027451.5A CN202211027451A CN115392375A CN 115392375 A CN115392375 A CN 115392375A CN 202211027451 A CN202211027451 A CN 202211027451A CN 115392375 A CN115392375 A CN 115392375A
- Authority
- CN
- China
- Prior art keywords
- data
- source data
- mapping
- task information
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种多源数据融合度智能评估方法及其系统,包括如下步骤:S1:获取具体场景下的多源数据以及对应的目标客户任务信息;S2:建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;S3:将映射数据集作为KNN分类器的输入,训练KNN分类器;S4:利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。本发明所述的多源数据融合度智能评估方法及其系统可以对不同来源间数据的关系进行度量化,并得到目标用户的任务信息的融合评估指标,为多源数据融合应用提供了决策参考,减少了下一步数据融合认知计算和应用的盲目性。
Description
技术领域
本发明涉及数据融合技术领域,具体而言,涉及一种多源数据融合度智能评估方法及其系统。
背景技术
数据融合技术是指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。
数据融合成为目前大数据应用和智能决策过程中一个瓶颈。因为大数据时代,数据源是多样的、自然形成的,海量的数据常常是半结构或无结构的,这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析,而在这个过程中,数据能不能融合就成为不可或缺的一步。这个挑战引发了新一轮大数据工具的快速发展,但是一直没有一种有效的方法解决多源数据融合认知计算和应用的盲目性的问题。
发明内容
本发明要解决的问题是:没有一种有效的方法解决多源数据融合认知计算和应用的盲目性的问题。
为解决上述问题,一方面,本发明提供一种多源数据融合度智能评估方法,其中,包括如下步骤:
S1:获取具体场景下的多源数据以及对应的目标客户任务信息;
S2:建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;
S3:将映射数据集作为KNN分类器的输入,训练KNN分类器;
S4:利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。
优选地,所述步骤S2具体包括如下步骤:
将多源数据与目标客户任务信息进行归一化处理后并收集起来,建立映射数据集;
将一组归一化处理后的多源数据X的取值范围映射到目标客户任务信息数据的区间[a,b]:
其中,Xmax是这组数据X中的最大值,Xmin是这组数据X中的最小值,b为目标客户任务信息数据中的最大值,a为目标客户任务信息数据中的最小值,Y为映射后的数据。
优选地,所述步骤S3具体包括如下步骤:
(1)将映射数据集输入训练数据集
T=f(x1,y1),(x2,y2),…,(xN,yN)}
其中:
为n维的多源数据特征向量,其中,i=1,2,…,N;
yi∈C={c1,c2,…,cK}
为多源数据的类别,其中,i=1,2,…,N;
(2)根据给定的距离量度方法,即使用欧氏距离在训练数据集T中找出与x最相近的k个样本点,并将这k个样本点所表示的集合记为Nk(x);
(3)根据下述公式的多数投票原则确定多源数据X所属类别c:
上式中I为指示函数:
优选地,所述步骤S4具体包括如下步骤:
根据分类后的数据集和逻辑回归分析法建立评估模型:
根据每个特征数据在匹配关系数据库中的分布计算其对应的评估概率;
根据所述每个特征数据的评估概率,确定其作为自变量在多元回归方程的权重,并建立多元回归方程;
所述多元回归方程表示为:
其中,P(y=1|x)表示概率的预测值,x表示特征数据,y表示评估概率;g(x)=w0+w1x1+...+wnxn,wd,d=0,…,n代表自变量xi,i=1,…,n在多元回归方程的权重,n代表特征数据的数量。
另一方面,本发明还提供一种多源数据融合度智能评估系统,其中,所述系统包括:
多源数据采集模块,用于获取具体场景下的多源数据以及对应的目标客户任务信息;
多源数据映射模块,用于建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;
多源数据分类模块,用于将映射数据集作为KNN分类器的输入,训练KNN分类器;
多源数据融合评估模块,用于利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。
优选地,所述多源数据映射模块具体用于:
将多源数据与目标客户任务信息进行归一化处理后并收集起来,建立映射数据集;
将一组归一化处理后的多源数据X的取值范围映射到目标客户任务信息数据的区间[a,b]:
其中,Xmax是这组数据X中的最大值,Xmin是这组数据X中的最小值,b为目标客户任务信息数据中的最大值,a为目标客户任务信息数据中的最小值,Y为映射后的数据。
优选地,所述多源数据分类模块具体用于:
(1)将映射数据集输入训练数据集
T={(x1,y1),(x2,y2),…,(xN,yN))
其中:
为n维的多源数据特征向量,其中,i=1,2,…,N;
yi∈C={c1,c2,…,cK}
为多源数据的类别,其中,i=1,2,…,N;
(2)根据给定的距离量度方法,即使用欧氏距离在训练数据集T中找出与x最相近的k个样本点,并将这k个样本点所表示的集合记为Nk(x);
(3)根据下述公式的多数投票原则确定多源数据X所属类别c:
上式中I为指示函数:
优选地,所述多源数据融合评估模块具体用于:
根据分类后的数据集和逻辑回归分析法建立评估模型:
根据每个特征数据在匹配关系数据库中的分布计算其对应的评估概率;
根据所述每个特征数据的评估概率,确定其作为自变量在多元回归方程的权重,并建立多元回归方程;
所述多元回归方程表示为:
其中,P(y=1|x)表示概率的预测值,x表示特征数据,y表示评估概率;g(x)=w0+w1x1+...+wnxn,wd,d=0,…,n代表自变量xi,i=1,…,n在多元回归方程的权重,n代表特征数据的数量。
相对于现有技术,本发明所述的多源数据融合度智能评估方法及其系统具有以下有益效果:
(1)本发明所述的多源数据融合度智能评估方法及其系统可以对不同来源间数据的关系进行度量化,并得到目标用户的任务信息的融合评估指标,为多源数据融合应用提供了决策参考,减少了下一步数据融合认知计算和应用的盲目性,提高了多源数据融合方法在实际应用中的效率;
(2)本发明所述的多源数据融合度智能评估方法及其系统,利用KNN算法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别;
(3)本发明所述的多源数据融合度智能评估方法及其系统,通过训练KNN分类器,直至其分类误差达到阈值,实现了准确性高的多源数据融合度的预测评估,解决现有技术通常由于数据样本量有限,目标用户数据稀缺,而无法进行融合计算前准确评估预测的问题。
附图说明
图1为本发明的多源数据融合度智能评估方法流程图;
图2为本发明的多源数据融合度智能评估系统模块图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
实施例一
提供一种多源数据融合度智能评估方法,如图1所示,其中,包括如下步骤:
S1:获取具体场景下的多源数据以及对应的目标客户任务信息;
S2:建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;
S3:将映射数据集作为KNN分类器的输入,训练KNN分类器;
S4:利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。
本方法利用一定的多源数据的样本量,将其融合于一定的指标评估之中,通过在有限样本量及可信范围内获得并评估预测结果,解决多源数据融合认知计算和应用的盲目性的问题。
其中,所述步骤S1具体包括如下步骤:
以智能客服系统为例,获得待解答问题的问题数据;对所述问题数据进行语义解析,得到第一数量的业务场景信息及第二数量的用户意图信息;对所述业务场景信息及所述用户意图信息进行配对,得到业务场景信息与用户意图信息间的配对结果;
再比如,按照教学科目对教学内容进行分类得到教学科目内容;对教学科目内容进行信息抽取得到抽取信息;所述信息抽取包括:实体抽取、关系抽取以及事件抽取;采用语义相似度计算方法对抽取信息中的实体进行对齐得到融合信息;同时,判断融合信息中新增教学内容是否符合质量标准,若是,则将新增教学内容保留在融合信息中;若否,则将新增教学内容从融合信息中剔除。
其中,所述步骤S2具体包括如下步骤:
将多源数据与目标客户任务信息进行归一化处理后并收集起来,建立映射数据集。
映射是个术语,在数学及相关的领域经常等同于函数数学里,指两个元素集之间的元素相互“对应”的关系。映射的算法思想是:计算出N区间长度除以O区间长度,得出O区间上单位长度对应于N区间上的大小;再将O区间上某个数减去O区间最小值后,乘以O区间上单位长度对应于N区间上的大小;最后加上N区间最小值,实现O区间上的数映射到N区间上。
两个区间映射的公式:
其中Nx,y为映射后的数,Nmax为N区间最大值,Nmin为N区间最小值,Omax为O区间最大值,Omin为O区间最小值,Ox,y为映射前的数。
具体到本实施例,将一组归一化处理后的多源数据X的取值范围映射到目标客户任务信息数据的区间[a,b]:
其中,Xmax是这组数据X中的最大值,Xmin是这组数据X中的最小值,b为目标客户任务信息数据中的最大值,a为目标客户任务信息数据中的最小值,Y为映射后的数据。
其中,所述步骤S3具体包括如下步骤:
(1)将映射数据集输入训练数据集
T={(x1,y1),(x2,y2),...,(xN,yN)}
其中:
为n维的多源数据特征向量,其中,i=1,2,…,N;
yi∈C={c1,c2,…,cK}
为多源数据的类别,其中,i=1,2,…,N;
(2)根据给定的距离量度方法(一般情况下使用欧氏距离)在训练数据集T中找出与x最相近的k个样本点,并将这k个样本点所表示的集合记为Nk(x);
(3)根据下述公式的多数投票原则确定多源数据X所属类别c:
上式中I为指示函数:
KNN算法(K最邻近分类算法)的核心思想是,如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性,该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN是通过测量不同特征值之间的距离进行分类,它的具体思路是,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中k通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象,该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离:
或曼哈顿距离:
同时,KNN通过依据k个对象中占优的类别进行决策,而不是单一的对象类别决策。
其中,所述步骤S4具体包括如下步骤:
根据分类后的数据集和逻辑回归分析法建立评估模型:
根据每个特征数据在匹配关系数据库中的分布计算其对应的评估概率;
根据所述每个特征数据的评估概率,确定其作为自变量在多元回归方程的权重,并建立多元回归方程;
所述多元回归方程表示为:
其中,P(y=1|x)表示概率的预测值,x表示特征数据,y表示评估概率;g(x)=w0+w1x1+...+wnxn,wd,d=0,…,n代表自变量xi,i=1,…,n在多元回归方程的权重,n代表特征数据的数量。
这样,本实施例中的方法通过训练KNN分类器,直至其分类误差达到阈值,实现了准确性高的多源数据融合度的预测评估,解决现有技术通常由于数据样本量有限,目标用户数据稀缺,而无法进行融合计算前准确评估预测的问题。
实施例二
提供一种多源数据融合度智能评估系统,如图2所示,其中,所述系统包括:
多源数据采集模块,用于获取具体场景下的多源数据以及对应的目标客户任务信息;
多源数据映射模块,用于建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;
多源数据分类模块,用于将映射数据集作为KNN分类器的输入,训练KNN分类器;
多源数据融合评估模块,用于利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。
本系统利用一定的多源数据的样本量,将其融合于一定的指标评估之中,通过在有限样本量及可信范围内获得并评估预测结果,解决多源数据融合认知计算和应用的盲目性的问题。
其中,所述多源数据采集模块具体用于如下场景:
以智能客服系统为例,获得待解答问题的问题数据;对所述问题数据进行语义解析,得到第一数量的业务场景信息及第二数量的用户意图信息;对所述业务场景信息及所述用户意图信息进行配对,得到业务场景信息与用户意图信息间的配对结果;
再比如,按照教学科目对教学内容进行分类得到教学科目内容;对教学科目内容进行信息抽取得到抽取信息;所述信息抽取包括:实体抽取、关系抽取以及事件抽取;采用语义相似度计算方法对抽取信息中的实体进行对齐得到融合信息;同时,判断融合信息中新增教学内容是否符合质量标准,若是,则将新增教学内容保留在融合信息中;若否,则将新增教学内容从融合信息中剔除。
其中,所述多源数据映射模块具体用于:
将多源数据与目标客户任务信息进行归一化处理后并收集起来,建立映射数据集。
具体到本实施例,将一组归一化处理后的多源数据X的取值范围映射到目标客户任务信息数据的区间[a,b]:
其中,Xmax是这组数据X中的最大值,Xmin是这组数据X中的最小值,b为目标客户任务信息数据中的最大值,a为目标客户任务信息数据中的最小值,Y为映射后的数据。
其中,所述多源数据分类模块具体用于:
(1)将映射数据集输入训练数据集
T={(x1,y1),(x2,y2),...,(xN,yN)}
其中:
为n维的多源数据特征向量,其中,i=1,2,…,N;
yi∈C={c1,c2,…,cK}
为多源数据的类别,其中,i=1,2,…,N;
(2)根据给定的距离量度方法(一般情况下使用欧氏距离)在训练数据集T中找出与x最相近的k个样本点,并将这k个样本点所表示的集合记为Nk(x);
(3)根据下述公式的多数投票原则确定多源数据X所属类别c:
上式中I为指示函数:
其中,所述多源数据融合评估模块具体用于:
根据分类后的数据集和逻辑回归分析法建立评估模型:
根据每个特征数据在匹配关系数据库中的分布计算其对应的评估概率;
根据所述每个特征数据的评估概率,确定其作为自变量在多元回归方程的权重,并建立多元回归方程;
所述多元回归方程表示为:
其中,P(y=1|x)表示概率的预测值,x表示特征数据,y表示评估概率;g(x)=w0+w1x1+...+wnxn,wd,d=0,…,n代表自变量xi,i=1,…,n在多元回归方程的权重,n代表特征数据的数量。
这样,本实施例中的系统通过训练KNN分类器,直至其分类误差达到阈值,实现了准确性高的多源数据融合度的预测评估,解决现有技术通常由于数据样本量有限,目标用户数据稀缺,而无法进行融合计算前准确评估预测的问题。
应当了解,本说明书未详细阐述的部分都是已有技术。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (8)
1.一种多源数据融合度智能评估方法,其特征在于,包括如下步骤:
S1:获取具体场景下的多源数据以及对应的目标客户任务信息;
S2:建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;
S3:将映射数据集作为KNN分类器的输入,训练KNN分类器;
S4:利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。
5.一种多源数据融合度智能评估系统,其特征在于,所述系统包括:
多源数据采集模块,用于获取具体场景下的多源数据以及对应的目标客户任务信息;
多源数据映射模块,用于建立具体场景下的多源数据与目标客户任务信息对应的映射关系模型,收集映射数据并作为映射数据集;
多源数据分类模块,用于将映射数据集作为KNN分类器的输入,训练KNN分类器;
多源数据融合评估模块,用于利用分类后的数据集建立回归模型,评估具体场景下的多源数据以及对应的目标客户任务信息融合程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027451.5A CN115392375A (zh) | 2022-08-25 | 2022-08-25 | 一种多源数据融合度智能评估方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027451.5A CN115392375A (zh) | 2022-08-25 | 2022-08-25 | 一种多源数据融合度智能评估方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392375A true CN115392375A (zh) | 2022-11-25 |
Family
ID=84123025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211027451.5A Pending CN115392375A (zh) | 2022-08-25 | 2022-08-25 | 一种多源数据融合度智能评估方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392375A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994713A (zh) * | 2023-03-22 | 2023-04-21 | 中国人民解放军火箭军工程大学 | 一种基于多源数据的操作训练效果评估方法及系统 |
-
2022
- 2022-08-25 CN CN202211027451.5A patent/CN115392375A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994713A (zh) * | 2023-03-22 | 2023-04-21 | 中国人民解放军火箭军工程大学 | 一种基于多源数据的操作训练效果评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10013636B2 (en) | Image object category recognition method and device | |
CN106371610B (zh) | 一种基于脑电信号的驾驶疲劳的检测方法 | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN110633371A (zh) | 一种日志分类方法及系统 | |
CN102262642A (zh) | 一种Web图像搜索引擎及其实现方法 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
Johnsson | Structures in high-dimensional data: Intrinsic dimension and cluster analysis | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
Fuda et al. | Artificial intelligence in clinical multiparameter flow cytometry and mass cytometry–key tools and progress | |
Zhang et al. | An efficient class-constrained DBSCAN approach for large-scale point cloud clustering | |
US11829442B2 (en) | Methods and systems for efficient batch active learning of a deep neural network | |
CN117349406A (zh) | 基于大数据的专利信息检索系统及方法 | |
CN117078960A (zh) | 一种基于图像特征提取的近红外光谱分析方法及系统 | |
KR20120054985A (ko) | 단일 차원 군집 분석의 분산처리를 이용한 대용량 데이터의 군집 분석 시스템, 방법 및 이를 위한 기록 매체 | |
CN112804650B (zh) | 一种信道状态信息数据降维方法及智能室内定位方法 | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
Pereira et al. | Assessing active learning strategies to improve the quality control of the soybean seed vigor | |
CN114168751A (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 | |
Das et al. | Analyzing the performance of anomaly detection algorithms | |
CN112347162A (zh) | 一种基于在线学习的多元时序数据规则挖掘方法 | |
CN111723223B (zh) | 一种基于主体推断的多标签图像检索方法 | |
Fuchs et al. | Randomized tree ensembles for object detection in computational pathology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |