CN113792799A - 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质 - Google Patents

基于贝叶斯的数据匹配方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113792799A
CN113792799A CN202111087477.4A CN202111087477A CN113792799A CN 113792799 A CN113792799 A CN 113792799A CN 202111087477 A CN202111087477 A CN 202111087477A CN 113792799 A CN113792799 A CN 113792799A
Authority
CN
China
Prior art keywords
data
matched
target
matching
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111087477.4A
Other languages
English (en)
Other versions
CN113792799B (zh
Inventor
孙瑜尧
李响
李晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111087477.4A priority Critical patent/CN113792799B/zh
Publication of CN113792799A publication Critical patent/CN113792799A/zh
Application granted granted Critical
Publication of CN113792799B publication Critical patent/CN113792799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于贝叶斯的数据匹配方法、装置、设备及存储介质,涉及人工智能及智慧医疗技术领域,基于贝叶斯估计建立数据匹配模型,提取与目标数据相似的待匹配数据,有效去排除混淆因素带来的影响,提高分析准确率。所述方法包括:根据数据来源,将历史样本数据拆分为目标数据和待匹配数据;对目标数据和样本训练数据进行模型训练,得到数据匹配模型;将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差;查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定数据相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值的目标匹配数据,将目标匹配数据输出。

Description

基于贝叶斯的数据匹配方法、装置、设备及可读存储介质
技术领域
本申请涉及人工智能及智慧医疗技术领域,特别是涉及一种基于贝叶斯的数据匹配方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着智慧医疗技术的不断进步,医疗行业的不断发展,深度学习模型在疾病分析领域中应用广泛,在一些疾病的分析中,利用相关疾病的历史数据信息作为深度学习模型的训练样本,基于深度学习模型强大的数据学习能力和灵活的处理结构,能够辅助智慧医疗平台进行分析,提高相关疾病分析的准确率。
相关技术中,由于深度学习模型需要大量的训练样本,而在实际医疗场景中适合深度学习模型的单源训练样本较少,因此,在实际应用过程中一般会组合不同来源的多个数据源作为训练样本,提供给深度学习模型进行训练。
在实现本申请的过程中,申请人发现相关技术至少存在以下问题:
不同来源的数据存在一些混杂因素,在合并多个数据源进行训练时,如果不同数据源的分布不一致,即便扩充了数据集,任务训练的难度仍然很大,且深度学习模型无法有效排除混淆因素带来的影响,导致深度学习模型的分析准确率低。
发明内容
有鉴于此,本申请提供了一种基于贝叶斯的数据匹配方法及装置,主要目的在于解决目前深度学习模型无法有效排除混淆因素带来的影响,导致深度学习模型的分析准确率低的问题。
依据本申请第一方面,提供了一种基于贝叶斯的数据匹配方法,该方法包括:
根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,所述目标数据的数据来源指示所述目标数据来自于同一目标机构,所述待匹配数据的数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构;
对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,所述样本训练数据是按照第一拆分比例在所述待匹配数据中提取得到的;
将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差;
查询预设相似度阈值和预设方差阈值,基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,将所述目标匹配数据输出,所述目标匹配数据的数据相似度大于等于所述预设相似度阈值且数据方差小于等于所述预设方差阈值。
可选地,所述根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,包括:
采集所述历史样本数据,查询所述历史样本数据的所述数据来源;
按照所述数据来源,将所述数据来源指示所述历史样本数据为同一所述目标机构的所述历史样本数据,划分为所述目标数据;
将所述数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构的所述历史样本数据,划分为所述待匹配数据。
可选地,所述对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,包括:
按照第一预设拆分比例,对所述待匹配数据进行拆分,得到样本训练数据;
对所述目标数据添加正样本标签,对所述样本训练数据添加负样本标签,将添加标签后的所述目标数据和所述样本训练数据作为训练数据集;
按照第二预设拆分比例,将所述训练数据集进行拆分,得到模型训练集和模型验证集;
基于贝叶斯估计功能,提取所述模型训练集的样本特征,按照所述样本特征,构建所述数据匹配模型。
可选地,所述方法还包括:
基于贝叶斯估计功能,提取所述模型验证集的所述样本特征,按照所述样本特征构建验证模型;
将所述验证模型与所述数据匹配模型进行比对,确定所述验证模型与所述数据匹配模型之间的模型偏差量;
运用自适应矩估计算法,按照所述模型偏差量指示的偏差特征,对所述样本特征的网络权重进行调整并重新训练所述数据匹配模型,直至所述验证模型和所述数据匹配模型之间的所述模型偏差量小于偏差量阈值。
可选地,所述将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差,包括:
将所述待匹配数据输入至所述数据匹配模型,获取数据匹配预测值;
统计所述待匹配数据的输入次数,当所述输入次数等于预设输入次数阈值时,停止数据输入,获取多个所述数据匹配预测值;
计算多个所述数据匹配预测值的均值,将所述均值作为所述待匹配数据与所述目标数据之间的数据相似度;
计算多个所述数据匹配预测值的方差,将所述方差作为所述待匹配数据与所述目标数据之间的数据方差。
可选地,所述基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,包括:
将所述待匹配数据对应的所述数据相似度与所述预设相似度阈值进行比对;
如果所述待匹配数据对应的所述数据相似度小于所述预设相似度阈值,则将所述待匹配数据删除;
如果所述待匹配数据对应的所述数据相似度大于等于所述预设相似度阈值,则提取所述待匹配数据;
将所述待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,基于所述比对结果,在所述待匹配数据中确定目标匹配数据。
可选地,所述将所述待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,基于所述比对结果,在所述待匹配数据中确定目标匹配数据,包括:
若所述待检测数据对应的数据方差大于所述预设方差阈值,则将所述待检测数据进行删除;
若所述待检测数据对应的数据方差小于等于所述预设方差阈值,则将所述待检测数据作为所述目标匹配数据进行输出。
依据本申请第二方面,提供了一种基于贝叶斯的数据匹配装置,该装置包括:
拆分模块,用于根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,所述目标数据的数据来源指示所述目标数据来自于同一目标机构,所述待匹配数据的数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构;
训练模块,用于对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,所述样本训练数据是按照第一拆分比例在所述待匹配数据中提取得到的;
计算模块,用于将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差;
确定模块,用于查询预设相似度阈值和预设方差阈值,基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,将所述目标匹配数据输出,所述目标匹配数据的数据相似度大于等于所述预设相似度阈值且数据方差小于等于所述预设方差阈值。
可选地,所述拆分模块,用于采集所述历史样本数据,查询所述历史样本数据的所述数据来源;按照所述数据来源,将所述数据来源指示所述历史样本数据为同一所述目标机构的所述历史样本数据,划分为所述目标数据;将所述数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构的所述历史样本数据,划分为所述待匹配数据。
可选地,所述训练模块,用于按照第一预设拆分比例,对所述待匹配数据进行拆分,得到样本训练数据;对所述目标数据添加正样本标签,对所述样本训练数据添加负样本标签,将添加标签后的所述目标数据和所述样本训练数据作为训练数据集;按照第二预设拆分比例,将所述训练数据集进行拆分,得到模型训练集和模型验证集;基于贝叶斯估计功能,提取所述模型训练集的样本特征,按照所述样本特征,构建所述数据匹配模型。
可选地,所述训练模块,还用于基于贝叶斯估计功能,提取所述模型验证集的所述样本特征,按照所述样本特征构建验证模型;将所述验证模型与所述数据匹配模型进行比对,确定所述验证模型与所述数据匹配模型之间的模型偏差量;运用自适应矩估计算法,按照所述模型偏差量指示的偏差特征,对所述样本特征的网络权重进行调整并重新训练所述数据匹配模型,直至所述验证模型和所述数据匹配模型之间的所述模型偏差量小于偏差量阈值。
可选地,所述计算模块,用于将所述待匹配数据输入至所述数据匹配模型,获取数据匹配预测值;统计所述待匹配数据的输入次数,当所述输入次数等于预设输入次数阈值时,停止数据输入,获取多个所述数据匹配预测值;计算多个所述数据匹配预测值的均值,将所述均值作为所述待匹配数据与所述目标数据之间的数据相似度;计算多个所述数据匹配预测值的方差,将所述方差作为所述待匹配数据与所述目标数据之间的数据方差。
可选地,所述确定模块,用于将所述待匹配数据对应的所述数据相似度与所述预设相似度阈值进行比对;如果所述待匹配数据对应的所述数据相似度小于所述预设相似度阈值,则将所述待匹配数据删除;如果所述待匹配数据对应的所述数据相似度大于等于所述预设相似度阈值,则提取所述待匹配数据;将所述待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,基于所述比对结果,在所述待匹配数据中确定目标匹配数据。
可选地,所述确定模块,用于若所述待检测数据对应的数据方差大于所述预设方差阈值,则将所述待检测数据进行删除;若所述待检测数据对应的数据方差小于等于所述预设方差阈值,则将所述待检测数据作为所述目标匹配数据进行输出。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供的一种基于贝叶斯的数据匹配方法、装置、计算机设备及可读存储介质,本申请根据数据来源,将历史样本数据拆分为来源于同一目标机构的目标数据和来源于其他机构的待匹配数据,随后,将待匹配数据按照预设比例拆分,获得样本训练数据,对目标数据和样本训练数据进行模型训练,得到数据匹配模型,将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差,查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值的待匹配数据作为目标匹配数据。基于贝叶斯估计功能,建立数据匹配模型,提取出与目标数据相似的待匹配数据,有效去排除混淆因素带来的影响,提高深度学习模型的分析准确率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种基于贝叶斯的数据匹配方法流程示意图;
图2A示出了本申请实施例提供的一种基于贝叶斯的数据匹配方法流程示意图;
图2B示出了本申请实施例提供的一种基于贝叶斯的数据匹配方法流程示意图;
图3示出了本申请实施例提供的一种基于贝叶斯的数据匹配装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种基于贝叶斯的数据匹配方法,如图1所示,该方法包括:
101、根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,目标数据的数据来源指示目标数据来自于同一目标机构,待匹配数据的数据来源指示待匹配数据来自于与目标机构不同的多个其他机构。
102、对目标数据和样本训练数据进行模型训练,得到数据匹配模型,样本训练数据是按照第一拆分比例在待匹配数据中提取得到的。
103、将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差。
104、查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定目标匹配数据,将目标匹配数据输出,目标匹配数据的数据相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值。
本申请实施例提供的方法,可以根据数据来源,将历史样本数据拆分为来源于同一目标机构的目标数据和来源于其他机构的待匹配数据,随后,将待匹配数据按照预设比例拆分,获得样本训练数据,对目标数据和样本训练数据进行模型训练,得到数据匹配模型,将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差,查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值的待匹配数据作为目标匹配数据。基于贝叶斯估计功能,建立数据匹配模型,提取出与目标数据相似的待匹配数据,有效去排除混淆因素带来的影响,提高深度学习模型的分析准确率。
本申请实施例提供了一种基于贝叶斯的数据匹配方法,如图2A所示,该方法包括:
201、根据数据来源,将历史样本数据拆分为目标数据和待匹配数据。
随着互联网技术的不断进步,医疗行业的不断发展,深度学习模型在疾病分析领域中应用广泛,在一些疾病的分析中,利用相关疾病的历史数据信息作为深度学习模型的训练样本,基于深度学习模型强大的数据学习能力和灵活的处理结构,能够辅助医生进行分析,提高相关疾病分析的准确率。目前由于深度学习模型需要大量的训练样本,而在实际医疗场景中适合深度学习模型的单源训练样本较少,因此,在实际应用过程中一般会组合不同来源的多个数据源作为训练样本,提供给深度学习模型进行训练。但是,申请人认识到,不同来源的数据存在一些混杂因素,在合并多个数据源进行训练时,如果不同数据源的分布不一致,即便扩充了数据集,任务训练的难度仍然很大,且深度学习模型无法有效排除混淆因素带来的影响,导致深度学习模型的分析准确率低。
因此,本申请提出一种基于贝叶斯的数据匹配方法,该方法可以应用于智慧医疗平台,使得智慧医疗平台根据数据来源,将历史样本数据拆分为来源于同一目标机构的目标数据和来源于其他机构的待匹配数据,随后,将待匹配数据按照预设比例拆分,获得样本训练数据,对目标数据和样本训练数据进行模型训练,得到数据匹配模型,将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差,查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值的待匹配数据作为目标匹配数据。基于贝叶斯估计功能,建立数据匹配模型,提取出与目标数据相似的待匹配数据,有效去排除混淆因素带来的影响,提高深度学习模型的分析准确率。其中,智慧医疗平台可以基于独立的服务器运行,也可以基于提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算的服务器运行。这样,在后续目标患者的相关信息进行识别时,便可以在服务器上下载到有关目标患者的医疗数据,比如个人健康档案、处方、检查报告等。
其中,历史样本数据为各个医疗机构上传的有关目标疾病的诊疗数据,例如,以心电分析为例,历史样本数据可以是来源于不同医疗机构的心电图数据。因此,历史样本数据中携带有各个医疗机构的相关信息,也就是历史样本数据的数据来源,通过识别数据来源来对历史样本数据进行划分,在具体实施场景中可以有两种识别方式,一种是利用文本识别技术,识别数据来源中包含的医疗机构名称,基于医疗机构名称,将来源于同一目标机构的历史样本数据划分为目标数据,将划分后剩余的历史样本数据作为待匹配数据。另一种方法是,在数据来源的社会统一信用代码中识别来源于同一机构的历史样本数据,将这些样本数据划分为目标数据。
具体地,采集历史样本数据,查询历史样本数据的数据来源,按照数据来源,将数据来源指示历史样本数据为同一目标机构的历史样本数据,划分为目标数据。将数据来源指示待匹配数据来自于与目标机构不同的多个其他机构的所述历史样本数据,划分为待匹配数据。例如,历史样本数据中有6个来源于医疗机构A,1个来源于医疗机构B,3个来源于医疗机构C,识别10个历史样本数据的数据来源,将数据来源中包含医疗机构A的数据划分为目标数据,将剩余的4个数据划分为待匹配数据。
通过上述过程,将历史样本数据拆分成来源于同一目标机构的目标数据和来源于除目标机构以外的其他机构的待匹配数据,在待匹配数据中找出与目标数据相似的数据后与目标数据一同作为训练样本对深度学习模型进行训练,就能够有效排除训练样本来源不同造成的混淆影响。
202、对目标数据和样本训练数据进行模型训练,得到数据匹配模型。
在本申请实施例中,单数据源的目标数据的分布相对一致,由于设备原因等其他原因,多数据源的待匹配数据可能与目标数据分布不一致,甚至待匹配数据内部的分布也不一致。针对这种分布不一致的样本数据,基于贝叶斯估计的深度学习样本匹配方法,从待匹配数据中搜索与目标数据较为相似的样本,从而形成与目标数据分布较为相近的目标匹配数据,即得到数据匹配模型。具体构建数据匹配模型的过程如下:
首先,按照第一预设拆分比例,对待匹配数据进行拆分,得到样本训练数据,在具体实施场景中,系统将待匹配数据划分为样本训练数据和用于测试的待匹配数据,并将目标数据与样本训练数据合并,构造训练数据集。例如,以心电数据为例,给定心电数据集A,B。其中A来源于目标机构,B来源于除目标机构以外的其他机构。A为匹配目标数据集,B为待匹配数据。从B中切分出一部分数据集B_in作为样本训练数据,另一部分B_ex用于匹配符合A分布的待匹配数据。将数据源A中的样本与B_in中的样本合并,构造训练数据集。
随后,对目标数据添加正样本标签,对样本训练数据添加负样本标签,将添加标签后的目标数据和样本训练数据作为训练数据集,将训练数据集中的数据按照第二拆分比例进行拆分,得到模型训练集和模型验证集。例如,继续以上述心电数据为例,在训练数据集中将数据集A的样本标签标为1,将数据集B_in的样本标签标为0,得到训练数据集D,并在D中划分模型训练集和模型验证集。
最后,基于贝叶斯估计的深度学习样本匹配方法,提取模型训练集的样本特征,按照样本特征,构建数据匹配模型。其中,机器学习中存在两种不确定性,偶然不确定性和认知不确定性。偶然不确定性是由数据集引入的,而不是模型本身带有的。即数据中的噪音使得数据有了一定偏离率,进而影响模型预测。认知不确定性是由模型引入的,也就是模型遇到完全没有遇到的数据的分布时,就会产生较大的认知不确定性。而传统的MLE(MaximumLikelihood Estimate,极大似然估计)和MAP(Maximum a posteriori probability,最大后验概率)是对样本数据输出确定的判断结果,因此不存在认知不确定性,也就是说MLE和MAP是认识样本数据的,就算MAP无法分辨样本数据的类属,但是MAP是认识样本数据的。贝叶斯模型对样本数据的认识是不稳定的,即有时给出类属1的结果,有时给出类属2的结果,可认为贝叶斯模型不认识样本数据,因此,需要用贝叶斯模型来表达认知的不确定性。
具体地,在训练训练集上构造分类任务,判断训练数据集中的样本是否属于目标数据。将深度学习模型作为分类器,使用各种适合该分类任务的的深度网络作为主网络结构,利用深度学习网络灵活的结构设计,在网络结构中加入MC dropout layer(Monte-Carlo Dropout layer,蒙特卡洛层),从而引入贝叶斯估计。例如,使用带SE-Block(Sequeze and Excitation Block,隔离与激励模块)的重置网络,在网络结构中加入MCdropout layer进行学习训练。
需要说明的是,在利用模型训练集构造数据匹配模型之后,还需要利用模型验证集构建验证模型,利用数据匹配模型与验证模型之间的偏差量,不断对数据匹配模型进行更新,直到两个模型之间的偏差量小于偏差量阈值,这样,就得到了最终的数据匹配模型。其中,偏差量阈值可以是相关工作人员基于实际应用场景进行设置,本申请对偏差量阈值的大小不进行具体限定。
具体地,基于贝叶斯估计功能,提取模型验证集的所述样本特征,按照样本特征构建验证模型,将验证模型与数据匹配模型进行比对,确定验证模型与数据匹配模型之间的模型偏差量,运用自适应矩估计算法,按照模型偏差量指示的偏差特征,对样本特征的网络权重进行调整并重新训练数据匹配模型,直至验证模型和数据匹配模型之间的模型偏差量小于偏差量阈值。
这样,利用MC_dropout在训练过程与测试过程同时开启dropout功能,来实现深度神经网络的贝叶斯估计功能,使数据匹配模型具备了对同一样本输出不同预测值的能力。
203、将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差。
在本申请实施例中,在得到数据匹配模型后,使用数据匹配模型对待匹配数据做多次前向推断。由于数据匹配模型具备了贝叶斯模型的推断功能,因此对同一个样本做不同次数的推断得到的结果是不相同的,多次推断可以得到数据模型对同一样本的预测值分布,而这个分布可以表示数据匹配模型对预测该样本的不确定度。
在实际应用场景中,将待匹配数据输入至数据匹配模型,获取数据匹配预测值,统计待匹配数据的输入次数,当输入次数等于预设输入次数阈值时,停止数据输入,获取多个数据匹配预测值,计算多个数据匹配预测值的均值和方差。例如,数据匹配模型对A1-A200,共200个样本进行100次采样,则每一个心电样本数据都具有100个预测结果,计算A1的100个预测结果的均值作为数据相似度,计算A1的100个预测结果的方差作为A1预测结果的数据方差。
204、查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定目标匹配数据。
在本申请实施例中,通过数据匹配模型来筛选待匹配数据中能匹配上目标数据的样本,因此,需要综合考虑数据匹配模型判断的预测值的相似度以及不确定度来进行筛选,挑选待匹配数据中与目标数据相似度高且不确定度低的样本。其中,样本均值用于指示待匹配数据与目标数据之间的数据相似度,数据方差用于表征数据匹配模型判断待匹配数据图目标数据分布是否相似的不确定度。具体确定目标匹配数据的过程如下:
首先,在系统中查询预设相似度阈值和预设方差阈值,其中,预设相似度阈值和预设方差阈值可以由工作人员基于实际工作场景进行设置,本申请对预设相似度阈值和预设方差阈值的设置方式和大小不进行具体限定。
随后,将待匹配数据对应的数据相似度与预设相似度阈值进行比对,如果待匹配数据对应的数据相似度小于预设相似度阈值,则将待匹配数据删除,如果待匹配数据对应的数据相似度大于等于预设相似度阈值,则提取待匹配数据。
最后,将提取出的待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,若比对结果指示待检测数据对应的数据方差大于预设方差阈值,则将所述待检测数据进行删除,若待检测数据对应的数据方差小于等于预设方差阈值,则将待检测数据作为目标匹配数据进行输出。需要说明的是,在具体应用场景下可以依据数据相似度和数据方差对待匹配数据进行排名,选取预设数量的待匹配数据,如排名在前20或前40的待匹配数据。将选取出的待匹配数据作为目标匹配数据进行输出。
综上所述,本申请的技术过程如下:
参见图2B,将待匹配数据进行拆分,得到样本训练数据,将目标数据和样本训练数据合并作为训练数据集,基于训练数据集进行模型训练,得到数据匹配模型,最后,将待匹配数据输入至数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差,根据选取数据相似度大于等于所述预设相似度阈值且数据方差小于等于所述预设方差阈值的待匹配数据作为目标匹配数据进行输出。
本申请实施例提供的方法,可以根据数据来源,将历史样本数据拆分为来源于同一目标机构的目标数据和来源于其他机构的待匹配数据,随后,将待匹配数据按照预设比例拆分,获得样本训练数据,对目标数据和样本训练数据进行模型训练,得到数据匹配模型,将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差,查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值的待匹配数据作为目标匹配数据。基于贝叶斯估计功能,建立数据匹配模型,提取出与目标数据相似的待匹配数据,有效去排除混淆因素带来的影响,提高深度学习模型的分析准确率。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种基于贝叶斯的数据匹配装置,如图3所示,所述装置包括:拆分模块301、训练模块302、计算模块303、确定模块304。
拆分模块301,用于根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,所述目标数据的数据来源指示所述目标数据来自于同一目标机构,所述待匹配数据的数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构;
训练模块302,用于对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,所述样本训练数据是按照第一拆分比例在所述待匹配数据中提取得到的;
计算模块303,用于将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差;
确定模块304,用于查询预设相似度阈值和预设方差阈值,基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,将所述目标匹配数据输出,所述目标匹配数据的数据相似度大于等于所述预设相似度阈值且数据方差小于等于所述预设方差阈值。
在具体的应用场景中,该拆分模块301,用于采集所述历史样本数据,查询所述历史样本数据的所述数据来源;按照所述数据来源,将所述数据来源指示所述历史样本数据为同一所述目标机构的所述历史样本数据,划分为所述目标数据;将所述数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构的所述历史样本数据,划分为所述待匹配数据。
在具体的应用场景中,该训练模块302,用于按照第一预设拆分比例,对所述待匹配数据进行拆分,得到样本训练数据;对所述目标数据添加正样本标签,对所述样本训练数据添加负样本标签,将添加标签后的所述目标数据和所述样本训练数据作为训练数据集;按照第二预设拆分比例,将所述训练数据集进行拆分,得到模型训练集和模型验证集;基于贝叶斯估计功能,提取所述模型训练集的样本特征,按照所述样本特征,构建所述数据匹配模型。
在具体的应用场景中,该训练模块302,还用于基于贝叶斯估计功能,提取所述模型验证集的所述样本特征,按照所述样本特征构建验证模型;将所述验证模型与所述数据匹配模型进行比对,确定所述验证模型与所述数据匹配模型之间的模型偏差量;运用自适应矩估计算法,按照所述模型偏差量指示的偏差特征,对所述样本特征的网络权重进行调整并重新训练所述数据匹配模型,直至所述验证模型和所述数据匹配模型之间的所述模型偏差量小于偏差量阈值。
在具体的应用场景中,该计算模块303,用于将所述待匹配数据输入至所述数据匹配模型,获取数据匹配预测值;统计所述待匹配数据的输入次数,当所述输入次数等于预设输入次数阈值时,停止数据输入,获取多个所述数据匹配预测值;计算多个所述数据匹配预测值的均值,将所述均值作为所述待匹配数据与所述目标数据之间的数据相似度;计算多个所述数据匹配预测值的方差,将所述方差作为所述待匹配数据与所述目标数据之间的数据方差。
在具体的应用场景中,该确定模块304,用于将所述待匹配数据对应的所述数据相似度与所述预设相似度阈值进行比对;如果所述待匹配数据对应的所述数据相似度小于所述预设相似度阈值,则将所述待匹配数据删除;如果所述待匹配数据对应的所述数据相似度大于等于所述预设相似度阈值,则提取所述待匹配数据;将所述待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,基于所述比对结果,在所述待匹配数据中确定目标匹配数据。
在具体的应用场景中,该确定模块304,用于若所述待检测数据对应的数据方差大于所述预设方差阈值,则将所述待检测数据进行删除;若所述待检测数据对应的数据方差小于等于所述预设方差阈值,则将所述待检测数据作为所述目标匹配数据进行输出。
本申请实施例提供的方法,可以根据数据来源,将历史样本数据拆分为来源于同一目标机构的目标数据和来源于其他机构的待匹配数据,随后,将待匹配数据按照预设比例拆分,获得样本训练数据,对目标数据和样本训练数据进行模型训练,得到数据匹配模型,将待匹配数据输入数据匹配模型,计算待匹配数据与目标数据之间的数据相似度和数据方差,查询预设相似度阈值和预设方差阈值,基于预设相似度阈值和预设方差阈值,在待匹配数据中确定相似度大于等于预设相似度阈值且数据方差小于等于预设方差阈值的待匹配数据作为目标匹配数据。基于贝叶斯估计功能,建立数据匹配模型,提取出与目标数据相似的待匹配数据,有效去排除混淆因素带来的影响,提高深度学习模型的分析准确率。
需要说明的是,本申请实施例提供的一种基于贝叶斯的数据匹配装置所涉及各功能单元的其他相应描述,可以参考图1和图2A至图2B中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备包括总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的基于贝叶斯的数据匹配方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于贝叶斯的数据匹配方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于贝叶斯的数据匹配方法,其特征在于,包括:
根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,所述目标数据的数据来源指示所述目标数据来自于同一目标机构,所述待匹配数据的数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构;
对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,所述样本训练数据是按照第一拆分比例在所述待匹配数据中提取得到的;
将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差;
查询预设相似度阈值和预设方差阈值,基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,将所述目标匹配数据输出,所述目标匹配数据的数据相似度大于等于所述预设相似度阈值且数据方差小于等于所述预设方差阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,包括:
采集所述历史样本数据,查询所述历史样本数据的所述数据来源;
按照所述数据来源,将所述数据来源指示所述历史样本数据为同一所述目标机构的所述历史样本数据,划分为所述目标数据;
将所述数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构的所述历史样本数据,划分为所述待匹配数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,包括:
按照第一预设拆分比例,对所述待匹配数据进行拆分,得到样本训练数据;
对所述目标数据添加正样本标签,对所述样本训练数据添加负样本标签,将添加标签后的所述目标数据和所述样本训练数据作为训练数据集;
按照第二预设拆分比例,将所述训练数据集进行拆分,得到模型训练集和模型验证集;
基于贝叶斯估计功能,提取所述模型训练集的样本特征,按照所述样本特征,构建所述数据匹配模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
基于贝叶斯估计功能,提取所述模型验证集的所述样本特征,按照所述样本特征构建验证模型;
将所述验证模型与所述数据匹配模型进行比对,确定所述验证模型与所述数据匹配模型之间的模型偏差量;
运用自适应矩估计算法,按照所述模型偏差量指示的偏差特征,对所述样本特征的网络权重进行调整并重新训练所述数据匹配模型,直至所述验证模型和所述数据匹配模型之间的所述模型偏差量小于偏差量阈值。
5.根据权利要求1所述的方法,其特征在于,所述将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差,包括:
将所述待匹配数据输入至所述数据匹配模型,获取数据匹配预测值;
统计所述待匹配数据的输入次数,当所述输入次数等于预设输入次数阈值时,停止数据输入,获取多个所述数据匹配预测值;
计算多个所述数据匹配预测值的均值,将所述均值作为所述待匹配数据与所述目标数据之间的数据相似度;
计算多个所述数据匹配预测值的方差,将所述方差作为所述待匹配数据与所述目标数据之间的数据方差。
6.根据权利要求1所述的方法,其特征在于,所述基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,包括:
将所述待匹配数据对应的所述数据相似度与所述预设相似度阈值进行比对;
如果所述待匹配数据对应的所述数据相似度小于所述预设相似度阈值,则将所述待匹配数据删除;
如果所述待匹配数据对应的所述数据相似度大于等于所述预设相似度阈值,则提取所述待匹配数据;
将所述待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,基于所述比对结果,在所述待匹配数据中确定目标匹配数据。
7.根据权利要求6所述的方法,其特征在于,所述将所述待匹配数据对应的所述方差与所述预设方差阈值进行比对,生成比对结果,基于所述比对结果,在所述待匹配数据中确定目标匹配数据,包括:
若所述待检测数据对应的数据方差大于所述预设方差阈值,则将所述待检测数据进行删除;
若所述待检测数据对应的数据方差小于等于所述预设方差阈值,则将所述待检测数据作为所述目标匹配数据进行输出。
8.一种基于贝叶斯的数据匹配装置,其特征在于,包括:
拆分模块,用于根据数据来源,将历史样本数据拆分为目标数据和待匹配数据,所述目标数据的数据来源指示所述目标数据来自于同一目标机构,所述待匹配数据的数据来源指示所述待匹配数据来自于与所述目标机构不同的多个其他机构;
训练模块,用于对所述目标数据和样本训练数据进行模型训练,得到数据匹配模型,所述样本训练数据是按照第一拆分比例在所述待匹配数据中提取得到的;
计算模块,用于将所述待匹配数据输入数据匹配模型,计算所述待匹配数据与目标数据之间的数据相似度和数据方差;
确定模块,用于查询预设相似度阈值和预设方差阈值,基于所述预设相似度阈值和所述预设方差阈值,在所述待匹配数据中确定目标匹配数据,将所述目标匹配数据输出,所述目标匹配数据的数据相似度大于等于所述预设相似度阈值且数据方差小于等于所述预设方差阈值。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111087477.4A 2021-09-16 2021-09-16 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质 Active CN113792799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111087477.4A CN113792799B (zh) 2021-09-16 2021-09-16 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111087477.4A CN113792799B (zh) 2021-09-16 2021-09-16 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113792799A true CN113792799A (zh) 2021-12-14
CN113792799B CN113792799B (zh) 2024-07-09

Family

ID=78878604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111087477.4A Active CN113792799B (zh) 2021-09-16 2021-09-16 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113792799B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804784A (zh) * 2018-05-25 2018-11-13 江南大学 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN112017061A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于贝叶斯深度学习的金融风险预测方法、装置和电子设备
CN112819045A (zh) * 2021-01-20 2021-05-18 国家卫生健康委科学技术研究所 用于用户生理状态分类的方法、装置、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804784A (zh) * 2018-05-25 2018-11-13 江南大学 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN112017061A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于贝叶斯深度学习的金融风险预测方法、装置和电子设备
CN112819045A (zh) * 2021-01-20 2021-05-18 国家卫生健康委科学技术研究所 用于用户生理状态分类的方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN113792799B (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
Bashir et al. BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting
CN110929752B (zh) 基于知识驱动和数据驱动的分群方法及相关设备
US8738534B2 (en) Method for providing with a score an object, and decision-support system
Jacob et al. Discovery of knowledge patterns in clinical data through data mining algorithms: Multi-class categorization of breast tissue data
CN112017789B (zh) 分诊数据处理方法、装置、设备及介质
CN113222149B (zh) 模型训练方法、装置、设备和存储介质
CN112035620A (zh) 医疗查询系统的问答管理方法、装置、设备及存储介质
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN115831219B (zh) 一种质量预测方法、装置、设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置
Jaganathan et al. Machine learning for smartphone-based early detection of diabetic disease in Pima Indians diabetes database
Karthikeyan et al. PCA-NB algorithm to enhance the predictive accuracy
CN116741393A (zh) 基于病历的甲状腺疾病数据集分类模型的构建方法、分类装置及计算机可读介质
Elezaj et al. Data-driven machine learning approach for predicting missing values in large data sets: A comparison study
Mohapatra et al. Automated invasive cervical cancer disease detection at early stage through deep learning
Angayarkanni Predictive analytics of chronic kidney disease using machine learning algorithm
CN113792799A (zh) 基于贝叶斯的数据匹配方法、装置、设备及可读存储介质
AU2021102593A4 (en) A Method for Detection of a Disease
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN113643283A (zh) 一种人体衰老状况的检测方法、装置、设备及存储介质
Muthulakshmi et al. Prediction of Heart Disease using Ensemble Learning
Yavuz et al. Prediction of breast cancer using machine learning algorithms on different datasets
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant