CN113658710A - 一种数据匹配方法及其相关设备 - Google Patents
一种数据匹配方法及其相关设备 Download PDFInfo
- Publication number
- CN113658710A CN113658710A CN202110921215.7A CN202110921215A CN113658710A CN 113658710 A CN113658710 A CN 113658710A CN 202110921215 A CN202110921215 A CN 202110921215A CN 113658710 A CN113658710 A CN 113658710A
- Authority
- CN
- China
- Prior art keywords
- data
- medical data
- medical
- target
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 145
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000012216 screening Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011160 research Methods 0.000 abstract description 40
- 238000004458 analytical method Methods 0.000 abstract description 38
- 238000005192 partition Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 8
- 230000002411 adverse Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000001225 therapeutic effect Effects 0.000 description 6
- 230000002349 favourable effect Effects 0.000 description 4
- 241000122205 Chamaeleonidae Species 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004159 blood analysis Methods 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本申请实施例公开了一种数据匹配方法及其相关设备,该方法包括:在获取到具有较低数据量的第一组医学数据和具有较高数据量的第二组医学数据之后,先将该第一组医学数据与该第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,以使这些聚类数据集能够准确地表示出该第一组医学数据中各个第一医学数据分别与该第二组医学数据中那些第二医学数据属于同一类;再根据该至少一个聚类数据集,将各个第一医学数据分别与其所属聚类类别下至少一个第二医学数据之间建立匹配关系,如此能够实现“一对多”的匹配目的,从而能够有效地提高医学数据匹配对的数据量,如此有利于提高研究分析结果的准确性。
Description
技术领域
本申请涉及数据分析技术领域,具体涉及一种数据匹配方法及其相关设备。
背景技术
在一些医学研究场景(例如,针对某疾病诱因的研究等场景)中,需要先将两组医学数据(例如,病例组医学数据和对照组医学数据)进行匹配;再利用各对匹配成功的医学数据(下文简称,医学数据匹配对)进行研究分析。
然而,因相关数据匹配技术存在缺陷,使得在一些特殊场景(如,上述两组医学数据的数据量不一致等场景)下利用该相关数据匹配技术确定的医学数据匹配对也存在缺陷,如此易导致后续基于这些医学数据匹配对确定的研究分析结果不准确。
发明内容
有鉴于此,本申请实施例提供一种数据匹配方法及其相关设备,能够提高研究分析结果的准确性。
为解决上述问题,本申请实施例提供的技术方案如下:
本申请实施例提供了一种数据匹配方法,所述方法包括:
获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;
将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;
根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
在一种可能的实施方式中,所述第一医学数据的数据维度为N,且所述第二医学数据的数据维度为N;其中,N为正整数;
所述至少一个聚类数据集的确定过程,包括:
将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合;
将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合;其中,所述第t个维度目标包括至少一个所述数据维度;t为正整数,t≤T,T为正整数,T表示所述维度目标的个数,且T个维度目标是根据所述N个数据维度确定的;
将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合;其中,t为正整数,t≤T;
根据第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合,确定所述至少一个聚类数据集。
在一种可能的实施方式中,所述将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合,包括:
根据所述N个数据维度、所述第一组医学数据和所述第二组医学数据,构建数据分布空间;按照预设划分方式对所述数据分布空间进行单元划分,得到至少一个划分单元;从所述至少一个划分单元中筛选出满足预设筛选条件的至少一个待使用单元;其中,所述待使用单元用于表示所述第一数据集合;
所述将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合,包括:
按照所述第t个维度目标对应的预设单元合并规则,将所述至少一个待使用单元在所述第t个维度目标上进行合并处理,得到所述第t个维度目标对应的至少一个待使用区域;根据所述至少一个待使用区域,确定所述第t个维度目标对应的至少一个第二数据集合。
在一种可能的实施方式中,所述将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合,包括:
根据所述第t个维度目标对应的至少一个第二数据集合,确定待合并对象集;其中,所述待合并对象集包括至少一个待合并对象;所述待合并对象用于表示所述第二数据集合;
确定所述待合并对象集中任意两个待合并对象之间的相似度;
根据所述待合并对象集中任意两个待合并对象之间的相似度,从所述待合并对象集中查找满足预设合并条件的至少一对目标合并对象;
将所述待合并对象集中各对目标合并对象分别进行合并处理,并继续执行所述确定所述待合并对象集中任意两个待合并对象之间的相似度的步骤,直至在确定达到预设停止条件时,根据所述待合并对象集,确定所述第t个维度目标对应的至少一个第三数据集合。
在一种可能的实施方式中,所述待合并对象集包括第一对象和第二对象,且所述第一对象与第二对象之间的相似度的确定过程,包括:
根据所述第t个维度目标对应的至少一个第二数据集合,构建K最近邻图;其中,所述K最近邻图用于记录所述至少一个第二数据集合中任一数据与其K个最近邻数据之间的连接权重;
根据所述K最近邻图,确定所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度;
根据所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度,确定所述第一对象与所述第二对象之间的相似度。
在一种可能的实施方式中,所述根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系,包括:
根据所述第t个维度目标对应的至少一个第三数据集合,确定所述第t个维度目标对应的匹配关系;其中,t为正整数,t≤T;
将第1个维度目标对应的匹配关系至第T个维度目标对应的匹配关系进行集合,得到所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
在一种可能的实施方式中,所述方法还包括:
获取终端用户输入的至少一个非关注变量;
在确定所述至少一个非关注变量与T个维度目标中待使用维度目标匹配时,将所述待使用维度目标对应的匹配关系发送给终端用户。
在一种可能的实施方式中,所述第一组医学数据包括R个第一医学数据;所述至少一个聚类数据集包括目标数据集;
当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,所述匹配关系的确定过程,包括:
建立所述第r个第一医学数据与所述Dr个第二医学数据中各个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数;Dr为正整数;
和/或,
当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,所述匹配关系的确定过程,包括:
从所述Dr个第二医学数据中筛选至少一个目标医学数据,以使各个所述目标医学数据与所述第r个第一医学数据之间的相似度均达到预设相似条件,并建立所述第r个第一医学数据与各个目标医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
在一种可能的实施方式中,所述第一组医学数据包括R个第一医学数据;
所述将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,包括:
将第r个第一医学数据与所述第二组医学数据进行预设聚类处理,得到所述第r个第一医学数据对应的聚类数据集;其中,r为正整数,r≤R,R为正整数;
所述根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系,包括:
根据所述第r个第一医学数据对应的聚类数据集,确定所述第r个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
在一种可能的实施方式中,所述获取第一组医学数据和第二组医学数据,包括:
在获取到待研究对象对应的两组待匹配医学数据之后,比较所述两组待匹配医学数据的数据量,得到数据量比较结果;
根据所述数据量比较结果,确定第一组医学数据和第二组医学数据。
本申请实施例还提供了一种数据匹配装置,所述装置包括:
数据获取单元,用于获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;
数据聚类单元,用于将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;
数据匹配单元,用于根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
本申请实施例还提供了一种数据匹配设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本申请实施例提供的数据匹配方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的数据匹配方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的数据匹配方法的任一实施方式。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的技术方案中,在获取到具有较低数据量的第一组医学数据和具有较高数据量的第二组医学数据之后,先将该第一组医学数据与该第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,以使这些聚类数据集能够准确地表示出该第一组医学数据中各个第一医学数据分别与该第二组医学数据中那些第二医学数据属于同一类;再根据该至少一个聚类数据集,确定各个第一医学数据与至少一个第二医学数据之间的匹配关系(也就是,将各个第一医学数据分别与其所属聚类类别下至少一个第二医学数据之间建立匹配关系),如此能够实现“一对多”的匹配目的,从而能够有效地提高医学数据匹配对的数据量,进而能够有效地避免因具有较低数据量的医学数据匹配对对研究分析结果造成的不良影响,如此有利于提高研究分析结果的准确性。
附图说明
图1为本申请实施例提供的一种数据匹配方法的流程图;
图2为本申请实施例提供的一种预设划分方式的示意图;
图3为本申请实施例提供的一种待使用区域的示意图;
图4为本申请实施例提供的一种K最近邻图的示意图;
图5为本申请实施例提供的一种数据匹配装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
发明人针对医学数据匹配技术的研究中发现,对于上述“相关数据匹配技术”(例如,倾向性评分匹配技术)来说,当需要进行数据匹配处理的两组医学数据的数据量不一致(例如,病例组医学数据的数据量低于对照组医学数据的数据量;或者,对照组医学数据的数据量低于病例组医学数据的数据量)时,通常可以先对具有较高数据量的一组医学数据进行数据剔除处理(例如,当病例组医学数据的数据量低于对照组医学数据的数据量时,可以针对该对照组医学数据进行数据剔除处理),以使该组医学数据的数据量与另一组医学数据的数据量保持一致;再利用该组医学数据与另一组医学数据进行数据匹配处理,得到医学数据匹配对。然而,因上述“另一组医学数据”的数据量可能会很低(例如,只有十几个医学数据),使得上述“医学数据匹配对”的数据量也很低,从而使得后续只能针对少量医学数据匹配对进行研究分析,如此易因医学数据匹配对比较少而导致研究分析过程不全面,从而易导致该研究分析结果的不准确。
基于上述发现可知,为了解决背景技术部分的技术问题,本申请实施例提供了一种数据匹配方法,该方法包括:在获取到具有较低数据量的第一组医学数据和具有较高数据量的第二组医学数据之后,先将该第一组医学数据与该第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,以使这些聚类数据集能够准确地表示出该第一组医学数据中各个第一医学数据分别与该第二组医学数据中哪些第二医学数据属于同一类;再根据该至少一个聚类数据集,确定各个第一医学数据与至少一个第二医学数据之间的匹配关系(也就是,将各个第一医学数据分别与其所属聚类类别下至少一个第二医学数据之间建立匹配关系),如此能够实现“一对多”的匹配目的,从而能够有效地提高医学数据匹配对的数据量,进而能够有效地避免因具有较低数据量的医学数据匹配对对研究分析结果造成的不良影响,如此有利于提高研究分析结果的准确性。
另外,本申请实施例不限定数据匹配方法的执行主体,例如,本申请实施例提供的数据匹配方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了便于理解本申请,下面结合附图对本申请实施例提供的数据匹配方法进行说明。
参见图1,该图为本申请实施例提供的一种数据匹配方法的流程图,该数据匹配方法可以包括S1-S3:
S1:获取第一组医学数据和第二组医学数据。其中,第一组医学数据的数据量不高于该第二组医学数据的数据量。
“第一组医学数据”用于表示需要进行数据匹配处理的两组医学数据中具有较低数据量的一组医学数据;而且“第一组医学数据”包括至少一个第一医学数据。其中,“第一医学数据”用于表示属于该“第一组医学数据”的医学数据。
“第二组医学数据”用于表示需要进行数据匹配处理的两组医学数据中具有较高数据量的一组医学数据;而且“第二组医学数据”包括至少一个第二医学数据。其中,“第二医学数据”用于表示属于该“第二组医学数据”的医学数据。
上述“需要进行数据匹配处理的两组医学数据”是指在对某个医学研究对象(如,某疾病诱因、某疾病治疗药物的治疗效果、某疾病治疗手段的治疗效果等)进行研究分析(例如,对照分析处理)时所需使用的两组数据。
上述“医学数据”是指在医学研究中可以使用的数据信息;而且本申请实施例不限定“医学数据”,例如,其可以包括个人基础信息(如,身份信息、工作信息、性别等)、个人病史信息(如,病例档案等)、个人问询信息(如,问诊信息、调查问卷答复信息等)、个人检查项目信息(如,血液检查信息、尿液检查信息、组织切片检查信息、电子计算机断层扫描(Computed Tomography,CT)检查信息等)中的至少一个。
另外,本申请实施例不限定S1的实施方式,例如,其可以采用下文S11-S12所示的任一实施方式进行实施。
基于上述S1的相关内容可知,在获取到针对某个医学研究对象(如,下文“待研究对象”)进行研究分析时所需使用的两组医学数据之后,可以从该两组医学数据中确定出第一组医学数据和第二组医学数据,以使该第一组医学数据的数据量低于或者等于该第二组医学数据的数据量,从而使得后续能够以该第一组医学数据为基准(也就是,以具有较低数据量的一组医学数据为基准)进行数据匹配处理。
S2:将第一组医学数据与第二组医学数据进行预设聚类处理,得到至少一个聚类数据集。
其中,“预设聚类处理”用于针对一些数据(例如,第一组医学数据中全部第一医学数据与第二组医学数据中全部第二医学数据等)进行聚类处理,以使具有相似数据特征的多个数据能够划分到同一类中,并使得具有不同数据特征的多个数据划分到不同类中。
另外,本申请实施例不限定“预设聚类处理”,例如,可以采用现有的或者未来出现的任一种聚类算法(如,多阶段层次聚类算法(又称,变色龙(Chameleon)聚类算法)等)进行实施。又如,可以采用下文S21-S24所示的任一实施方式进行实施。
第j个聚类数据集是指由属于第j个聚类类别的所有数据进行集合得到的,以使该第j个聚类数据集用于表示第j个聚类簇;而且该第j个聚类数据集可以包括至少一个医学数据。例如,“第j个聚类数据集”可以包括至少一个第一医学数据与至少一个第二医学数据。其中,j为正整数,j≤J,J为正整数,J表示聚类数据集的个数(也就是,聚类簇的个数)。
基于上述S2的相关内容可知,在获取到第一组医学数据与第二组医学数据之后,可以先对第一组医学数据中全部第一医学数据与第二组医学数据中全部第二医学数据进行预设聚类处理,得到至少一个聚类簇(或者,至少一个聚类类别);再将各个聚类簇分别确定为各个聚类数据集(也就是,分别将属于各个聚类类别的所有数据进行集合,得到各个聚类数据集),以使这些聚类数据集能够准确地表示出第一组医学数据中各个第一医学数据分别与哪些第二医学数据属于同一个聚类类别,从而使得这些聚类数据集能够准确地表示出与各个第一医学数据比较相似的至少一个第二医学数据,以便后续能够从这些聚类数据集中查找出与各个第一医学数据比较相似的至少一个第二医学数据。
S3:根据至少一个聚类数据集,确定第一组医学数据中各个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系。
其中,上述“第一组医学数据中各个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系”用于记录第r个第一医学数据与至少一个第二医学数据之间的匹配关系。r为正整数,r≤R,R为正整数,R表示第一医学数据的个数。
另外,本申请实施例不限定“第r个第一医学数据与至少一个第二医学数据之间的匹配关系”的确定过程。为了便于理解,下面结合两个示例进行说明。
假设,第一组医学数据包括R个第一医学数据;而且上述“至少一个聚类数据集”包括目标数据集。
示例1,基于上述假设可知,“第r个第一医学数据与至少一个第二医学数据之间的匹配关系”的确定过程,具体可以包括:若确定目标数据集包括第r个第一医学数据和Dr个第二医学数据,则建立该第r个第一医学数据与该Dr个第二医学数据中各个第二医学数据之间的匹配关系。其中,Dr为正整数。
可见,在获取到上述“至少一个聚类数据集”之后,可以从上述“至少一个聚类数据集”中查找出包括第r个第一医学数据的聚类数据集(也就是,上述“目标数据集”);再将该聚类数据集中各个第二医学数据与该第r个第一医学数据之间建立匹配关系,得到至少一个包括该第r个第一医学数据的医学数据匹配对,以便在后续能够针对这些医学数据匹配对进行研究分析。
示例2,基于上述假设可知,为了保证每个医学数据匹配对中两个医学数据之间的相似程度均比较高,本申请实施例还提供了“第r个第一医学数据与至少一个第二医学数据之间的匹配关系”的确定过程的另一种可能的实施方式,具体可以包括步骤11-步骤12:
步骤11:若确定目标数据集包括第r个第一医学数据和Dr个第二医学数据,则从Dr个第二医学数据中筛选至少一个目标医学数据,以使各个目标医学数据与第r个第一医学数据之间的相似度均达到预设相似条件。
其中,“预设相似条件”是指任一医学数据匹配对中两个医学数据之间的相似度均需达到的条件;而且本申请实施例不限定“预设相似条件”,例如,“预设相似条件”可以为达到预设相似度阈值。又如,“预设相似条件”可以为相似度排列序号低于第一目标序号;其中,“相似度排列序号”是将Dr个第二医学数据中各个第二医学数据与第r个第一医学数据之间的相似度按照从大到小进行排序后得到的。
另外,本申请实施例不限定“第二医学数据与第r个第一医学数据之间的相似度”的计算方式,例如,可以采用现有的或者未来出现的任一种数据相似度计算方法(如,欧氏距离、余弦距离等)进行实施。又如,可以采用下文步骤21-步骤23所示的任一实施方式进行实施,只需将下文步骤21-步骤23所示的任一实施方式中“第一对象”替换为“第二医学数据”、以及“第二对象”替换为“第r个第一医学数据”即可。
步骤12:建立该第r个第一医学数据与各个目标医学数据之间的匹配关系。其中,Dr为正整数。
基于上述步骤11至步骤12的相关内容可知,在获取到上述“至少一个聚类数据集”之后,可以从上述“至少一个聚类数据集”中查找出包括第r个第一医学数据的聚类数据集(也就是,上述“目标数据集”);再将该聚类数据集所包括的所有第二医学数据中筛选出至少一个目标医学数据,以使各个目标医学数据与该第r个第一医学数据之间的相似度均能够达到预设相似条件;最后,将各个目标医学数据与该第r个第一医学数据之间建立匹配关系,得到至少一个包括该第r个第一医学数据的医学数据匹配对,以便在后续能够针对这些医学数据匹配对进行研究分析。其中,因目标医学数据与该第r个第一医学数据之间的相似度能够达到预设相似条件,使得该目标医学数据与该第r个第一医学数据之间具有较高的匹配程度,从而使得该目标医学数据与该第r个第一医学数据之间具有较高的可比性,如此使得由该目标医学数据与该第r个第一医学数据构建得到的医学数据匹配对具有较高的研究分析价值,如此有利于提高研究分析结果的准确性。
基于上述S3的相关内容可知,在获取到上述“至少一个聚类数据集”之后,可以从上述“至少一个聚类数据集”中查找出包括第r个第一医学数据的聚类数据集;再将该聚类数据集的至少一个第二医学数据与该第r个第一医学数据之间建立匹配关系,得到至少一个包括该第r个第一医学数据的医学数据匹配对,以便在后续能够针对这些医学数据匹配对进行研究分析。其中,因上述“医学数据匹配对”所包括的两个医学数据均来自于同一个聚类簇(也就是,均属于同一个聚类类别),使得该两个医学数据之间的数据特征比较相似,从而使得该医学数据之间的可比性比较高,进而使得该医学数据之间的研究分析价值比较高,如此有利于提高研究分析结果的准确性。
基于上述S1至S3的相关内容可知,对于本申请实施例提供的数据匹配方法来说,在获取到具有较低数据量的第一组医学数据和具有较高数据量的第二组医学数据之后,先将该第一组医学数据与该第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,以使这些聚类数据集能够准确地表示出该第一组医学数据中各个第一医学数据分别与该第二组医学数据中那些第二医学数据属于同一类;再根据该至少一个聚类数据集,确定各个第一医学数据与至少一个第二医学数据之间的匹配关系(也就是,将各个第一医学数据分别与其所属聚类类别下至少一个第二医学数据之间建立匹配关系),如此能够实现“一对多”的匹配目的,从而能够有效地提高医学数据匹配对的数据量,进而能够有效地避免因具有较低数据量的医学数据匹配对对研究分析结果造成的不良影响,如此有利于提高研究分析结果的准确性。
在一种可能的实施方式中,为了提高数据匹配处理过程的灵活性,本申请实施例还提供了S1的一种可能的实施方式,其具体可以包括S11-S12:
S11:在获取到待研究对象对应的两组待匹配医学数据之后,比较该两组待匹配医学数据的数据量,得到数据量比较结果。
其中,“待研究对象”是指需要采用对照分析处理方式进行研究分析的医学研究对象;而且本申请实施例不限定“待研究对象”,例如,其可以是某疾病的诱因、某药品对某疾病的治疗效果、某治疗手段对某疾病的治疗效果等。
“两组待匹配医学数据”是指在对“待研究对象”进行对照分析处理时所需使用的两组医学数据;而且在针对上述“待分析医学问题”进行对照分析处理之前,需要针对该“两组待匹配医学数据”进行数据匹配处理,得到多个医学数据匹配对,以便后续能够针对各个医学数据匹配对所包括的两个医学数据进行对照分析处理。
另外,本申请实施例不限定“两组待匹配医学数据”,例如,若上述“待分析医学问题”为“某疾病的诱因”,则该“两组待匹配医学数据”可以包括病例组医学数据和对照组医学数据。其中,“病例组医学数据”包括至少一个患有上述“某疾病”的病人所具备的医学数据。“对照组医学数据”包括至少一个未患有上述“某疾病”但具有可比性的个体所具备的医学数据。又如,若上述“待分析医学问题”为“某药品(或,某治疗手段)对某疾病的治疗效果”,则该“两组待匹配医学数据”可以包括未治疗组医学数据和治疗组医学数据。
S11中“数据量比较结果”用于表示上述“两组待匹配医学数据”之间在数据量上所呈现的相对大小关系。例如,若上述“两组待匹配医学数据”包括病例组医学数据和对照组医学数据,则该“数据量比较结果”可以用于表示该病例组医学数据的数据量与该对照组医学数据的数据量之间的相对大小关系。
基于上述S11的相关内容可知,若终端用户(例如,研究人员)想要使用两组待匹配医学数据进行对照分析,则在该终端用户借助终端设备输入(或者选择)该两组待匹配医学数据之后,可以先由该终端设备将该两组待匹配医学数据发送给用于执行“数据匹配方法”的执行设备;再由用于执行“数据匹配方法”的执行设备将该两组待匹配医学数据的数据量进行比较,得到该两组待匹配医学数据的数据量比较结果,以使该数据量比较结果能够准确地表示出该两组待匹配医学数据的在数据量上所呈现的相对大小关系。
S12:根据数据量比较结果,确定第一组医学数据和第二组医学数据,以使该第一组医学数据的数据量不高于该第二组医学数据的数据量。
作为示例,当上述“两组待匹配医学数据”包括病例组医学数据和对照组医学数据时,S12具体可以包括S121-S123:
S121:若确定上述“数据量比较结果”表示该病例组医学数据的数据量低于该对照组医学数据的数据量,则可以将该病例组医学数据确定为第一组医学数据,并将该对照组医学数据确定为第二组医学数据。
S122:若确定上述“数据量比较结果”表示该病例组医学数据的数据量等于该对照组医学数据的数据量,则可以从该病例组医学数据和该对照组医学数据中随机选择一组医学数据(例如,病例组医学数据或者对照组医学数据),确定为第一组医学数据,并将剩余一组医学数据(例如,对照组医学数据或者病例组医学数据)确定为第二组医学数据。
S123:若确定上述“数据量比较结果”表示该病例组医学数据的数据量高于该对照组医学数据的数据量,则可以将该对照组医学数据确定为第一组医学数据,并将该病例组医学数据确定为第二组医学数据。
基于上述S11至S12的相关内容可知,在获取到需要进行对照分析处理的任意两组医学数据(如,上文“两组待匹配医学数据”)之后,可以先比较该两组医学数据的数据量;再将具有较低数据量的一组医学数据确定为第一组医学数据,并将具有较高数据量的一组医学数据确定为第二组医学数据,以便后续能够以该第一组医学数据为基准(也就是,以具有较低数据量的一组医学数据为基准)进行数据匹配处理,如此能够保证该第一组医学数据中各个第一医学数据均能够被匹配到至少一个第二医学数据,从而有利于提高数据匹配结果的多样性,进而有利于提高研究分析结果的准确性。
另外,为了进一步提高研究分析结果的准确性,可以采用多次聚类的方式确定上述“至少一个聚类数据集”。基于此,本申请实施例还提供了S2的一种可能的实施方式,在该实施方式中,若第一医学数据的数据维度为N(也就是,该第一医学数据包括N维数据特征)且第二医学数据的数据维度为N(也就是,该第二医学数据也包括N维数据特征),则S2具体可以包括S21-S24:
S21:将第一组医学数据与第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合。
其中,“第一聚类处理”用于表示参考所有数据维度下的数据特征针对第一组医学数据与第二组医学数据进行聚类的处理过程。可见,在“第一聚类处理”过程中所针对的聚类对象为“医学数据”(例如,第一医学数据、第二医学数据等)。
另外,本申请实施例不限定“第一聚类处理”,例如,可以采用现有的或者未来出现的任一种聚类算法进行实施。又如,可以采用下文S211-S213所示的任一实施方式进行实施。
第h个第一数据集合用于表示利用上述“第一聚类处理”得到的第h个数据簇;而且该第h个第一数据集合可以包括至少一个医学数据。其中,h为正整数,h≤H,H为正整数,H表示第一数据集合的个数(也就是,利用上述“第一聚类处理”得到的数据簇的个数)。
基于上述S21的相关内容可知,在获取到第一组医学数据与第二组医学数据之后,可以针对该第一组医学数据与该第二组医学数据在N个数据维度上进行第一聚类处理(也就是,针对该第一组医学数据与该第二组医学数据进行全数据维度下的聚类处理),得到至少一个第一数据集合,以便后续能够以这些第一数据集合作为被聚类对象继续进行聚类处理。
S22:将至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到该第t个维度目标对应的至少一个第二数据集合。其中,t为正整数,t≤T,T为正整数,T表示维度目标的个数。
其中,“第t个维度目标”可以包括至少一个数据维度,以使该“第t个维度目标”可以用于表示某个数据维度(如,第n个数据维度),也可以用于表示某些数据维度的组合。t为正整数,t≤T,T为正整数,T表示维度目标的个数;n为正整数,n≤N。
“T个维度目标”是根据上述“N个数据维度”确定的;而且本申请实施例不限定“T个维度目标”的确定过程,例如,可以按照预设抽取规则从上述“N个数据维度”中抽取出“T个维度目标”,以使该“T个维度目标”能够包括该“N个数据维度”。其中,“预设抽取规则”可以预先设定;而且本申请实施例不限定“预设抽取规则”,为了便于理解,下面结合三个示例进行说明。
示例1,“预设抽取规则”具体可以为每次抽取一个数据维度,并将该数据维度作为一个维度目标,直至在确定“N个数据维度”均被抽取到时结束。
可见,基于示例1中“预设抽取规则”确定出的“T个维度目标”可以包括第1个维度目标至第N个维度目标,而且每个维度目标均可以包括一个数据维度(例如,第n个维度目标可以包括第n个数据维度),如此使得上述“T”等于上述“N”。
示例2,“预设抽取规则”具体可以包括每次抽取B个数据维度,并将该B个数据维度的集合确定为一个维度目标,直至在确定“N个数据维度”均被抽取到时结束。其中,B为正整数。
示例3,“预设抽取规则”具体可以包括每次抽取随机数个数据维度,并将该随机数个数据维度的集合确定为一个维度目标,直至在确定“N个数据维度”均被抽取到时结束。其中,“随机数”是在每轮抽取过程中随机确定的数值(例如,1,2,3……)。
可见,对于基于示例3中“预设抽取规则”确定出的“T个维度目标”来说,不同维度目标所包括的数据维度的个数可能相同,也可能不相同。
S22中“第二聚类处理”用于表示参考某些数据维度下的数据特征针对所有“第一数据集合”进行聚类的处理过程。可见,在“第二聚类处理”过程中所针对的聚类对象为上述“第一数据集合”。
另外,本申请实施例不限定“第二聚类处理”,例如,可以采用现有的或者未来出现的任一种聚类算法进行实施。又如,也可以采用下文上述S221-S222所示的任一实施方式进行实施。
S22中“第t个维度目标对应的至少一个第二数据集合”是指参考第t个维度目标中所有数据维度下的数据特征针对所有“第一数据集合”进行聚类处理得到的聚类结果。
基于上述S22的相关内容可知,在获取到“至少一个第一数据集合”之后,可以将“至少一个第一数据集合”分别在不同维度目标上进行第二聚类处理,得到不同维度目标对应的至少一个第二数据集合,如此有利于增多医学数据集合的个数。
S23:将第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到该第t个维度目标对应的至少一个第三数据集合。其中,t为正整数,t≤T,T为正整数,T表示维度目标的个数。
其中,“第三聚类处理”用于表示参考除了第t个维度目标中所有数据维度以外的其他数据维度下的数据特征针对该第t个维度目标对应的所有第二数据集合进行聚类的处理过程。可见,在“第三聚类处理”过程中所针对的聚类对象为上述“第二数据集合”。
另外,本申请实施例不限定“第三聚类处理”,例如,可以采用现有的或者未来出现的任一种聚类算法进行实施。又如,可以采用下文所述的S231-S236所示的任一实施方式进行实施。
“第t个维度目标对应的至少一个第三数据集合”是指参考除了第t个维度目标中所有数据维度以外的其他数据维度下的数据特征针对该第t个维度目标对应的所有第二数据集合进行聚类处理得到的聚类结果。
S24:根据第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合,确定上述“至少一个聚类数据集”。
本申请实施例中,在获取到第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合之后,可以将该T个维度目标对应的至少一个第三数据集合进行集合,得到上述“至少一个聚类数据集”,以使该“至少一个聚类数据集”能够表示出各个维度目标对应的最终聚类结果(也就是,各个维度目标对应的至少一个第三数据集合),以便后续能够参考各个维度目标对应的最终聚类结果,构建至少一个第一医学数据与至少一个第二医学数据之间的匹配关系(例如,可以采用下文S31-S32所示的任一实施方式进行匹配关系构建)。
基于上述S21至S24的相关内容可知,对于均包括N维数据特征的第一医学数据和第二医学数据来说,在获取到该第一组医学数据与该第二组医学数据之后,可以先在N个数据维度下针对这些医学数据进行初步聚类处理;再针对初步聚类处理结果分别在不同维度目标下进行第二次聚类处理;最后,针对不同维度目标下的二次聚类处理结果在其对应的剩余数据维度下进行第三次聚类处理,得到上述“至少一个聚类数据集”,如此能够实现在保证聚类结果准确性的前提下尽可能多的提高医学数据集合的个数,如此有利于提高医学数据匹配对的多样性,从而有利于提高研究分析结果的准确性。
另外,为了进一步提高上述S21中的“第一聚类处理”的聚类效果,可以借助N维数据空间实施上述S21中的“第一聚类处理”,基于此,本申请实施例还提供了S21的另一种实施方式,其具体可以包括S211-S213:
S211:根据N个数据维度、第一组医学数据和第二组医学数据,构建数据分布空间。
其中,“数据分布空间”是指包括第一组医学数据中所有第一医学数据和第二组医学数据中所有第二医学数据的N维数据空间,以使该“数据分布空间”用于表示该第一组医学数据中各个第一医学数据和该第二组医学数据中各个第二医学数据的空间分布位置。
另外,本申请实施例不限定“数据分布空间”的构建过程,例如,可以先根据N个数据维度确定N维数据空间(如,如图2所示的坐标系);再将第一组医学数据中所有第一医学数据和第二组医学数据中所有第二医学数据均添加至该N维数据空间,得到数据分布空间,以使该数据分布空间用于表示各个第一医学数据和各个第二医学数据的空间分布位置。
S212:按照预设划分方式对数据分布空间进行单元划分,得到至少一个划分单元。
其中,“预设划分方式”可以预先设定。
另外,本申请实施例不限定“预设划分方式”,例如,其具体可以为:按照第1个数据维度的预设划分高度值至第N个数据维度的预设划分高度值进行划分。其中,“第n个数据维度的预设划分高度值”用于表示每个划分单元在该第n个数据维度上所具有的高度值。n为正整数,n≤N,N为正整数。
为了便于理解上述“预设划分方式”,下面结合图2进行说明。
如图2所示,当N为2,且上述“N个数据维度”包括年龄维度和诊断时间维度时,可以按照5岁(也就是,年龄维度的预设划分高度值)和1个月(也就是,诊断时间维度的预设划分高度值)进行单元划分,得到图2所示的各个划分单元。
基于上述S212的相关内容可知,在获取到数据分布空间之后,可以按照预设划分方式对数据分布空间进行单元划分,得到至少一个划分单元(如图2所示的划分单元),以便后续能够基于这些划分单元进行医学数据聚类处理。
S213:从至少一个划分单元中筛选出满足预设筛选条件的至少一个待使用单元,以使各个待使用单元分别用于表示各个第一数据集合(尤其,分别用于表示各个第一数据集合中所有医学数据的空间分布情况)。
其中,上述“预设筛选条件”是指预先设定的用于进行划分单元筛选处理时所需依据的条件;而且本申请实施例不限定“预设筛选条件”,例如,若划分单元的个数为Y,则当第y个划分单元满足以下两个条件中至少一个条件(也就是,满足①,或者满足②,或者满足①和②)时,确定该第y个划分单元满足“预设筛选条件”。其中,y为正整数,y≤Y,Y为正整数。
上述“两个条件”具体如①-②所示:①在第y个划分单元中出现的所有医学数据的个数达到预设数据量阈值,而且“预设数据量阈值”可以预先设定(例如,预设数据量阈值=2);②在第y个划分单元中存在至少一个第一医学数据。
可见,在获取到第y个划分单元之后,若确定该第y个划分单元中存在的所有医学数据的个数达到预设数据量阈值,则可以确定该第y个划分单元满足“预设筛选条件”,以便后续能够将该第y个划分单元确定为待使用单元,如此有利于将高密度的划分单元筛选出来,从而能够有效地减弱低密度的划分单元以及无数据分布的划分单元对后续聚类过程造成的不良影响(例如,聚类速度以及聚类结果等方面所造成的不良影响);而且,若确定该第y个划分单元中存在第一医学数据,则也可以确定该第y个划分单元满足“预设筛选条件”,以便后续能够将该第y个划分单元确定为待使用单元,如此有利于将包括第一医学数据的划分单元筛选出来,从而能够有效地避免在单元筛选过程中丢弃第一医学数据,如此能够有效地保证在后续聚类过程中继续针对所有第一医学数据进行聚类处理,从而能够保证最终得到的上述“至少一个聚类数据集”中一定包括所有第一医学数据。其中,y为正整数,y≤Y,Y为正整数。
基于上述S211至S213的相关内容可知,在获取到第一组医学数据与第二组医学数据之后,可以借助N维数据空间的单元划分过程以及单元筛选过程,实现针对第一组医学数据与第二组医学数据的初步聚类(也就是,上文“第一聚类处理”),以得到上述“至少一个第一数据集合”,如此有利于提高“第一聚类处理”的聚类效果。
另外,为了进一步提高上述S22中的“第二聚类处理”的聚类效果,也可以借助N维数据空间实施上述S22中的“第二聚类处理”。基于此,本申请实施例还提供了S2的一种可能的实施方式,在该实施方式中,若“第一数据集合”是利用“待使用单元”进行表示的(也就是,上述S21是利用S211-S213进行实施的),则S22具体可以包括S221-S222:
S221:按照第t个维度目标对应的预设单元合并规则,将至少一个待使用单元在该第第t个维度目标上进行合并处理,得到该第t个维度目标对应的至少一个待使用区域。
其中,“第t个维度目标对应的预设单元合并规则”用于表示在该第t个维度目标所包括的所有数据维度上进行合并处理时所需依据的规则。
另外,本申请实施例不限定“第t个维度目标对应的预设单元合并规则”,例如,其具体可以为:在第t个维度目标(如,图2所示的年龄维度)上从起始单元(如,图2中201)起按照该第t个维度目标对应的合并步长(如,图2所示的5岁)进行迭代合并,直至达到预设合并停止条件(例如,合并次数达到第一次数阈值、合并区域中出现的医学数据的个数达到预设个数阈值、或者无法找到可合并单元)。
为了便于理解“第t个维度目标对应的预设单元合并规则”,下面结合图2进行说明。
假设,上述“至少一个待使用单元”包括图2所示的灰色单元,而且上述“T个维度目标”是按照S22中示例1所示的“预设抽取规则”确定的。
作为示例,基于上述假设可知,若第t个维度目标包括年龄维度,则在获取到图2所示的“至少一个待使用单元”之后,可以将这些待使用单元在年龄维度上按照5岁的合并步长进行迭代合并(例如,对于第一单元201、第二单元202和第三单元203来说,因这三个单元在其他数据维度上的数据特征十分相似,只是在“年龄维度”上的数据特征存在较大差异,故可以以第一单元201作为起始单元开始从左向右进行合并,第一次合并过程可以将第一单元201与第二单元202进行合并,得到已合并区域;第二次合并过程可以将该已合并区域与第三单元203进行合并,得到新的已合并区域,此时因第三单元203的右侧已无其他待使用单元,故可以结束当前合并过程,如此可以得到图3中301所示的区域,并将该区域确定为该“年龄维度”对应的待使用区域)。
基于上述S221的相关内容可知,在获取到“至少一个待使用单元”之后,可以将该“至少一个待使用单元”在第t个维度目标(如,第n个数据维度等)上进行合并处理,得到该第t个维度目标对应的至少一个待使用区域,以便后续能够基于这些待使用区域,确定该第t个维度目标
S222:根据第t个维度目标对应的至少一个待使用区域,确定第t个维度目标对应的至少一个第二数据集合。
本申请实施例中,在获取到第t个维度目标对应的至少一个待使用区域之后,可以将各个待使用区域所出现的医学数据进行集合,得到该第t个维度目标对应的各个第二数据集合。
基于上述S221至S222的内容可知,在获取到“至少一个第一数据集合”(也就是,“至少一个待使用单元”)之后,可以借助N维数据空间的单元合并过程,实现针对该“至少一个第一数据集合”在某一维度目标上的二次聚类(也就是,上文“第二聚类处理”),以得到上述“至少一个第二数据集合”,如此有利于提高“第二聚类处理”的聚类效果。
另外,为了进一步提高上述S23中“第三聚类处理”的聚类效果,本申请实施例还提供了S23的一种可能的实施方式,其具体可以包括S231-S236:
S231:根据第t个维度目标对应的至少一个第二数据集合,确定待合并对象集。
其中,“待合并对象集”用于记录需要进行合并处理的待合并对象(例如,第二数据集合)。
另外,“待合并对象集”可以包括至少一个待合并对象;而且每个待合并对象均表示一个第二数据集合。
此外,本申请实施例不限定“待合并对象集”的确定方式,例如,可以先将第t个维度目标对应的各个第二数据集合分别确定为各个待合并对象;再将所有待合并对象进行集合,得到待合并对象集,以使该待合并对象集包括该第t个维度目标对应的各个第二数据集合,以便后续能够以这些第二数据集合均作为待合并对象进行合并处理。
S232:确定待合并对象集中任意两个待合并对象之间的相似度。
其中,“两个待合并对象之间的相似度”用于描述该两个待合并对象之间的相似程度。
另外,本申请实施例不限定“两个待合并对象之间的相似度”的确定过程,例如,可以采用现有的或者未来出现的任一种数据相似度的计算方法(例如,欧式距离、余弦距离等)进行实施。又如,可以采用下文步骤21-步骤23所示的任一实施方式进行实施。
S233:根据待合并对象集中任意两个待合并对象之间的相似度,从该待合并对象集中查找满足预设合并条件的至少一对目标合并对象。
其中,“预设合并条件”可以预先设定;而且本申请实施例不限定“预设合并条件”,例如,其具体可以包括相似度达到预设合并阈值、以及相似度的排列序号为第二目标序号(例如,1),且相似度达到预设合并阈值。其中,“排列序号”是将“待合并对象集中任意两个待合并对象之间的相似度”按照从大到小排序后得到的。
为了便于理解,下面结合示例进行说明。
作为示例,若上述“预设合并条件”为相似度的排列序号为1(也就是,相似度达到最大值),且相似度达到预设合并阈值,则S233具体可以包括:先从待合并对象集中任意两个待合并对象之间的相似度中挑选出相似度最大值;再判断该相似度最大值是否超过预设合并阈值,若超过,则将具有该相似度最大值的两个待合并对象,确定为一对目标合并对象;若不超过,则表示无法查找到目标合并对象。
基于上述S233的相关内容可知,在获取到待合并对象集中任意两个待合并对象之间的相似度之后,可以参考这些相似度从该待合并对象集中查找满足预设合并条件的至少一对目标合并对象,得到查找结果,以使该查找结果能够表示出该待合并对象集中是否存在至少一对目标合并对象。
S234:判断是否达到预设停止条件,若是,则执行S236;若否,则执行S235。
其中,“预设停止条件”可以预先设定;而且本申请实施例不限定“预设停止条件”,例如,其具体可以为循环次数达到第二次数阈值,也可以为上述“查找结果”表示待合并对象集中不存在目标合并对象。
S235:将待合并对象集中各对目标合并对象分别进行合并处理,并返回执行S232。
本申请实施例中,在确定未达到预设停止条件之后,可以将待合并对象集中各对目标合并对象分别进行合并处理,以使该待合并对象集中不再存在各对目标合并对象,而是存在由各对目标合并对象合并得到的合并对象,如此能够实现对待合并对象集的更新过程,以便后续能够基于更新后的待合并对象集继续执行下一轮合并过程。
S236:根据待合并对象集,确定第t个维度目标对应的至少一个第三数据集合。
本申请实施例中,在确定达到预设停止条件之后,可以直接根据当前的待合并对象集,确定第t个维度目标对应的至少一个第三数据集合(例如,直接将当前的待合并对象集中各个待合并对象均确定为该第t个维度目标对应的第三数据集合)。
基于上述S231至S236的相关内容可知,在获取到第t个维度目标对应的至少一个第二数据集合之后,可以借助迭代合并的方式实现针对这些第二数据集合的第三聚类处理,如此有利于提高针对这些第二数据集合的聚类效果。
在一种可能的实施方式中,为了提高相似度的准确性,上述“两个待合并对象之间的相似度”的确定过程,具体可以包括步骤21-步骤23:
步骤21:根据第t个维度目标对应的至少一个第二数据集合,构建K最近邻图。
其中,“K最近邻图”用于记录至少一个第二数据集合中任一数据与其K个最近邻数据之间的连接关系、以及任一数据与其K个最近邻数据之间的连接权重;而且本申请实施例不限定“K最近邻图”的表示方式,例如,可以采用图4所示表示方式进行实施。
需要说明的是,在图4所示的K最近邻图中,每个黑点表示一个医学数据;两个黑点之间的连接线称为边,该两个黑点之间的连接线用于表示该两个黑点之间存在连接关系,而且该两个黑点之间的连接线的长短用于表示该两个黑点之间的距离长短(也就是,连接权重)。
另外,本申请实施例不限定“K最近邻图”的构建方式,可以采用现有的或者未来出现的任一种用于构建K最近邻图的方法进行实施。
需要说明的是,对于第g个数据的K个最近邻数据来说,该第g个数据的K个最近邻数据与该第g个数据之间的距离均短于上述“至少一个第二数据集合”中除了该第g个数据与该第g个数据的K个最近邻数据以外的其他数据与该第g个数据之间的距离。其中,g为正整数,g≤G,G为正整数,G表示上述“至少一个第二数据集合”中的数据个数。
步骤22:根据K最近邻图,确定第一对象与第二对象之间的相对互联度、以及第一对象与第二对象之间的相对接近度。
其中,“第一对象与第二对象之间的相对互联度”用于表示第一对象与第二对象之间的互连性;而且本申请实施例不限定“第一对象与第二对象之间的相对互联度”的计算方式,例如,可以利用Chameleon聚类算法所提供的相对互联度计算公式(如公式(2)所示)进行实施。
式中,RI(Cobj1,Cobj2)表示第一对象Cobj1与第二对象Cobj2之间的相对互联度;|EC(Cobj1,Cobj2)|表示在将数据簇Cobj1+obj2划分成第一对象Cobj1与第二对象Cobj2时所切断的所有边的连接权重之和;|EC(Cobj1)|表示在将第一对象Cobj1划分为大致相等的两部分时所切断的所有边的连接权重之和;|EC(Cobj2)|表示在将第二对象Cobj2划分为大致相等的两部分时所切断的所有边的连接权重之和。
“第一对象与第二对象之间的相对接近度”用于表示第一对象与第二对象之间的近似性(例如,数据分布结构方面的近似性);而且本申请实施例不限定“第一对象与第二对象之间的相对接近度”的计算方式,例如,可以利用Chameleon聚类算法所提供的相对接近度计算公式(如公式(3)所示)进行实施。
式中,RC(Cobj1,Cobj2)表示第一对象与第二对象之间的相对接近度;表示在将数据簇Cobj1+obj2划分成第一对象Cobj1与第二对象Cobj2时所切断的所有边的连接权重平均值;表示在将第一对象Cobj1划分为大致相等的两部分时所切断的所有边的连接权重平均值;表示在将第二对象Cobj2划分为大致相等的两部分时所切断的所有边的连接权重平均值;|Cobj1|表示第一对象Cobj1所包括的数据个数;|Cobj2|表示第二对象Cobj2所包括的数据个数。
步骤23:根据第一对象与第二对象之间的相对互联度、以及第一对象与第二对象之间的相对接近度,确定第一对象与第二对象之间的相似度。
本申请实施例中,在获取到第一对象与第二对象之间的相对互联度、以及第一对象与第二对象之间的相对接近度之后,可以根据该第一对象与第二对象之间的相对互联度、以及第一对象与第二对象之间的相对接近度,确定第一对象与第二对象之间的相似度(例如,可以采用公式(4)进行确定),以使该“第一对象与第二对象之间的相似度”能够更准确地表示出第一对象的数据特征与第二对象的数据特征之间的相似程度。
Similarity(Cobj1,Cobj2)=RI(Cobj1,Cobj2)×RC(Cobj1,Cobj2)α (4)
式中,Similarity(Cobj1,Cobj2)表示第一对象Cobj1与第二对象Cobj2之间的相似度;RI(Cobj1,Cobj2)表示第一对象Cobj1与第二对象Cobj2之间的相对互联度;RC(Cobj1,Cobj2)表示第一对象与第二对象之间的相对接近度;α表示比重调节参数,而且α可以预先设定。
需要说明的是,α用于调整“第一对象与第二对象之间的相对互联度”、以及“第一对象与第二对象之间的相对接近度”对“第一对象与第二对象之间的相似度”所造成的影响比重;若α>1,则表示“第一对象与第二对象之间的相对接近度”对“第一对象与第二对象之间的相似度”所造成的影响高于“第一对象与第二对象之间的相对互联度”对“第一对象与第二对象之间的相似度”所造成的影响;若α=1,则表示“第一对象与第二对象之间的相对接近度”对“第一对象与第二对象之间的相似度”所造成的影响等于“第一对象与第二对象之间的相对互联度”对“第一对象与第二对象之间的相似度”所造成的影响;若α<1,则表示“第一对象与第二对象之间的相对接近度”对“第一对象与第二对象之间的相似度”所造成的影响低于“第一对象与第二对象之间的相对互联度”对“第一对象与第二对象之间的相似度”所造成的影响。
基于上述步骤21至步骤23的相关内容可知,在本申请实施例中,为了提高相似度的准确性,可以借助K最近邻图来计算任一两个数据集合(如,上述“第一对象”与上述“第二对象”)之间的相似度。其中,因在上述步骤21-步骤23所示的相似度计算过程中不仅考虑了两个数据集合之间的距离,还考虑了该两个数据集合之间在数据分布结构上所呈现的相似性,使得利用上述步骤21-步骤23所示的相似度计算过程确定的该两个数据集合之间相似度能够更准确地表示出该两个数据集合之间的相似程度。
在一种可能的实施方式中,为了进一步提高数据匹配效果,在利用上述S24获取到上述“至少一个聚类数据集”之后,S3具体可以包括S31-S32:
S31:根据第t个维度目标对应的至少一个第三数据集合,确定该第t个维度目标对应的匹配关系。其中,t为正整数,t≤T。
其中,“第t个维度目标对应的匹配关系”用于表示利用上述“第t个维度目标对应的至少一个第三数据集合”构建的至少一个第一医学数据与至少一个第二医学数据之间的匹配关系。
另外,本申请实施例不限定“第t个维度目标对应的匹配关系”的构建过程,例如,其可以采用上文S3中示例1或者示例2所示的构建过程进行实施,只需将上文S3中示例1或者示例2所示的构建过程中的“至少一个聚类数据集”替换为“第t个维度目标对应的至少一个第三数据集合”即可。
S32:将第1个维度目标对应的匹配关系至第T个维度目标对应的匹配关系进行集合,得到上述“第一组医学数据中至少一个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系”。
本申请实施例中,在获取到第1个维度目标对应的匹配关系至第T个维度目标对应的匹配关系之后,可以将该T个维度目标对应的匹配关系进行集合,得到上述“第一组医学数据中至少一个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系”,以使其能够包括该T个维度目标对应的匹配关系,从而使得其能够表示出该T个维度目标对应的医学数据匹配对,如此有利于提高医学数据匹配对的多样性,从而有利于提高研究分析结果的准确性。
在一些情况下,当研究人员利用一些医学数据(例如,病历数据等)进行医学研究时,该研究人员可能会不关注这些医学数据中某些变量(例如,性别等)与研究目标(例如,某疾病诱因等)之间的关联关系,故为了保证医学研究分析的准确性,需要消除这些变量对该研究分析结果所造成的影响。
为了满足上述需求,本申请实施例还提供了“数据匹配方法”的一种可能的实施方式,在该实施方式中,该数据匹配方法除了包括上述S1-S3以外,可以还包括S4-S5:
S4:获取终端用户输入的至少一个非关注变量。
其中,“非关注变量”是指由终端用户指定的在针对上述“第一组医学数据和第二组医学数据”进行数据匹配处理过程中不需要参考的变量(如,性别等)。
S5:在确定至少一个非关注变量与T个维度目标中待使用维度目标匹配时,将该待使用维度目标对应的匹配关系发送给终端用户。
其中,“待使用维度目标”中所包括的所有数据维度(例如,性别维度和年龄维度)与上述“至少一个非关注变量”(例如,性别和年龄)相匹配。
“待使用维度目标对应的匹配关系”是指根据该待使用维度目标对应的至少一个第三数据集合构建的匹配关系,以使该“待使用维度目标对应的匹配关系”用于表示该待使用维度目标对应的医学数据匹配对。
实际上,在上述“待使用维度目标对应的至少一个第三数据集合”的生成过程中,因存在单独参考待使用维度目标中所有数据维度下的数据特征进行聚类处理的过程(也就是,第二聚类处理),使得上述“待使用维度目标对应的至少一个第三数据集合”中各个第三数据集合所包括的所有医学数据在该“待使用维度目标中所有数据维度下”的数据特征之间可能会存在较大的差异性。可见,在上述“待使用维度目标对应的至少一个第三数据集合”的生成过程中,会弱化(甚至不考虑)每个医学数据在该“待使用维度目标中所有数据维度下”的数据特征对上述“预设聚类处理”所造成的影响,如此使得上述“待使用维度目标对应的至少一个第三数据集合”是不受待使用维度目标中所有数据维度干扰的,从而使得基于该“待使用维度目标对应的至少一个第三数据集合”构建得到的“待使用维度目标对应的匹配关系”符合上述“至少一个非关注变量”的用户需求,故可以将该“待使用维度目标对应的匹配关系”发送给终端用户,以使该终端用户能够使用该“待使用维度目标对应的匹配关系”进行后续研究分析工作。
需要说明的是,为了能够更好地满足上述需求,上述“T个维度目标”可以根据终端用户预先输入的至少一个非关注变量组合和/或至少一个非关注变量进行确定;而且该确定过程具体可以包括:将各个非关注变量组合分别确定为各个维度目标。其中,因“T个维度目标”是根据终端用户输入的至少一个非关注变量组合确定的,使得基于该“T个维度目标”得到的“至少一个聚类数据集”能够满足该“至少一个非关注变量组合”所体现的该终端用户针对不同变量的关注程度,从而使得基于该“至少一个聚类数据集”构建的医学数据匹配对能够更符合该终端用户的变量关注需求,以便后续可以由终端用户直接调用对应于这些非关注变量(或者这些非关注变量组合)的医学数据匹配对(或者,匹配关系)。
还需要说明的是,本申请实施例不限定S5中“发送”的实施方式,例如,可以采用显示屏显示的方式进行实施,也可以采用邮件发送的方式进行实施。
基于上述S4至S5的相关内容可知,在一些情况下,可以参考终端用户的变量关注需求,生成医学数据匹配对,以使该医学数据匹配对能够满足上述变量关注需求,如此有利于提高终端用户的数据匹配体验感。
另外,为了进一步提高医学数据匹配对的个数,可以提高与每个第一医学数据相匹配的第二医学数据的个数。基于此,本申请实施例还提供了“数据匹配方法”的一种可能的实施方式,在该实施方式中,若第一组医学数据包括R个第一医学数据,则该数据匹配方法除了包括上述S1(或者,S1、S4、S5)以外,可以还包括S6-S7:
S6:将第r个第一医学数据与第二组医学数据进行预设聚类处理,得到该第r个第一医学数据对应的聚类数据集。其中,r为正整数,r≤R,R为正整数。
其中,“第r个第一医学数据对应的聚类数据集”用于表示针对第r个第一医学数据与第二组医学数据进行聚类处理得到的聚类结果。
另外,本申请实施例不限定“第r个第一医学数据对应的聚类数据集”的获取方式,例如,可以采用上文S2的任一实施方式进行实施,只需将上文S2的任一实施方式中“第一组医学数据”替换为“第r个第一医学数据”、以及“至少一个聚类数据集”替换为“第r个第一医学数据对应的聚类数据集”即可。
S7:根据第r个第一医学数据对应的聚类数据集,确定该第r个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
本申请实施例中,在获取到第r个第一医学数据对应的聚类数据集之后,可以根据该第r个第一医学数据对应的聚类数据集(尤其是,根据“第r个第一医学数据对应的聚类数据集”中包括第r个第一医学数据的聚类数据集),构建该第r个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系,如此能够得到至少一个包括第r个第一医学数据的医学数据匹配对。
需要说明的是,在获取到第1个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系、第2个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系、……、以及第R个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系之后,可以将该R个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系进行集合,得到上述“第一组医学数据中各个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系”,以使上述“第一组医学数据中各个第一医学数据与第二组医学数据中至少一个第二医学数据之间的匹配关系”能够准确地表示出第一组医学数据与第二组医学数据之间的匹配关系。
基于上述S6至S7的相关内容可知,在获取到第一组医学数据和第二组医学数据之后,可以将该第一组医学数据中各个第一医学数据分别与第二组医学数据进行预设聚类处理,得到各个第一医学数据对应的聚类数据集;再分别根据各个第一医学数据对应的聚类数据集,构建各个第r个第一医学数据与至少一个第二医学数据之间的匹配关系。其中,r为正整数,r≤R,R为正整数。
可见,因“第一医学数据对应的聚类数据集”是由一个第一医学数据与所有第二医学数据进行聚类处理得到的,使得该“第一医学数据对应的聚类数据集”能够更准确地表示出该第一医学数据与各个第二医学数据之间的相似程度,如此有利于从这些第二医学数据中发现更多与该第一医学数据相似的第二医学数据,从而有利于提高与该第一医学数据相匹配的第二医学数据的个数,进而有利于提高医学数据匹配对的多样性,如此有利于进一步提高研究分析结果的准确性。
基于上述数据匹配方法的相关内容,本申请实施例还提供了一种数据匹配装置,下面结合附图进行说明。
参见图5,该图为本申请实施例提供的一种数据匹配装置的结构示意图。
本申请实施例提供的数据匹配装置500,包括:
数据获取单元501,用于获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;
数据聚类单元502,用于将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;
数据匹配单元503,用于根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
在一种可能的实施方式中,所述第一医学数据的数据维度为N,且所述第二医学数据的数据维度为N;其中,N为正整数;
所述数据聚类单元502,包括:
第一聚类子单元,用于将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合;
第二聚类子单元,用于将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合;其中,所述第t个维度目标包括至少一个所述数据维度;t为正整数,t≤T,T为正整数,T表示所述维度目标的个数,且T个维度目标是根据所述N个数据维度确定的;
第三聚类子单元,用于将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合;其中,t为正整数,t≤T;
第一确定子单元,用于根据第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合,确定所述至少一个聚类数据集。
在一种可能的实施方式中,所述第一聚类子单元,具体用于:根据所述N个数据维度、所述第一组医学数据和所述第二组医学数据,构建数据分布空间;按照预设划分方式对所述数据分布空间进行单元划分,得到至少一个划分单元;从所述至少一个划分单元中筛选出满足预设筛选条件的至少一个待使用单元;其中,所述待使用单元用于表示所述第一数据集合;
所述第二聚类子单元,具体用于:按照所述第t个维度目标对应的预设单元合并规则,将所述至少一个待使用单元在所述第t个维度目标上进行合并处理,得到所述第t个维度目标对应的至少一个待使用区域;根据所述至少一个待使用区域,确定所述第t个维度目标对应的至少一个第二数据集合。
在一种可能的实施方式中,所述第三聚类子单元,具体用于:根据所述第t个维度目标对应的至少一个第二数据集合,确定待合并对象集;其中,所述待合并对象集包括至少一个待合并对象;所述待合并对象用于表示所述第二数据集合;确定所述待合并对象集中任意两个待合并对象之间的相似度;根据所述待合并对象集中任意两个待合并对象之间的相似度,从所述待合并对象集中查找满足预设合并条件的至少一对目标合并对象;将所述待合并对象集中各对目标合并对象分别进行合并处理,并继续执行所述确定所述待合并对象集中任意两个待合并对象之间的相似度的步骤,直至在确定达到预设停止条件时,根据所述待合并对象集,确定所述第t个维度目标对应的至少一个第三数据集合。
在一种可能的实施方式中,所述待合并对象集包括第一对象和第二对象,且所述第一对象与第二对象之间的相似度的确定过程,包括:
根据所述第t个维度目标对应的至少一个第二数据集合,构建K最近邻图;其中,所述K最近邻图用于记录所述至少一个第二数据集合中任一数据与其K个最近邻数据之间的连接权重;根据所述K最近邻图,确定所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度;根据所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度,确定所述第一对象与所述第二对象之间的相似度。
在一种可能的实施方式中,所述数据匹配单元503,具体用于:根据所述第t个维度目标对应的至少一个第三数据集合,确定所述第t个维度目标对应的匹配关系;其中,t为正整数,t≤T;将第1个维度目标对应的匹配关系至第T个维度目标对应的匹配关系进行集合,得到所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
在一种可能的实施方式中,所述数据匹配装置500,还包括:
需求获取单元,用于获取终端用户输入的至少一个非关注变量;
数据发送单元,用于在确定所述至少一个非关注变量与T个维度目标中待使用维度目标匹配时,将所述待使用维度目标对应的匹配关系发送给终端用户。
在一种可能的实施方式中,所述第一组医学数据包括R个第一医学数据;所述至少一个聚类数据集包括目标数据集;
所述数据匹配单元503,具体用于:当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,建立所述第r个第一医学数据与所述Dr个第二医学数据中各个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数;Dr为正整数;
和/或,
所述数据匹配单元503,具体用于:当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,从所述Dr个第二医学数据中筛选至少一个目标医学数据,以使各个所述目标医学数据与所述第r个第一医学数据之间的相似度均达到预设相似条件,并建立所述第r个第一医学数据与各个目标医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
在一种可能的实施方式中,所述第一组医学数据包括R个第一医学数据;
所述将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,包括:
将第r个第一医学数据与所述第二组医学数据进行预设聚类处理,得到所述第r个第一医学数据对应的聚类数据集;其中,r为正整数,r≤R,R为正整数;
所述根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系,包括:
根据所述第r个第一医学数据对应的聚类数据集,确定所述第r个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
在一种可能的实施方式中,所述数据获取单元501,具体用于:在获取到待研究对象对应的两组待匹配医学数据之后,比较所述两组待匹配医学数据的数据量,得到数据量比较结果;根据所述数据量比较结果,确定第一组医学数据和第二组医学数据。
基于上述数据匹配装置500的相关内容可知,对于数据匹配装置500来说,在获取到具有较低数据量的第一组医学数据和具有较高数据量的第二组医学数据之后,先将该第一组医学数据与该第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,以使这些聚类数据集能够准确地表示出该第一组医学数据中各个第一医学数据分别与该第二组医学数据中那些第二医学数据属于同一类;再根据该至少一个聚类数据集,确定各个第一医学数据与至少一个第二医学数据之间的匹配关系(也就是,将各个第一医学数据分别与其所属聚类类别下至少一个第二医学数据之间建立匹配关系),如此能够实现“一对多”的匹配目的,从而能够有效地提高医学数据匹配对的数据量,进而能够有效地避免因具有较低数据量的医学数据匹配对对研究分析结果造成的不良影响,如此有利于提高研究分析结果的准确性。
另外,本申请实施例还提供了一种数据匹配设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请实施例提供的数据匹配方法的任一实施方式。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的数据匹配方法的任一实施方式。
另外,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的数据匹配方法的任一实施方式。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种数据匹配方法,其特征在于,所述方法包括:
获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;
将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;
根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
2.根据权利要求1所述的方法,其特征在于,所述第一医学数据的数据维度为N,且所述第二医学数据的数据维度为N;其中,N为正整数;
所述至少一个聚类数据集的确定过程,包括:
将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合;
将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合;其中,所述第t个维度目标包括至少一个所述数据维度;t为正整数,t≤T,T为正整数,T表示所述维度目标的个数,且T个维度目标是根据所述N个数据维度确定的;
将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合;其中,t为正整数,t≤T;
根据第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合,确定所述至少一个聚类数据集。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合,包括:
根据所述N个数据维度、所述第一组医学数据和所述第二组医学数据,构建数据分布空间;按照预设划分方式对所述数据分布空间进行单元划分,得到至少一个划分单元;从所述至少一个划分单元中筛选出满足预设筛选条件的至少一个待使用单元;其中,所述待使用单元用于表示所述第一数据集合;
所述将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合,包括:
按照所述第t个维度目标对应的预设单元合并规则,将所述至少一个待使用单元在所述第t个维度目标上进行合并处理,得到所述第t个维度目标对应的至少一个待使用区域;根据所述至少一个待使用区域,确定所述第t个维度目标对应的至少一个第二数据集合。
4.根据权利要求2或3所述的方法,其特征在于,所述将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合,包括:
根据所述第t个维度目标对应的至少一个第二数据集合,确定待合并对象集;其中,所述待合并对象集包括至少一个待合并对象;所述待合并对象用于表示所述第二数据集合;
确定所述待合并对象集中任意两个待合并对象之间的相似度;
根据所述待合并对象集中任意两个待合并对象之间的相似度,从所述待合并对象集中查找满足预设合并条件的至少一对目标合并对象;
将所述待合并对象集中各对目标合并对象分别进行合并处理,并继续执行所述确定所述待合并对象集中任意两个待合并对象之间的相似度的步骤,直至在确定达到预设停止条件时,根据所述待合并对象集,确定所述第t个维度目标对应的至少一个第三数据集合。
5.根据权利要求4所述的方法,其特征在于,所述待合并对象集包括第一对象和第二对象,且所述第一对象与第二对象之间的相似度的确定过程,包括:
根据所述第t个维度目标对应的至少一个第二数据集合,构建K最近邻图;其中,所述K最近邻图用于记录所述至少一个第二数据集合中任一数据与其K个最近邻数据之间的连接权重;
根据所述K最近邻图,确定所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度;
根据所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度,确定所述第一对象与所述第二对象之间的相似度。
6.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系,包括:
根据所述第t个维度目标对应的至少一个第三数据集合,确定所述第t个维度目标对应的匹配关系;其中,t为正整数,t≤T;
将第1个维度目标对应的匹配关系至第T个维度目标对应的匹配关系进行集合,得到所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取终端用户输入的至少一个非关注变量;
在确定所述至少一个非关注变量与T个维度目标中待使用维度目标匹配时,将所述待使用维度目标对应的匹配关系发送给终端用户。
8.根据权利要求1所述的方法,其特征在于,所述第一组医学数据包括R个第一医学数据;所述至少一个聚类数据集包括目标数据集;
当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,所述匹配关系的确定过程,包括:
建立所述第r个第一医学数据与所述Dr个第二医学数据中各个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数;Dr为正整数;
和/或,
当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,所述匹配关系的确定过程,包括:
从所述Dr个第二医学数据中筛选至少一个目标医学数据,以使各个所述目标医学数据与所述第r个第一医学数据之间的相似度均达到预设相似条件,并建立所述第r个第一医学数据与各个目标医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
9.根据权利要求1所述的方法,其特征在于,所述第一组医学数据包括R个第一医学数据;
所述将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,包括:
将第r个第一医学数据与所述第二组医学数据进行预设聚类处理,得到所述第r个第一医学数据对应的聚类数据集;其中,r为正整数,r≤R,R为正整数;
所述根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系,包括:
根据所述第r个第一医学数据对应的聚类数据集,确定所述第r个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数。
10.根据权利要求1所述的方法,其特征在于,所述获取第一组医学数据和第二组医学数据,包括:
在获取到待研究对象对应的两组待匹配医学数据之后,比较所述两组待匹配医学数据的数据量,得到数据量比较结果;
根据所述数据量比较结果,确定第一组医学数据和第二组医学数据。
11.一种数据匹配装置,其特征在于,所述装置包括:
数据获取单元,用于获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;
数据聚类单元,用于将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;
数据匹配单元,用于根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
12.一种数据匹配设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-10任一项所述的数据匹配方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-10任一项所述的数据匹配方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-10任一项所述的数据匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921215.7A CN113658710A (zh) | 2021-08-11 | 2021-08-11 | 一种数据匹配方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921215.7A CN113658710A (zh) | 2021-08-11 | 2021-08-11 | 一种数据匹配方法及其相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113658710A true CN113658710A (zh) | 2021-11-16 |
Family
ID=78480174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110921215.7A Pending CN113658710A (zh) | 2021-08-11 | 2021-08-11 | 一种数据匹配方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658710A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107887032A (zh) * | 2016-09-27 | 2018-04-06 | 中国移动通信有限公司研究院 | 一种数据处理方法及装置 |
CN109119134A (zh) * | 2018-08-09 | 2019-01-01 | 脉景(杭州)健康管理有限公司 | 医学病历数据处理方法、医学数据推荐系统、设备及介质 |
CN109784367A (zh) * | 2018-12-11 | 2019-05-21 | 东软集团股份有限公司 | 用户画像方法、装置、计算机可读存储介质及电子设备 |
CN110069546A (zh) * | 2019-03-18 | 2019-07-30 | 中科恒运股份有限公司 | 一种数据分类方法、数据分类装置及终端设备 |
CN110766534A (zh) * | 2018-07-09 | 2020-02-07 | 埃森哲环球解决方案有限公司 | 数据对帐 |
CN111382210A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团山西有限公司 | 一种分类方法、装置及设备 |
CN111950294A (zh) * | 2020-07-24 | 2020-11-17 | 北京奇保信安科技有限公司 | 一种基于多参数K-means算法的意图识别方法、装置和电子设备 |
CN112214515A (zh) * | 2020-10-16 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 数据自动匹配方法、装置、电子设备及存储介质 |
WO2021120588A1 (zh) * | 2020-06-17 | 2021-06-24 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
-
2021
- 2021-08-11 CN CN202110921215.7A patent/CN113658710A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107887032A (zh) * | 2016-09-27 | 2018-04-06 | 中国移动通信有限公司研究院 | 一种数据处理方法及装置 |
CN110766534A (zh) * | 2018-07-09 | 2020-02-07 | 埃森哲环球解决方案有限公司 | 数据对帐 |
CN109119134A (zh) * | 2018-08-09 | 2019-01-01 | 脉景(杭州)健康管理有限公司 | 医学病历数据处理方法、医学数据推荐系统、设备及介质 |
CN109784367A (zh) * | 2018-12-11 | 2019-05-21 | 东软集团股份有限公司 | 用户画像方法、装置、计算机可读存储介质及电子设备 |
CN111382210A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团山西有限公司 | 一种分类方法、装置及设备 |
CN110069546A (zh) * | 2019-03-18 | 2019-07-30 | 中科恒运股份有限公司 | 一种数据分类方法、数据分类装置及终端设备 |
WO2021120588A1 (zh) * | 2020-06-17 | 2021-06-24 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN111950294A (zh) * | 2020-07-24 | 2020-11-17 | 北京奇保信安科技有限公司 | 一种基于多参数K-means算法的意图识别方法、装置和电子设备 |
CN112214515A (zh) * | 2020-10-16 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 数据自动匹配方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
程东东 等: "基于自然邻居的聚类分析和离群检测算法研究", 上海交通大学出版社, pages: 16 - 19 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Piao et al. | An ensemble correlation-based gene selection algorithm for cancer classification with gene expression data | |
AlNuaimi et al. | Streaming feature selection algorithms for big data: A survey | |
Qi et al. | An effective and efficient hierarchical K-means clustering algorithm | |
Jović et al. | A review of feature selection methods with applications | |
Hawkins et al. | Predicting outcomes of nonsmall cell lung cancer using CT image features | |
Khalid et al. | A survey of feature selection and feature extraction techniques in machine learning | |
Del Coz et al. | Learning Nondeterministic Classifiers. | |
Fakhraei et al. | Bias and stability of single variable classifiers for feature ranking and selection | |
Jacob et al. | Discovery of knowledge patterns in clinical data through data mining algorithms: Multi-class categorization of breast tissue data | |
Dhanya et al. | A comparative study for breast cancer prediction using machine learning and feature selection | |
Mohammed et al. | Breast tumor classification using a new OWA operator | |
Huang et al. | Incomplete data classification with view-based decision tree | |
Lamba et al. | Feature Selection of Micro-array expression data (FSM)-A Review | |
Lin et al. | Functional principal component analysis and randomized sparse clustering algorithm for medical image analysis | |
CN110910325B (zh) | 一种基于人工蝴蝶优化算法的医疗影像处理方法及装置 | |
Okun et al. | Dataset complexity in gene expression based cancer classification using ensembles of k-nearest neighbors | |
Ciccolella et al. | Effective clustering for single cell sequencing cancer data | |
Jena et al. | An integrated novel framework for coping missing values imputation and classification | |
Boucheham et al. | Robust biomarker discovery for cancer diagnosis based on meta-ensemble feature selection | |
Hossain et al. | A robust feature selection system with Colin's CCA network | |
CN113658710A (zh) | 一种数据匹配方法及其相关设备 | |
Gajawada et al. | Vinayaka: A semi-supervised projected clustering method using differential evolution | |
Salman et al. | Gene expression analysis via spatial clustering and evaluation indexing | |
Persada et al. | Comparative study of attribute reduction on arrhythmia classification dataset | |
Agaal et al. | Influence of feature selection methods on breast cancer early prediction phase using classification and regression tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |