CN113111063A - 一种应用于多数据源的医疗患者主索引发现方法 - Google Patents

一种应用于多数据源的医疗患者主索引发现方法 Download PDF

Info

Publication number
CN113111063A
CN113111063A CN202110344519.1A CN202110344519A CN113111063A CN 113111063 A CN113111063 A CN 113111063A CN 202110344519 A CN202110344519 A CN 202110344519A CN 113111063 A CN113111063 A CN 113111063A
Authority
CN
China
Prior art keywords
medical
record
main index
similarity
data sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110344519.1A
Other languages
English (en)
Other versions
CN113111063B (zh
Inventor
陈杰
聂小明
张志强
赵睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Health Cloud Technology Co ltd
Original Assignee
China Power Health Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Health Cloud Technology Co ltd filed Critical China Power Health Cloud Technology Co ltd
Priority to CN202110344519.1A priority Critical patent/CN113111063B/zh
Publication of CN113111063A publication Critical patent/CN113111063A/zh
Application granted granted Critical
Publication of CN113111063B publication Critical patent/CN113111063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及医疗互联互通领域,具体是一种应用于多数据源的医疗患者主索引发现方法,包括如下步骤:步骤一、获取医疗记录;步骤二、计算两两医疗记录之间的相似度;步骤三、基于相似度构建有权无向图;步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;步骤五、标准化记录主索引支持度,确定主索引记录;旨在提高主索引准确性,克服现有技术在大数据场景下出现的数据冗余和高成本的缺陷,提供一种新的主索引发现算法。

Description

一种应用于多数据源的医疗患者主索引发现方法
技术领域
本发明涉及医疗互联互通领域,具体是指一种应用于多数据源的医疗患者主索引发现方法。
背景技术
为了在区域范围内实现各医疗机构的数据共享或业务协同,有效地保存、分类、归档、查阅大批量的医疗信息,实现医疗记录在各个信息系统中的互联互通,需要针对患者建立统一的身份机制,该机制使得区域范围内,同一患者在多家医疗机构注册的多条医疗记录能够被识别为同一个人,并对患者的所有医疗信息建立关联关系,为此,患者需要一条最为准确的记录来标识其区别于其他患者存在的唯一性,进而保证分布在多个系统中的同一患者拥有完整、准确的个人信息采集结果,患者主索引(Master Patient Index,MPI)是指在一个区域范围内用以标识该域内每个患者实例并保持其唯一性的编码,而企业级患者主索引(Enterprise Master Patient Index,EMPI)系统则将来自多个系统的患者标识进行关联,实现同一病人多业务ID的关联和患者信息的统一或关联,确保患者信息映射、应用的准确性。
在这一应用场景下,现有技术大致可以划分为三类:一、基于概率的匹配算法,对关键字段进行索引匹配得到基础分数,然后在匹配结果中对候选记录的其余参考字段分别计算相似性分数,最后利用基础分数及各参考分数进行投票,筛选出总分超过设定阈值的结果集;二、在数据量小的情况下,操作者也可以凭经验和供以参考的患者信息,人工判断多条索引记录是否描述同一人;三、考虑到计算成本、数据安全等因素,直接将每一条记录都当作主索引。
上述方法在应对主索引发现任务时,仅考虑了字段间的直接关系,缺乏对全局信息以及隐含信息的捕捉和利用,这导致计算结果极大地依赖于相似度计算的精度,依据先验知识选择匹配字段后计算的投票结果并不理想,如果采用人工方法,无论是直接判断还是校验评估都相当的费时费力,而将每条数据都当作主索引则会造成大量的数据冗余,增加数据的存储和后续应用计算成本,效率低下。
发明内容
基于以上问题,本发明提供了一种应用于多数据源的医疗患者主索引发现方法,旨在提高主索引准确性,克服现有技术在大数据场景下出现的数据冗余和高成本的缺陷,提供一种新的主索引发现算法。
为解决以上技术问题,本发明采用的技术方案如下:
一种应用于多数据源的医疗患者主索引发现方法,包括如下步骤:
步骤一、获取医疗记录;
步骤二、计算两两医疗记录之间的相似度;
步骤三、基于相似度构建有权无向图;
步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;
步骤五、标准化记录主索引支持度,确定主索引记录。
进一步,所述步骤1具体包括:
获取多数据源的医疗记录后对其去重,将各字段完全一样的记录视为同一患者。
进一步,计算两两医疗记录之间的相似度,并形成相似度矩阵,其计算公式为:
Figure BDA0003000404110000021
Figure BDA0003000404110000022
Figure BDA0003000404110000023
其中,lij表示两两医疗记录之间的相似度,L表示医疗记录的相似度矩阵,sq为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度,wq为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重,m表示字段数量。
进一步,筛选出相似度大于等于设定阈值的记录对,形成三元组表,基于三元组表构建有权无向图。
进一步,在有权无向图中,每一个节点为某一条医疗记录,链路权重为两条医疗记录间的相似度。
进一步,各医疗记录的记录主索引支持度计算方式如下:
计算与某节点有连接的链路权重之和,即得到每条记录的相似度总分数si,计算公式为:
Figure BDA0003000404110000024
定义记录主索引支持度MI为每条医疗记录作为主索引记录候选的评分,初始化每个节点的MI值为1,迭代更新各节点的MI值,直到MI值收敛或计算超过最大迭代次数,其计算公式为:
Figure BDA0003000404110000031
其中,
Figure BDA0003000404110000032
为第n次迭代医疗记录i的MI值,α为常数0.85。
进一步,标准化记录主索引支持度MI值后,选择MI值最大的节点作为主索引记录,若MI值相同则选择ID最小的医疗记录。
与现有技术相比,本发明的有益效果是:本方法引入数据的全局信息提升了主索引的准确性,提高了相似度计算的容错率,减少了对人工的依赖,降低了数据存储成本。
附图说明
图1为本实施例的流程图;
图2为本实施例构造的有权无向图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
如图1所示的一种应用于多数据源的医疗患者主索引发现方法,包括如下步骤:
步骤一、获取医疗记录;
其中,获取多数据源的医疗记录后对其去重,将各字段完全一样的记录视为同一患者,同时,一批来源于多个信息系统的医疗记录因为错别字、字段丢失、系统差异等原因,医疗记录之间的相似度不高,但其中质量越高的医疗记录会与更多的记录之间有较高的相似度,因此,需要对各记录之间的相似度进行计算。
步骤二、计算两两医疗记录之间的相似度;
计算两两医疗记录之间的相似度,并形成相似度矩阵,其计算公式为:
Figure BDA0003000404110000033
Figure BDA0003000404110000034
Figure BDA0003000404110000041
其中,相似度流程是基于MapReduce框架计算,lij表示两两医疗记录之间的相似度,L表示医疗记录的相似度矩阵,sq为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度,wq为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重,各字段权重为人为设定,m表示字段数量;
例如,基于MapReduce框架计算医疗记录之间的相似度,每个记录包含四个字段{Q1,Q2,Q3,Q4},其中,Q1表示姓名,Q2表示身份证号(本实施例中仅取5位数用于测试),Q3表示性别,Q4表示居住地,再人为设置各字段权重为w={1,1,0.6,0.5},现有医疗记录A:Q1=张三,Q2=62550,Q3=女,Q4=迎晖路,医疗记录D:Q1=张三,Q2=62551,Q3=女,Q4=迎晖路,最终,医疗记录A和医疗记录B相似度流程为具体为下表:
Figure BDA0003000404110000042
同时,可以把其他医疗记录中,两两医疗记录之间的相似度计算出来,并形成相似度矩阵。
步骤三、基于相似度构建有权无向图;
其中,筛选出相似度大于等于设定阈值的记录对,证明两条医疗记录之间有一定的的相似度,例如设定阈值为2,那么[(A,D),2.1]证明医疗记录A和医疗记录D之间有一定的相似度,将其存储为三元组(A,D,2.1),同时,本实施例以有权无向图中的一个连通子图为例进行说明(有权无向图是由若干个连通子图组合形成),该连通子图包含八条记录,分别为医疗记录A、B、C、D、E、F、G、H中,为了避免累述,现已将两两医疗记录之间相似度大于2的三元组筛选出来,形成三元组表,表示为:(A,D,2.1),(A,E,2.1),(B,D,2.6),(B,G,2.1),(B,H,2.1),(B,F,2.1),(B,C,2.1),(B,E,2.1),(C,E,2.1),(E,G,2.6),(E,H,2.1),(E,F,2.1),另外,需要标准化三元组表,表示为:(A,D,0.67),(A,E,0.67),(B,D,0.83),(B,G,0.67),(B,H,0.67),(B,F,0.67),(B,C,0.67),(B,E,0.67),(C,E,0.67),(E,G,0.83),(E,H,0.67),(E,F,0.67),根据上述结果,可以得到该连通子图形成的有权无向图,如图2所示。
步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;
其中,各医疗记录的记录主索引支持度计算方式如下:
计算与某节点有连接的链路权重之和,即得到每条记录的相似度总分数si,计算公式为:
Figure BDA0003000404110000051
定义记录主索引支持度MI为每条医疗记录作为主索引记录候选的评分,初始化每个节点的MI值为1,迭代更新各节点的MI值,直到MI值收敛或计算超过最大迭代次数,其计算公式为:
Figure BDA0003000404110000052
其中,
Figure BDA0003000404110000055
为第n次迭代医疗记录i的MI值,α为常数0.85;
基于此,可以步骤三中连通子图的每条记录进行记录主索引支持度计算,从图2中可以看出,医疗记录C、D、E、F、G、H影响医疗记录B的记录主索引支持度,即
Figure BDA0003000404110000053
在此基础上,本实施例中,考虑了间接相连的记录相似度也影响着医疗记录B的记录主索引支持度,即医疗记录A也通过医疗记录D影响医疗记录B的记录主索引支持度记作
Figure BDA0003000404110000054
通过引入数据的全局信息提升了主索引的准确性,提高了相似度计算的容错率,因此,计算各医疗记录再该连通子图中的记录主索引支持度如下:
sA=0.67+0.67=1.34;
sB=0.83+0.67+0.67+0.67+0.67+0.67=4.18;
sC=0.67+0.67=1.34;
sD=0.67+0.83=1.5;
sE=0.67+0.67+0.67+0.83+0.67+0.67=4.18;
sF=0.67+0.67=1.34;
sG=0.67+0.83=1.5;
sH=0.67+0.67=1.34;
同时,初始化各个医疗记录的MI值为1,即
Figure BDA0003000404110000061
后续迭代过程如下所示:
Figure BDA0003000404110000062
Figure BDA0003000404110000063
Figure BDA0003000404110000064
Figure BDA0003000404110000065
Figure BDA0003000404110000066
Figure BDA0003000404110000067
Figure BDA0003000404110000068
Figure BDA0003000404110000069
第二次迭代,各医疗记录MI的计算结果如下:
Figure BDA00030004041100000610
Figure BDA00030004041100000611
Figure BDA00030004041100000612
Figure BDA0003000404110000071
Figure BDA0003000404110000072
Figure BDA0003000404110000073
Figure BDA0003000404110000074
Figure BDA0003000404110000075
......
经过25次迭代后,各医疗记录MI值趋于稳定。
步骤五、标准化记录主索引支持度,确定主索引记录。
其中,将步骤四中各医疗记录MI值标准化处理,计算结果如下:
Figure BDA0003000404110000076
Figure BDA0003000404110000077
Figure BDA0003000404110000078
Figure BDA0003000404110000079
Figure BDA00030004041100000710
Figure BDA00030004041100000711
Figure BDA00030004041100000712
Figure BDA00030004041100000713
其中,医疗记录B和医疗记录E的链路数相同、初始相似度总分相等,但经过多次迭代后,医疗记录E的MI值最高,说明其对于连通子图的信息贡献度最高,作为主索引记录主索引支持度最高,因此可以选择医疗记录E作为该患者的主索引数据,若MI值相同则选择ID最小的医疗记录。
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (7)

1.一种应用于多数据源的医疗患者主索引发现方法,其特征在于,包括如下步骤:
步骤一、获取医疗记录;
步骤二、计算两两医疗记录之间的相似度;
步骤三、基于相似度构建有权无向图;
步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;
步骤五、标准化记录主索引支持度,确定主索引记录。
2.根据权利要求1所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:所述步骤1具体包括:
获取多数据源的医疗记录后对其去重,将各字段完全一样的记录视为同一患者。
3.根据权利要求1所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:计算两两医疗记录之间的相似度,并形成相似度矩阵,其计算公式为:
Figure FDA0003000404100000011
Figure FDA0003000404100000012
Figure FDA0003000404100000013
其中,lij表示两两医疗记录之间的相似度,L表示医疗记录的相似度矩阵,sq为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度,wq为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重,m表示字段数量。
4.根据权利要求3所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:筛选出相似度大于等于设定阈值的记录对,形成三元组表,基于三元组表构建有权无向图。
5.根据权利要求4所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:在有权无向图中,每一个节点为某一条医疗记录,链路权重为两条医疗记录间的相似度。
6.根据权利要求5所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:各医疗记录的记录主索引支持度计算方式如下:
计算与某节点有连接的链路权重之和,即得到每条记录的相似度总分数si,计算公式为:
Figure FDA0003000404100000021
定义记录主索引支持度MI为每条医疗记录作为主索引记录候选的评分,初始化每个节点的MI值为1,迭代更新各节点的MI值,直到MI值收敛或计算超过最大迭代次数,其计算公式为:
Figure FDA0003000404100000022
其中,
Figure FDA0003000404100000023
为第n次迭代医疗记录i的MI值,α为常数0.85。
7.根据权利要求6所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:标准化记录主索引支持度MI值后,选择MI值最大的节点作为主索引记录,若MI值相同则选择ID最小的医疗记录。
CN202110344519.1A 2021-03-31 2021-03-31 一种应用于多数据源的医疗患者主索引发现方法 Active CN113111063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110344519.1A CN113111063B (zh) 2021-03-31 2021-03-31 一种应用于多数据源的医疗患者主索引发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110344519.1A CN113111063B (zh) 2021-03-31 2021-03-31 一种应用于多数据源的医疗患者主索引发现方法

Publications (2)

Publication Number Publication Date
CN113111063A true CN113111063A (zh) 2021-07-13
CN113111063B CN113111063B (zh) 2023-04-25

Family

ID=76713056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110344519.1A Active CN113111063B (zh) 2021-03-31 2021-03-31 一种应用于多数据源的医疗患者主索引发现方法

Country Status (1)

Country Link
CN (1) CN113111063B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707332A (zh) * 2021-08-26 2021-11-26 中电健康云科技有限公司 患者身份匹配方法、系统、装置和存储介质
CN115083615A (zh) * 2022-07-20 2022-09-20 之江实验室 一种链式并行统计多中心就诊患者人数的方法及装置
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317323A1 (en) * 2014-04-30 2015-11-05 Lnternational Business Machines Corporation Indexing and searching heterogenous data entities
US20160147878A1 (en) * 2014-11-21 2016-05-26 Inbenta Professional Services, L.C. Semantic search engine
CN110600092A (zh) * 2019-08-13 2019-12-20 万达信息股份有限公司 一种应用于医疗领域的人员主索引的生成方法和系统
CN111199800A (zh) * 2018-11-16 2020-05-26 广州天鹏计算机科技有限公司 一种患者主索引信息的数据处理方法、装置
CN111785341A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 基于相似性的患者主索引数据合并方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317323A1 (en) * 2014-04-30 2015-11-05 Lnternational Business Machines Corporation Indexing and searching heterogenous data entities
US20160147878A1 (en) * 2014-11-21 2016-05-26 Inbenta Professional Services, L.C. Semantic search engine
CN111199800A (zh) * 2018-11-16 2020-05-26 广州天鹏计算机科技有限公司 一种患者主索引信息的数据处理方法、装置
CN110600092A (zh) * 2019-08-13 2019-12-20 万达信息股份有限公司 一种应用于医疗领域的人员主索引的生成方法和系统
CN111785341A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 基于相似性的患者主索引数据合并方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李瑞琳等: "一种基于MPI的稀疏化局部尺度并行谱聚类算法的研究与实现", 《计算机工程与科学》 *
查玉龙等: "患者主索引在医院信息系统中的构建与应用", 《智库时代》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707332A (zh) * 2021-08-26 2021-11-26 中电健康云科技有限公司 患者身份匹配方法、系统、装置和存储介质
CN115083615A (zh) * 2022-07-20 2022-09-20 之江实验室 一种链式并行统计多中心就诊患者人数的方法及装置
CN115083615B (zh) * 2022-07-20 2022-12-06 之江实验室 一种链式并行统计多中心就诊患者人数的方法及装置
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN115269613B (zh) * 2022-09-27 2023-01-13 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN113111063B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN113111063A (zh) 一种应用于多数据源的医疗患者主索引发现方法
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
US20190080248A1 (en) System and method for facilitating model-based classification of transactions
CN113904872A (zh) 一种针对匿名服务网站指纹攻击的特征提取方法及系统
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN110544047A (zh) 一种不良数据辨识方法
CN110580510A (zh) 一种聚类结果评价方法和系统
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN111639077A (zh) 数据治理方法、装置、电子设备、存储介质
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN116599743A (zh) 4a异常绕行检测方法、装置、电子设备及存储介质
CN109241146B (zh) 集群环境下的学生智助方法和系统
CN108121912B (zh) 一种基于神经网络的恶意云租户识别方法和装置
CN113392086B (zh) 基于物联网的医疗数据库构建方法、装置及设备
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN114155578A (zh) 人像聚类方法、装置、电子设备和存储介质
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
CN114020687B (zh) 用户留存分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant