CN110689964A - 一种健康数据样例搜索方法及系统 - Google Patents
一种健康数据样例搜索方法及系统 Download PDFInfo
- Publication number
- CN110689964A CN110689964A CN201910861745.XA CN201910861745A CN110689964A CN 110689964 A CN110689964 A CN 110689964A CN 201910861745 A CN201910861745 A CN 201910861745A CN 110689964 A CN110689964 A CN 110689964A
- Authority
- CN
- China
- Prior art keywords
- health data
- data sample
- sample
- clustering
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000011524 similarity measure Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 2
- 238000011946 reduction process Methods 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005855 radiation Effects 0.000 description 3
- 206010056342 Pulmonary mass Diseases 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002612 cardiopulmonary effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000002603 single-photon emission computed tomography Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种健康数据样例搜索方法及系统,通过多层次聚类和高维特征索引,构建健康数据样例索引;按照构建的健康数据样例索引搜索,展示数据库内与待搜索健康数据样例最接近的健康数据样例。本发明对大量的健康数据样例进行小规模的高维特征索引,搜索效率高且维护成本低;兼顾了健康数据样例预先固定的搜素规则又考虑了其他可能性的搜素规则,减少数据特征选择和搜索规则设置带来的搜索局限性。
Description
技术领域
本发明涉及健康数据搜索领域,具体涉及一种健康数据样例搜索方法及系统。
背景技术
随着HIS医院信息系统、PACS医学影像系统、LIS实验室(检验科)信息系统、RIS放射信息管理系统、EMR电子病历系统等信息系统在医疗领域的普及,形成了覆盖个人完整生命周期的医疗健康大数据。
一份健康数据样例可能包含大量结构化数据和文本、视频、图像、声音等非结构化数据。健康数据样例呈现了高维数据特点:1)难以直观理解和展示;2)数据结构复杂且数量庞大;3)随着数据维度的增加,数据样本之间的相关性度量越来越困难;4)不同维度的数据价值评估存在巨大挑战。在医疗健康大数据环境下,如何实现快速高效的健康数据样例搜索成为难题。
目前,健康数据样例搜索可采用的方法:(1)利用相似性度量,将待搜索样例和数据库样例按序一一比对,这种方法在大规模数据时,计算比对耗时巨大,搜索效率低;(2)建立高维特征索引,将数据库样例映射到不同的高维空间,根据索引将待搜索样例匹配到最接近的高维空间,这种方法在遇到新增数据库样例时,需调整高维索引,在大规模数据下,索引的维护成本较高。
健康数据样例是非常复杂的,难以用数字化的特征描述完全描述。上述两种方法都依赖预先固定的相似性度量规则或索引规则,在搜索后的展示也通常遵循了预先固定的规则,少了其他可能性的健康数据样例展示。
发明内容
为了克服上述背景技术介绍中存在的不足,本发明的目的在于提供一种健康数据样例搜索方法及系统,克服现有方法中搜索效率低、索引维护成本高、依赖既定规则搜索及展示等问题。
实现本发明目的的技术解决方案如下:
一种健康数据样例搜索方法,包括:
健康数据样例采集及预处理,并存储于数据库;
对健康数据样例进行多层次聚类,最后一个层次的聚类中的健康数据样例数据集采用高维特征索引,构建健康数据样例索引;
输入待搜索健康数据样例,按照健康数据样例索引搜索,展示数据库内最接近的健康数据样例。
进一步,健康数据样例由结构化数据或非结构化数据或两者组合构成;健康数据样例预处理,包括:将非结构化数据转化为结构化数据;数据清洗、匹配,数据特征提取、筛选;以多个数据特征表征健康数据样例并对其进行降维处理。
进一步,降维处理,可采用方法:
对特征X的数据集进行聚类,获得聚类Z,训练后获得聚类器I;
利用机器学习算法,特征X降维后获得特征X’,经过聚类器II,获得聚类Z’,比较聚类Z和聚类Z’,根据比较结果,利用强化学习算法,优化最终确定学习器II、聚类器II;
利用学习器II、聚类器II对特征X的健康数据样例进行降维处理,获得特征X’的健康数据样例。
进一步,数据特征可以采用原始数据,也可以根据需求采用处理过的数据特征,包括压缩后的特征,或加权后的特征,或排序后的特征,或增加隐性特征后的特征,或其他处理后的特征。
进一步,多层次聚类,采用多个聚类器对健康数据样例进行聚类,形成多层级健康数据样例数据集,不同层级的聚类器按照需求选择确定。
进一步,构建健康数据样例索引,还包括健康数据样例索引更新,当新存入数据库的健康数据样例达到设定阈值时,按多层次聚类加入到最后一个层次的聚类,并更新该聚类中的健康数据样例数据集的高维特征索引;或对最后一个层次的聚类中的健康数据样例数据集进一步聚类,重新建立新聚类中的高维特征索引。
进一步,按照健康数据样例索引搜索,包括待搜索健康数据样例按多层次聚类,定位到最后一个层次的聚类,按高维特征索引,定位到最接近的数据库健康数据样例。
进一步,数据库内最接近的健康数据样例,包括定位层中索引位置附近的一个或多个健康数据样例。
进一步,数据库内最接近的健康数据样例,还包括根据待搜索健康数据样例与定位层中索引位置附近的多个健康数据样例的相似度量值,或定位层聚类中数据库健康数据样例数据分布特点,或两者组合,映射到其他末层聚类,按该聚类中高维特征索引定位到与待搜索健康数据样例最接近的一个或多个数据库健康数据样例。
一种健康数据样例搜索系统,包括数据采集及预处理模块、健康数据样例索引模块、搜索交互模块、数据库模块;其中,
数据采集及预处理模块,用于采集健康数据样例并预处理;
健康数据样例索引模块,用于通过多层次聚类和高维特征索引,对数据库中的健康数据样例构建健康数据样例索引,并保持更新;
搜索交互模块,用于健康数据样例搜索,输入待搜索健康数据样例,按照构建的健康数据样例索引搜索,展示数据库内最接近的健康数据样例;
数据库模块,用于存储健康数据样例和健康数据样例索引。
本发明与现有技术相比,其显著优点包括:(1)对大量的数据库样例进行小规模的高维特征索引,搜索效率高且高维特征索引维护成本低。(2)兼顾了健康数据样例预先固定的搜素规则又考虑了其他可能性的搜素规则,减少数据特征选择和搜索规则设置带来的搜索局限性。
附图说明
图1为本发明的方法流程图。
图2为本发明实施例采用的降维方法框图。
图3为本发明实施例采用的多层次聚类示意图。
图4为本发明实施例采用的高维特征索引示意图。
图5为本发明实施例样例搜索的示意图。
图6为本发明的系统结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而非全部实施方式。基于本发明中的实施方式,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
一份健康数据样例可能包含大量结构化数据和文本、视频、图像、声音等非结构化数据。数据来源如:HIS医院信息系统、PACS医学影像系统、LIS实验室(检验科)信息系统、RIS放射信息管理系统、EMR电子病历系统等信息系统、医院设备管理系统、医疗卫生系统、挂号系统、居民健康档案系统等。数据类型如:医学影像数据(MRI、CT、PET、SPECT、X射线等);辐射剂量;检验科数据(血红蛋白、胆固醇等);患者数据(年龄、性别、种族、吸烟等);就医环境数据;疾病数据(糖尿病、高血压等);用药和药物反应数据;手术数据;心电数据;心肺回音数据等等。
将非结构化数据转化为结构化数据,经过数据清洗、匹配,数据特征提取、筛选等,以多个数据特征表征健康数据样例。本发明适用于多个数据特征表征健康数据样例的搜索及展示。有限的实施例阐释不应作为对本发明的限定。
在一个实施例中,健康数据样例为:肺结节CT图像及图像报告。用4大类数据特征表征,数据格式:<图像采集特征,被摄对象特征,图像特征,文本特征>,<H,G,P,Q>,数据特征可以采用原始数据,或是压缩后的特征,或是加权后的特征,或是排序后的特征,或是增加隐性特征后的特征,或是其他处理后的特征。可以理解这4类数据的位置不应作为对本发明的限定。
显影剂的服用量标准、设备参数设置等因素会造成影像灰度的差别。不同设备厂商提供的影像设备可能有所差别,不同医院在影像生成中采用的标准可能不一致。将影响图像采集的因素进行提取,如:采集的设备、采集的时间、采集的环境等,构建图像采集特征H=(h1,h2,...,hnh);
将与患者相关的数据进行提取,如:年龄、性别、血压、医学检查数据、医生诊断数据等,构建被摄对象特征G=(g1,g2,...,gng);
利用图像特征提取方法,提取图像特征如:灰度值特征、形状特征、纹理特征、梯度空间分布特征等,构建图像特征P=(p1,p2,...,pnp);
利用文本特征提取方法,提取图像报告中的文本特征:如肺结节尺寸、结节类型、肺癌风险等,构建文本特征Q=(q1,q2,...,qnq)。
不同的数据特征数据形式可能是离散的也可能是连续的,取值范围大小差异明显。如性别只有男、女两种离散的数值,图像特征中的形状特征可能有多个维度如质心、面积、周长、离心率等,每个维度取值范围不等,如一个维度取值范围0~2.37E+15,另一个维度可能取值范围0~3.62E+40。
健康数据样例呈现了高维数据特点:1)难以直观理解和展示;2)数据结构复杂且数量庞大;3)随着数据维度的增加,数据样本之间的相关性度量越来越困难;4)不同维度的数据价值评估存在巨大挑战。
1、数据特征采集及预处理
根据<图像采集特征,被摄对象特征,图像特征,文本特征>自身的特点,分别进行预处理。可采用的方法:连续数值离散化;对数值进行加权处理;利用特征变换、神经网络等方法在原特征的基础上提取隐形特征;利用主成分分析PCA、奇异值分解SVD等方法对特征进行降维处理。
参照图2,本发明采用一种基于特征聚类特点的降维方法。包括步骤:
1.1)对特征X的数据集(数据库的一部分数据)进行聚类,获得聚类Z,训练后获得聚类器I;
1.2)利用机器学习(如:受限玻尔兹曼机),特征X降维后获得特征X’,经过聚类器II,获得聚类Z’,比较聚类Z和聚类Z’,根据比较结果,强化学习(如:Q-learning算法),优化最终确定学习器II、聚类器II。
1.3)利用学习器II、聚类器II对数据库数据样例进行降维处理,获得特征X’的数据库。
2、数据库健康数据样例索引
利用多个聚类器将样例进行多层次的聚类,最后一个层次的聚类中的样例数据集采用高维特征索引,当有新的健康数据样例加入数据库时,按多层次聚类加入到最后一个层次的聚类,并更新该聚类中的样例数据集的高维特征索引;或对最后一个层次的聚类中的样例数据集进一步聚类,重新建立新聚类中的高维特征索引。
聚类器可采用如:Kmeans聚类器、基于层次聚类器、基于密度聚类器等。
一个实施例中,采用Kmeans聚类器,3层聚类。
参照图3,整个数据集作为一级数据集S,利用一级聚类器A,聚类成2类二级数据集分别对这2类二级数据集聚类,利用二级聚类器二级数据集经二级聚类器后,获得2类三级数据集二级数据集经二级聚类器后,获得2类三级数据集
当有一个新的数据存入时,经过一级聚类器A,寻找到最接近的二级数据集,经过二级聚类器,寻找到最接近的三级数据集进行存放。
当新存入的数据达到一定量时,可以视情况更新聚类器。也可以对三级数据集进一步聚类,如:三级数据集经三级聚类器获得2类四级数据集数据集S上角标3对应到四级数据集,下角标(2,1,1)对应到经一级聚类器A、二级聚类器三级聚类器之后的第1个四级数据集。可以理解聚类2类不应作为对本发明的限定。
高维特征索引可采用如R-tree、K-D-B-tree、SAM索引等。
一个实施例中,采用KD树索引。
KD树的节点结构如下:
(data,judge,ptr_father,ptr_lefichild,ptr_rightchild);
KD树具有以下属性:
(1)数据存在每一个节点中。
(2)不存在数据重叠的情况。由于利用超平面对点数据进行划分,数据存在面积的概念,因此不存在重叠。因此,效率至少不会低于顺序检索。
l1左边都是特征X1低于45,l1右边都是特征X1高于45;l2下方都是特征X1低于45且特征x2低于50的,l2上方都是特征x1低于45且特征x2高于50的,后面以此类推。
3、健康数据样例搜索
输入待搜索样例r0,按多层次聚类,定位到最后一个层次的聚类,按高维特征索引,定位到最接近的数据库样例。
4、健康数据库样例展示
展示最接近的数据库样例,可选择:
1)定位层中索引位置附近的多个数据库样例,如:定位到r8为最接近的数据库样例,选择r8附近的r4、r9、r2、r5数据样例进行展示。
2)计算待搜索样例与定位层中索引位置附近的多个数据库样例的相似度量值,将其映射到其他末层聚类,按该聚类中高维特征索引定位到与待搜索样例最接近的数据库样例。
相似度度量方法:余弦、欧几里得距离等,sim<r0,r8>表示待搜索样例r0与数据库样例r8的相似度量值。计算待搜索样例与定位层中索引位置附近的多个数据样例的相似度量值,sim<r0,r8>、sim<r0,r4>、sim<r0,r9>、sim<r0,r2>、sim<r0,r5>。可选择性调整定位层中索引位置附近的多个数据样例的数量。可以理解展示样例的数量不应作为对本发明的限定。
映射关系建立方法,其核心思想在于评估待搜索样例与定位层中已选择的数据库样例之间的相似度量值的分布特点,根据该分布特点选择其他末层聚类。如:
2.1)比较各个相似度量值之间的差距,如:dis(8,4)=sim<r0,r8>-sim<r0,r4>,取平均差距值dis_avg,差距可取值范围[dis_min,dis_max],取平均差距值对应差距可取值范围的位置,如:lo_avg=(dis_avg-dis_min)/(dis_max-dis_min),对应不同层次不同位置的数据集,如:lo_avg在[0,0.1]范围时,对应到同一聚类下的数据集此时表示r4、r9、r2、r5数据样例和r0数据样例高度相似,小概率的去展示别的聚类下的数据样例。lo_avg在[0.8,0.9]范围时,对应到同一聚类下的数据集不同聚类下的数据集此时表示r4、r9、r2、r5数据样例和r0数据样例相似程度有较大的差距,需要较大概率的去展示别的聚类下的数据样例。
2.2)比较各个相似度量值之间的差距,如:dis(8,4)=sim<r0,r8>-sim<r0,r4>,和预先设定的<差距区间,聚类选择策略>进行比对,对应到不同层次不同位置的数据集。如:dis(8,4)、dis(8,9)都在差距区间[dis_mi1,dis_ma1]范围内,对应到同一聚类下的数据集dis(8,2)、dis(8,5)都在差距区间[dis_mi2,dis_ma2]范围内,对应到不同聚类下的数据集
3)计算定位层聚类中数据库样例数据分布特点,将其映射到其他末层聚类,按该聚类中高维特征索引定位到与待搜索样例最接近的数据库样例;
4)根据待搜索样例与定位层中索引位置附近的多个数据样例的相似度量值和定位层聚类中数据库样例数据分布特点将其映射到其他末层聚类,按该聚类中高维特征索引定位到与待搜索样例最接近的数据库样例。
本实施例提出了一种健康数据样例搜索系统,包括数据采集及预处理模块、健康数据样例索引模块、搜索交互模块、数据库模块;其中,
数据采集及预处理模块,用于采集健康数据样例并预处理;
健康数据样例索引模块,用于通过多层次聚类和高维特征索引,对数据库中的健康数据样例构建健康数据样例索引,并保持更新;
搜索交互模块,用于健康数据样例搜索,输入待搜索健康数据样例,按照构建的健康数据样例索引搜索,展示数据库内最接近的健康数据样例;
数据库模块,用于存储健康数据样例和健康数据样例索引。
在上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述的部分,可以参见其它实施方式的相关描述。以上为对本发明的描述,对于本领域的一般技术人员,依据本发明实施方式的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种健康数据样例搜索方法,其特征在于,包括:
健康数据样例采集及预处理,并存储于数据库;
对健康数据样例进行多层次聚类,最后一个层次的聚类中的健康数据样例数据集采用高维特征索引,构建健康数据样例索引;
输入待搜索健康数据样例,按照健康数据样例索引搜索,展示数据库内最接近的健康数据样例。
2.根据权利要求1所述的一种健康数据样例搜索方法,其特征在于,所述健康数据样例由结构化数据或非结构化数据或两者组合构成;所述健康数据样例预处理,包括:将非结构化数据转化为结构化数据;数据清洗、匹配,数据特征提取、筛选;以多个数据特征表征健康数据样例并对其进行降维处理。
3.根据权利要求2所述的一种健康数据样例搜索方法,其特征在于,所述降维处理,可采用方法:
对特征X的数据集进行聚类,获得聚类Z,训练后获得聚类器I;
利用机器学习算法,特征X降维后获得特征X’,经过聚类器II,获得聚类Z’,比较聚类Z和聚类Z’,根据比较结果,利用强化学习算法,优化最终确定学习器II、聚类器II;
利用学习器II、聚类器II对特征X的健康数据样例进行降维处理,获得特征X’的健康数据样例。
4.根据权利要求2所述的一种健康数据样例搜索方法,其特征在于,所述数据特征可以采用原始数据,也可以根据需求采用处理过的数据特征,包括压缩后的特征,或加权后的特征,或排序后的特征,或增加隐性特征后的特征,或其他处理后的特征。
5.根据权利要求1所述的一种健康数据样例搜索方法,其特征在于,所述多层次聚类,采用多个聚类器对健康数据样例进行聚类,形成多层级健康数据样例数据集,不同层级的聚类器按照需求选择确定。
6.根据权利要求1所述的一种健康数据样例搜索方法,其特征在于,所述构建健康数据样例索引,还包括健康数据样例索引更新,当新存入数据库的健康数据样例达到设定阈值时,按多层次聚类加入到最后一个层次的聚类,并更新该聚类中的健康数据样例数据集的高维特征索引;或对最后一个层次的聚类中的健康数据样例数据集进一步聚类,重新建立新聚类中的高维特征索引。
7.根据权利要求1所述的一种健康数据样例搜索方法,其特征在于,所述按照健康数据样例索引搜索,包括将待搜索健康数据样例按多层次聚类,定位到最后一个层次的聚类,按高维特征索引,定位到最接近的数据库健康数据样例。
8.根据权利要求1所述的一种健康数据样例搜索方法,其特征在于,所述数据库内最接近的健康数据样例,包括定位层中索引位置附近的一个或多个健康数据样例。
9.根据权利要求8所述的一种健康数据样例搜索方法,其特征在于,所述数据库内最接近的健康数据样例,还包括根据待搜索健康数据样例与定位层中索引位置附近的多个健康数据样例的相似度量值,或定位层聚类中数据库健康数据样例数据分布特点,或两者组合,映射到其他末层聚类,按该聚类中高维特征索引定位到与待搜索健康数据样例最接近的一个或多个数据库健康数据样例。
10.一种健康数据样例搜索系统,其特征在于,包括数据采集及预处理模块、健康数据样例索引模块、搜索交互模块、数据库模块;其中,
所述数据采集及预处理模块,用于采集健康数据样例并预处理;
所述健康数据样例索引模块,用于通过多层次聚类和高维特征索引,对数据库中的健康数据样例构建健康数据样例索引,并保持更新;
所述搜索交互模块,用于健康数据样例搜索,输入待搜索健康数据样例,按照构建的健康数据样例索引搜索,展示数据库内最接近的健康数据样例;
所述数据库模块,用于存储健康数据样例和健康数据样例索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861745.XA CN110689964B (zh) | 2019-09-12 | 2019-09-12 | 一种健康数据样例搜索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861745.XA CN110689964B (zh) | 2019-09-12 | 2019-09-12 | 一种健康数据样例搜索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689964A true CN110689964A (zh) | 2020-01-14 |
CN110689964B CN110689964B (zh) | 2022-08-26 |
Family
ID=69109233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910861745.XA Active CN110689964B (zh) | 2019-09-12 | 2019-09-12 | 一种健康数据样例搜索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689964B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149297A1 (en) * | 2003-12-31 | 2005-07-07 | Valerie Guralnik | Principal component analysis based fault classification |
CN104754413A (zh) * | 2013-12-30 | 2015-07-01 | 北京三星通信技术研究有限公司 | 基于图像搜索识别电视信号并推荐信息的方法和设备 |
CN104778281A (zh) * | 2015-05-06 | 2015-07-15 | 苏州搜客信息技术有限公司 | 一种基于社区分析的图像索引并行构建方法 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107391601A (zh) * | 2017-06-30 | 2017-11-24 | 安徽四创电子股份有限公司 | 一种人脸特征向量的高维索引的构建方法 |
CN107679078A (zh) * | 2017-08-29 | 2018-02-09 | 银江股份有限公司 | 一种基于深度学习的卡口图像车辆快速检索方法及系统 |
CN108228602A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 网站的分类方法及装置 |
-
2019
- 2019-09-12 CN CN201910861745.XA patent/CN110689964B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149297A1 (en) * | 2003-12-31 | 2005-07-07 | Valerie Guralnik | Principal component analysis based fault classification |
CN104754413A (zh) * | 2013-12-30 | 2015-07-01 | 北京三星通信技术研究有限公司 | 基于图像搜索识别电视信号并推荐信息的方法和设备 |
CN104778281A (zh) * | 2015-05-06 | 2015-07-15 | 苏州搜客信息技术有限公司 | 一种基于社区分析的图像索引并行构建方法 |
CN108228602A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 网站的分类方法及装置 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107391601A (zh) * | 2017-06-30 | 2017-11-24 | 安徽四创电子股份有限公司 | 一种人脸特征向量的高维索引的构建方法 |
CN107679078A (zh) * | 2017-08-29 | 2018-02-09 | 银江股份有限公司 | 一种基于深度学习的卡口图像车辆快速检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110689964B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
CN113421652B (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
US7809660B2 (en) | System and method to optimize control cohorts using clustering algorithms | |
CN112101451B (zh) | 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN110335665A (zh) | 一种应用于医学图像辅助诊断分析的以图搜图方法及系统 | |
US20170147753A1 (en) | Method for searching for similar case of multi-dimensional health data and apparatus for the same | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
US12061994B2 (en) | Inference process visualization system for medical scans | |
CN106897572A (zh) | 基于流形学习的肺结节病例匹配辅助检测系统及其工作方法 | |
Ma et al. | A new classifier fusion method based on historical and on-line classification reliability for recognizing common CT imaging signs of lung diseases | |
CN117370565A (zh) | 一种信息检索方法及系统 | |
CN113160974A (zh) | 一种基于超图聚类的精神疾病生物型发掘方法 | |
CN116597214A (zh) | 基于多模态超图注意网络的阿尔茨海默症分类方法及系统 | |
JP2023510667A (ja) | キャラクタ取得、ページ処理と知識グラフ構築方法及び装置、媒体 | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
US20240028831A1 (en) | Apparatus and a method for detecting associations among datasets of different types | |
CN110689964B (zh) | 一种健康数据样例搜索方法及系统 | |
CN115036034B (zh) | 一种基于患者表征图的相似患者识别方法及系统 | |
CN111582330A (zh) | 基于肺部肿瘤影像划分样本空间下的集成ResNet-NRC方法 | |
Megalooikonomou et al. | Medical data fusion for telemedicine | |
Rout et al. | Identification of similar gastrointestinal images through content based image retrieval system based on analytical hierarchical process | |
CN117581310A (zh) | 用于医学图像数据的自动跟踪读取的方法和系统 | |
CN110033862B (zh) | 一种基于加权有向图的中医量化诊断系统及存储介质 | |
Oliveira et al. | Towards an intelligent systems to predict nosocomial infections in intensive care |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |