CN115206533B - 基于知识图谱健康管理方法、装置及电子设备 - Google Patents
基于知识图谱健康管理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115206533B CN115206533B CN202211118869.7A CN202211118869A CN115206533B CN 115206533 B CN115206533 B CN 115206533B CN 202211118869 A CN202211118869 A CN 202211118869A CN 115206533 B CN115206533 B CN 115206533B
- Authority
- CN
- China
- Prior art keywords
- data
- health
- keywords
- value
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000036541 health Effects 0.000 title claims abstract description 91
- 238000007726 management method Methods 0.000 title claims abstract description 25
- 238000007621 cluster analysis Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000010276 construction Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000547 structure data Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 6
- 230000010365 information processing Effects 0.000 abstract description 2
- 241000589989 Helicobacter Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 241000193830 Bacillus <bacterium> Species 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及健康数据的信息处理与通信技术领域,提供了一种基于知识图谱健康管理方法、装置及电子设备。该方法包括:基于健康历史数据,构建健康知识图谱;对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将聚类分析结果与标准化数据进行关联,得到数据关联关系;基于数据关联关系构建健康数据标准库;将接收到的用户输入数据在健康数据标准库中进行搜索比对,得到标准化数据;基于标准化数据在健康知识图谱中查找健康建议。通过构建健康知识图谱,然后通过构建的健康数据标准库,将用户的数据与标准库进行比对,从而查找到相应的健康建议,达到针对体检数据给出针对性建议的目的。
Description
技术领域
本发明属于健康数据的信息处理与通信技术领域,尤其是涉及一种基于知识图谱健康管理方法、装置及电子设备。
背景技术
随着社会的发展,人们对健康越来越重视,但现在各个医院或健康管理机构体检中检测项目的名称和检测结果表述并不统一,且在体检报告中没有针对异常指标的具体建议,只是根据一些重要检测指标的异常结果,给出笼统的建议,使得不能根据异常体检结果进一步的实现身体健康的管理。
发明内容
针对现有技术中存在的问题,本发明提供了一种基于知识图谱健康管理方法、装置及电子设备,至少部分的解决现有技术中存在的没有针对体检数据给出具体建议的问题。
第一方面,本发明提供了一种基于知识图谱健康管理方法,包括:
基于健康历史数据,构建健康知识图谱;
对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将聚类分析结果与标准化数据进行关联,得到数据关联关系;
基于数据关联关系构建健康数据标准库;
将接收到的用户输入数据在健康数据标准库中进行搜索比对,得到标准化数据;
基于标准化数据在健康知识图谱中查找健康建议。
可选的,上述基于健康历史数据,构建健康知识图谱,包括:
获取健康历史数据中的检测项目数据、检测结果数据和结果建议数据;
构建检测项目数据、该检测项目检测结果数据和结果建议数据之间的链式数据结构;
基于链式数据结构和人体结构数据构建健康知识图谱。
可选的,上述将接收到的用户输入数据在健康数据标准库中进行搜索比对,包括:
接收用户输入的图像信息;
对图像信息中的字符进行识别;
基于识别的信息在健康数据标准库中进行搜索比对。
可选的,上述将聚类分析结果与标准化数据进行关联,得到数据关联关系,包括:
将聚类分析结果进行特征向量计算得到Z个聚类特征矩阵T={TY1,TY2,…,TYm},Y≤Z,TYm表示第Y个聚类分析结果中第m个关键字的特征向量值;
对标准化数据进行计算得到n个标准特征矩阵,每个特征矩阵表示为P={PX1,PX2,…,PXk},k为常数,X≤n,PXk表示第X个标准特征矩阵中第k个关键字的特征向量值;
将Z个聚类特征矩阵分别与n个标准特征矩阵进行相关性计算,得到相关性参数;
将相关性参数与设置阈值进行对比,根据对比结果得到数据关联关系。
可选的,上述相关性计算公式为:
可选的,标准化数据为基于统计学公式构建,包括:
对用户历史数据中的语句进行分词处理,得到关键字;
对关键字使用统计学公式进行计算,根据计算结果得到相应关键字的重要度;
基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,基于标准关键字得到标准化数据。
可选的,上述统计学公式为:
可选的,基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,还包括:
基于历史数据获取包含标准关键字的语句;
计算语句中各个标准关键字之间的间距;
基于间距得到标准特征矩阵。
第二方面,本发明还提供了一种基于知识图谱健康管理装置,包括:
图谱模块,用于基于健康历史数据,构建健康知识图谱;
关联模块,用于对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将聚类分析结果与标准化数据进行关联,得到数据关联关系;
标准库构建模块,用于基于数据关联关系构建健康数据标准库;
对比模块,用于将接收到的用户输入数据在健康数据标准库中进行搜索比对,得到标准化数据;
查找模块,用于基于标准化数据在健康知识图谱中查找健康建议。
第三方面,本发明还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有能被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面所描述的基于知识图谱健康管理方法。
本发明提供的基于知识图谱健康管理方法、装置及电子设备,其中该基于知识图谱健康管理方法,通过构建健康知识图谱,然后通过构建的健康数据标准库,将用户的数据与标准库进行比对,从而查找到相应的健康建议,达到针对体检数据给出针对性建议的目的。
附图说明
通过结合附图对本发明示例性实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施例中,相同的参考标号通常代表相同部件。
图1为本发明实施例提供的一种基于知识图谱健康管理方法的流程图;
图2为本发明实施例提供的知识图谱的示意图;
图3为本发明实施例提供的一种基于知识图谱健康管理方法装置的原理框图;
图4为本发明实施例提供的一种电子设备的原理框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易的了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立的实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
为了便于理解,如图1所示,本实施例公开了一种基于知识图谱健康管理方法,包括:
步骤S101:基于健康历史数据,构建健康知识图谱;
知识图谱构建的方法包括基于网络百科资源的知识图谱构建方法、基于结构化数据的知识图谱构建方法、基于半结构化数据的知识图谱构建方法和基于非结构化数据的知识图谱构建方法。
基于网络百科资源的知识图谱构建方法通常会从维基百科、百度百科等资源中提取所需内容。以维基百科为例,可以通过它的文章页面采集各类实体,继而通过重定向页面采集实体的同义词,通过去歧义页面和内链锚文本采集它们的同音异义词,同时概念页面可以提供实体的概念及其上下文关系,文章页面关联的开放分类可以提供实体对应的类别。
基于结构化数据的知识图谱构建方法是将数据存储在关系型数据库中。目前知识图谱采用的结构化数据有DBPedia、Yago等通用语义数据集,以及MusicBrainz、DrugBank等特定领域的知识库。
基于半结构化数据的知识图谱构建方法,百科类的数据可以提供广泛的跨领域知识,然而在中文百科类的站点中,数据的结构化程度远比不上维基百科,许多属性隐藏在一些表格或列表中,此时需要对这些半结构化的数据进行抽取。一般可以构建面向站点的包装器,这种方法认为一个站点中的各个页面是由统一的程序动态生成的,它们之间具有相似的布局和结构。因此,可以通过对当前站点的典型页面进行分析,采用模式学习的方法构建一个或多个模式,采用这些模式实现自动化的信息抽取。自动学习模式可能会遗漏部分属性,并且会抽取出错误的结果,此时需要通过人工调整或新增模式等方法来进行改进。此外,采用AVP知识抽取的方法也可以对半结构化知识进行抽取。
基于非结构化数据的知识图谱构建方法,对于特定领域的知识图谱构建,采用百科类数据资源不一定能充分抽取该领域的知识,许多领域也缺乏结构化和半结构化的知识来源,此时非结构化数据是主要的知识数据来源。非结构化数据的知识抽取要比结构化数据、半结构化数据复杂得多,目前在知识图谱构建中应用并不广泛。NELL(Never-EndingLanguage Learning)是卡耐基梅隆大学推出的一个语义机器学习系统,该系统旨在从数亿的网页中根据输入的本体抽取知识实体以及这些知识间的联系。开放信息抽取项目(OpenInformation Extraction)从句法结构上通过对关系的语义进行挖掘,从而发现未知的实体关系。
知识图谱绘制包括:构建知识单元、构建单元关系和知识图谱的结构化展示。
知识单元的构建,知识单元是知识处理的基本单位。在绘制科学知识图谱时,常见的知识单元有:关键词、题名、刊名、学科、作者、机构、分类号等。
在绘制知识图谱时,由于信息来源具有多样性,如何对半结构化、非结构化的信息进行处理,抽取出有效的知识单元是绘制知识图谱的重要环节。当前采用较多的技术主要是利用文本挖掘对知识单元进行抽取,此外,元数据、自动标引技术也是知识单元抽取的重要方法。
知识单元关系的构建,为发现知识间的关系,更好的展示各单元,需要样本数据的进一步处理,即简化分析。当前采用较多的方式有关联分析、因子分析、多维尺度分析、自组织映射图、寻址网络图谱、聚类分析、潜在语义分析、最小生成树法等。
知识图谱的可视化展示,知识单元及其关系可以通过不同图形来可视化展示,例如几何图、战略图、冲积图、主题河图、地形图、星团图等。
在一个具体的应用场景中,构建的知识图谱中部分如图2所示。
步骤S102:对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将聚类分析结果与标准化数据进行关联,得到数据关联关系;
因不同医院或机构中对同一项目的检测名称可能存在差别,因此对历史数据进行聚类,并将聚类结果与标准化数据进行关联,从而将同一项目名称进行统一,并对检测项目的指标单位进行统一。
聚类分析方法具体如下:
1)将所有数据聚成一个簇,并设定初始簇函数的值为1;
2)将所有数据随机切分为N份得到N份数据,所述N≥10;
3)对N份数据进行聚类算法得到聚类值,该聚类算法可采用模型聚类算法;
4)计算聚类值的平均值;
5)如果平均值相对于初始设定值增加,则将簇函数的值+1,然后跳转到步骤2)执行,如果平均值对于初始设定值不再增加,则终止,当前簇函数的值即为最优簇函数的值。
步骤S103:基于数据关联关系构建健康数据标准库;
将项目名称和单位统一后,使用统一的标准库对该检测项目进行表述,如螺旋杆菌检测都采用螺旋杆菌名称,单位也都统一,如有其他机构叫螺旋菌等都通过聚类分析后统一为螺旋杆菌,并保存该数据关联关系,如以后用户再输入螺旋菌后,均关联到螺旋杆菌。
步骤S104:将接收到的用户输入数据在健康数据标准库中进行搜索比对,得到标准化数据;
即用户拿到体检报告时,如对某个指标或对整页体检结果都不明白,则可以将某项指标或整页报告都输入到交互页面。如上述示例中的螺旋杆菌。
步骤S105:基于标准化数据在健康知识图谱中查找健康建议。
将用户输入的数据基于上述的数据关联关系转换为标准化数据后,使用标准化数据在数据库内检索,即可以根据检索项目和知识图谱查找到具体的建议。
如在一个具体的应用场景中,构建的知识图谱中包括肠胃-螺旋杆菌-数据大于S且年龄等其他指标符合要求时,去医院找医生进行专业治疗,如小于S且大于W,复查,如小于W则不用处理等。
可选的,基于健康历史数据,构建健康知识图谱,包括:
获取健康历史数据中的检测项目数据、检测结果数据和结果建议数据;
构建检测项目数据、该检测项目检测结果数据和结果建议数据之间的链式数据结构;
基于链式数据结构和人体结构数据构建健康知识图谱。
可选的,将接收到的用户输入数据在健康数据标准库中进行搜索比对,包括:
接收用户输入的图像信息;
对图像信息中的字符进行识别;
基于识别的信息在健康数据标准库中进行搜索比对。
对用户输入的检测报告进行识别,从而识别出相应的检测项目,然后依据识别到的检测项目在数据库中搜索。
可选的,将聚类分析结果与标准化数据进行关联,得到数据关联关系,包括:
将聚类分析结果进行特征向量计算得到Z个聚类特征矩阵T={TY1,TY2,…,TYm},Y≤Z,TYm表示第Y个聚类分析结果中第m个关键字的特征向量值;
对标准化数据进行计算得到n个标准特征矩阵,每个特征矩阵表示为P={PX1,PX2,…,PXk},k为常数,X≤n,PXk表示第X个标准特征矩阵中第k个关键字的特征向量值;
将Z个聚类特征矩阵分别与n个标准特征矩阵进行相关性计算,得到相关性参数;
将相关性参数与设置阈值进行对比,根据对比结果得到数据关联关系。
特征向量计算具体为:将分词后的所有关键字组成字符表D,D={d1,d2,…,dn},其中di表示一个关键字,i∈[1 n]。将每个词E的词特征向量表示为V={V1,V2,…,Vn}其中Vi代表关键字是否对应字符表D中的di。具体如下:
分别对聚类分析结果和标准化数据处理后得到相应特征向量矩阵。
可选的,相关性计算公式为:
其中,z,x为计算参数,CA(T,P)为相关性参数。
可选的,标准化数据为基于统计学公式构建,包括:
对用户历史数据中的语句进行分词处理,得到关键字;
对关键字使用统计学公式进行计算,根据计算结果得到相应关键字的重要度;
基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,基于标准关键字得到标准化数据。
可选的,统计学公式为:
可选的,基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,还包括:
基于历史数据获取包含标准关键字的语句;
计算语句中各个标准关键字之间的间距;
基于间距得到标准特征矩阵。
如螺旋杆菌,通过计算“旋杆菌”中各个关键字与“螺”的间距,构建标准矩阵为,如螺旋杆菌的特征值不计算间距,则有多个矩阵,而通过计算间距,并依据“螺”为基准,则只得到一个矩阵。
如图3所示,本发明实施例还公开了一种基于知识图谱健康管理装置,包括:
图谱模块,用于基于健康历史数据,构建健康知识图谱;
关联模块,用于对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将聚类分析结果与标准化数据进行关联,得到数据关联关系;
标准库构建模块,用于基于数据关联关系构建健康数据标准库;
对比模块,用于将接收到的用户输入数据在健康数据标准库中进行搜索比对,得到标准化数据;
查找模块,用于基于标准化数据在健康知识图谱中查找健康建议。
另一方面,本实施例还公开了一种电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体的,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本发明的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本发明各实施例的基于知识图谱健康管理方法全部或部分步骤。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本发明的保护范围之内。
如图4为本发明实施例提供的一种电子设备的结构示意图。其示出了适于用来实现本发明实施例中的电子设备的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如传感器或者视觉信息采集设备等的输入装置;包括例如显示屏等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备(比如边缘计算设备)进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别的,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本发明实施例的基于知识图谱健康管理方法的全部或部分步骤。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
根据本发明实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本发明各实施例的基于知识图谱健康管理方法的全部或部分步骤。
上述计算机可读存储介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”“包含”“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本发明的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本发明的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (6)
1.一种基于知识图谱健康管理方法,其特征在于,包括:
基于健康历史数据,构建健康知识图谱;
对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将所述聚类分析结果与标准化数据进行关联,得到数据关联关系;
聚类分析方法包括:
1)将所有数据聚成一个簇,并设定初始簇函数的值为1;
2)将所有数据随机切分为N份得到N份数据,所述N≥10;
3)对N份数据进行聚类算法得到聚类值;
4)计算聚类值的平均值;
5)如果平均值相对于初始设定值增加,则将簇函数的值+1,然后跳转到步骤2)执行,如果平均值对于初始设定值不再增加,则终止,当前簇函数的值即为最优簇函数的值;
基于所述数据关联关系构建健康数据标准库;
将接收到的用户输入数据在所述健康数据标准库中进行搜索比对,得到标准化数据;
基于所述标准化数据在所述健康知识图谱中查找健康建议;
将聚类分析结果与标准化数据进行关联,得到数据关联关系,包括:
将聚类分析结果进行特征向量计算得到Z个聚类特征矩阵T={TY1,TY2,…,TYm},Y≤Z,TYm表示第Y个聚类分析结果中第m个关键字的特征向量值;
特征向量计算具体为:将分词后的所有关键字组成字符表D,D={d1,d2,…,dn},其中di表示一个关键字,i∈[1n];将每个词E的词特征向量表示为V={V1,V2,…,Vn}其中Vi代表关键字是否对应字符表D中的di;具体如下:
分别对聚类分析结果和标准化数据处理后得到相应特征向量矩阵;
对标准化数据进行计算得到n个标准特征矩阵,每个特征矩阵表示为P={PX1,PX2,…,PXk},k为常数,X≤n,PXk表示第X个标准特征矩阵中第k个关键字的特征向量值;
将Z个聚类特征矩阵分别与n个标准特征矩阵进行相关性计算,得到相关性参数;
将相关性参数与设置阈值进行对比,根据对比结果得到数据关联关系;
所述相关性计算公式为:
其中,z,x为计算参数,CA(T,P)为相关性参数;
所述标准化数据为基于统计学公式构建,包括:
对用户历史数据中的语句进行分词处理,得到关键字;
对关键字使用统计学公式进行计算,根据计算结果得到相应关键字的重要度;
基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,基于标准关键字得到标准化数据;
所述统计学公式为:
其中,Wi表示重要度,fi表示该关键字出现的频率,L表示历史数据中关键字总数,li表示包含该关键字语句的数量。
2.根据权利要求1所述的基于知识图谱健康管理方法,其特征在于,所述基于健康历史数据,构建健康知识图谱,包括:
获取健康历史数据中的检测项目数据、检测结果数据和结果建议数据;
构建检测项目数据、该检测项目的检测结果数据和结果建议数据之间的链式数据结构;
基于所述链式数据结构和人体结构数据构建健康知识图谱。
3.根据权利要求1所述的基于知识图谱健康管理方法,其特征在于,所述将接收到的用户输入数据在所述健康数据标准库中进行搜索比对,包括:
接收用户输入的图像信息;
对所述图像信息中的字符进行识别;
基于识别的信息在所述健康数据标准库中进行搜索比对。
4.根据权利要求1所述的基于知识图谱健康管理方法,所述基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,还包括:
基于历史数据获取包含标准关键字的语句;
计算语句中各个标准关键字之间的间距;
基于间距得到标准特征矩阵。
5.一种基于知识图谱健康管理装置,其特征在于,包括:
图谱模块,用于基于健康历史数据,构建健康知识图谱;
关联模块,用于对获取的用户历史数据进行聚类分析,得到聚类分析结果,并将聚类分析结果与标准化数据进行关联,得到数据关联关系;
标准库构建模块,用于基于数据关联关系构建健康数据标准库;
对比模块,用于将接收到的用户输入数据在健康数据标准库中进行搜索比对,得到标准化数据;
查找模块,用于基于标准化数据在健康知识图谱中查找健康建议;
聚类分析方法包括:
1)将所有数据聚成一个簇,并设定初始簇函数的值为1;
2)将所有数据随机切分为N份得到N份数据,所述N≥10;
3)对N份数据进行聚类算法得到聚类值;
4)计算聚类值的平均值;
5)如果平均值相对于初始设定值增加,则将簇函数的值+1,然后跳转到步骤2)执行,如果平均值对于初始设定值不再增加,则终止,当前簇函数的值即为最优簇函数的值;
将聚类分析结果与标准化数据进行关联,得到数据关联关系,包括:
将聚类分析结果进行特征向量计算得到Z个聚类特征矩阵T={TY1,TY2,…,TYm},Y≤Z,TYm表示第Y个聚类分析结果中第m个关键字的特征向量值;
特征向量计算具体为:将分词后的所有关键字组成字符表D,D={d1,d2,…,dn},其中di表示一个关键字,i∈[1n];将每个词E的词特征向量表示为V={V1,V2,…,Vn}其中Vi代表关键字是否对应字符表D中的di;具体如下:
分别对聚类分析结果和标准化数据处理后得到相应特征向量矩阵;
对标准化数据进行计算得到n个标准特征矩阵,每个特征矩阵表示为P={PX1,PX2,…,PXk},k为常数,X≤n,PXk表示第X个标准特征矩阵中第k个关键字的特征向量值;
将Z个聚类特征矩阵分别与n个标准特征矩阵进行相关性计算,得到相关性参数;
将相关性参数与设置阈值进行对比,根据对比结果得到数据关联关系;
所述相关性计算公式为:
其中,z,x为计算参数,CA(T,P)为相关性参数;
所述标准化数据为基于统计学公式构建,包括:
对用户历史数据中的语句进行分词处理,得到关键字;
对关键字使用统计学公式进行计算,根据计算结果得到相应关键字的重要度;
基于重要度筛选得到重要关键字,对重要关键字进行归一化处理得到标准关键字,基于标准关键字得到标准化数据;
所述统计学公式为:
其中,Wi表示重要度,fi表示该关键字出现的频率,L表示历史数据中关键字总数,li表示包含该关键字语句的数量。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4任意一项所述的基于知识图谱健康管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211118869.7A CN115206533B (zh) | 2022-09-15 | 2022-09-15 | 基于知识图谱健康管理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211118869.7A CN115206533B (zh) | 2022-09-15 | 2022-09-15 | 基于知识图谱健康管理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115206533A CN115206533A (zh) | 2022-10-18 |
CN115206533B true CN115206533B (zh) | 2023-06-20 |
Family
ID=83572371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211118869.7A Active CN115206533B (zh) | 2022-09-15 | 2022-09-15 | 基于知识图谱健康管理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115206533B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925216A (zh) * | 2022-05-20 | 2022-08-19 | 阿里巴巴(北京)软件服务有限公司 | 基于知识图谱的健康管理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11521717B2 (en) * | 2014-02-21 | 2022-12-06 | Intelligent Medical Objects, Inc. | System and method for generating and updating a user interface to evaluate an electronic medical record |
CN108182262B (zh) * | 2018-01-04 | 2022-03-04 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN108898170B (zh) * | 2018-06-19 | 2022-02-01 | 江苏中盈高科智能信息股份有限公司 | 一种基于模糊聚类分析的智能组卷方法 |
CN112863630A (zh) * | 2021-01-20 | 2021-05-28 | 中国科学院自动化研究所 | 基于数据和知识的个性化精准医疗问答系统 |
-
2022
- 2022-09-15 CN CN202211118869.7A patent/CN115206533B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925216A (zh) * | 2022-05-20 | 2022-08-19 | 阿里巴巴(北京)软件服务有限公司 | 基于知识图谱的健康管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115206533A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
Hashimoto et al. | Topic detection using paragraph vectors to support active learning in systematic reviews | |
Sinoara et al. | Text mining and semantics: a systematic mapping study | |
El-Kishky et al. | Scalable topical phrase mining from text corpora | |
Mishra et al. | Text summarization in the biomedical domain: a systematic review of recent research | |
AU2017250467B2 (en) | Query optimizer for combined structured and unstructured data records | |
US20150006528A1 (en) | Hierarchical data structure of documents | |
GB2569952A (en) | Method and system for identifying key terms in digital document | |
Wan et al. | Extracting relations from traditional Chinese medicine literature via heterogeneous entity networks | |
CN114706972B (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
JP2021136027A (ja) | 文書のテーマ・カバレッジの分析 | |
Karami | Fuzzy topic modeling for medical corpora | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN115017315A (zh) | 一种前沿主题识别方法、系统及计算机设备 | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
de Diego et al. | System for evaluating the reliability and novelty of medical scientific papers | |
Dahlberg et al. | A distributional semantic online lexicon for linguistic explorations of societies | |
Bi et al. | Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction | |
KR20130097475A (ko) | 의료 프로세스 모델링 및 검증 방법 | |
Juckett et al. | Concept detection using text exemplars aligned with a specialized ontology | |
Rahul et al. | Social media sentiment analysis for Malayalam | |
CN115206533B (zh) | 基于知识图谱健康管理方法、装置及电子设备 | |
Adhikari et al. | Explaining mixture models through semantic pattern mining and banded matrix visualization | |
JP2009223560A (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
Cunha et al. | How you post is who you are: Characterizing Google+ status updates across social groups |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |