CN115620915A - 基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备 - Google Patents
基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN115620915A CN115620915A CN202211117539.6A CN202211117539A CN115620915A CN 115620915 A CN115620915 A CN 115620915A CN 202211117539 A CN202211117539 A CN 202211117539A CN 115620915 A CN115620915 A CN 115620915A
- Authority
- CN
- China
- Prior art keywords
- disease
- label
- data
- labels
- patient information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例公开了基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备。所述方法包括:构建疾病数据库;获取就诊文件的图片;对图片进行文本识别,以得到患者信息;将患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;将疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。通过实施本发明实施例的方法可对诊疗数据进行挖掘,提升用户画像维度。
Description
技术领域
本发明涉及用户画像标签,更具体地说是指基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备。
背景技术
用户画像又称作用户角色,作为一种描述目标用户、联系用户需求的有效工具,用户画像在各领域均得到了广泛的应用。作为实际用户的虚拟形象,用户画像所形成的用户角色不是脱离产品和市场之外所虚构出来的,形成的用户角色需要有代表性,即能够代表产品的主要受众和目标群体。
但是目前大健康领域在构建用户画像的时候,没有和用户诊疗数据进行整合,无法完整构建用户的画像,存在信息缺失,画像不完整。
因此,有必要设计一种新的方法,实现对诊疗数据进行挖掘,提升用户画像维度。
发明内容
本发明的目的在于克服现有技术的缺陷,提供基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备。
为实现上述目的,本发明采用以下技术方案:基于诊疗数据的用户画像标签挖掘方法,包括:
构建疾病数据库;
获取就诊文件的图片;
对所述图片进行文本识别,以得到患者信息;
将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;
将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;
将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;
将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;
确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
其进一步技术方案为:所述构建疾病数据库,包括:
采用图数据库创建疾病数据库;
将疾病诊断信息以及药物治疗方案作为节点进行存储;
对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
其进一步技术方案为:所述就诊文件包括病历及缴费清单文件。
其进一步技术方案为:所述对所述图片进行文本识别,以得到患者信息,包括:
利用OCR图像识别技术将所述图片转换为文本;
从所述文本中提取患者的相关数据,以得到患者信息。
其进一步技术方案为:所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
本发明还提供了基于诊疗数据的用户画像标签挖掘装置,包括:
数据库构建单元,用于构建疾病数据库;
图片获取单元,用于获取就诊文件的图片;
文本识别单元,用于对所述图片进行文本识别,以得到患者信息;
比较单元,用于将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;
分析单元,用于将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;
存储单元,用于将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;
加权统计单元,用于将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;
标签确定单元,用于确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
其进一步技术方案为:所述数据库构建单元包括:
创建子单元,用于采用图数据库创建疾病数据库;
节点存储子单元,用于将疾病诊断信息以及药物治疗方案作为节点进行存储;
拆词子单元,用于对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
其进一步技术方案为:所述文本识别单元包括:
转换子单元,用于利用OCR图像识别技术将所述图片转换为文本;
提取子单元,用于从所述文本中提取患者的相关数据,以得到患者信息。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过对就诊文件的图片文字识别后,提取患者信息,并将疾病数据库内的行为数据和就诊文件进行标签化挖掘,提升了用户画像的全面性,可找出患者诊疗和患者行为的相关性,实现对诊疗数据进行挖掘,提升用户画像维度。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的应用场景示意图;
图2为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的流程示意图;
图3为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的子流程示意图;
图4为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的子流程示意图;
图5为本发明实施例提供的基于诊疗数据的用户画像标签挖掘装置的示意性框图;
图6为本发明实施例提供的基于诊疗数据的用户画像标签挖掘装置的数据库构建单元的示意性框图;
图7为本发明实施例提供的基于诊疗数据的用户画像标签挖掘装置的文本识别单元的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的应用场景示意图。图2为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的示意性流程图。该基于诊疗数据的用户画像标签挖掘方法应用于服务器中。该服务器与终端进行数据交互,通过终端输入就诊文件的图片,利用图数据库和NLP自动分词技术,通过标签化挖掘系统,分层存储将患者诊疗数据标签化,和用户行为数据历史数据标签进行加权统计,并通过人工智能算法,将患者诊疗数据和用户历史行为进行聚类分析,若用户诊疗数据和用户行为数据存在比较强的相关性,则更新用户画像标签。
图2是本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的流程示意图。如图2所示,该方法包括以下步骤S110至S180。
S110、构建疾病数据库。
在本实施例中,疾病数据库是指将疾病诊断信息以及药物治疗方案作为节点,且将节点的数据进行拆词形成标签后构成的数据库。
在一实施例中,请参阅图3,上述的步骤S110可包括步骤S111~S113。
S111、采用图数据库创建疾病数据库;
S112、将疾病诊断信息以及药物治疗方案作为节点进行存储;
S113、对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
在本实施例中,将历史就诊的疾病诊断信息以及药物治疗方案作为数据库的节点进行分类存储,对于每个类别内的数据采用拆词的方式确定数据标签。
S120、获取就诊文件的图片。
在本实施例中,患者在就诊结束后,从医院获得纸质打印诊疗文件。患者将纸质病历及缴费清单文件通过手机拍照并上传,上述的就诊文件包括病历及缴费清单文件。
S130、对所述图片进行文本识别,以得到患者信息。
在本实施例中,患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
在一实施例中,请参阅图4,上述的步骤S130可包括步骤S131~S132。
S131、利用OCR图像识别技术将所述图片转换为文本;
S132、从所述文本中提取患者的相关数据,以得到患者信息。
具体是先将图片转换为文本,再采用关键词或者词义识别提取相关数据。
S140、将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签。
在本实施例中,疾病及药物治疗标签是指所述患者信息与节点的数据对应的信息。
确定患者信息中与疾病数据库中节点对应的数据同一类别的信息,以此确定与用户画像相关的数据。
具体地,基于内容的推荐算法的原理如下:为每种疾病构建一个疾病属性资料库;为每个用户构建一个基于诊疗数据的属性资料库;计算用户诊疗数据属性与疾病属性的相似程度,相似度高表示用户可能属于这个疾病,相似度低表示用户不属于这个疾病。
其中,疾病属性资料一般包含疾病定义、疾病分类、基本病因、典型症状、前兆、并发症或伴发表现、病史、相关化验、诊断标准、就诊科室、治疗目标、一般治疗方法、药物治疗方法、手术治疗方法、中医治疗方法、前沿治疗方法、日常生活管理、特殊注意事项、预防等信息。
用户诊疗数据属性资料包含用户电子病历、传统检验检测项目结果(生化、免疫、pcr等)、新兴检验检测项目结果(基因测序等)、医生用药选择、诊疗路径记录、网络行为数据、通过可穿戴设备收集的体征类健康管理数据等。
计算用户诊疗数据属性资料与疾病属性资料的相似度,受数据标准差异、个体行为差异、个体疾病发展阶段的差异,一个用户的诊疗数据属性与疾病属性资料几乎不可能完全相同,因此想要完全一样是非常困难的,因此需要对相似度进行计算。计算推荐依据:利用余弦相似度的公式来计算给定的User“U”和给定的Item“I”之间的距离。余弦相似度的值越大说明U越有可能属于I。余弦相似度的具体计算方法如下:在疾病分类的例子中:Ua表示,用户U对疾病分类a的匹配(即User Profiles矩阵中,症状a对应的值)。Ia表示,疾病分类I是否包含疾病症状a(即Item Profiles矩阵中,疾病a对应的值)。当计算值越接近1,表明两个向量的夹角越接近0度,则两个向量越相似,即用户当前健康状态与疾病资料库中的某个分类越接近,从而推论出患者的健康属于当前某种状态而采取对应的推荐任务序列。
S150、将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签。
将疾病及药物治疗标签和患者的姓名、性别、年龄、疾病、治疗用药品进行聚类分析,若患者信息和标签信息存在强相关性,则将结构化的疾病及药物治疗标签作为用户标签进行存储。
S160、将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签。
在本实施例中,新标签是指与患者信息有强关联性的疾病及药物治疗标签。
S170、将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果。
在本实施例中,统计结果是指新标签与疾病数据库中已有的数据标签进行加权求和得到的结果。
S180、确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
利用图数据库和NLP自动分词技术,通过标签化挖掘系统,分层存储将患者诊疗数据标签化和并和用户行为数据历史数据标签进行加权统计,并通过人工智能算法,将患者诊疗数据和用户历史行为进行聚类分析,若用户诊疗数据和用户行为数据存在比较强的相关性,则更新用户画像标签。
用户画像标签表示基于诊疗数据和用户行为与多层次目标对象的单向亲密度。对用患者的诊疗数据进行分析处理并提取特征对标签加以分析构建用户在本领域的基础画像。通过将患者行为数据和诊疗数据进行重构和挖掘分析,找到用户行为和诊疗数据的强相关性,提高患者画像泛化权重,提升了用户画像的全面性。
上述的基于诊疗数据的用户画像标签挖掘方法,通过对就诊文件的图片文字识别后,提取患者信息,并将疾病数据库内的行为数据和就诊文件进行标签化挖掘,提升了用户画像的全面性,可找出患者诊疗和患者行为的相关性,实现对诊疗数据进行挖掘,提升用户画像维度。
图5是本发明实施例提供的一种基于诊疗数据的用户画像标签挖掘装置300的示意性框图。如图5所示,对应于以上用户画像标签挖掘方法,本发明还提供一种基于诊疗数据的用户画像标签挖掘装置300。该用户画像标签挖掘装置300包括用于执行上述基于诊疗数据的用户画像标签挖掘方法的单元,该装置可以被配置于服务器中。具体地,请参阅图5,该基于诊疗数据的用户画像标签挖掘装置300包括数据库构建单元301、图片获取单元302、文本识别单元303、比较单元304、分析单元305、存储单元306、加权统计单元307以及标签确定单元308。
数据库构建单元301,用于构建疾病数据库;图片获取单元302,用于获取就诊文件的图片;文本识别单元303,用于对所述图片进行文本识别,以得到患者信息;比较单元304,用于将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;分析单元305,用于将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;存储单元306,用于将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;加权统计单元307,用于将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;标签确定单元308,用于确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
在一实施例中,如图6所示,所述数据库构建单元301包括创建子单元3011、节点存储子单元3012以及拆词子单元3013。
创建子单元3011,用于采用图数据库创建疾病数据库;节点存储子单元3012,用于将疾病诊断信息以及药物治疗方案作为节点进行存储;拆词子单元3013,用于对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
在一实施例中,如图7所示,所述文本识别单元303包括转换子单元3031以及提取子单元3032。
转换子单元3031,用于利用OCR图像识别技术将所述图片转换为文本;提取子单元3032,用于从所述文本中提取患者的相关数据,以得到患者信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于诊疗数据的用户画像标签挖掘装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述基于诊疗数据的用户画像标签挖掘装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种基于诊疗数据的用户画像标签挖掘方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种基于诊疗数据的用户画像标签挖掘方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
构建疾病数据库;
获取就诊文件的图片;对所述图片进行文本识别,以得到患者信息;将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
其中,所述就诊文件包括病历及缴费清单文件。
所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
在一实施例中,处理器502在实现所述构建疾病数据库步骤时,具体实现如下步骤:
采用图数据库创建疾病数据库;将疾病诊断信息以及药物治疗方案作为节点进行存储;对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
在一实施例中,处理器502在实现所述对所述图片进行文本识别,以得到患者信息步骤时,具体实现如下步骤:
利用OCR图像识别技术将所述图片转换为文本;从所述文本中提取患者的相关数据,以得到患者信息。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
构建疾病数据库;获取就诊文件的图片;对所述图片进行文本识别,以得到患者信息;将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
其中,所述就诊文件包括病历及缴费清单文件。
所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
在一实施例中,所述处理器在执行所述计算机程序而实现所述构建疾病数据库步骤时,具体实现如下步骤:
采用图数据库创建疾病数据库;将疾病诊断信息以及药物治疗方案作为节点进行存储;对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述图片进行文本识别,以得到患者信息步骤时,具体实现如下步骤:
利用OCR图像识别技术将所述图片转换为文本;从所述文本中提取患者的相关数据,以得到患者信息。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.基于诊疗数据的用户画像标签挖掘方法,其特征在于,包括:
构建疾病数据库;
获取就诊文件的图片;
对所述图片进行文本识别,以得到患者信息;
将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;
将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;
将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;
将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;
确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
2.根据权利要求1所述的基于诊疗数据的用户画像标签挖掘方法,其特征在于,所述构建疾病数据库,包括:
采用图数据库创建疾病数据库;
将疾病诊断信息以及药物治疗方案作为节点进行存储;
对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
3.根据权利要求1所述的基于诊疗数据的用户画像标签挖掘方法,其特征在于,所述就诊文件包括病历及缴费清单文件。
4.根据权利要求1所述的基于诊疗数据的用户画像标签挖掘方法,其特征在于,所述对所述图片进行文本识别,以得到患者信息,包括:
利用OCR图像识别技术将所述图片转换为文本;
从所述文本中提取患者的相关数据,以得到患者信息。
5.根据权利要求1所述的基于诊疗数据的用户画像标签挖掘方法,其特征在于,所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
6.基于诊疗数据的用户画像标签挖掘装置,其特征在于,包括:
数据库构建单元,用于构建疾病数据库;
图片获取单元,用于获取就诊文件的图片;
文本识别单元,用于对所述图片进行文本识别,以得到患者信息;
比较单元,用于将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较,以得到疾病及药物治疗标签;
分析单元,用于将所述疾病及药物治疗标签、所述患者信息进行聚类分析,以确定强关联性的患者信息、疾病及药物治疗标签;
存储单元,用于将强关联性的疾病及药物治疗标签作为用户标签进行存储,以得到新标签;
加权统计单元,用于将所述新标签与疾病数据库中已有的数据标签进行加权统计,以得到统计结果;
标签确定单元,用于确定所述统计结果中分数最高的标签,并进行用户画像标签的标注。
7.根据权利要求6所述的基于诊疗数据的用户画像标签挖掘装置,其特征在于,所述数据库构建单元包括:
创建子单元,用于采用图数据库创建疾病数据库;
节点存储子单元,用于将疾病诊断信息以及药物治疗方案作为节点进行存储;
拆词子单元,用于对所述节点利用NLP自然语言处理技术进行拆词,将拆词后的结果作为数据标签并进行存储。
8.根据权利要求6所述的基于诊疗数据的用户画像标签挖掘装置,其特征在于,所述文本识别单元包括:
转换子单元,用于利用OCR图像识别技术将所述图片转换为文本;
提取子单元,用于从所述文本中提取患者的相关数据,以得到患者信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117539.6A CN115620915A (zh) | 2022-09-14 | 2022-09-14 | 基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117539.6A CN115620915A (zh) | 2022-09-14 | 2022-09-14 | 基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620915A true CN115620915A (zh) | 2023-01-17 |
Family
ID=84859372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211117539.6A Pending CN115620915A (zh) | 2022-09-14 | 2022-09-14 | 基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620915A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116344011A (zh) * | 2023-05-29 | 2023-06-27 | 肇庆市高要区人民医院 | 一种病历建档管理方法及系统 |
-
2022
- 2022-09-14 CN CN202211117539.6A patent/CN115620915A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116344011A (zh) * | 2023-05-29 | 2023-06-27 | 肇庆市高要区人民医院 | 一种病历建档管理方法及系统 |
CN116344011B (zh) * | 2023-05-29 | 2023-08-15 | 肇庆市高要区人民医院 | 一种病历建档管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948298B2 (en) | System to collect and identify medical conditions from images and expert knowledge | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
EP2922018A1 (en) | Medical information analysis program, medical information analysis device, and medical information analysis method | |
CN112530550A (zh) | 影像报告生成方法、装置、计算机设备和存储介质 | |
US10832822B1 (en) | Methods and systems for locating therapeutic remedies | |
Shankar et al. | A novel discriminant feature selection–based mutual information extraction from MR brain images for Alzheimer's stages detection and prediction | |
CN115620915A (zh) | 基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备 | |
CN114758742A (zh) | 病历信息处理方法、装置、电子设备及存储介质 | |
WO2022227171A1 (zh) | 关键信息提取方法、装置、电子设备及介质 | |
Li et al. | Semisupervised learning from different information sources | |
CN112151187B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
JP7315165B2 (ja) | 診断支援システム | |
US20230223132A1 (en) | Methods and systems for nutritional recommendation using artificial intelligence analysis of immune impacts | |
CN115602332A (zh) | 基于用药数据的用户画像标签挖掘方法、装置及计算机设备 | |
CN116884612A (zh) | 疾病风险等级的智能分析方法、装置、设备及存储介质 | |
Neustein et al. | Application of text mining to biomedical knowledge extraction: analyzing clinical narratives and medical literature | |
CN114758743A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
US20210133627A1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
CN114218378A (zh) | 一种基于知识图谱的内容推送方法、装置、设备及介质 | |
Karisani et al. | Topology and redescriptions detect multiple alternative biological pathways from clinical phenotypes | |
US20230317279A1 (en) | Method and system for medical diagnosis using graph embeddings | |
Cho et al. | Application of Disease Pattern Analysis with Lifestyle Risk Factor for Healthcare Promotion Service | |
Ashour et al. | Knowledge Mining from Medical Images | |
CN116403674A (zh) | 用药数据处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |