CN108172304B

CN108172304B - 一种基于用户医疗反馈的医疗信息可视化处理方法及系统

Info

Publication number: CN108172304B
Application number: CN201711368671.3A
Authority: CN
Inventors: 林瞰
Original assignee: Guangzhou 7lk Pharmaceutical Chain Co ltd
Current assignee: Guangzhou qilekang Digital Health Medical Technology Co.,Ltd.
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2021-04-02
Anticipated expiration: 2037-12-18
Also published as: CN108172304A

Abstract

本发明公开了一种基于用户医疗反馈的医疗信息可视化处理方法及系统，基于用户医疗反馈信息进行关键字提取；根据关键字在对应的医疗文献数据库进行检索，获取与关键字相关的医疗文献；采用TF‑IDF算法对医疗文献进行关键字提取处理并构建关键字集合；采用Canopy‑Kmeans聚类算法对关键字集合内的集合关键字进行聚类处理，获取关键字集合内的集合关键字的K个聚簇；以K个聚簇为中心进行构建集合关键字云可视化处理，获取K个可视化集合关键字云；在K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户对需求进行云可视化显示。在本发明实施例中，可以根据用户医疗反馈信息进行对应的医疗信息可视化显示，提高用户的使用体验感。

Description

一种基于用户医疗反馈的医疗信息可视化处理方法及系统

技术领域

本发明涉及数字医疗技术领域，尤其涉及一种基于用户医疗反馈的医疗信息可视化处理方法及系统。

背景技术

目前我国心脑血病和慢性病患者众多，全国有心血管病患者约3亿，至少有5.8亿人具有至少一种或以上的与慢病有关的危险因素，到2030年，中国的慢病负担将增长50％。2016年，国务院七部委联合发布《关于印发推进家庭医生签约服务指导意见的通知》(国医改办发〔2016〕1号)，要求到2017年，家庭医生签约服务覆盖率达到30％以上，重点人群签约服务覆盖率达到60％以上，重点人群主要包括高血压、糖尿病、结核病等慢性疾病患者。到2020年，力争将签约服务扩大到全人群，形成长期稳定的契约服务关系，基本实现家庭医生签约服务制度的全覆盖。权威调查数据显示，在大医院看病的人群中有70％的患者并不需要现场治疗，只需要在线或者移动端进行问诊服务即可，可以大大解决这部分人群的需求，减轻医生的工作负担，提高医疗服务水平和效率。

然而，在用户在线问诊的时候，用户反馈医疗信息之后，平台反馈或者推送的医疗信息显示相对比较传统，有时候还会比较凌乱，对于现在的年轻用户来说是非常之不友好的，或者不符合年轻用户的浏览习惯。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于用户医疗反馈的医疗信息可视化处理方法及系统，可以根据用户医疗反馈信息进行对应的医疗信息可视化显示，提高用户的使用体验感。

为了解决上述技术问题，本发明实施例提供了一种基于用户医疗反馈的医疗信息可视化处理方法，所述医疗信息可视化处理方法包括：

获取用户医疗反馈信息，基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字；

根据所述关键字在对应的医疗文献数据库进行检索，获取与关键字相关的医疗文献；

采用TF-IDF算法对所述医疗文献进行关键字提取处理并构建关键字集合，获取所述医疗文献的关键字集合；

采用Canopy-Kmeans聚类算法对所述关键字集合内的集合关键字进行聚类处理，获取所述关键字集合内的集合关键字的K个聚簇；

以所述K个聚簇为中心进行构建集合关键字云可视化处理，获取K个可视化集合关键字云；

在所述K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户对所述需求进行云可视化显示。

优选地，所述基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字，包括：

对所述用户医疗反馈信息进行杂质去除和文本信息提取处理，获取反馈文本信息；

对所述反馈文本信息进行分成处理，获取所述反馈文本信息的关键字。

优选地，所述根据所述关键字在对应的医疗文献数据库进行检索，包括：

根据所述关键字基于所述医疗文献数据库的检索规则生成检索式；

采用所述检索式在所述医疗文献数据库进行检索，获取与关键字相关的医疗文献。

优选地，所述采用Canopy-Kmeans聚类算法对所述关键字集合内的集合关键字进行聚类处理，包括：

采用Canopy聚类方式对所述关键字集合内的集合关键字进行初步聚类，获取Canopy为中心的集合关键字初步聚簇；

根据所述集合关键字初步聚簇进行Kmeans聚类处理，获取所述关键字集合内的集合关键字的K个聚簇。

优选地，所述以所述K个聚簇为中心进行构建集合关键字云可视化处理，包括：

以所述K个聚簇为中心进行LDA主题分析，获取分析结果；

计算所述用户医疗反馈信息的关键字与所述K个聚簇的集合关键字之间相似度，获取计算结果；

根据所述分析结果和所述计算结果进行云可视化处理，获取K个可视化集合关键字云。

另外，本发明实施例还提供了一种基于用户医疗反馈的医疗信息可视化处理系统，所述医疗信息可视化处理系统包括：

第一关键字获取模块：用于获取用户医疗反馈信息，基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字；

检索模块：用于根据所述关键字在对应的医疗文献数据库进行检索，获取与关键字相关的医疗文献；

第二关键字获取模块：用于采用TF-IDF算法对所述医疗文献进行关键字提取处理并构建关键字集合，获取所述医疗文献的关键字集合；

聚类模块：用于采用Canopy-Kmeans聚类算法对所述关键字集合内的集合关键字进行聚类处理，获取所述关键字集合内的集合关键字的K个聚簇；

云可视化构建模块：用于以所述K个聚簇为中心进行构建集合关键字云可视化处理，获取K个可视化集合关键字云；

云显示模块：用于在所述K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户对所述需求进行云可视化显示。

优选地，所述第一关键字获取模块包括：

文本信息获取单元：用于对所述用户医疗反馈信息进行杂质去除和文本信息提取处理，获取反馈文本信息；

分词处理单元：用于对所述反馈文本信息进行分词处理，获取所述反馈文本信息的关键字。

优选地，所述检索模块包括：

检索式生成单元：用于根据所述关键字基于所述医疗文献数据库的检索规则生成检索式；

检索单元：用于采用所述检索式在所述医疗文献数据库进行检索，获取与关键字相关的医疗文献。

优选地，所述聚类模块包括：

第一聚类单元：用于采用Canopy聚类方式对所述关键字集合内的集合关键字进行初步聚类，获取Canopy为中心的集合关键字初步聚簇；

第二聚类单元：用于根据所述集合关键字初步聚簇进行Kmeans聚类处理，获取所述关键字集合内的集合关键字的K个聚簇。

优选地，所述云可视化构建模块包括：

主题分析单元：用于以所述K个聚簇为中心进行LDA主题分析，获取分析结果；

计相似度计算单元：用于算所述用户医疗反馈信息的关键字与所述K个聚簇的集合关键字之间相似度，获取计算结果；

云可视化构建单元：用于根据所述分析结果和所述计算结果进行云可视化处理，获取K个可视化集合关键字云。

在本发明实施例中，根据用户反馈的医疗信息再次在医疗数据库中进行相应的检索、聚类、可视化等处理之后，可以根据用户的浏览习惯或者用户的浏览喜好对系统反馈的医疗信息进行可视化显示，提高用户的使用体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于用户医疗反馈的医疗信息可视化处理方法的流程示意图；

图2是本发明实施例中的基于用户医疗反馈的医疗信息可视化处理系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一：

图1是本发明实施例中的基于用户医疗反馈的医疗信息可视化处理方法的流程示意图，如图1所示，所述医疗信息可视化处理方法包括：

S11：获取用户医疗反馈信息，基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字；

具体的，通过用户终端接收用户医疗反馈信息，再基于用户医疗反馈信息进行关键字提取，获取用户医疗反馈信息的关键字。

进一步的，对所述用户医疗反馈信息进行杂质去除和文本信息提取处理，获取反馈文本信息；对所述反馈文本信息进行分成处理，获取所述反馈文本信息的关键字。

对获取到的用户医疗反馈信息进行杂质去除处理，是去除反馈信息中的图像等非文字信息，采用中文的UTF-8(Unicode)编码范围为/u4e00-/u9fa5对用户医疗反馈信息进行中文提取处理，提取反馈文本信息。

对反馈文本信息分词处理，获取反馈文本信息的关键字，加载互联网字典和加载互联网停用字典；从字典中构建句子的DAG(有向无环图)；对字典中的未收录词汇，使用HMM模型的Viterbi算法进行分词；已收录词汇和未收录词汇全部分词完毕后，使用动态规划法寻找DAG(有向无环图)的最大概率路径，从而实现分词处理，获取反馈文本信息的关键字。

S12：根据所述关键字在对应的医疗文献数据库进行检索，获取与关键字相关的医疗文献；

具体的，首先，根据上述获取到的关键字构建在数据库检索的检索式，然后通过该检索式在数据库中进行检索，获取与关键字相关的医疗文献。

进一步的，根据所述关键字基于所述医疗文献数据库的检索规则生成检索式；采用所述检索式在所述医疗文献数据库进行检索，获取与关键字相关的医疗文献。

在数据库检索的过程中，每个数据库都可能存在不一样的检索规则，在生成检索式之前，首先获取到所需要检索的数据库的检索规则，然后根据数据库中的检索规则利用检索关键字生成检索数据库对应的检索式；然后利用数据库对应的检索式在数据库中进行检索，获取与关键字相关的医疗文献。

S13：采用TF-IDF算法对所述医疗文献进行关键字提取处理并构建关键字集合，获取所述医疗文献的关键字集合；

具体的，采用TF-IDF算法对与关键字相关的医疗文献进行计算，在实施过程中，可以在网络平台或者服务器直接生成多个计算任务进行计算，并将计算任务转化为多个计算流，将多个计算流平均分配到网络平台或者服务器的计算集群中的每个计算单元上，获取医疗文献的关键字集合。

其中，TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

S14：采用Canopy-Kmeans聚类算法对所述关键字集合内的集合关键字进行聚类处理，获取所述关键字集合内的集合关键字的K个聚簇；

具体的，采用Canopy聚类方式对所述关键字集合内的集合关键字进行初步聚类，获取Canopy为中心的集合关键字初步聚簇；根据所述集合关键字初步聚簇进行Kmeans聚类处理，获取所述关键字集合内的集合关键字的K个聚簇。

进一步的，Canopy聚类算法具有简单、快速和精确的特性，在处理海量的高维数时，尤其是数据量巨大的情况下，使用Canopy聚类进行初步处理，可以有效提高效率，Canopy聚类算法具体如下：

(1)将关键字集合内的集合关键字初始化为list，选择两个距离阈值：T1、T2。

(2)随机取list中的一个对象d作为Canopy中心，标记为c，并将d从list中删除；

(3)计算list中所有对象d_i与c的距离distance，如果distance<T1，将该对象加入Canopy c；如果distanc<T2,将该点从list中删除，也就是该对象无法作为Canopy中心；

(4)将剩下的c加入canopylist中；

(5)重复步骤2、3、4，直至list中数据为空结束，canopylist则为最后Canopy聚类结果。

再采用Kmeans聚类算法对初步聚类处理结果进行聚类处理，Kmeans聚类算法的基本思想为：以空间中k个对象做为中心进行归类，把对象空间中最靠近各个中心的对象分别归为一类，通过多次迭代的方式，将各聚类质心的值逐次计算更新，直至聚簇质心稳定不变。

针对本发明实施例，将原来的Kmeans聚类算法进行算的修改，修改后的算法具体如下：

(1)将Canopy聚类算法的结果作为Kmeans聚类算法的输入，即Canopy聚类算法产生的Canopy中心作为Kmeans算法的初始化质心，并且各个集合关键字已经分配到相应的质心中；

(2)对每个集合关键字计算该集合关键字到每个质心的距离，并将其分配到最近的聚类质心，其中距离计算三角函数余弦定理计算；

(3)对每个聚类重新计算均值得到新的聚类质心；

(4)计算所有数据对象到其对应聚类质心的方差误差值E，若E大于阈值则重复步骤2及步骤3，否则聚类结束。

其中，E的计算公式具体为：

其中，x为医疗文献的文本集合关键字；k(x)表示集合关键字x所在的聚簇；u_k(x)表示集合关键字x所在的聚簇的质心向量；n为医疗文献的数目。

S15：以所述K个聚簇为中心进行构建集合关键字云可视化处理，获取K个可视化集合关键字云；

具体的，以所述K个聚簇为中心进行LDA主题分析，获取分析结果；计算所述用户医疗反馈信息的关键字与所述K个聚簇的集合关键字之间相似度，获取计算结果；根据所述分析结果和所述计算结果进行云可视化处理，获取K个可视化集合关键字云。

对以聚簇为中心的集合关键字进行词频统计，获取统计结果；为每个关键词随机设定一个主题，作为初始主题；对该初始主题进行处理，获取主题-关键词的LDA分析矩阵；然后通过该LDA分析矩阵分析获取分析结果。

对用户医疗反馈信息的关键字与K个聚簇的集合关键字之间相似度，该相似度计算通过可以通过关键字之间的意思或者表达的意义等进行计算，具体每个计算的阈值，可以根据不同的场景进行设置。

根据分析结果和计算结果进行云可视化处理，是该分析结果不断调整主题个数，确定主题数目；获取每个确定主题对应的集合关键词，对该集合关键词进行词频排序；根据排序顺序确定集合关键词的大小；根据集合关键词的大小和计算获取的相似度，获取用户可能更需要的集合关键字进行动态位置调整，获取可视化词云。

S16：在所述K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户对所述需求进行云可视化显示。

具体的，是根据用户医疗反馈信息、K个可视化集合关键字云和医疗文献之间构建索引，在用户输入用户医疗反馈信息之后，出现K个可视化集合关键字云，在用户点击K个可视化集合关键字云中的一个关键字，将索引到相关的医疗文献，并根据用户的需求对索引到的医疗文献进行云可视化显示。

实施例二：

图2是本发明实施例中的基于用户医疗反馈的医疗信息可视化处理系统的结构组成示意图，如图2所示，所述医疗信息可视化处理系统包括：

第一关键字获取模块11：用于获取用户医疗反馈信息，基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字；

检索模块12：用于根据所述关键字在对应的医疗文献数据库进行检索，获取与关键字相关的医疗文献；

第二关键字获取模块13：用于采用TF-IDF算法对所述医疗文献进行关键字提取处理并构建关键字集合，获取所述医疗文献的关键字集合；

聚类模块14：用于采用Canopy-Kmeans聚类算法对所述关键字集合内的集合关键字进行聚类处理，获取所述关键字集合内的集合关键字的K个聚簇；

云可视化构建模块15：用于以所述K个聚簇为中心进行构建集合关键字云可视化处理，获取K个可视化集合关键字云；

云显示模块16：用于在所述K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户对所述需求进行云可视化显示。

优选地，所述第一关键字获取模块11包括：

优选地，所述检索模块12包括：

优选地，所述聚类模块14包括：

优选地，所述云可视化构建模块15包括：

具体地，本发明实施例的系统相关功能模块的工作原理可参见方法实施例的相关描述，这里不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于用户医疗反馈的医疗信息可视化处理方法及系统进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于用户医疗反馈的医疗信息可视化处理方法，其特征在于，所述医疗信息可视化处理方法包括：

获取用户医疗反馈信息，基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字，对反馈文本信息分词处理，获取反馈文本信息的关键字，加载互联网字典和加载互联网停用字典；从字典中构建句子的有向无环图DAG；对字典中的未收录词汇，使用HMM模型的Viterbi算法进行分词；已收录词汇和未收录词汇全部分词完毕后，使用动态规划法寻找有向无环图DAG的最大概率路径，从而实现分词处理，获取反馈文本信息的关键字；

采用TF-IDF算法对所述医疗文献进行关键字提取处理并构建关键字集合，获取所述医疗文献的关键字集合，在网络平台或者服务器直接生成多个计算任务进行计算，并将计算任务转化为多个计算流，将多个计算流平均分配到网络平台或者服务器的计算集群中的每个计算单元上，获取医疗文献的关键字集；

在所述K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户需求进行云可视化显示；

所述根据所述关键字在对应的医疗文献数据库进行检索，包括：

采用所述检索式在所述医疗文献数据库进行检索，获取与关键字相关的医疗文献；

其中，包括：获取到所需要检索的对应的医疗文献数据库的检索规则，根据对应的医疗文献数据库中的检索规则利用关键字生成检索式；

所述以所述K个聚簇为中心进行构建集合关键字云可视化处理，包括：

以所述K个聚簇为中心进行LDA主题分析，获取分析结果；

2.根据权利要求1所述的基于用户医疗反馈的医疗信息可视化处理方法，其特征在于，所述基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字，包括：

3.根据权利要求1所述的基于用户医疗反馈的医疗信息可视化处理方法，其特征在于，所述采用Canopy-Kmeans聚类算法对所述关键字集合内的集合关键字进行聚类处理，包括：

4.一种基于用户医疗反馈的医疗信息可视化处理系统，其特征在于，所述医疗信息可视化处理系统包括：

第一关键字获取模块：用于获取用户医疗反馈信息，基于所述用户医疗反馈信息进行关键字提取，获取所述用户医疗反馈信息的关键字，对反馈文本信息分词处理，获取反馈文本信息的关键字，加载互联网字典和加载互联网停用字典；从字典中构建句子的有向无环图DAG；对字典中的未收录词汇，使用HMM模型的Viterbi算法进行分词；已收录词汇和未收录词汇全部分词完毕后，使用动态规划法寻找有向无环图DAG的最大概率路径，从而实现分词处理，获取反馈文本信息的关键字；

第二关键字获取模块：用于采用TF-IDF算法对所述医疗文献进行关键字提取处理并构建关键字集合，获取所述医疗文献的关键字集合，在网络平台或者服务器直接生成多个计算任务进行计算，并将计算任务转化为多个计算流，将多个计算流平均分配到网络平台或者服务器的计算集群中的每个计算单元上，获取医疗文献的关键字集；

云显示模块：用于在所述K个可视化集合关键字云与用户医疗反馈信息之间构建索引，并根据用户需求进行云可视化显示；

所述检索模块包括：

检索单元：用于采用所述检索式在所述医疗文献数据库进行检索，获取与关键字相关的医疗文献；

其中，包括：获取到所需要检索的数据库的检索规则，根据数据库中的检索规则利用检索关键字生成检索数据库对应的检索式；

所述云可视化构建模块包括：

5.根据权利要求4所述的基于用户医疗反馈的医疗信息可视化处理系统，其特征在于，所述第一关键字获取模块包括：

6.根据权利要求4所述的基于用户医疗反馈的医疗信息可视化处理系统，其特征在于，所述聚类模块包括：