CN111180024B

CN111180024B - 基于词频逆文档频率的数据处理方法、装置和计算机设备

Info

Publication number: CN111180024B
Application number: CN201911285536.1A
Authority: CN
Inventors: 陈源
Original assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-03-21
Anticipated expiration: 2039-12-13
Also published as: CN111180024A

Abstract

本申请涉及数据处理技术领域，提供了一种基于词频逆文档频率的数据处理方法、装置、计算机设备和存储介质。方法包括：获取用户的初始就诊档案，确定未包含治疗结果的就诊节点，根据预设的数据标签，提取就诊节点中的就诊关键词，预设的数据标签包括诊断结果、医疗机构名称和治疗方案，将就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别对就诊关键词关联组合进行词频逆文档频率分析，得到各就诊关键词关联组合的关联匹配度，当任意一个就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找诊断结果对应的就诊靶点信息并添加至就诊节点，得到更新的就诊档案，简化了数据分析流程，提高了对就诊档案的数据处理效率。

Description

基于词频逆文档频率的数据处理方法、装置和计算机设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于词频逆文档频率的数据处理方法、装置、计算机设备和存储介质。

背景技术

随着医疗水平的不断发展与完善，对个人健康档案的健全管理也正在建立。就目前的数据基础来说，可以构建对于个人就诊的诊断、治疗项目进行记录的就诊档案，但现有的技术仅用于实现数据记录的功能，无法有效建立各项数据之间的关系，也无法准确分析就诊建议是否适合该疾病的治疗。为解决这一技术问题，现有技术通过借助于神经网络模型的数据挖掘功能，对已有的医疗数据进行分析来深入挖掘医疗数据之间的关联关系，来对就诊档案中记录的医疗数据进行加工和挖掘，实现就诊档案的数据优化管理。

然而，这种基于神经网络模型的应用方式，需要基于大量的数据样本进行数据分析，从前期的模型训练样本数据的获取，到后面的模型的训练过程，都需要消耗大量的计算机硬件资源，而且，同一个神经网络模型不一定适用于不同的疾病，严重影响了数据处理效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高就诊档案优化过程中的数据处理效率的基于词频逆文档频率的数据处理方法、装置、计算机设备和存储介质。

一种基于词频逆文档频率的数据处理方法，所述方法包括：

获取用户的初始就诊档案，确定所述初始就诊档案中未包含治疗结果的就诊节点；

根据预设的数据标签，提取所述就诊节点中的就诊关键词，所述预设的数据标签包括诊断结果、医疗机构名称和治疗方案；

将所述就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别分析所述就诊关键词关联组合在所述预设的文本数据库中的词频逆文档频率，并根据所述词频逆文档频率，确定各所述就诊关键词关联组合的关联匹配度；

当任意一个所述就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找所述诊断结果对应的就诊靶点信息，将所述就诊靶点信息添加至所述就诊节点，得到更新的就诊档案。

在其中一个实施例中，所述获取预设的文本数据库，分别分析所述就诊关键词关联组合在所述预设的文本数据库中的词频逆文档频率，并根据所述词频逆文档频率，确定各所述就诊关键词关联组合的关联匹配度包括：

对于任意一个所述就诊关键词关联组合，根据所述文本数据库进行就诊关键词关联组合搜索；

根据搜索结果，分别计算所述就诊关键词关联组合在所述文本数据库中的词频数据和逆文档频率数据；

根据所述词频数据和所述逆文档频率数据的乘积，确定所述就诊关键词关联组合中包括的就诊关键词的关联匹配度。

在其中一个实施例中，所述获取用户的初始就诊档案包括：

获取用户的医疗数据，按所述医疗数据对应的就诊号，将所述医疗数据划分为多个数据集；

根据所述数据集中的医疗数据携带的采集标签，对所述医疗数据进行对码处理和数据清洗，确定所述医疗数据对应的数据字段；

将所述数据集中的医疗数据按所述数据字段归类至就诊节点，并将所述就诊节点按所述就诊号的时间顺序排列，构建得到所述用户的初始就诊档案。

在其中一个实施例中，所述对所述医疗数据进行对码处理包括：

提取所述医疗数据中的药品名称数据和疾病类型数据；

根据所述采集标签，分别获取所述药品名称数据的关联数据以及所述疾病类型数据的关联数据；

根据所述药品名称数据的关联数据和预设的药品信息数据库，对所述药品名称数据进行匹配校验，校对所述药品名称数据的编码；

根据所述疾病类型数据的关联数据和预设的疾病信息数据库，对所述疾病类型数据进行匹配校验，校对所述疾病类型数据的编码。

在其中一个实施例中，所述对所述医疗数据进行对码处理之前，还包括：

采集对于各种药物名称以及疾病类型的描述信息，所述描述信息包含不同描述形式；

分别建立各种药物名称以及各种疾病类型对应的描述数据集合，所述描述数据集合配置有唯一的编码；

构建包含药物名称对应的描述数据集合的药品信息数据库，以及包含疾病类型对应的描述数据集合的疾病信息数据库。

在其中一个实施例中，所述将所述就诊靶点信息添加至所述就诊节点，得到更新的就诊档案包括：

将所述就诊靶点信息对应的就诊建议，与所述就诊节点对应就诊建议进行对比，得到对比数据，所述就诊建议包括就诊的医疗机构名称和治疗方案；

生成包含所述对比数据和所述就诊靶点信息的扩展就诊建议；

在所述初始就诊档案中的所述就诊节点添加所述扩展就诊建议，得到更新的就诊档案。

在其中一个实施例中，所述方法还包括：

根据所述用户的初始就诊档案，提取包含同一疾病类型的多个就诊节点；

对所述就诊节点的医疗数据进行词频逆文档频率分析，按分析结果的数值大小，筛选得到所述就诊节点的关键词；

当多个所述就诊节点的关键词变化时，生成提示信息并推送，所述提示消息携带有所述关键词的变化数据。

一种基于词频逆文档频率的数据处理装置，所述装置包括：

初始就诊档案获取模块，用于获取用户的初始就诊档案，确定所述初始就诊档案中未包含治疗结果的就诊节点；

就诊关键词提取模块，用于根据预设的数据标签，提取所述就诊节点中的就诊关键词，所述预设的数据标签包括诊断结果、医疗机构名称和治疗方案；

关联匹配度分析模块，用于将所述就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别分析所述就诊关键词关联组合在所述预设的文本数据库中的词频逆文档频率，并根据所述词频逆文档频率，确定各所述就诊关键词关联组合的关联匹配度；

就诊档案更新模块，用于当任意一个所述就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找所述诊断结果对应的就诊靶点信息，将所述就诊靶点信息添加至所述就诊节点，得到更新的就诊档案。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于词频逆文档频率的数据处理方法、装置、计算机设备和存储介质，通过获取未包含治疗结果的就诊节点，进行就诊关键词提取，得到就诊关键词关联组合，通过词频逆文档频率分析诊断结果、医疗机构名称和治疗方案之间的关联匹配度，以确定治疗方案和医疗机构是否适合该诊断结果的治疗，以及医疗机构能否实现该治疗方案，在存在任意一个关联匹配度小于预设匹配阈值的情况下，通过查找诊断结果对应的就诊靶点信息，来得到更适用于诊断结果的就诊方案，通过词频逆文档频率来分析关联匹配度，可以直接基于就诊节点的医疗数据进行分析，简化了数据分析流程，提高了对就诊档案的数据处理效率。

附图说明

图1为一个实施例中基于词频逆文档频率的数据处理方法的应用场景图；

图2为一个实施例中基于词频逆文档频率的数据处理方法的流程示意图；

图3为一个实施例中基于词频逆文档频率的数据处理方法中获取用户的初始就诊档案步骤的流程示意图；

图4为一个实施例中基于词频逆文档频率的数据处理方法中对医疗数据进行对码处理步骤的流程示意图；

图5为一个实施例中基于词频逆文档频率的数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着医疗水平的不断发展与完善，对个人健康档案的健全管理也正在建立。健康档案是记录每个人从出生到死亡的所有生命体征的变化，以及自身所从事过的与健康相关的一切行为与事件的档案。具体的内容主要包括每个人的生活习惯、以往病史、诊治情况、家族病史、现病史、体检结果及疾病的发生、发展、治疗和转归的过程等。其中，针对与现病史与诊治情况进行记录的就诊档案是健康档案中的重要一环。就诊档案的建立需要对患者在特定区域内的完整就诊进行记录与提炼。由于国内的健康档案起步晚，进展缓慢，目前尚无健全的就诊档案管理系统，得益于社保卡和社保中心的建立，当前大部分国民的就诊记录进入了社保系统，这为就诊档案的建立提供了实现基础。

本申请提供的基于词频逆文档频率的数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。服务器104获取用户的初始就诊档案，确定初始就诊档案中未包含治疗结果的就诊节点，根据预设的数据标签，提取就诊节点中的就诊关键词，预设的数据标签包括诊断结果、医疗机构名称和治疗方案，将就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别对就诊关键词关联组合进行词频逆文档频率分析，得到各就诊关键词关联组合的关联匹配度，当任意一个就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找诊断结果对应的就诊靶点信息，将就诊靶点信息添加至就诊节点，得到更新的就诊档案，用户可以通过终端102向服务器104查询获取到更新的就诊档案。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于词频逆文档频率的数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取用户的初始就诊档案，确定初始就诊档案中未包含治疗结果的就诊节点。

就诊档案是用于记录个人的病史和诊治情况的病历数据的集合，记录了每个人疾病的发生、发展、治疗和转归的过程。病历数据是医疗工作的全面记录，客观地反映疾病病情、检查、诊断、治疗及其转归的全过程，是医务人员在医疗活动过程中形成的所有文字、数据、图表、影像等资料的有机整合。病历包括纸质病历和电子病历，随着科学技术的发展，为完善健康数据的信息化建设，病历数据会以电子病历的形式进行存档，电子病历是通过计算机技术将病人的病历汇集到计算机中，通过计算机获得病历的有关资料并对其进行归纳、分析、整理形成规范化的信息，从而提高医疗质量和业务水平，为临床教学、科研和信息管理提供帮助。用户的初始就诊档案是用户的各个时期的病历数据的集合，在就诊档案中，以用户每一次就诊的就诊时间为节点，依次串联每一个患者身份所有就诊记录，构成就诊轨迹，一个就诊节点对应一次就诊过程，在实施例中，初始就诊档案的数据层级架构包括三层：第一层，以就诊号为节点，将同一用户的多个就诊号，按就诊时间进行串联关联；第二层，以一个就诊号为中心展开，依次包括四大类数据，分别为患者身份信息，就诊机构信息，病情信息，治疗信息；第三层包括各大类数据中包含的具体字段数据，其中，患者身份信息包括用户姓名、性别、年龄、身份证号、参保类型、缴费基数等；就诊机构信息包括就诊机构名称、机构等级、就诊科室、就诊医师等；病情信息包括各项检查数据、诊断数据等；治疗信息包括用药、手术以及治疗结果等信息。由于每个人病情的不同，存在某些暂时未有治疗结果只有治疗建议，待进行进一步治疗的疾病，例如需要进行转移治疗等，该就诊节点即为未包含治疗结果的就诊节点。

步骤S204，根据预设的数据标签，提取就诊节点中的就诊关键词，预设的数据标签包括诊断结果、医疗机构名称和治疗方案。

数据标签是指用于描述数据类别的标签，根据数据挖掘需求，可以预先对数据标签进行选择设定。在实施例中，预设的数据标签可以是诊断结果、医疗机构名称和治疗方案。提取的就诊关键词与预设的数据标签相匹配，例如，数据标签为诊断结果时，从与诊断结果相关联的数据中，提取就诊结果对应的就诊关键字，其中，与诊断结果相关联的数据可以根据数据采集标签来得到。数据标签为医疗机构名称时，根据数据采集标签，从与医疗机构名称相关的数据中，提取就诊关键词，如治疗建议中直接给出的医疗机构名称等，数据标签为治疗方案时，提取治疗方案对应的就诊关键词。在实施例中，关键词的提取可以通过词频逆文档频率算法来实现。词频-逆文档频率技术用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。如果某个词比较少见，但是它在该文档中多次出现，那么它很可能就反映了这篇文章的特性，正是所需的关键词。词频(termfrequency，TF)指的是某一个给定的词语在该文档中出现的次数。

逆文档频率(nverse Document Frequency，IDF)是一个词语普遍重要性的度量，它的大小与一个词的常见程度成反比，计算方法是语料库的文档总数除以语料库中包含该词语的文档数量，再将得到的商取对数。

将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。

TF-IDF＝词频(TF)×逆文档频率(IDF)

步骤S206，将就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别对就诊关键词关联组合进行词频逆文档频率分析，得到各就诊关键词关联组合的关联匹配度。

在实施例中，预设的文本数据库是指用于进行词频逆文档频率分析的语料库，例如历史医疗数据，病历数据集等。根据历史医疗数据中的治疗结果可以对关联匹配度进行判断，以病情信息与治疗信息为例，当历史医疗数据中，通过该治疗信息对应的治疗手段对该病情进行治疗时，得到的治疗结果成功率很高，则对应病情信息与治疗信息的匹配度也较高。词频逆文档频率算法不仅能用于就诊关键字的提取，还能分析就诊关键词的关联匹配度。在实施例中，可以将数据标签为诊断结果、医疗机构名称以及治疗方案的就诊关键词两两组合，生成三组就诊关键词关联组合，获取预设的包含历史医疗数据的文本数据库，采用词频逆文档频率算法，分别对每一组就诊关键词关联组合进行关联分析，得到就诊关键词关联组合的关联匹配度。在具体的实施例中，以诊断结果和医疗机构名称对应的就诊关键词之间的关联匹配度分析为例，将诊断结果对应的就诊关键词和医疗机构名称对应的就诊关键词进行关联组合，通过词频逆文档频率算法分析该关联组合的TF-IDF值，TF-IDF值越大，表征关联匹配度越高。诊断结果和治疗方案对应的就诊关键词之间的关联匹配度、以及医疗机构名称和治疗方案对应的就诊关键词之间的关联匹配度的分析方式可以通过同样的方式实现。

步骤S208，当任意一个就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找诊断结果对应的就诊靶点信息，将就诊靶点信息添加至就诊节点，得到更新的就诊档案。

当三组就诊关键词关联组合中的任意一个就诊关键词关联组合的关联匹配度小于预设匹配阈值，表征治疗方案或是医疗机构无法针对性地提供治疗。具体来说，三组就诊关键词关联组合对应的预设匹配阈值可以为相同的阈值数据，也可以是每一组对应一个阈值数据，具体可以根据实际需要进行设定。在治疗方案或是医疗机构无法针对性地提供治疗时，可以查找诊断结果对应的就诊靶点信息，来得到更合理有效的就诊建议，就诊靶点信息是指有针对性地就特定的疾病进行特定治疗的治疗方案信息，例如建议就诊机构和建议治疗方式。具体来说，包括提供在就诊机构上的建议，如低级医院到高级医院的上升治疗或相反轨迹的下沉治疗。结合各个就诊机构能提供的特定治疗方式(特药或特检)，提供需要特定治疗方式的就诊选择建议等。将就诊靶点信息添加至就诊节点，对初始档案进行扩展更新。

上述基于词频逆文档频率的数据处理方法，通过获取未包含治疗结果的就诊节点，进行就诊关键词提取，通过词频逆文档频率分析诊断结果、医疗机构名称和治疗方案之间的关联匹配度，以确定治疗方案和医疗机构是否适合该诊断结果的治疗，以及医疗机构能否实现该治疗方案，在关联匹配度小于预设匹配阈值的情况下，通过查找诊断结果对应的就诊靶点信息，来得到更适用于诊断结果的就诊方案，通过词频逆文档频率来分析关联匹配度，可以直接基于就诊节点的医疗数据进行分析，简化了数据分析流程，提高了对就诊档案的数据处理效率。

在其中一个实施例中，获取预设的文本数据库，分别分析就诊关键词关联组合在预设的文本数据库中的词频逆文档频率，并根据词频逆文档频率，确定各就诊关键词关联组合的关联匹配度包括：

对于任意一个就诊关键词关联组合，根据文本数据库进行就诊关键词关联组合搜索；根据搜索结果，分别计算就诊关键词关联组合在文本数据库中的词频数据和逆文档频率数据；根据词频数据和逆文档频率数据的乘积，确定就诊关键词关联组合中包括的就诊关键词的关联匹配度。

就诊关键词包括医疗机构信息、病情信息以及治疗信息三方面，通过信息的两两匹配分析，分别得到医疗机构名称与诊断结果，诊断结果与治疗方案，治疗方案与医疗机构名称之间的关联匹配度。预设的文本数据库可以是历史医疗数据，关联匹配度可以根据历史医疗数据中的治疗结果来辅助进行判断，以诊断结果与治疗方案为例，当历史医疗数据中，通过该治疗方案对应的治疗手段对该诊断结果所表征的病情进行治疗时，得到的治疗结果成功率很高，则对应病情信息与治疗信息的匹配度也较高。这一分析过程可以基于词频逆文档频率算法来实现，以历史医疗数据为语料库，以就诊关键词关联组合作为分析对象，分别计算分析对象在语料库中的词频数据(TF)和逆文档频率数据(IDF)，从而根据词频数据和逆文档频率数据的乘积，得到TF-IDF值，确定就诊关键词关联组合的关联匹配度。其中，词频数据是指就诊关键词关联组合词语在语料库中出现的次数在语料库中的占比，逆文档频率数据是指语料库的文档总数除以语料库中包含该就诊关键词关联组合词语的文档数量，再将得到的商取对数在其中一个实施例中，如图3所示，获取用户的初始就诊档案包括：

步骤S302，获取用户的医疗数据，按医疗数据对应的就诊号，将医疗数据划分为多个数据集。

步骤S304，根据数据集中的医疗数据携带的采集标签，对医疗数据进行对码处理和数据清洗，确定医疗数据对应的数据字段。

步骤S306，将数据集中的医疗数据按数据字段归类至就诊节点，并将就诊节点按就诊号的时间顺序排列，构建得到用户的初始就诊档案。

就诊号是指用户每一次就诊的挂号数据，每一次挂号对应一次疾病的就诊过程，在就诊过程中，医生会根据病人的身体状况，做出针对性的检查、分析或是治疗等，在此过程中，对应会产生一系列的医疗数据，比如医疗影像数据、用药数据以及诊断分析数据等。在这一系列数据产生时，会生成电子病历进行信息存在，服务器可以在用户授权后对用户的医疗数据进行采集，每一项数据对应的输入路径对应有采集标签，例如，“姓名：张三”，姓名为采集标签，张三为数据内容，“年龄：43岁”，年龄为采集标签，43岁为数据内容。

服务器在采集到用户的医疗数据之后，需要对医疗数据进行数据对码和数据清洗。对码处理包括药品的对码处理和疾病类型的对码处理，对码处理是指将确保同样的药品或是同一种疾病以相同的编码数据表示的数据处理过程。数据清洗包括：将医疗数据按照数据采集时对应的采集标签，确定各项医疗数据所属的数据字段。数据字段可以包括用户信息，就诊机构信息，病情信息以及治疗信息四个数据大类，各数据大类可以细化为具体的明细数据，例如，用户信息可以包括姓名、年龄、身份证号等。就诊节点与数据集相对应，根据医疗数据所属的数据集，以及数据集对应的就诊节点，将医疗数据按数据字段归类至就诊节点，然后将就诊节点按就诊号的时间先后顺序排列，构建得到用户的初始就诊档案。

在其中一个实施例中，如图4所示，对医疗数据进行对码处理包括：

步骤S402，提取医疗数据中的药品名称数据和疾病类型数据。

步骤S404，根据采集标签，分别获取药品名称数据的关联数据以及疾病类型数据的关联数据。

步骤S406，根据药品名称数据的关联数据和预设的药品信息数据库，对药品名称数据进行匹配校验，校对药品名称数据的编码。

步骤S408，根据疾病类型数据的关联数据和预设的疾病信息数据库，对疾病类型数据进行匹配校验，校对疾病类型数据的编码。

具体来说，由于不同的医院或医生有不同的数据记录习惯，在诊断过程中，医生A记录的数据信息与医生B记录的数据信息可能是同一种疾病或药品，但是通过不同的文字表述的，在数据处理过程中，可能存在分类错误的问题，通过对医疗数据进行对码处理，有利于数据的规范管理。以药品的对码处理为例：获取该药品的关联数据，包括药品名称、药品主要成分、药品价格、药品生产商、开药医疗机构、开药医生所属科室等，通过预设的药品信息数据库，对各项相关数据进行匹配，根据各项数据的综合匹配度，确定该药品对应的编码，当采集的药品名称数据中有编码信息时，检验该编码是否正确，当采集的药品名称数据中没有编码信息时，将该编码标记至该药品，完成该药品名称数据的对码处理。

疾病类型的对码处理过程与药品的对码类似。获取疾病的症状描述信息、诊断科室、用药信息等，通过预设的疾病信息数据库，对疾病类型数据进行匹配校验，根据各项数据的综合匹配度，确定该疾病类型对应的编码，当采集的疾病类型数据中有编码信息时，检验该编码是否正确，当采集的疾病类型数据中没有编码信息时，将该编码标记至该疾病类型，完成该疾病类型数据的对码处理。

在其中一个实施例中，对医疗数据进行对码处理之前，还包括：

采集对于各种药物名称以及疾病类型的描述信息，描述信息包含不同描述形式。分别建立各种药物名称以及各种疾病类型对应的描述数据集合，描述数据集合配置有唯一的编码。构建包含药物名称对应的描述数据集合的药品信息数据库，以及包含疾病类型对应的描述数据集合的疾病信息数据库。

在实际应用中，药品名称和疾病类型会有不同的描述形式。比如，脑中风又称脑卒中或脑血管意外，再比如，感康牌的复方氨酚烷胺片简称感康等。各种药物名称以及疾病类型的描述信息的采集可以通过大数据和爬虫技术来实现，通过将用于描述同一种药物或同一种疾病的描述信息置于同一数据集合，并为该数据集合配置唯一编码，从而得到编码数据库，编码数据库分为药品信息数据库和疾病数据信息库，将药品名称与疾病类型的对码分离，以提高医疗数据的对码处理效率。

在其中一个实施例中，就诊靶点信息包括将就诊靶点信息添加至在就诊节点，得到更新的就诊档案包括：

将就诊靶点信息对应的就诊建议，与就诊节点对应就诊建议进行对比，得到对比数据，就诊建议包括就诊的医疗机构名称和治疗方案。生成包含对比数据和就诊靶点信息的扩展就诊建议。在初始就诊档案中的就诊节点添加扩展就诊建议，得到更新的就诊档案。

就诊靶点信息相较于常规的疾病与治疗的关系，更深入的分析疾病所需的治疗靶点和药物对能提供治疗靶点进行分析，用于描述关联度高、针对性强的医疗机构名称与诊断结果，诊断结果与治疗方案，治疗方案与医疗机构名称的一种关联关系。通过查找就诊靶点信息，可以为用户快速的提供就诊建议，对初始档案进行扩展更新。在实施例中，根据查找得到的就诊靶点信息对初始档案进行扩展更新，扩展更新内容包括就诊靶点信息对应的就诊建议，例如建议就诊机构和建议治疗方式。具体来说，建议就诊机构包括提供在就诊机构上的建议，如低级医院到高级医院的上升治疗或相反轨迹的下沉治疗，建议治疗方式包括各个就诊机构能提供的特定治疗方式，如特药或特检等。

在其中一个实施例中，方法还包括：

根据用户的初始就诊档案，提取包含同一疾病类型的多个就诊节点。对就诊节点的医疗数据进行词频逆文档频率分析，按分析结果的数值大小，筛选得到就诊节点的关键词。当多个就诊节点的关键词变化时，生成提示信息并推送，提示消息携带有关键词的变化数据。

在实施例中，以某一用户对糖尿病的治疗为例，用户的就诊节点上一共包括三次糖尿病就诊记录，针对每一就诊节点的用药数据进行分析。每一次就诊过程中使用的药物数量可能有上百次，针对上百次的药物数据，采用词频-逆文档频率技术进行分析，可以得到每一次针对糖尿病的用药数据中TF-IDF值靠前的N种药物。一般来说，不同疾病阶段时，采用的药物或药物剂量会发生变化，通过对三次就诊记录中TF-IDF值靠前的N种药物的变化信息，可辅助医生分析得到或是直接分析得到用户的病情变化趋势信息。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于词频逆文档频率的数据处理装置，包括：初始就诊档案获取模块502、就诊关键词提取模块504、关联匹配度分析模块506和就诊档案更新模块508，其中：

初始就诊档案获取模块502，用于获取用户的初始就诊档案，确定初始就诊档案中未包含治疗结果的就诊节点；

就诊关键词提取模块504，用于根据预设的数据标签，提取就诊节点中的就诊关键词，预设的数据标签包括诊断结果、医疗机构名称和治疗方案；

关联匹配度分析模块506，用于将就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别对就诊关键词关联组合进行词频逆文档频率分析，得到各就诊关键词关联组合的关联匹配度；

就诊档案更新模块508，用于当任意一个就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找诊断结果对应的就诊靶点信息，将就诊靶点信息添加至就诊节点，得到更新的就诊档案。

在其中一个实施例中，关联匹配度分析模块，还用于对于任意一个就诊关键词关联组合，根据文本数据库进行就诊关键词关联组合搜索；根据搜索结果，分别计算就诊关键词关联组合在文本数据库中的词频数据和逆文档频率数据；根据词频数据和逆文档频率数据的乘积，确定就诊关键词关联组合中包括的就诊关键词的关联匹配度。

在其中一个实施例中，初始就诊档案获取模块，还用于获取用户的医疗数据，按医疗数据对应的就诊号，将医疗数据划分为多个数据集，根据数据集中的医疗数据携带的采集标签，对医疗数据进行对码处理和数据清洗，确定医疗数据对应的数据字段；将数据集中的医疗数据按数据字段归类至就诊节点，并将就诊节点按就诊号的时间顺序排列，构建得到用户的初始就诊档案。

在其中一个实施例中，初始就诊档案获取模块，还用于提取医疗数据中的药品名称数据和疾病类型数据，根据采集标签，分别获取药品名称数据的关联数据以及疾病类型数据的关联数据，根据药品名称数据的关联数据和预设的药品信息数据库，对药品名称数据进行匹配校验，校对药品名称数据的编码，根据疾病类型数据的关联数据和预设的疾病信息数据库，对疾病类型数据进行匹配校验，校对疾病类型数据的编码。

在其中一个实施例中，初始就诊档案获取模块，还用于采集对于各种药物名称以及疾病类型的描述信息，描述信息包含不同描述形式，分别建立各种药物名称以及各种疾病类型对应的描述数据集合，描述数据集合配置有唯一的编码，构建包含药物名称对应的描述数据集合的药品信息数据库，以及包含疾病类型对应的描述数据集合的疾病信息数据库。

在其中一个实施例中，就诊档案更新模块，还用于将就诊靶点信息对应的就诊建议，与就诊节点对应就诊建议进行对比，得到对比数据，就诊建议包括就诊的医疗机构名称和治疗方案，生成包含对比数据和就诊靶点信息的扩展就诊建议，在初始就诊档案中的就诊节点添加扩展就诊建议，得到更新的就诊档案。

在其中一个实施例中，基于词频逆文档频率的数据处理装置还包括提示信息推送模块，用于根据用户的初始就诊档案，提取包含同一疾病类型的多个就诊节点，对就诊节点的医疗数据进行词频逆文档频率分析，按分析结果的数值大小，筛选得到就诊节点的关键词，当多个就诊节点的关键词变化时，生成提示信息并推送，提示消息携带有关键词的变化数据。

上述基于词频逆文档频率的数据处理装置，通过获取未包含治疗结果的就诊节点，进行就诊关键词提取，通过词频逆文档频率分析诊断结果、医疗机构名称和治疗方案之间的关联匹配度，以确定治疗方案和医疗机构是否适合该诊断结果的治疗，以及医疗机构能否实现该治疗方案，在关联匹配度小于预设匹配阈值的情况下，通过查找诊断结果对应的就诊靶点信息，来得到更适用于诊断结果的就诊方案，通过词频逆文档频率来分析关联匹配度，可以直接基于就诊节点的医疗数据进行分析，简化了数据分析流程，提高了对就诊档案的数据处理效率。

关于基于词频逆文档频率的数据处理装置的具体限定可以参见上文中对于基于词频逆文档频率的数据处理方法的限定，在此不再赘述。上述基于词频逆文档频率的数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储就诊档案数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于词频逆文档频率的数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取用户的初始就诊档案，确定初始就诊档案中未包含治疗结果的就诊节点；

根据预设的数据标签，提取就诊节点中的就诊关键词，预设的数据标签包括诊断结果、医疗机构名称和治疗方案；

将就诊关键词两两组合，生成就诊关键词关联组合，获取预设的文本数据库，分别对就诊关键词关联组合进行词频逆文档频率分析，得到各就诊关键词关联组合的关联匹配度；

当任意一个就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找诊断结果对应的就诊靶点信息，将就诊靶点信息添加至就诊节点，得到更新的就诊档案。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对于任意一个就诊关键词关联组合，根据文本数据库进行就诊关键词关联组合搜索；

根据搜索结果，分别计算就诊关键词关联组合在文本数据库中的词频数据和逆文档频率数据；

根据词频数据和逆文档频率数据的乘积，确定就诊关键词关联组合中包括的就诊关键词的关联匹配度。

获取用户的医疗数据，按医疗数据对应的就诊号，将医疗数据划分为多个数据集；

根据数据集中的医疗数据携带的采集标签，对医疗数据进行对码处理和数据清洗，确定医疗数据对应的数据字段；

将数据集中的医疗数据按数据字段归类至就诊节点，并将就诊节点按就诊号的时间顺序排列，构建得到用户的初始就诊档案。

提取医疗数据中的药品名称数据和疾病类型数据；

根据采集标签，分别获取药品名称数据的关联数据以及疾病类型数据的关联数据；

根据药品名称数据的关联数据和预设的药品信息数据库，对药品名称数据进行匹配校验，校对药品名称数据的编码；

根据疾病类型数据的关联数据和预设的疾病信息数据库，对疾病类型数据进行匹配校验，校对疾病类型数据的编码。

采集对于各种药物名称以及疾病类型的描述信息，描述信息包含不同描述形式；

分别建立各种药物名称以及各种疾病类型对应的描述数据集合，描述数据集合配置有唯一的编码；

将就诊靶点信息对应的就诊建议，与就诊节点对应就诊建议进行对比，得到对比数据，就诊建议包括就诊的医疗机构名称和治疗方案；

生成包含对比数据和就诊靶点信息的扩展就诊建议；

在初始就诊档案中的就诊节点添加扩展就诊建议，得到更新的就诊档案。

根据用户的初始就诊档案，提取包含同一疾病类型的多个就诊节点；

对就诊节点的医疗数据进行词频逆文档频率分析，按分析结果的数值大小，筛选得到就诊节点的关键词；

当多个就诊节点的关键词变化时，生成提示信息并推送，提示消息携带有关键词的变化数据。

上述用于实现基于词频逆文档频率的数据处理方法的计算机设备，通过获取未包含治疗结果的就诊节点，进行就诊关键词提取，通过词频逆文档频率分析诊断结果、医疗机构名称和治疗方案之间的关联匹配度，以确定治疗方案和医疗机构是否适合该诊断结果的治疗，以及医疗机构能否实现该治疗方案，在关联匹配度小于预设匹配阈值的情况下，通过查找诊断结果对应的就诊靶点信息，来得到更适用于诊断结果的就诊方案，通过词频逆文档频率来分析关联匹配度，可以直接基于就诊节点的医疗数据进行分析，简化了数据分析流程，提高了对就诊档案的数据处理效率。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

提取医疗数据中的药品名称数据和疾病类型数据；

生成包含对比数据和就诊靶点信息的扩展就诊建议；

上述用于实现基于词频逆文档频率的数据处理方法的计算机可读存储介质，通过获取未包含治疗结果的就诊节点，进行就诊关键词提取，通过词频逆文档频率分析诊断结果、医疗机构名称和治疗方案之间的关联匹配度，以确定治疗方案和医疗机构是否适合该诊断结果的治疗，以及医疗机构能否实现该治疗方案，在关联匹配度小于预设匹配阈值的情况下，通过查找诊断结果对应的就诊靶点信息，来得到更适用于诊断结果的就诊方案，通过词频逆文档频率来分析关联匹配度，可以直接基于就诊节点的医疗数据进行分析，简化了数据分析流程，提高了对就诊档案的数据处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于词频逆文档频率的数据处理方法，所述方法包括：

获取用户的初始就诊档案，确定所述初始就诊档案中未包含治疗结果的就诊节点；其中，所述用户的初始就诊档案是用户的各个时期的病历数据的集合，在就诊档案中，以用户每一次就诊的就诊时间为节点，依次串联就诊记录，构成就诊轨迹，一个就诊节点对应一次就诊过程；

将所述数据标签为诊断结果、医疗机构名称以及治疗方案的就诊关键词两两组合，生成三组就诊关键词关联组合，获取预设的文本数据库，分别分析所述就诊关键词关联组合在所述预设的文本数据库中的词频逆文档频率，并根据所述词频逆文档频率，确定各所述就诊关键词关联组合的关联匹配度；

当所述三组就诊关键词关联组合中的任意一个所述就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找所述诊断结果对应的就诊靶点信息；所述就诊靶点信息是指有针对性地就特定的疾病进行特定治疗的治疗方案信息；

2.根据权利要求1所述的方法，其特征在于，所述获取预设的文本数据库，分别分析所述就诊关键词关联组合在所述预设的文本数据库中的词频逆文档频率，并根据所述词频逆文档频率，确定各所述就诊关键词关联组合的关联匹配度包括：

3.根据权利要求1所述的方法，其特征在于，所述获取用户的初始就诊档案包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述医疗数据进行对码处理包括：

提取所述医疗数据中的药品名称数据和疾病类型数据；

5.根据权利要求4所述的方法，其特征在于，所述对所述医疗数据进行对码处理之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种基于词频逆文档频率的数据处理装置，其特征在于，所述装置包括：

初始就诊档案获取模块，用于获取用户的初始就诊档案，确定所述初始就诊档案中未包含治疗结果的就诊节点；其中，所述用户的初始就诊档案是用户的各个时期的病历数据的集合，在就诊档案中，以用户每一次就诊的就诊时间为节点，依次串联就诊记录，构成就诊轨迹，一个就诊节点对应一次就诊过程；

关联匹配度分析模块，用于将所述数据标签为诊断结果、医疗机构名称以及治疗方案的就诊关键词两两组合，生成三组就诊关键词关联组合，获取预设的文本数据库，分别分析所述就诊关键词关联组合在所述预设的文本数据库中的词频逆文档频率，并根据所述词频逆文档频率，确定各所述就诊关键词关联组合的关联匹配度；

就诊档案更新模块，用于当所述三组就诊关键词关联组合中的任意一个所述就诊关键词关联组合的关联匹配度小于预设匹配阈值时，查找所述诊断结果对应的就诊靶点信息；将所述就诊靶点信息对应的就诊建议，与所述就诊节点对应就诊建议进行对比，得到对比数据，所述就诊建议包括就诊的医疗机构名称和治疗方案；生成包含所述对比数据和所述就诊靶点信息的扩展就诊建议；在所述初始就诊档案中的所述就诊节点添加所述扩展就诊建议，得到更新的就诊档案；其中，所述就诊靶点信息是指有针对性地就特定的疾病进行特定治疗的治疗方案信息。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括提示信息推送模块，用于根据所述用户的初始就诊档案，提取包含同一疾病类型的多个就诊节点；对所述就诊节点的医疗数据进行词频逆文档频率分析，按分析结果的数值大小，筛选得到所述就诊节点的关键词；当多个所述就诊节点的关键词变化时，生成提示信息并推送，所述提示消息携带有所述关键词的变化数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。