数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及医疗技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着科技的发展和社会的进步,医疗水平显著提高,药品的种类越来越多,提高了各类疾病的治愈率。每种药品兼具适应症和禁忌症,因此在用药阶段进行药品适宜性审核是至关重要的。医师在开具处方时通常会遵循用药对象适宜,无禁忌症的用药原则,以保证患者的用药安全。但是,仅依靠医师的处方经验来保证用药合理性时,受限于医师的临床经验和对药品禁忌症的理解,难免会因药品禁忌症遗忘等原因导致误开药的问题。
目前,通常是服务器在获取到医师开具的处方数据后,根据处方数据中的药品标识查询相应的药品文本信息,从药品文本信息中提取药品禁忌数据,并根据所提取出的药品禁忌数据对处方数据进行审核,进而根据审核结果进行相应的处理,存在数据处理效率低的问题。尤其是在处方数据包括多个药品标识时,会降低数据处理效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够数据处理效率的数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:
获取携带有处方数据的医疗数据;所述处方数据包括药品标识;
获取所述药品标识对应的药品禁忌元数据,调用线程根据所述药品禁忌元数据查询与所述药品标识相匹配的药品禁忌数据;所述药品禁忌数据是基于已训练的药品数据提取模型和人工标注相结合的方式预先提取出的;
将所述药品禁忌数据中的限制对象与所述医疗数据进行匹配,以根据匹配结果确定所述处方数据的审核结果;
当所述审核结果为存在药品禁忌用药时,根据所述审核结果确定限制级别,并查询所述限制级别对应的处理策略参数;所述处理策略参数用于指示对所述处方数据进行拦截干预、提醒干预或提醒;
按照所述处理策略参数对所述处方数据进行处理。
在其中一个实施例中,所述方法还包括:
检测预设触发条件;
根据所述预设触发条件查询符合预设条件的历史拦截数据;
根据所述历史拦截数据生成数据报表,将所述数据报表推送至相应终端。
在其中一个实施例中,基于已训练的药品数据提取模型和人工标注相结合的方式提取所述药品禁忌数据的步骤,包括:
获取所述药品标识对应的禁忌文本信息;
将所述禁忌文本信息输入已训练的药品数据提取模型进行预测,得到第一预测药品禁忌数据和第一置信度;
当所述第一置信度大于或等于第一置信度阈值时,将所述第一预测药品禁忌数据确定为从所述禁忌文本信息中提取出的药品禁忌数据;
当所述第一置信度小于所述第一置信度阈值时,将所述禁忌文本信息推送至审核终端进行审核,并将所述审核终端对应反馈的药品禁忌数据确定为从所述禁忌文本信息中提取出的药品禁忌数据。
在其中一个实施例中,所述药品数据提取模型的训练步骤包括:
获取第一训练样本集;所述第一训练样本集包括目标禁忌文本信息,以及对所述目标禁忌文本信息进行人工标注得到的目标药品禁忌数据;
将所述目标禁忌文本信息作为输入特征,将所述目标药品禁忌数据作为期望的输出特征进行模型训练,得到已训练的药品数据提取模型。
在其中一个实施例中,所述药品数据提取模型的优化步骤包括:
获取包括候选药品标识所对应的候选禁忌文本信息的优化样本集;
将所述候选禁忌文本信息输入所述药品数据提取模型进行预测,得到第二预测药品禁忌数据和第二置信度;
根据所述优化样本集中第二置信度大于或等于第二置信度阈值的第二预测药品禁忌数据和相应候选禁忌文本信息得到第二训练样本集;
基于所述第二训练样本集对所述药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
在其中一个实施例中,所述药品数据提取模型的优化步骤还包括:
将所述优化样本集中第二置信度小于所述第二置信度阈值的候选禁忌文本信息推送至多个审核终端,并接收所述多个审核终端针对所述候选禁忌文本信息分别反馈的药品禁忌数据;
对接收的所述药品禁忌数据进行投票得到所述候选禁忌文本信息对应的标准药品禁忌数据;
根据所述候选禁忌文本信息和所述标准药品禁忌数据得到第三训练样本集;
基于所述第三训练样本集对所述药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
在其中一个实施例中,所述方法还包括:
获取测试样本集;
基于所述测试样本集对优化后的所述药品数据提取模型进行测试,得到准确率和召回率;
当所述准确率和所述召回率符合指定条件时,停止迭代优化;
当所述准确率和所述召回率不符合指定条件时,继续迭代执行上述药品数据提取模型的优化步骤。
一种数据处理装置,所述装置包括:
获取模块,用于获取携带有处方数据的医疗数据;所述处方数据包括药品标识;
查询模块,用于获取所述药品标识对应的药品禁忌元数据,调用线程根据所述药品禁忌元数据查询与所述药品标识相匹配的药品禁忌数据;所述药品禁忌数据是基于已训练的药品数据提取模型和人工标注相结合的方式预先提取出的;
审核模块,用于将所述药品禁忌数据中的限制对象与所述医疗数据进行匹配,以根据匹配结果确定所述处方数据的审核结果;
确定模块,用于当所述审核结果为存在药品禁忌用药时,根据所述审核结果确定限制级别,并查询所述限制级别对应的处理策略参数;所述处理策略参数用于指示对所述处方数据进行拦截干预、提醒干预或提醒;
处理模块,用于按照所述处理策略参数对所述处方数据进行处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个实施例中所述的数据处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例中所述的数据处理方法的步骤。
上述数据处理方法、装置、计算机设备和存储介质,基于已训练的药品数据提取模型和人工标注相结合的方式,预先提取各药品标识对应的药品禁忌数据,以便于在获取到携带有处方数据的医疗数据后,基于处方数据中的药品标识所对应的药品禁忌元数据,调用线程能够快速获取到准确性较高的药品禁忌数据,基于该药品禁忌数据和医疗数据对处方数据进行审核时,能够提高审核效率和准确性。这样,当判定存在药品禁忌用药时,基于审核结果中的限制对象能够快速而准确的确定限制级别,并按照限制级别对应的处理策略参数对处方数据进行拦截干预、提醒干预或提醒处理,能够提高数据处理效率。
附图说明
图1为一个实施例中数据处理方法的应用场景图;
图2为一个实施例中数据处理方法的流程示意图;
图3为另一个实施例中数据处理方法的流程示意图;
图4为一个实施例中药品数据提取模型的训练和优化步骤的流程示意图;
图5为一个实施例中数据处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取携带有处方数据的医疗数据,调用线程根据处方数据中的药品标识所对应的药品禁忌元数据查询相匹配的药品禁忌数据,根据药品禁忌数据中的限制对象和医疗数据对处方数据进行审核得到审核结果,当审核结果为存在药品禁忌用药时,根据审核结果确定限制级别,并按照限制级别对应的处理策略参数对处方数据进行拦截干预、提醒干预或提醒等处理。可以理解,服务器104从终端102获取医疗数据,并基于医疗数据中的处方数据所对应的审核结果向终端102反馈提示信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取携带有处方数据的医疗数据;处方数据包括药品标识。
其中,医疗数据是在用户就诊过程中所采集的数据,具体包括处方数据,还可包括用户基本数据和诊断数据。用户基本数据是用户的基本数据,比如用户的年龄、性别和是否处于妊娠期等。诊断数据是用于表征诊断结果的数据,比如感冒。处方数据包括推荐药品的药品标识,以及各药品标识对应的用法和用量等药品推荐信息。药品标识用于唯一标识药品,可以由数字、字母和符号等字符中的至少一种组成的字符串,具体可以是药品的名称、编号或代码等。
具体地,服务器自动识别并捕获由终端采集的医疗数据,提取该医疗数据中的处方数据,并识别处方数据中的药品标识。终端具体可以是医护终端。
在一个实施例中,终端实时检测预设触发操作,根据所检测到的预设触发操作采集预录入和/或预查询到的数据,并根据所采集到的数据得到医疗数据。其中,预录入和/或预查询到的数据比如用户基本数据、处方数据和诊断数据等。
在一个实施例中,服务器自动识别并抓取由终端采集并发送至信息管理系统的医疗数据。服务器具体可通过数据审核系统识别并抓取医疗数据。其中,信息管理系统和数据审核系统既可部署于相同的服务器上,也可部署于不同的服务器上。数据审核系统具体可以是药品禁忌数据审核系统。
S204,获取药品标识对应的药品禁忌元数据,调用线程根据药品禁忌元数据查询与药品标识相匹配的药品禁忌数据;药品禁忌数据是基于已训练的药品数据提取模型和人工标注相结合的方式预先提取出的。
其中,元数据是描述数据的数据,用于描述数据的属性和特征。元数据比如数据对应的存储路径、数据库标识和数据格式等。药品禁忌元数据是用于描述药品禁忌数据的元数据,具体可以是指药品禁忌数据的存储路径,和/或,存储有该药品禁忌数据的数据库对应的数据库标识等。存储路径可理解为存储目录或存储地址,基于存储路径可直接定位为相应的药品禁忌数据。存储有药品禁忌数据的数据库可理解为药品禁忌数据库,药品禁忌数据库是由多个药品标识各自对应的药品禁忌数据构成的数据集合。药品禁忌数据库中存储的药品禁忌数据具体可以是结构化的药品禁忌数据,比如药品标识-限制对象-限制级别。药品禁忌数据库中的药品禁忌数据是基于已训练的药品数据提取模型和人工标注相结合的方式预先提取到的。
药品禁忌数据是用于描述药品用药禁忌的数据,具体可包括限制对象、限制级别、限制条件和药品间的禁忌类别。限制对象是指限制用药的目标对象,也就是不适合用药的目标对象,比如妊娠期、妊娠前和儿童。限制级别是指限制目标对象用药的级别或程度,比如禁用、忌用、慎用、不推荐、尚不明确和减量。限制条件是指限制用药的判断条件或依据,比如高血压综合征和青霉素过敏。药品间的禁忌类别用于表征同时使用两种药品时的药理作用,禁忌类别比如禁止同时使用或不宜同时使用。
具体地,服务器基于训练样本集进行模型训练得到已训练的药品数据提取模型,通过药品数据提取模型预测和人工标注相结合的方式,预先从各药品标识对应的禁忌文本信息中提取相应的药品禁忌数据。服务器将所提取出的药品禁忌数据按照相应药品标识对应的药品禁忌元数据进行存储,并将该药品禁忌元数据和相应的药品标识关联存储。服务器在获取到携带有处方数据的医疗数据后,根据该处方数据中的药品标识查询相应的药品禁忌元数据,并调用线程按照所查询到的药品禁忌元数据获取与该药品标识查询相匹配的药品禁忌数据。可以理解,若处方数据中包括多个药品标识,服务器按照该多个药品标识各自对应的药品禁忌元数据,分别查询与每个药品标识相匹配的药品禁忌数据。
在一个实施例中,服务器将所提取出的药品禁忌数据进行存储,根据存储信息得到该药品禁忌数据的药品禁忌元数据,并将该药品禁忌元数据作为相应药品标识的药品禁忌元数据。
在一个实施例中,服务器基于所提取出的药品禁忌数据构建药品禁忌数据库,得到预配置的药品禁忌数据库。服务器根据该预配置的药品禁忌数据库和/或各药品禁忌数据在该药品禁忌数据库中的存储位置,得到相应药品标识的药品禁忌元数据。
在一个实施例中,服务器解析药品禁忌元数据得到相应药品禁忌数据的存储路径,和/或,用于存储相应药品禁忌数据的药品禁忌数据库的数据库标识。服务器按照解析得到的存储路径快速定位相应药品标识所对应的药品禁忌数据。或者,服务器根据数据库标识确定药品禁忌数据库,并根据药品标识或存储路径从该药品禁忌数据库中查询相应的药品禁忌数据。这样,基于存储路径和/或数据库标识等药品禁忌元数据能够快速获取药品标识的药品禁忌数据,以避免在海量的药品禁忌数据中查询与药品标识相匹配的药品禁忌数据,能够提高药品禁忌数据的查询效率,从而能够提高基于该药品禁忌数据进行数据处理时的数据处理效率。
在一个实施例中,服务器解析药品禁忌元数据还能够得到数据格式等数据,并按照存储路径查询与该数据格式相符合的药品禁忌数据。这样,基于数据格式相符的药品禁忌数据进行后续的数据处理,能够避免对所查询到的药品禁忌数据进行数据格式转换等处理,从而能够提高数据处理效率。
在一个实施例中,处方数据中包括多个药品标识。服务器在获取到每个药品标识对应的药品禁忌元数据后,通过多个线程并行的按照每个药品标识对应的药品禁忌元数据查询与该药品标识相匹配的药品禁忌数据。这样,能够进一步提高药品禁忌数据的获取效率,从而能够进一步提高数据处理效率。
在一个实施例中,药品禁忌数据库中的药品禁忌数据以知识图谱的形式进行存储。服务器从各药品标识对应的禁忌文本信息中提取出药品禁忌数据后,基于所提取出的药品禁忌数据和相应的药品标识构建知识图谱,并将已构建的知识图谱存储至预配置的药品禁忌数据库中。服务器在获取携带有处方数据的医疗数据后,根据处方数据中的各药品标识分别从已构建的知识图谱中查询相应的药品禁忌数据。可以理解,知识图谱是基于多个结构化的药品禁忌数据构建的。
S206,将药品禁忌数据中的限制对象与医疗数据进行匹配,以根据匹配结果确定处方数据的审核结果。
其中,审核结果是用于表征处方数据是否存在药品禁忌用药的审核数据。审核结果具体可理解为对处方数据中各药品标识对应的药品禁忌数据进行审核所得到的审核数据,也即药品禁忌数据审核结果。
具体地,服务器从所查询到的药品禁忌数据中提取出限制对象,将所提取出的限制对象与相应医疗数据进行匹配,以根据药品禁忌数据和医疗数据对该医疗数据所携带的处方数据进行审核,并根据匹配结果确定相应处方数据的审核结果。可以理解,若处方数据中包括多个药品标识,服务器将从每个药品标识对应的药品禁忌数据中提取出的限制对象分别与医疗数据进行匹配,并根据该多个药品禁忌数据所对应的匹配结果确定处方数据的审核结果。进一步地,当至少一个药品禁忌数据中包括多个限制对象时,服务器将该多个限制对象分别与医疗数据进行匹配,并根据该多个限制对象和其他各药品禁忌数据中的限制对象所对应的匹配结果确定处方数据的审核结果。
在一个实施例中,当处方数据对应的至少一个匹配结果中存在匹配成功的匹配结果时,表明在医疗数据中查询到与处方数据中的药品标识对应的限制对象相匹配的目标对象,服务器则判定存在药品禁忌用药。可以理解,可将药品禁忌数据中的限制对象所对应的匹配结果确定为该药品禁忌数据所对应的匹配结果,相应地,可将处方数据中药品标识对应的药品禁忌数据所对应的匹配结果,确定为该处方数据所对应的匹配结果。
在一个实施例中,医疗数据中还携带有用户基本数据和诊断数据。服务器从所获取到的医疗数据中提取处方数据、用户基本数据和诊断数据,并将从该处方数据对应的药品禁忌数据中提取出的每个限制对象,分别与相应用户基本数据和诊断数据进行匹配,以根据匹配结果确定处方数据的审核结果。例如,当用户基本数据和/或诊断数据中存在与限制对象匹配成功的目标对象时,服务器则判定审核结果为存在药品禁忌用药。
在一个实施例中,服务器从医疗数据中提取出用户基本数据和诊断数据后,对所提取出的用户基本数据和诊断数据进行预处理,并将药品禁忌数据中的限制对象与预处理后的用户基本数据和诊断数据进行匹配,以根据匹配结果确定审核结果。预处理比如基于用户基本数据中用户的年龄判断用户是否为儿童,或者,基于同义词集实现的同义词转换,比如怀孕同义转换为妊娠期。
在一个实施例中,若药品禁忌数据中包括限制对象和相应的限制条件,服务器则在限制对象和限制条件同时满足时判定存在药品禁忌用药,也就是当医疗数据中同时包括该限制对象和相应限制条件时,则判定存在药品禁忌用药。类似地,若药品禁忌数据中包括药品间的禁忌类别,服务器则在判定处方数据中同时存在该两种药品标识时判定存在药品禁忌用药。
S208,当审核结果为存在药品禁忌用药时,根据审核结果确定限制级别,并查询限制级别对应的处理策略参数;处理策略参数用于指示对处方数据进行拦截干预、提醒干预或提醒。
其中,存在药品禁忌用药是指在医疗数据中查询到与处方数据中的药品标识对应的限制对象相匹配的目标对象。处理策略参数是指对处方数据进行处理时所依据的策略的量化参数,用于指示服务器对处方数据进行拦截干预、提醒干预或提醒等处理。
拦截干预是指将处方数据进行拦截,还可将该拦截的处方数据和/或基于该处方数据触发的提示信息反馈至终端,以指示终端基于医疗数据更新处方数据。提醒干预是指将携带相应处方数据和提醒信息的确认请求发送至终端,并在接收到终端针对确认请求中的处方数据反馈的确认指令时,将该处方数据推送至其他设备进行处理。提醒信息用于提示处方数据中存储药品禁忌用药。提醒是指触发生成的提醒信息反馈至终端,并将处方数据推送至其他设备进行处理。提醒信息中可携带药品禁忌用药的限制对象,还可包括相应的限制级别。其他设备比如药师终端或用于存储处方数据的服务器。
具体地,当审核结果为存在药品禁忌用药时,也就是当判定处方数据存在药品禁忌用药时,表明处方数据中存在不适用于相应用户的药品,服务器则根据审核结果确定医疗数据中与处方数据对应的限制对象相匹配的目标对象,也就是确定存在于医疗数据中的限制对象或目标对象。服务器在药品禁忌数据库中查询与所确定的限制对象对应的限制级别,并根据所查询到的限制级别查询预配置的处理策略参数。
在一个实施例中,根据审核结果确定多个限制对象,服务器分别查询每个限制对象所对应的限制级别,并根据级别最高的限制级别查询预配置的处理策略参数。预配置的处理策略参数,比如拦截干预、提醒干预和提醒等。
S210,按照处理策略参数对处方数据进行处理。
具体地,服务器在查询到处理策略参数后,按照所查询到的处理策略参数对相应处方数据进行处理。可以理解,服务器基于处理策略参数对处方数据进行拦截干预、提醒干预或提醒等处理。
在一个实施例中,当限制级别为禁用或忌用时,处理策略参数为拦截干预,服务器则根据处理策略参数对处方数据进行拦截干预。当限制级别为慎用或不推荐时,处理策略参数为提醒干预,服务器则对处方数据进行提醒干预。当限制级别为尚不明确或减量时,处理策略参数为提醒,服务器则对处方数据进行提醒。
在一个实施例中,服务器按照处理策略参数对处方数据进行处理,并向采集该处方数据的终端推送相应的提示信息。例如,当限制级别为拦截干预时,服务器对相应处方数据进行拦截,并向终端推送表示处方数据被拦截和被拦截原因的提示信息。
在一个实施例中,服务器接收终端针对提示信息反馈的应答数据,若应答数据为新的处方数据,则针对新的处方数据进行二次审核;若应答数据为针对该存在药品禁忌用药的处方数据的解释数据时,验证解释数据的真实性,并在验证通过时,将拦截的处方数据发送至相应的服务器进行后续处理。
在一个实施例中,服务器上可同时部署有数据审核系统和医院的信息管理系统。服务器也可以是包括数据审核服务器和信息管理服务器的服务器集群,其中,数据审核服务器上部署有数据审核系统,信息管理服务器上部署有医院的信息管理系统。
上述数据处理方法,基于已训练的药品数据提取模型和人工标注相结合的方式,预先提取各药品标识对应的药品禁忌数据,以便于在获取到携带有处方数据的医疗数据后,基于处方数据中的药品标识所对应的药品禁忌元数据能够快速获取到准确性较高的药品禁忌数据,基于该药品禁忌数据和医疗数据对处方数据进行审核时,能够提高审核效率和准确性。这样,当判定存在药品禁忌用药时,基于审核结果中的限制对象能够快速而准确的确定限制级别,并按照限制级别对应的处理策略参数对处方数据进行处理,能够提高数据处理效率。
在一个实施例中,上述数据处理方法还包括:检测预设触发条件;根据预设触发条件查询符合预设条件的历史拦截数据;根据历史拦截数据生成数据报表,将数据报表推送至相应终端。
其中,预设触发条件是指预先设定的触发条件,比如当前系统时间与预设触发时间一致,或者,接收到终端发送的拦截数据分析指令。历史拦截数据是指在当前系统时间之前拦截并存储的数据。
具体地,服务器实时检测预设触发条件,当检测到预设触发条件时,根据所检测到的预设触发条件从数据库中查询符合预设条件的历史拦截数据。服务器对所查询到的历史拦截数据进行分析,生成相应的数据报表,并将所生成的数据报表推送至相应终端。预设条件可以是指定级别的医师、指定科室或指定诊断结果等,也可以是整个医院在指定时间段内的历史拦截数据。接收数据报表的终端可以是医院各职能部门的终端,也可以是监管方或第三方的终端。
在一个实施例中,服务器在对处方数据进行审核并拦截时,将拦截的处方数据存储在数据库中。可以理解,服务器还可将所拦截的处方数据对应的医疗数据、拦截等级和医师标识与该处方数据对应存储在数据库中。
在一个实施例中,服务器将提醒干预或提醒类型的处方数据存储在数据库中,以便于后续的统计分析。
上述实施例中,基于历史拦截数据生成数据报表,以基于数据报表实现不同维度的药品禁忌用药监督和点评,从而能够辅助提高用药的安全性。
在一个实施例中,基于已训练的药品数据提取模型和人工标注相结合的方式提取药品禁忌数据的步骤,包括:获取药品标识对应的禁忌文本信息;将禁忌文本信息输入已训练的药品数据提取模型进行预测,得到第一预测药品禁忌数据和第一置信度;当第一置信度大于或等于第一置信度阈值时,将第一预测药品禁忌数据确定为从禁忌文本信息中提取出的药品禁忌数据;当第一置信度小于第一置信度阈值时,将禁忌文本信息推送至审核终端进行审核,并将审核终端对应反馈的药品禁忌数据确定为从禁忌文本信息中提取出的药品禁忌数据。
其中,禁忌文本信息是用于描述药品对应的药品禁忌数据的文本信息。药品数据提取模型是基于预先获取的训练样本集训练得到的、能够用于对禁忌文本信息进行预测得到相应预测药品禁忌数据和置信度的模型。训练样本集包括目标禁忌文本信息和每个目标禁忌文本信息所对应的目标药品禁忌数据。置信度是指置信程度或可信程度。
具体地,服务器获取待提取药品禁忌数据的药品标识所对应的禁忌文本信息,将所获取到的禁忌文本信息输入已训练的药品数据提取模型进行预测,得到第一预测药品禁忌数据和相应的第一置信度,并将预测得到的第一置信度与预设的第一置信度阈值进行比较。当第一置信度大于或等于第一置信度阈值时,服务器将预测得到的第一预测药品禁忌数据确定为从相应禁忌文本信息中提取出的药品禁忌数据。当第一置信度小于第一置信度阈值时,服务器将相应的禁忌文本信息推送至审核终端进行审核。服务器接收审核终端针对禁忌文本信息反馈的药品禁忌数据,并将所接收到的药品禁忌数据确定为从该禁忌文本信息中提取出的药品禁忌数据。服务器将从禁忌文本信息中提取出的药品禁忌数据确定为相应药品标识所对应的药品禁忌数据,并将该药品禁忌数据按照药品标识对应的药品禁忌元数据进行存储,和/或,将该药品禁忌数据和药品标识关联存储至药品禁忌数据库中。
在一个实施例中,服务器获取待提取药品禁忌数据的药品标识对应的药品文本信息,并从药品文本信息中提取出禁忌文本信息。可以理解,服务器可基于关键字匹配的方式从药品文本信息中提取禁忌文本信息,也可通过已训练的文本信息提取模型从药品文本信息中提取禁忌文本信息。文本信息提取模型是基于预先获取的训练样本集进行模型训练得到的、能够用于从药品文本信息中提取禁忌文本信息的模型。训练样本集包括药品标识对应的药品文本信息和相应的禁忌文本信息。
在一个实施例中,服务器通过已训练的药品数据提取模型从药品标识对应的禁忌文本信息中提取出药品禁忌数据后,将所提取出的药品禁忌数据和相应的禁忌文本信息推送审核终端进行审核,并将审核通过的药品禁忌数据和相应的药品标识预配置至药品禁忌数据库中。可以理解,服务器可筛选指定数量的药品标识所对应的药品禁忌数据,并将筛选出的药品禁忌数据和相应禁忌文本信息推送至审核终端进行审核。服务器也可接收审核人员的抽审指令,并基于抽审指令对所提取出的药品禁忌数据进行抽审。
在一个实施例中,服务器将第一置信度小于第一置信度阈值的禁忌文本信息和相应的第一预测药品禁忌数据推送至审核终端进行审核,并将审核终端对应反馈的药品禁忌数据确定为从该禁忌文本信息中提取出的药品禁忌数据。
在一个实施例中,终端将服务器推送的禁忌文本信息进行展示,以指示审核人员对所展示的禁忌文本信息进行人工标注,并检测审核人员对所展示的禁忌文本信息标注的药品禁忌数据,将所检测到的药品禁忌数据作为标注药品禁忌数据反馈至服务器。可以理解,当接收到服务器推送的禁忌文本信息和相应的第一预测药品禁忌数据时,终端可基于审核人员的触发操作对该第一预测药品禁忌数据进行修正,并将修正后的第一预测禁忌数据作为标注药品禁忌数据反馈至服务器。
上述实施例中,基于药品数据提取模型和人工标注相结合的方式,从药品标识对应的禁忌文本信息中提取药品禁忌数据,在保证数据提取准确性的情况下,能够提高提取的效率。
在一个实施例中,药品数据提取模型的训练步骤包括:获取第一训练样本集;第一训练样本集包括目标禁忌文本信息,以及对目标禁忌文本信息进行人工标注得到的目标药品禁忌数据;将目标禁忌文本信息作为输入特征,将目标药品禁忌数据作为期望的输出特征进行模型训练,得到已训练的药品数据提取模型。
具体地,服务器获取多个目标药品标识各自对应的目标禁忌文本信息,以及对每个目标禁忌文本信息进行人工标注所得到的目标药品禁忌数据,并根据所获取到的目标禁忌文本信息和相应目标药品禁忌数据得到第一训练样本集。服务器将第一训练样本集中的每个目标禁忌文本信息作为输入特征,将相应的目标药品禁忌数据作为期望的输出特征,对初始化的药品数据提取模型进行模型训练,得到已训练的药品数据提取模型。
在一个实施例中,服务器基于第一训练样本集对初始化的药品数据提取模型进行迭代训练,直至符合预设停止条件时,停止迭代,得到已训练的药品数据提取模型。预设停止条件比如第一训练样本集中的每个训练样本均已用于训练模型,或者,迭代次数达到次数阈值等。
上述实施例中,基于第一训练样本集进行模型训练得到已训练的药品数据提取模型,以便于基于该已训练的药品数据提取模型,能够从药品标识对应的禁忌文本信息中快速而准确的提取出药品禁忌数据。
在一个实施例中,药品数据提取模型的优化步骤包括:获取包括候选药品标识所对应的候选禁忌文本信息的优化样本集;将候选禁忌文本信息输入药品数据提取模型进行预测,得到第二预测药品禁忌数据和第二置信度;根据优化样本集中第二置信度大于或等于第二置信度阈值的第二预测药品禁忌数据和相应候选禁忌文本信息得到第二训练样本集;基于第二训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
其中,优化样本集是用于进行模型优化训练的样本集。第二置信度阈值是预先设定的置信度阈值,具体可自定义。
具体地,服务器获取多个候选药品标识各自对应的候选禁忌文本信息,根据所获取到的候选禁忌文本信息得到优化样本集。服务器将优化样本集中的每个候选禁忌文本信息作为输入特征,分别输入到已训练的药品数据提取模型进行预测,得到每个候选禁忌文本信息对应的第二预测药品禁忌数据和相应的第二置信度,并将每个第二置信度分别与预设的第二置信度阈值进行比较。服务器根据比较结果从优化样本集中筛选第二置信度大于或等于第二置信度阈值的候选禁忌文本信息,并根据筛选出的候选禁忌文本信息和相应的第二预测药品禁忌数据得到第二训练样本集。服务器基于所得到的第二训练样本集对已训练的药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
在一个实施例中,服务器将第二训练样本集中的候选禁忌文本信息作为输入特征,将相应的第二预测药品禁忌数据作为期望的输出特征,对已训练的药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
在一个实施例中,服务器从优化样本集中筛选第二置信度小于第二置信度阈值的候选禁忌文本信息,并将筛选出的候选禁忌文本信息推送至审核终端进行审核。服务器接收审核终端针对候选禁忌文本信息反馈的药品禁忌数据,并根据所接收的药品禁忌数据和相应的候选禁忌文本信息得到第三训练样本集。服务器基于第三训练样本集对已训练的药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。可以理解,服务器也可将筛选出的候选禁忌文本信息和相应的第二预测药品禁忌数据推送至审核终端进行审核。
在一个实施例中,服务器可基于第二训练样本集和第三训练样本集,对基于第一训练样本集训练得到的药品数据提取模型进行双重优化训练,得到优化后的药品数据提取模型,并基于优化后的药品数据提取模型从各药品标识对应的禁忌文本信息中提取药品禁忌数据,由此能够提高数据提取的准确性。
上述实施例中,基于未标注的候选禁忌文本信息对已训练的药品数据提取模型进行优化训练,得到优化后的且准确性较高的药品数据提取模型。基于少量已标注的训练样本进行模型训练,并基于大量未标注的优化样本进行模型优化,能够在降低标注成本的情况下保证模型训练效率和准确性。
在一个实施例中,药品数据提取模型的优化步骤还包括:将优化样本集中第二置信度小于第二置信度阈值的候选禁忌文本信息推送至多个审核终端,并接收多个审核终端针对候选禁忌文本信息分别反馈的药品禁忌数据;对接收的药品禁忌数据进行投票得到候选禁忌文本信息对应的标准药品禁忌数据;根据候选禁忌文本信息和标准药品禁忌数据得到第三训练样本集;基于第三训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
具体地,服务器从优化样本集中筛选第二置信度小于第二置信度阈值的候选禁忌文本信息,并将筛选出的候选禁忌文本信息推送至多个审核终端进行审核。服务器接收每个审核终端针对所接收到的候选禁忌文本信息所反馈的药品禁忌数据。对于筛选出的每个候选禁忌文本信息,服务器对对应于该候选禁忌文本信息所接收到的药品禁忌数据进行投票,以根据投票结果得到该候选禁忌文本信息所对应的标准药品禁忌数据,也就是将票数最多的药品禁忌数据确定为从该候选禁忌文本信息中提取出的标准药品禁忌数据。服务器根据筛选出的候选禁忌文本信息和对应确定的标准药品禁忌数据得到第三训练样本集,并基于该第三训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。可以理解,服务器基于第三训练样本集,可对基于第一训练样本集训练得到的已训练的药品数据提取模型进行优化训练,也可对基于第二训练样本集优化训练得到的优化后的药品数据提取模型进行优化训练。
在一个实施例中,服务器在接收到多个审核终端针对各自接收的候选禁忌文本信息所反馈的药品禁忌数据后,将对应于各候选禁忌文本信息所接收到的药品禁忌数据,确定为相应候选药品标识所对应的药品禁忌数据。服务器从所筛选出的多个候选禁忌文本信息各自对应的候选药品标识中选取预设数量的候选药品标识。对于所选取的每个候选药品标识,服务器对该候选药品标识所对应的多个药品禁忌数据进行投票,以筛选票数最大的药品禁忌数据,并统计该票数最大值。当统计的票数最大值大于或等于预设的票数阈值,服务器则判定相应候选药品标识所对应的药品禁忌数据标注结果是正确的,并将所筛选出的票数最大的药品禁忌数据作为该候选药品标识所对应的标准药品禁忌数据。当统计的票数最大值小于票数阈值时,服务器则判定相应候选药品标识所对应的药品禁忌数据标注结果是错误的,将该候选药品标识对应的候选禁忌文本信息推送至多个审核终端进行重新审核,或者,推送至复核终端进行复核。
对于所选取的预设数量的候选药品标识,服务器统计药品禁忌数据标注结果正确的候选药品标识的数量,并基于统计的数量和预设数量计算准确率。当计算的准确率大于或等于预设的准确率阈值时,服务器按照上述投票方式,分别确定优化样本集中第二置信度小于第二置信度阈值的候选禁忌文本信息所对应的标准药品禁忌数据。当计算的准确率小于准确率阈值时,服务器将优化样本集中第二置信度小于第二置信度阈值的候选禁忌文本信息推送至多个审核终端进行重新审核,并针对审核终端对应反馈的药品禁忌数据执行上述相关步骤。
在一个实施例中,终端针对所接收到的候选禁忌文本信息所反馈的药品禁忌数据,是审核人员对候选禁忌文本信息进行人工标注得到的药品禁忌数据。若终端接收到候选禁忌文本信息和相应的第二预测药品禁忌数据,对应反馈的药品禁忌数据可以是审核人员对候选禁忌文本信息进行人工标注得到的药品禁忌数据,也可以是审核人员根据候选禁忌文本信息对第二预测药品禁忌数据进行修改得到的药品禁忌数据。
上述实施例中,基于人工修正的药品禁忌数据对药品数据提取模型进行优化,能够提高模型的预测准确性,而且采用多方(多人/多终端)修正能够提高药品禁忌数据的准确性,基于该准确性较高的药品禁忌数据进行模型优化,能够进一步提高模型的预测准确性。
在一个实施例中,上述数据处理方法还包括:获取测试样本集;基于测试样本集对优化后的药品数据提取模型进行测试,得到准确率和召回率;当准确率和召回率符合指定条件时,停止迭代优化;当准确率和召回率不符合指定条件时,继续迭代执行上述药品数据提取模型的优化步骤。
其中,测试样本集是用于对药品数据提取模型进行测试,以判定是否停止迭代优化的样本集。测试样本集包括多个药品标识对应的禁忌文本信息,以及对禁忌文本信息进行人工标注得到的药品禁忌数据。指定条件比如准确率大于或等于预设准确率,以及召回率大于或等于预设召回率。准确率是指正确提取的药品禁忌数据的数量占实际提取的药品禁忌数据的数量的比率,召回率是指正确提取的药品禁忌数据的数量占应该提取的药品禁忌数据的数量的比率。
具体地,服务器获取测试样本集,并基于所获取到的测试样本集对基于第二训练样本集和/或第三训练样本集优化后的药品数据提取模型进行测试,得到相应的准确率和召回率,并将所得到的准确率和召回率与指定条件进行比较。当准确率和召回率符合指定条件时,服务器判定该优化后的药品数据提取模型符合迭代停止条件,则停止迭代优化。当准确率和召回率不符合指定条件时,服务器判定该优化后的药品数据提取模型不符合迭代停止条件,则继续迭代执行上述药品数据提取模型的优化步骤。
在一个实施例中,当准确率和召回率不符合指定条件时,服务器基于重新获取的优化样本集对已优化的药品数据提取模型继续进行优化。
上述实施例中,在药品数据提取模型的迭代优化训练过程中,基于测试样本集对已优化的药品数据提取模型进行测试,并基于测试样本集所对应的准确率和召回率判定是否停止迭代优化,由此,能够以尽可能少的迭代次数优化得到预测准确性较高的药品数据提取模型。
在一个实施例中,服务器从药品文本数据库中获取各个药品标识对应的药品文本信息,基于已训练的文本信息提取模型从各药品文本信息中提取相应的禁忌文本信息,并根据所提取的禁忌文本信息构建相应的药品禁忌文本库。其中,文本信息提取模型的训练采用端到端的深度学习算法。
在一个实施例中,通过分析和梳理药品禁忌文本库中的禁忌文本信息对药品禁忌数据划分为5+1个等级,并制定药品禁忌等级标准,以便于审核人员参考药品禁忌等级标准对禁忌文本信息进行人工标注。药品禁忌文本库中的禁忌文本信息可作为药品数据提取模型的训练和优化过程中的样本集来源。
如图3所示,在一个实施例中,提供了一种数据处理方法,该方法具体包括以下步骤:
S302,获取携带有处方数据的医疗数据;处方数据包括药品标识。
S304,获取药品标识对应的药品禁忌元数据,调用线程根据药品禁忌元数据查询与药品标识相匹配的药品禁忌数据;其中,药品禁忌数据是基于下述步骤S312至S318预先提取出的。
S306,将药品禁忌数据中的限制对象与医疗数据进行匹配,以根据匹配结果确定处方数据的审核结果。
S308,当审核结果为存在药品禁忌用药时,根据审核结果确定限制级别,并查询限制级别对应的处理策略参数;处理策略参数用于指示对处方数据进行拦截干预、提醒干预或提醒。
S310,按照处理策略参数对处方数据进行处理。
S312,获取药品标识对应的禁忌文本信息。
S314,将禁忌文本信息输入已训练的药品数据提取模型进行预测,得到第一预测药品禁忌数据和第一置信度。
S316,当第一置信度大于或等于第一置信度阈值时,将第一预测药品禁忌数据确定为从禁忌文本信息中提取出的药品禁忌数据。
S318,当第一置信度小于第一置信度阈值时,将禁忌文本信息推送至审核终端进行审核,并将审核终端对应反馈的药品禁忌数据确定为从禁忌文本信息中提取出的药品禁忌数据。
图4为一个实施例中药品数据提取模型的训练和优化步骤,具体包括以下步骤:
S402,获取第一训练样本集;第一训练样本集包括目标禁忌文本信息,以及对目标禁忌文本信息进行人工标注得到的目标药品禁忌数据。
S404,将目标禁忌文本信息作为输入特征,将目标药品禁忌数据作为期望的输出特征进行模型训练,得到已训练的药品数据提取模型。
S406,获取包括候选药品标识所对应的候选禁忌文本信息的优化样本集。
S408,将候选禁忌文本信息输入药品数据提取模型进行预测,得到第二预测药品禁忌数据和第二置信度。
S410,根据优化样本集中第二置信度大于或等于第二置信度阈值的第二预测药品禁忌数据和相应候选禁忌文本信息得到第二训练样本集。
S412,基于第二训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
S414,将优化样本集中第二置信度小于第二置信度阈值的候选禁忌文本信息推送至多个审核终端,并接收多个审核终端针对候选禁忌文本信息分别反馈的药品禁忌数据。
S416,对接收的药品禁忌数据进行投票得到候选禁忌文本信息对应的标准药品禁忌数据。
S418,根据候选禁忌文本信息和标准药品禁忌数据得到第三训练样本集。
S420,基于第三训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
S422,获取测试样本集。
S424,基于测试样本集对优化后的药品数据提取模型进行测试,得到准确率和召回率。
S426,当准确率和召回率符合指定条件时,停止迭代优化。
S428,当准确率和召回率不符合指定条件时,跳转至步骤S406继续执行。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据处理装置500,包括:获取模块502、查询模块504、审核模块506、确定模块508和处理模块510,其中:
获取模块502,用于获取携带有处方数据的医疗数据;处方数据包括药品标识;
查询模块504,用于获取药品标识对应的药品禁忌元数据,调用线程根据药品禁忌元数据查询与药品标识相匹配的药品禁忌数据;药品禁忌数据是基于已训练的药品数据提取模型和人工标注相结合的方式预先提取出的;
审核模块506,用于将药品禁忌数据中的限制对象与医疗数据进行匹配,以根据匹配结果确定处方数据的审核结果;
确定模块508,用于当审核结果为存在药品禁忌用药时,根据审核结果确定限制级别,并查询限制级别对应的处理策略参数;处理策略参数用于指示对处方数据进行拦截干预、提醒干预或提醒。
处理模块510,用于按照所述处理策略参数对所述处方数据进行处理。
在一个实施例中,上述数据处理装置500还包括:报表生成模块;
报表生成模块,用于检测预设触发条件;根据预设触发条件查询符合预设条件的历史拦截数据;根据历史拦截数据生成数据报表,将数据报表推送至相应终端。
在一个实施例中,上述数据处理装置500还包括:提取模块;、
提取模块,用于获取药品标识对应的禁忌文本信息;将禁忌文本信息输入已训练的药品数据提取模型进行预测,得到第一预测药品禁忌数据和第一置信度;当第一置信度大于或等于第一置信度阈值时,将第一预测药品禁忌数据确定为从禁忌文本信息中提取出的药品禁忌数据;当第一置信度小于第一置信度阈值时,将禁忌文本信息推送至审核终端进行审核,并将审核终端对应反馈的药品禁忌数据确定为从禁忌文本信息中提取出的药品禁忌数据。
在一个实施例中,上述数据处理装置500还包括:模型训练模块;
模型训练模块,用于获取第一训练样本集;第一训练样本集包括目标禁忌文本信息,以及对目标禁忌文本信息进行人工标注得到的目标药品禁忌数据;将目标禁忌文本信息作为输入特征,将目标药品禁忌数据作为期望的输出特征进行模型训练,得到已训练的药品数据提取模型。
在一个实施例中,上述数据处理装置500还包括:模型优化模块;
模型优化模块,用于获取包括候选药品标识所对应的候选禁忌文本信息的优化样本集;将候选禁忌文本信息输入药品数据提取模型进行预测,得到第二预测药品禁忌数据和第二置信度;根据优化样本集中第二置信度大于或等于第二置信度阈值的第二预测药品禁忌数据和相应候选禁忌文本信息得到第二训练样本集;基于第二训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
在一个实施例中,模型优化模块,还用于将优化样本集中第二置信度小于第二置信度阈值的候选禁忌文本信息推送至多个审核终端,并接收多个审核终端针对候选禁忌文本信息分别反馈的药品禁忌数据;对接收的药品禁忌数据进行投票得到候选禁忌文本信息对应的标准药品禁忌数据;根据候选禁忌文本信息和标准药品禁忌数据得到第三训练样本集;基于第三训练样本集对药品数据提取模型进行优化训练,得到优化后的药品数据提取模型。
在一个实施例中,模型优化模块,还用于获取测试样本集;基于测试样本集对优化后的药品数据提取模型进行测试,得到准确率和召回率;当准确率和召回率符合指定条件时,停止迭代优化;当准确率和召回率不符合指定条件时,继续迭代执行上述药品数据提取模型的优化步骤。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储药品禁忌数据和限制级别对应的处理策略参数。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个实施例中的数据处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例中的数据处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。