CN110782998A

CN110782998A - 数据审核方法、装置、计算机设备和存储介质

Info

Publication number: CN110782998A
Application number: CN201910969803.0A
Authority: CN
Inventors: 罗忆春
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-11

Abstract

本申请涉及数据处理技术，提供了一种数据审核方法、装置、计算机设备和存储介质。所述方法包括：获取携带有诊断数据和处方数据的医疗数据；通过多个线程基于各自相应的关键词集并行的从诊断数据中提取诊断病症数据；从处方数据中提取药品标识，并确定药品标识对应的药品标签；将药品标识和诊断病症数据推送至药品标签对应的审核服务器，以使得审核服务器根据药品标识查询预先提取的适应症数据，并根据适应症数据和诊断病症数据确定药品标识对应的审核结果；接收审核服务器针对药品标识对应反馈的审核结果，根据处方数据中每个药品标识对应的审核结果确定处方数据的审核结果。采用本方法能够提高处方数据的审核效率。

Description

数据审核方法、装置、计算机设备和存储介质

技术领域

本申请涉及医疗技术领域，特别是涉及一种数据审核方法、装置、计算机设备和存储介质。

背景技术

药品说明书中的适应症数据在临床用药上起着指导性作用。研究表明，适应症数据不合理是导致诊断数据与处方数据不相符的主要原因之一。由此，基于适应症数据和诊断数据对相应处方数据进行审核是至关重要的。

目前，通常是在获取到待审核的处方数据和相应的诊断数据后，从药品数据库中查询处方数据中的各药品对应的药品文本信息，并根据诊断数据和从药品文本信息中提取的适应症数据对处方数据进行审核，增加了数据处理复杂度，降低了处方数据的审核效率。尤其是在待审核的处方数据中包括中成药，和/或，待审核的处方数据量较大时，会进一步降低处方数据的审核效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高处方数据的审核效率的数据审核方法、装置、计算机设备和存储介质。

一种数据审核方法，所述方法包括：

获取携带有诊断数据和处方数据的医疗数据；

通过多个线程基于各自相应的关键词集并行的从所述诊断数据中提取诊断病症数据；

从所述处方数据中提取药品标识，并确定所述药品标识对应的药品标签；

将所述药品标识和所述诊断病症数据推送至所述药品标签对应的审核服务器，以使得所述审核服务器根据所述药品标识查询预先提取的适应症数据，并根据所述适应症数据和所述诊断病症数据确定所述药品标识对应的审核结果；

接收所述审核服务器针对所述药品标识对应反馈的审核结果，根据所述处方数据中每个药品标识对应的审核结果确定所述处方数据的审核结果。

在其中一个实施例中，所述通过多个线程基于各自相应的关键词集并行的从所述诊断数据中提取诊断病症数据，包括：

对所述诊断数据进行分词得到分词结果；

通过多个线程并行的从至少一个病症数据库中获取相应类型的关键词集，并基于所获取到的关键词集从所述分词结果中提取诊断病症数据。

在其中一个实施例中，所述接收所述审核服务器针对所述药品标识对应反馈的审核结果，根据所述处方数据中每个药品标识对应的审核结果确定所述处方数据的审核结果之后，所述方法还包括：

当所述处方数据的审核结果为不合理时，根据所述诊断病症数据从已构建的适应症知识图谱或适应症数据库中搜索相适应的候选药品标识；

获取所述候选药品标识对应的药品主治对象和药品功效；

将所述候选药品标识、所述药品主治对象和所述药品功效推送至终端。

在其中一个实施例中，所述适应症数据的提取步骤，包括：

获取所述药品标识对应的适应症文本信息；

将所述适应症文本信息输入已训练的适应症提取模型进行预测，得到预测适应症数据和置信度；

当所述置信度大于或等于置信度阈值时，将所述预测适应症数据确定为对应于所述药品标识提取的适应症数据；

当所述置信度小于所述置信度阈值时，将所述适应症文本信息推送至审核终端，并将所述审核终端对应反馈的适应症数据确定为对应于所述药品标识提取的适应症数据。

在其中一个实施例中，所述将所述适应症文本信息推送至审核终端，并将所述审核终端对应反馈的适应症数据确定为对应于所述药品标识提取的适应症数据，包括：

将所述适应症文本信息推送至多个审核终端；

接收所述多个审核终端针对所述适应症文本信息分别反馈的适应症数据；

对接收的所述适应症数据进行投票，并将票数大于或等于数量阈值的适应症数据确定为对应于所述药品标识提取的适应症数据。

在其中一个实施例中，所述将所述适应症文本信息输入已训练的适应症提取模型进行预测，得到预测适应症数据和置信度，包括：

将所述适应症文本信息输入已训练的多个适应症提取模型分别进行预测，得到多个子预测适应症数据和每个所述子预测适应症数据对应的子置信度；

对所述多个子预测适应症数据进行投票，将票数最多的子预测适应症数据确定为所述适应症文本信息对应的预测适应症数据；

根据所述票数最多的子预测适应症数据所对应的子置信度，得到所述预测适应症数据对应的置信度。

在其中一个实施例中，所述适应症提取模型的训练步骤，包括：

获取训练样本集；所述训练样本集包括目标适应症文本信息，以及对所述目标适应症文本信息进行人工标注得到的目标适应症数据；

将所述目标适应症文本信息作为输入特征，将所述目标适应症数据作为期望的输出特征进行模型训练，得到已训练的适应症特征提取模型。

一种数据审核装置，所述装置包括：

获取模块，用于获取携带有诊断数据和处方数据的医疗数据；

提取模块，用于通过多个线程基于各自相应的关键词集并行的从所述诊断数据中提取诊断病症数据；

所述提取模块，还用于从所述处方数据中提取药品标识，并确定所述药品标识对应的药品标签；

审核模块，用于将所述药品标识和所述诊断病症数据推送至所述药品标签对应的审核服务器，以使得所述审核服务器根据所述药品标识查询预先提取的适应症数据，并根据所述适应症数据和所述诊断病症数据确定所述药品标识对应的审核结果；

所述审核模块，还用于接收所述审核服务器针对所述药品标识对应反馈的审核结果，并根据所述处方数据中每个药品标识对应的审核结果确定所述处方数据的审核结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个实施例中所述的数据审核方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个实施例中所述的数据审核方法的步骤。

上述数据审核方法、装置、计算机设备和存储介质，通过多个线程基于各自相应的关键词集并行的从诊断数据中提取诊断病症数据，能够提高诊断病症数据的提取效率。根据待审核的处方数据中的每个药品标识所对应的药品标签确定该药品标识所对应的审核服务器，并将以较高效率提取出的诊断病症数据和每个药品标识推送至该药品标识对应的审核服务器进行审核，以便于以较高的效率得到每个药品标识对应的审核结果，进而基于每个药品标识对应的审核结果得到处方数据的审核结果，从而能够提高处方数据的审核效率。

附图说明

图1为一个实施例中数据审核方法的应用场景图；

图2为一个实施例中数据审核方法的流程示意图；

图3为另一个实施例中数据审核方法的流程示意图；

图4为一个实施例中数据审核装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据审核方法，可以应用于如图1所示的应用环境中。其中，管理服务器102和审核服务器104通过网络进行通信。管理服务器102获取携带有诊断数据和处方数据的医疗数据，通过多个线程基于各自相应的关键词集并行的从诊断数据中提取诊断病症数据，确定从处方数据中提取出的药品标识对应的药品标签，并将所提取出的药品标识和诊断病症数据推送至药品标签对应的审核服务器104。接收到药品标识和诊断病症数据的审核服务器104根据所接收到的药品标识查询预先提取的适应症数据，根据所提取出的适应症数据和诊断病症数据确定相应药品标识所对应的审核结果，并将药品标识对应的审核结果反馈至管理服务器102。管理服务器102根据处方数据中每个药品标识对应的审核结果得到处方数据的审核结果。管理服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。审核服务器104是由多个服务器组成的服务器集群，至少包括第一审核服务器1042和第二审核服务器1044。

在一个实施例中，管理服务器102与审核服务器104同属于一个服务器集群，管理服务器102在该服务器集群中兼具管理、调度、审核和处理等功能。管理服务器102将待审核的处方数据中的药品标识和诊断病症数据分配至各个审核服务器进行审核，并根据各审核服务器针对药品标识反馈的审核结果确定处方数据的审核结果，进而根据审核结果进行相应的处理。

在一个实施例中，如图2所示，提供了一种数据审核方法，以该方法应用于图1中的管理服务器为例进行说明，包括以下步骤：

S202，获取携带有诊断数据和处方数据的医疗数据。

其中，医疗数据是在用户就诊过程中所采集的数据，具体包括处方数据和诊断数据。诊断数据是用于表征诊断结果的数据，比如感冒、发热、咽痛。处方数据包括推荐药品的药品标识，以及各药品标识对应的用法和用量等药品推荐信息。药品标识用于唯一标识药品，可以由数字、字母和符号等字符中的至少一种组成的字符串，具体可以是药品的名称、编号或代码等。

具体地，管理服务器自动识别由终端采集的、且携带有诊断数据和处方数据的医疗数据，并从所获取到的医疗数据中提取诊断数据和处方数据。终端具体可以是医师终端。

在一个实施例中，管理服务器上部署有审核系统。管理服务器通过审核系统实时捕获由终端采集并发送的医疗数据。

在一个实施例中，管理服务器通过审核系统实时捕获由医师终端发送至信息管理系统的医疗数据。信息管理系统和审核系统可同时部署于管理服务器上，审核系统具体可嵌入信息管理系统。信息管理系统也可部署于区别于管理服务器的其他服务器，比如用于专门存储医疗数据的存储服务器。信息管理系统具体可以是医院的HIS系统(HospitalInformation System,医院信息系统)。

在一个实施例中，管理服务器获取由终端采集的多条医疗数据。管理服务器具体可获取由多于一个的终端采集的多条医疗数据。

S204，通过多个线程基于各自相应的关键词集并行的从诊断数据中提取诊断病症数据。

其中，关键词集是由多个关键词组成的集合。诊断病症数据是诊断数据中用于描述或表征病症的数据。诊断病症数据包括中医病名、中医症状、中医证型和西医病名等中的至少一种，比如发热、咽痛、外感风寒、感冒。

具体地，管理服务器通过多个线程并行的获取各自相应的关键词集，并基于所获取到的关键词集从诊断数据中提取相应的诊断病症数据。管理服务器将该多个线程从诊断数据中并行提取出的诊断病症数据确定为从该诊断数据中提取出的诊断病症数据。

在一个实施例中，管理服务器通过每个线程将自身相应的关键词集中的每个关键词分别与诊断数据进行匹配，以根据匹配结果从诊断数据中提取诊断病症数据。

举例说明，管理服务器针对西医病名、中医病名、中医症状和中医证型分别预配置有相应的关键词集。管理服务器通过4个线程分别获取西医病名、中医病名、中医症状和中医证型各自对应的关键词集，并根据所获取到的关键词集中诊断数据中提取相应类型的诊断病症数据。比如，通过线程a获取西医病名对应的关键词集，并根据该关键词集从诊断数据中提取属于西医病名的诊断病症数据。管理服务器将从诊断数据中提取出的各个类型的诊断病症数据的集合确定为从该诊断数据中提取出的诊断病症数据。

在一个实施例中，管理服务器通过多个线程从诊断数据中提取出诊断病症数据后，将所提取出的诊断病症数据与诊断数据进行比对分析，以从诊断数据中筛选出基于关键词集尚未提取出的目标诊断数据。管理服务器基于目标诊断数据从映射关系库中查询相应的映射关系，基于查询的映射关系确定目标诊断数据对应的标准诊断数据，并将标准诊断数据分别与各关键词集进行匹配，以根据匹配结果确定目标诊断数据对应的诊断病症数据。由此，基于多于一次的匹配从诊断数据中提取出包括中医病名、中医症状、中医证型和西医病名中的至少一种的诊断病症数据。这样，由于诊断数据中包含的病名、证型和症状可能不是标准化的表述，故需基于映射关系将其标准化。

可以理解，若预配置的关键词集中包括标准关键词，以及基于历史诊断数据分析得到的标准关键词的近义词或同义词，则直接通过关键词集匹配即可从诊断数据中提取出所有的诊断病症数据，而无需执行上述映射操作。

在一个实施例中，管理服务器通过已训练的病症数据提取模型从诊断数据中提取相应的诊断病症数据。

S206，从处方数据中提取药品标识，并确定药品标识对应的药品标签。

其中，药品标识用于唯一标识药品，是由数字、字母和符号等中的至少一种组成的字符串，具体可以是药品的名称或编码。药品标签是用于标识药品的类型或特征的标签，比如纯中医、纯西医或中西医结合等。

具体地，管理服务器从医疗数据中提取出处方数据后，从所提取出的处方数据提取药品标识，并确定每个药品标识对应的药品标签。

在一个实施例中，处方数据中包括药品标识和每个药品标识对应的药品标签。管理服务器从处方数据中提取药品标识和每个药品标识对应的药品标签。

在一个实施例中，管理服务器在本地针对每个处方标识预配置有相应的药品标签。管理服务器从处方数据中提取出处方标识后，根据所提取出的处方标识从本地查询相应的药品标识。

在一个实施例中，管理服务器通过多个线程并行的从诊断数据中提取诊断病症数据时，通过另一个线程并行的从处方数据中提取药品标识，并确定药品标识对应的药品标签。

S208，将药品标识和诊断病症数据推送至药品标签对应的审核服务器，以使得审核服务器根据药品标识查询预先提取的适应症数据，并根据适应症数据和诊断病症数据确定药品标识对应的审核结果。

其中，适应症数据是用于表征药品的适应病症的数据，包括至少一个的药品主治对象。药品主治对象是指药品所适用于的病症数据或病症对象，包括中医病名、中医症状、中医证型和西医病名中的至少一种，比如咳嗽，咽痛，或者，外感风寒所致的感冒。

具体地，管理服务器从诊断数据中提取出诊断病症数据，以及从处方数据中提取出药品标识，并确定每个药品标识对应的药品标签后，根据所确定的药品标签确定审核服务器，并将药品标签对应的药品标识和所提取出的诊断病症数据推送至所确定的审核服务器。审核服务器针对相应药品标签所对应的每个药品标识预先提取并存储有相应的适应症数据。审核服务器从本地查询与所接收到的药品标识对应的适应症数据，将所查询到的适应症数据与所接收到的诊断病症数据进行比对分析，以对处方数据中该药品标识对应的药品进行审核，并确定该药品标识对应的审核结果。

在一个实施例中，审核服务器在查询到药品标识对应的适应症数据后，从所查询到的适应症数据中提取药品主治对象，并将所提取出的药品主治对象和诊断病症数据进行比对分析，得到该药品标识对应的审核结果。

举例说明，假设从药品X的适应症数据中提取的药品主治对象有咳嗽，咽痛，以及外感风寒与感冒的组合。若诊断病症数据为咳嗽或咽痛，则判定药品X的审核结果为合理；若诊断病症数据为发热，则判定审核结果为不合理；若诊断病症数据为感冒或外感风寒，则判定审核结果为不合理；若诊断病症数据为感冒和外感风寒，则判定审核结果为合理。也就是说，若药品主治对象为证型、病名和症状的组合形式，则诊断病症数据必须同时包含相应的病症数据。

在一个实施例中，药品标识对应的药品标签为纯西医。当该药品标识对应的药品主治对象中存在与诊断病症数据中的至少一个病症数据相匹配的病症数据时，表明相应药品是适用于该诊断病症数据的药品，则判定该药品标识对应的审核结果为合理。

在一个实施例中，药品标识对应的适应症数据是基于已训练的适应症提取模型从该药品标识对应的适应症文本信息中预先提取出。可以理解，每个药品标识对应的适应症数据可由相应的审核服务器预先提取，也可由管理服务器统一提取并同步至相应审核服务器。

在一个实施例中，管理服务器从处方数据中提取出多个药品标识，并将所提取出的诊断病症数据和每个药品标识推送至该药品标识对应的药品标签所对应的审核服务器。每个审核服务器本地预配置的适应症数据库与药品标签相对应，也就是适应症数据库中存储的每个适应症数据对应的药品标识所对应的药品标签一致。这样，当处方数据中包括多个不同药品标签对应的药品标识时，通过多个审核服务器并行的对处方数据中的药品进行审核，且每个审核服务器本地存储的是相同药品标签的适应症数据，能够减少审核过程中的数据搜索量，从而能够提高处方数据的审核效率。

在一个实施例中，每个审核服务器预配置相同的适应症数据库，该相同的适应症数据库中包括各个药品标识对应的适应症数据，并按照药品标签对药品标识对应的适应症数据进行分类存储，以便于审核服务器根据药品标识的药品标签从相应类别的适应症数据集中查询适应症数据，以提高查询效率。对于分类存储的方式，管理服务器可根据处方数据中的药品标识数量动态确定审核服务器，以提高审核效率。

S210，接收审核服务器针对药品标识对应反馈的审核结果，根据处方数据中每个药品标识对应的审核结果确定处方数据的审核结果。

具体地，管理服务器接收每个审核服务器针对所接收到的药品标识对应反馈的审核结果，并根据处方数据中每个药品标识对应的审核结果按照预设审核条件确定该处方数据的审核结果。预设审核条件是根据处方数据中每个药品标识对应的审核结果确定处方数据的审核结果的判定依据或条件。预设审核条件比如，若处方数据中存在审核结果为不合理的药品标识，则判定该处方数据的审核结果为不合理，或者，当处方数据中审核结果为不合理的药品标识的占比大于或等于占比阈值时，则判定该处方数据的审核结果为不合理。可以理解，管理服务器可根据处方数据中审核结果为不合理的药品标识的占比确定该处方数据的合理程度或者不合理程度。

在一个实施例中，管理服务器将从诊断数据中提取出的诊断病症数据，以及从处方数据中提取出的每个药品标识推送至药品标识对应的药品标签所对应的审核服务器进行审核，并接收审核服务器针对药品标识对应反馈的审核结果。可以理解，当处方数据中包括单个药品标签对应的至少一个药品标识时，管理服务器将该至少一个药品标识和诊断病症数据推送至该单个药品标签对应的审核服务器，并接收该审核服务器针对该至少一个药品标识反馈的审核结果。当处方数据中包括多个药品标签对应的药品标识时，管理服务器将每个药品标签对应的药品标识和相应的诊断病症数据推送至该药品标签对应的审核服务器，也就是将处方数据中的药品标识分发至多个审核服务器进行审核，并接收该多个审核服务器针对所接收的药品标识反馈的审核结果。

在一个实施例中，管理服务器根据处方数据的审核结果对该处方数据进行相应的处理。例如，当处方数据的审核结果为合理时，管理服务器将该处方数据推送至药师终端进行处理，否则，拦截不合理的处方数据，并将向医师终端反馈处方数据不合理的提示信息。

上述数据审核方法，通过多个线程基于各自相应的关键词集并行的从诊断数据中提取诊断病症数据，能够提高诊断病症数据的提取效率。根据待审核的处方数据中的每个药品标识所对应的药品标签确定该药品标识所对应的审核服务器，并将以较高效率提取出的诊断病症数据和每个药品标识推送至该药品标识对应的审核服务器进行审核，以便于以较高的效率得到每个药品标识对应的审核结果，进而基于每个药品标识对应的审核结果得到处方数据的审核结果，从而能够提高处方数据的审核效率。

在一个实施例中，步骤S204包括：对诊断数据进行分词得到分词结果；通过多个线程并行的从至少一个病症数据库中获取相应类型的关键词集，并基于所获取到的关键词集从分词结果中提取诊断病症数据。

具体地，管理服务器对从医疗数据中提取出的诊断数据进行分词得到分词结果。管理服务器通过多个线程并行的从至少一个预配置的病症数据库中获取相应类型的关键词集，并将所获取到的关键词集与分词结果进行匹配，以从分词结果中提取诊断病症数据。

在一个实施例中，管理服务器针对每个线程预配置或预分配有相应的类型，并通过每个线程获取与该线程相应的类型所对应的关键词集。可以理解，不同类型的关键词集可配置于不同的病症数据库，也就是病症数据库与关键词集的类型相对应。管理服务器通过每个线程从相应类型的病症数据库中获取相应类型的关键词集，无需对预配置的多个关键词集的类型进行匹配，也就是无需从多个关键词集中筛选相应类型的关键词集，从而能够提高关键词的获取效率。

在一个实施例中，管理服务器针对中医病名、中医症状、中医证型和西医病名分别预配置有相应类型的关键词集，并将预配置的关键字集存储至同一病症数据库，或者分别存储至不同的病症数据库。管理服务器通过多个线程按照类型分别查询相应的关键词集，并基于关键词集分别从诊断数据中提取中医病名、中医症状、中医证型和/或西医病名等诊断病症数据。

在一个实施例中，病症数据库可存储于其他设备，预配置的关键词集可分别预存储于不同的病症数据库中，也可将中医病名、中医症状、中医证型各自的关键词集预存储于中医病症数据库中，将西医病名的关键词集存储于西医病症数据库。其他设备比如用于存储诊断病症数据的存储服务器。

上述实施例中，通过多个线程从多于一个的病症数据库中获取预配置的关键词集，并基于所获取到的关键词集并行的从诊断数据的分词结果中提取诊断病症数据，能够提高诊断病症数据的提取效率和准确性，基于该诊断病症数据进行处方数据的审核时能够提高审核效率和准确性。

在一个实施例中，步骤S210之后，上述数据审核方法还包括：当处方数据的审核结果为不合理时，根据诊断病症数据从已构建的适应症知识图谱或适应症数据库中搜索相适应的候选药品标识；获取候选药品标识对应的药品主治对象和药品功效；将候选药品标识、药品主治对象和药品功效推送至终端。

其中，适应症知识图谱是基于多个药品标识及药品标识对应的适应症数据构建的知识图谱。适应症知识图谱中的节点为药品标识和药品主治对象，对应关系为功能主治，药品功效可作为节点也可作为药品标识节点的属性。适应症数据库是基于多个药品标识及药品标识对应的适应症数据构建的数据库。

具体地，当处方数据的审核结果为不合理时，管理服务器对该不合理的处方数据进行拦截，并根据诊断病症数据从已构建的适应症知识图谱或适应症数据库中搜索相适应的候选药品标识，也就是从海量的药品标识中确定适用于诊断病症数据的药品对应的药品标识，作为待推荐的候选药品标识。管理服务器从已构建的适应症知识图谱或适应症数据库中获取每个候选药品标识对应的药品主治对象和药品功效，并将所获取到的药品主治对象、药品功效和相应的候选药品标识推送至终端进行展示，以供医师参考选择。

在一个实施例中，管理服务器根据诊断病症数据中的中医病名、中医症状、中医证型或西医病名，或者其至少两种的组合从适应症知识图谱中查询相应的药品标识。

上述实施例中，在判定处方数据不适用于诊断数据时，基于适应症知识图谱或适应症数据库确定推荐的药品标识，以供医师参考选择。这样，能够提升重新开具的处方数据的适用性，能够避免重新开具的处方数据被拦截，也就是能够节约处方数据的开具流程和审核流程，从而能够减少待审核的处方数据的数量，从而能够缓解管理服务器的压力。

在一个实施例中，适应症数据的提取步骤，包括：获取药品标识对应的适应症文本信息；将适应症文本信息输入已训练的适应症提取模型进行预测，得到预测适应症数据和置信度；当置信度大于或等于置信度阈值时，将预测适应症数据确定为对应于药品标识提取的适应症数据；当置信度小于置信度阈值时，将适应症文本信息推送至审核终端，并将审核终端对应反馈的适应症数据确定为对应于药品标识提取的适应症数据。

其中，适应症文本信息是用于描述药品对应的适应症数据的文本信息。适应症提取模型是基于预先获取的训练样本集训练得到的、能够用于对适应症文本信息进行预测得到相应预测适应症数据和置信度的模型。训练样本集包括目标适应症文本信息和每个适应症文本信息对应的目标适应症数据。置信度是指置信程度和可信程度。

具体地，管理服务器获取待提取适应症数据的药品标识所对应的适应症文本信息，将所获取到的适应症文本信息输入已训练的适应症提取模型进行预测，得到适应症文本信息对应的预测适应症数据和置信度，并将预测得到的置信度与预配置的置信度阈值进行比较。当置信度大于或等于置信度阈值时，管理服务器将相应的预测适应症数据确定为从适应症文本信息中提取出的适应症数据，也就是将预测得到的预测适应症数据确定为针对相应药品标识提取出的适应症数据。当置信度小于置信度阈值时，管理服务器将相应的适应症文本信息推送至审核终端进行审核，接收审核终端针对该推送的适应症文本信息反馈的适应症数据，并将所接收到的适应症数据确定为从该适应症文本信息中提取出的适应症数据，也就是将所接收到的适应症数据确定为针对相应药品标识提取出的适应症数据。

在一个实施例中，管理服务器获取待提取适应症数据的药品标识对应的药品文本信息，并按照预设提取方式从该药品文本信息中提取适应症文本信息。预设提取方式比如基于关键字匹配的方式，或者，基于已训练的文本信息提取模型进行预测的方式。

在一个实施例中，审核终端将所接收到的适应症文本信息进行展示，以指示审核人员对所展示的适应症文本信息进行人工标注，检测审核人员对所展示的适应症文本信息标注的适应症数据，并将所检测到的适应症数据反馈至管理服务器。

在一个实施例中，当置信度小于置信度阈值时，管理服务器将适应症文本信息和预测得到的预测适应症数据推送至审核终端，以指示审核人员基于适应症文本信息对相应的预测适应症数据进行修正，并将修正后的预测适应症数据反馈至管理服务器。

上述实施例中，基于已训练的适应症提取模型和人工标注相结合的方式，从药品标识对应的适应症文本信息中提取适应症数据，在保证数据提取准确度的情况下，能够提高提取的效率。在处方数据的审核阶段，基于预先提取出的适应症数据进行审核，能够提高审核效率和准确性。

在一个实施例中，将适应症文本信息推送至审核终端，并将审核终端对应反馈的适应症数据确定为对应于药品标识提取的适应症数据，包括：将适应症文本信息推送至多个审核终端；接收多个审核终端针对适应症文本信息分别反馈的适应症数据；对接收的适应症数据进行投票，并将票数大于或等于数量阈值的适应症数据确定为对应于药品标识提取的适应症数据。

具体地，当置信度小于置信度阈值时，管理服务器将相应的适应症文本信息推送至多个审核终端进行人工标注，并接收该多个审核终端针对该适应症文本信息分别反馈的适应症数据。管理服务器对针对该适应症文本信息所接收到的多个适应症数据进行投票，将所得到的票数与预配置的数量阈值进行比较，并将票数大于或等于数量阈值的适应症数据确定为从该适应症文本信息中提取出的适应症数据，也就是将票数大于或等于数量阈值的适应症数据确定为对应于药品标识提取出的适应症数据。

在一个实施例中，管理服务器对所接收到的多个适应症数据进行投票，可理解为将该多个适应症数据进行聚类，并将每个聚类类别中适应症数据的数量确定为该聚类类别对应的票数。可以理解，每个聚类类别中的适应症数据一致，则可将聚类类别对应的票数确定为该聚类类别中的适应症数据的票数。

举例说明，假设审核终端的数量为3个，数量阈值为2，该3个审核终端针对同一适应症文本信息反馈的适应症数据分别为A、B和A。通过投票可确定适应症数据A对应的票数为2，且该票数等于数量阈值2，则可将适应症数据确定为从适应症文本信息中提取出的适应症数据。

在一个实施例中，当每个适应症数据的票数均小于数量阈值时，管理服务器将相应的适应症文本信息再次推送至多个审核终端进行审核，并根据该多个审核终端反馈的适应症数据确定药品标识对应的适应症数据。可以理解，再次推送的该多个审核终端可与首次推送的多个审核终端一致，以由该多个审核终端进行二次审核。管理服务器也可将适应症文本信息再次推送至复核终端进行复核。管理服务器还可将适应症文本信息和针对该适应症文本信息所接收到的多个适应症数据一并推送至复核终端进行复核。

上述实施例中，通过多个审核终端对置信度小于置信度阈值的适应症文本信息进行人工标注，能够提高标注的适应症数据的准确性，从而能够提高处方数据的审核准确性。

在一个实施例中，将适应症文本信息输入已训练的适应症提取模型进行预测，得到预测适应症数据和置信度，包括：将适应症文本信息输入已训练的多个适应症提取模型分别进行预测，得到多个子预测适应症数据和每个子预测适应症数据对应的子置信度；对多个子预测适应症数据进行投票，将票数最多的子预测适应症数据确定为适应症文本信息对应的预测适应症数据；根据票数最多的子预测适应症数据所对应的子置信度，得到预测适应症数据对应的置信度。

具体地，管理服务器基于预先获取的训练样本集预先训练得到多个适应症提取模型。管理服务器获取待提取适应症数据的药品标识对应的适应症文本信息，并将该适应症文本信息输入预先训练得到的多个适应症提取模型，由该多个适应症提取模型分别对该适应症文本信息进行预测，得到相应的子预测适应症数据和子置信度。这样，管理服务器通过多个适应提取模型分别对同一适应症文本信息进行预测，得到该适应症文本信息对应的多个子预测适应症数据和每个子预测适应症数据对应的子置信度。

进一步地，管理服务器对针对适应症文本信息预测得到的多个子预测适应症数据进行投票，将各子预测适应症数据的票数进行相互比较，并将票数最多的子预测适应症数据确定为从该适应症文本信息中提取的预测适应症数据。管理服务器根据票数最多的子预测适应症数据所对应的多个子置信度计算置信度，并将计算得到的置信度确定为相应预测适应症数据所对应的置信度。

在一个实施例中，管理服务器对票数最多的子预测适应症数据所对应的多个子置信度求平均，并将计算得到的子置信度均值确定为相应预测适应症数据所对应的置信度。其中，求平均可以是算术平均也可以是加权平均。

在一个实施例中，管理服务器对针对适应症文本信息预测得到的多个子预测适应症数据进行聚类分析，得到每个聚类类别中子预测适应症数据的数量，将该数量确定为该聚类类别对应的票数，也就是将该数量确定为该聚类类别中的子适应症数据的票数，并将该聚类类别中的子预测适应症数据确定为适应症文本信息所对应的预测适应症数据。管理服务器根据票数最多的聚类类别中各个子适应症数据各自的子置信度确定相应预测适应症数据的置信度。

在一个实施例中，管理服务器预测得到适应症文本信息对应的多个子预测适应症数据和相应的子置信度后，统计该多个子预测适应症数据中子置信度大于或等于置信度阈值、且一致的子预测适应症数据的数量。当统计的数量大于或等于预设数量时，管理服务器将数量大于或等于预设数量的子预测适应症数据，确定为适应症文本信息所对应的预测适应症数据，并将该预测适应症数据确定为从适应症文本信息中提取的适应症数据。当统计的数量均小于预设数量时，管理服务器将相应的适应症文本信息推送至至少一个审核终端进行人工标注，并根据至少一个审核终端反馈的适应症数据确定为从适应症文本信息中提取出的适应症数据。当统计的数量均小于预设数量时，管理服务器可将相应适应症文本信息再次输入已训练的多个适应症提取模型进行预测，并按照上述方式确定提取出的适应症数据。

举例说明，假设有3个已训练的适应症提取模型，借助于3个线程分别将适应症文本信息分别输入该3个适应症提取模型进行预测，得到的3个适应症数据和相应的置信度分别为：X和85％，Y和85％，X和90％，统计确定置信度达到预设置信度阈值75％的适应症数据为3个，而置信度达到75％且适应症数据一致的适应症数据为2个，达到预设数量阈值2，由此判定适应症数据X为提取出的适应症数据。

上述实施例中，通过多个已训练的适应症提取模型进行适应症数据的提取，能够提高适应症数据的准确性，以便于基于该适应症数据进行处方数据的审核时，能够提高处方数据的审核准确性。

在一个实施例中，适应症提取模型的训练步骤，包括：获取训练样本集；训练样本集包括目标适应症文本信息，以及对目标适应症文本信息进行人工标注得到的目标适应症数据；将目标适应症文本信息作为输入特征，将目标适应症数据作为期望的输出特征进行模型训练，得到已训练的适应症特征提取模型。

具体地，管理服务器获取多个目标药品标识各自对应的适应症文本信息，以及对每个适应症文本信息进行人工标注得到的目标适应症数据，并根据所获取到的目标适应症文本信息和目标适应症数据得到训练样本集。管理服务器将训练样本集中的目标适应症文本信息作为输入特征，将相应的目标适应症数据作为期望的输出特征对初始化的适应症提取模型进行训练，得到已训练的适应症特征提取模型。

在一个实施例中，管理服务器基于所获取到的训练样本集对初始化的适应症提取模型进行迭代训练，直至符合预设的迭代停止条件时，停止迭代，得到已训练的适应症提取模型。迭代停止条件比如训练样本集中的每个训练样本均已用于训练模型，或者，迭代次数大于或等于次数阈值。

在一个实施例中，管理服务器通过测试样本集对基于训练样本集训练得到的适应症提取模型进行测试，根据相应的准确率和召回率。当准确率大于或等于准确率阈值、且召回率大于或等于召回率阈值时，管理服务器将该测试通过的适应症提取模型作为已训练的适应症提取模型，并应用于适应症数据的提取。否则，通过优化样本集对该测试未通过的适应症提取模型进行优化训练，并将优化训练得到的适应症提取模型确定为已训练的适应症提取模型。

在一个实施例中，优化样本集包括未进行人工标注的适应症文本信息，也就是优化样本集中包括适应症文本信息，但未包括适应症文本信息对应的适应症数据。管理服务器基于优化样本集进行适应症提取模型的优化时，可结合人工标注或审核的方式对模型优化过程中置信度小于置信度阈值的适应症文本信息进行人工标注或修正，并基于人工标注或修正后的适应症数据和相应的适应症文本信息对适应症提取模型进行继续优化。这样，能够减少人工标注的适应症文本信息的数量，降低了操作复杂度，减少了标注成本。

上述实施例中，基于训练样本集进行模型训练得到已训练的适应症提取模型，以便于基于该已训练的适应症提取模型能够从各适应症文本信息中快速而准确的提取出适应症数据。

如图3所示，在一个实施例中，提供了一种数据审核方法，该方法具体包括以下步骤：

S302，获取药品标识对应的适应症文本信息。

S304，将适应症文本信息输入已训练的多个适应症提取模型分别进行预测，得到多个子预测适应症数据和每个子预测适应症数据对应的子置信度。

S306，对多个子预测适应症数据进行投票，将票数最多的子预测适应症数据确定为适应症文本信息对应的预测适应症数据。

S308，根据票数最多的子预测适应症数据所对应的子置信度，得到预测适应症数据对应的置信度。

S310，当置信度大于或等于置信度阈值时，将预测适应症数据确定为对应于药品标识提取的适应症数据。

S312，当置信度小于置信度阈值时，将适应症文本信息推送至多个审核终端。

S314，接收多个审核终端针对适应症文本信息分别反馈的适应症数据。

S316，对接收的适应症数据进行投票，并将票数大于或等于数量阈值的适应症数据确定为对应于药品标识提取的适应症数据。

S318，获取携带有诊断数据和处方数据的医疗数据。

S320，对诊断数据进行分词得到分词结果。

S322，通过多个线程并行的从至少一个病症数据库中获取相应类型的关键词集，并基于所获取到的关键词集从分词结果中提取诊断病症数据。

S324，从处方数据中提取药品标识，并确定药品标识对应的药品标签。

S326，将药品标识和诊断病症数据推送至药品标签对应的审核服务器，以使得审核服务器根据药品标识查询预先提取的适应症数据，并根据适应症数据和诊断病症数据确定药品标识对应的审核结果。

S328，接收审核服务器针对药品标识对应反馈的审核结果，根据处方数据中每个药品标识对应的审核结果确定处方数据的审核结果。

S330，当处方数据的审核结果为不合理时，根据诊断病症数据从已构建的适应症知识图谱或适应症数据库中搜索相适应的候选药品标识。

S332，获取候选药品标识对应的药品主治对象和药品功效。

S334，将候选药品标识、药品主治对象和药品功效推送至终端。

在一个实施例中，管理服务器将从各药品标识对应的适应症文本信息中提取出的适应症数据同步至相应的审核服务器进行存储，以便于审核服务器基于预存储的适应症数据对所接收到的药品标识对应的药品进行适应性审核。

在一个实施例中，上述一个或多个实施例中，管理服务器从药品标识对应的适应症文本信息中提取适应症数据的相关步骤可由审核服务器执行。类似地，管理服务器执行的适应症提取模型的训练步骤也可由审核服务器执行。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种数据审核装置400，包括：获取模块402、提取模块404和审核模块406，其中：

获取模块402，用于获取携带有诊断数据和处方数据的医疗数据。

提取模块404，用于通过多个线程基于各自相应的关键词集并行的从诊断数据中提取诊断病症数据。

提取模块404，还用于从处方数据中提取药品标识，并确定药品标识对应的药品标签。

审核模块406，用于将药品标识和诊断病症数据推送至药品标签对应的审核服务器，以使得审核服务器根据药品标识查询预先提取的适应症数据，并根据适应症数据和诊断病症数据确定药品标识对应的审核结果。

审核模块406，还用于接收审核服务器针对药品标识对应反馈的审核结果，并根据处方数据中每个药品标识对应的审核结果确定处方数据的审核结果。

在一个实施例中，提取模块404，还用于对诊断数据进行分词得到分词结果；通过多个线程并行的从至少一个病症数据库中获取相应类型的关键词集，并基于所获取到的关键词集从分词结果中提取诊断病症数据。

在一个实施例中，上述数据审核装置400，还包括：推送模块；

推送模块，用于当处方数据的审核结果为不合理时，根据诊断病症数据从已构建的适应症知识图谱或适应症数据库中搜索相适应的候选药品标识；获取候选药品标识对应的药品主治对象和药品功效；将候选药品标识、药品主治对象和药品功效推送至终端。

在一个实施例中，提取模块404，还用于获取药品标识对应的适应症文本信息；将适应症文本信息输入已训练的适应症提取模型进行预测，得到预测适应症数据和置信度；当置信度大于或等于置信度阈值时，将预测适应症数据确定为对应于药品标识提取的适应症数据；当置信度小于置信度阈值时，将适应症文本信息推送至审核终端，并将审核终端对应反馈的适应症数据确定为对应于药品标识提取的适应症数据。

在一个实施例中，提取模块404，还用于将适应症文本信息推送至多个审核终端；接收多个审核终端针对适应症文本信息分别反馈的适应症数据；对接收的适应症数据进行投票，并将票数大于或等于数量阈值的适应症数据确定为对应于药品标识提取的适应症数据。

在一个实施例中，提取模块404，还用于将适应症文本信息输入已训练的多个适应症提取模型分别进行预测，得到多个子预测适应症数据和每个子预测适应症数据对应的子置信度；对多个子预测适应症数据进行投票，将票数最多的子预测适应症数据确定为适应症文本信息对应的预测适应症数据；根据票数最多的子预测适应症数据所对应的子置信度，得到预测适应症数据对应的置信度。

在一个实施例中，上述数据审核装置400，还包括：训练模块；

训练模块，用于获取训练样本集；训练样本集包括目标适应症文本信息，以及对目标适应症文本信息进行人工标注得到的目标适应症数据；将目标适应症文本信息作为输入特征，将目标适应症数据作为期望的输出特征进行模型训练，得到已训练的适应症特征提取模型。

关于数据审核装置的具体限定可以参见上文中对于数据审核方法的限定，在此不再赘述。上述数据审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是管理服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关键词集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据审核方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的数据审核方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的数据审核方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据审核方法，所述方法包括：

获取携带有诊断数据和处方数据的医疗数据；

2.根据权利要求1所述的方法，其特征在于，所述通过多个线程基于各自相应的关键词集并行的从所述诊断数据中提取诊断病症数据，包括：

对所述诊断数据进行分词得到分词结果；

3.根据权利要求1所述的方法，其特征在于，所述接收所述审核服务器针对所述药品标识对应反馈的审核结果，根据所述处方数据中每个药品标识对应的审核结果确定所述处方数据的审核结果之后，所述方法还包括：

获取所述候选药品标识对应的药品主治对象和药品功效；

4.根据权利要求1所述的方法，其特征在于，所述适应症数据的提取步骤，包括：

获取所述药品标识对应的适应症文本信息；

5.根据权利要求4所述的方法，其特征在于，所述将所述适应症文本信息推送至审核终端，并将所述审核终端对应反馈的适应症数据确定为对应于所述药品标识提取的适应症数据，包括：

将所述适应症文本信息推送至多个审核终端；

6.根据权利要求4所述的方法，其特征在于，所述将所述适应症文本信息输入已训练的适应症提取模型进行预测，得到预测适应症数据和置信度，包括：

7.根据权利要求4至6任意一项所述的方法，其特征在于，所述适应症提取模型的训练步骤，包括：

8.一种数据审核装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。