CN112216359B

CN112216359B - 医疗数据校验方法、装置及电子设备

Info

Publication number: CN112216359B
Application number: CN202011053052.7A
Authority: CN
Inventors: 方舟; 史亚冰; 蒋烨; 柴春光
Original assignee: Baidu International Technology Shenzhen Co ltd
Current assignee: Baidu International Technology Shenzhen Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-03-26
Anticipated expiration: 2040-09-29
Also published as: KR20210127120A; JP2021193617A; KR102636493B1; CN112216359A; US20220004706A1; JP7285893B2; EP3910527A3; EP3910527A2

Abstract

本申请公开了一种医疗数据校验方法、装置及电子设备，涉及AI医疗、深度学习、知识图谱、自然语言处理等人工智能技术领域。具体实现方案为：获取待校验的医疗数据及候选文档；利用自然语言处理模型对医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量；基于各特征向量，采用N种方式计算医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数；对N个关联向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。由此，通过这种医疗数据校验方法，从多个维度准确表示医疗数据与候选文档间的关联与差异，并且端到端模型不会产生误差累积，从而提升了医疗数据校验的准确性。

Description

医疗数据校验方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及AI医疗、深度学习、知识图谱、自然语言处理等人工智能技术领域，提出一种医疗数据校验方法、装置及电子设备。

背景技术

医疗数据验证技术可以用于辅助构建医疗图谱。例如，在构建医疗图谱的过程中，可以对获取到的医疗数据进行校验，以判定该医疗数据的置信程度，并给出支撑证据，进而将置信程度较高的医疗数据及相应的支持证据进行关联，并作为一条医疗图谱数据存储至医疗图谱中，以丰富和扩展医疗图谱的内容，提高医疗图谱数据的准确性。

相关技术中，随着人工智能、深度学习、自然语言处理等技术的发展，可以通过深度学习模型实现对医疗数据的校验。比如，可以通过设计多个串联的深度学习模型结构，并通过大规模的标注数据对多个串联的深度学习模型进行训练，进而利用训练完成的多个串联的深度学习模型根据医疗数据的基础特征，对医疗数据的置信度进行校验。

但是，由于多个串联的深度学习模型会导致误差累积，且医疗行业对数据准确性的要求非常严谨，从而导致多个深度学习模型串联对医疗数据进行验证的方法，准确度较差。

发明内容

本申请提供了一种用于医疗数据校验的方法、装置、电子设备以及存储介质。

根据本申请的一方面，提供了一种医疗数据校验方法，包括：获取待校验的医疗数据及候选文档；利用自然语言处理模型对所述医疗数据及候选文档进行处理，以获取所述医疗数据及候选文档分别对应的各特征向量；基于所述各特征向量，采用N种方式计算所述医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数；对所述N个关联向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度。

根据本申请的另一方面，提供了一种医疗数据校验装置，包括：第一获取模块，用于获取待校验的医疗数据及候选文档；第二获取模块，用于利用自然语言处理模型对所述医疗数据及候选文档进行处理，以获取所述医疗数据及候选文档分别对应的各特征向量；第三获取模块，用于基于所述各特征向量，采用N种方式计算所述医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数；确定模块，用于对所述N个关联向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度。

根据本申请的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的医疗数据校验方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的医疗数据校验方法。

根据本申请的技术方案，解决了相关技术中，通过多个深度学习模型串联对医疗数据进行校验的方法，准确度较差的问题。通过利用自然语言处理模型对待校验的医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量，并基于各特征向量，采用多种方式计算医疗数据与候选文档间的相关性，以获取多个关联向量，进而对多个关联向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。由此，通过一个端到端的深度学习模型，采用多种方式计算医疗数据与候选文档间的相关性，以从多个维度准确表示医疗数据与候选文档间的关联与差异，并且端到端模型不会产生误差累积，从而提升了医疗数据校验的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种医疗数据校验方法的流程示意图；

图2为本申请实施例所提供的一种分类模型的结构示意图；

图3为本申请实施例所提供的另一种医疗数据校验方法的流程示意图；

图4为本申请实施例所提供的再一种医疗数据校验方法的流程示意图；

图5为本申请实施例提供的一种医疗数据校验装置的结构示意图；

图6为用来实现本申请实施例的医疗数据校验方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本申请的方案涉及的技术领域进行简要说明：

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

AI医疗是以互联网为依托，通过基础设施的搭建及数据的收集，将人工智能技术及大数据服务应用于医疗行业中，提升医疗行业的诊断效率及服务质量，更好的解决医疗资源短缺、人口老龄化的问题。AI医疗可以简化为“人工智能+医疗”，是人工智能技术对于医疗相关领域应用场景的赋能现象。具体来说，AI特别适用于医学影像诊断、慢性病管理和生活方式指导、疾病排查和病理研究、药物开发等领域，并在精准医学方面帮助填补基因型与表现型的区别。

深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。

知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

本申请实施例针对相关技术中，通过多个深度学习模型串联对医疗数据进行校验的方法，准确度较差的问题，提出一种医疗数据校验方法。

下面参考附图对本申请提供的医疗数据校验方法、装置、电子设备及存储介质进行详细描述。

图1为本申请实施例所提供的一种医疗数据校验方法的流程示意图。

如图1所示，该医疗数据校验方法，包括以下步骤：

步骤101，获取待校验的医疗数据及候选文档。

需要说明的是，本申请实施例的医疗数据校验方法可以由本申请实施例的医疗数据校验装置执行，本申请实施例的医疗数据校验装置可以配置在任意电子设备中，以执行本申请实施例的医疗数据校验方法。

其中，待校验的医疗数据，可以是指当前需要对其准确性进行校验的医疗事实。

其中，候选文档，可以是预先收集并存储的权威性的医学类内容，如医学书籍、医学论文等，或者医学书籍、医学论文中的片段等。

在本申请实施例中，对于不同的应用场景可以采用不同的方式获取待校验的医疗数据与候选文档。可选的，当本申请实施例的医疗数据校验方法应用在离线场景时，可以预先从网络中或各医疗机构的医疗信息系统中抓取医生看诊时，作出的大量诊断数据构成待校验的医疗数据集合，并每次从待校验的医疗数据集合中获取一条医疗数据作为待校验的医疗数据；并且可以预先从各种文献、论文数据库中抓取与医疗相关的文献构成文档集合；进而在获取到待校验的医疗数据时，可以将文档集合中的所有文档作为候选文档，也可以将待校验的医疗数据作为关键词对文档集合进行搜索，以从文档集合中获取与待校验的医疗数据相关的文档作为候选文档。

可选的，当本申请实施例的医疗数据校验方法应用在在线场景时，如应用在医疗机构的辅助诊断系统中时，可以预先从各种文献、论文数据库中抓取与医疗相关的文献构成文档集合，并存储在医疗机构的医疗信息系统的服务器中，并且服务器可以将从医生的客户端实时获取的医生作出的诊断数据，作为待校验的医疗数据；进而在获取到待校验的医疗数据时，可以将文档集合中的所有文档作为候选文档，也可以将待校验的医疗数据作为关键词对文档集合进行搜索，以从文档集合中获取与待校验的医疗数据相关的文档作为候选文档。

步骤102，利用自然语言处理模型对医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量。

其中，自然语言处理模型，可以是ERNIE(enhanced representation fromknowledge integration，知识增强语义表示)模型、BERT模型等。实际使用时，可以选择合适的自然语言处理模型，本申请实施例对此不做限定。

需要说明的是，可以预先从医疗知识库中抽取大量医疗知识，并利用抽取的大量医疗知识对自然语言处理模型进行预训练，以提升自然语言处理模型在医疗行业场景的识别性能。

在本申请实施例中，可以构建深度学习模型，以通过深度学习模型实现对医疗数据的校验。比如，可以基于PaddlePaddle深度学习计算框架的深度学习模型，设计一个分类模型，模型结构如图2所示，包括自然语言处理模型、N种计算方式对应的N个分类器、全连接层与softmax层，CLS为分类模型输出的置信度。

在申请实施例中，可以将待校验的医疗数据与候选文档输入自然语言处理模型，以使自然语言处理模型分别对待校验的医疗数据与候选文档进行识别处理，比如，可以首先对待校验的医疗数据与候选文档进行分词处理，以确定待校验的医疗数据包括的各基本单元，以及候选文档包括的各基本单元；之后确定出待校验的医疗数据包括的各基本单元对应的向量表示，即待校验的医疗数据对应的各特征向量，以及候选文档包括的各基本单元对应的向量表示，即候选文档对应的各特征向量。

需要说明的是，基本单元可以是字符、词语、短语中的任意一个粒度，与自然语言处理模型本身的工作原理有关，本申请实施例对此不做限定。

步骤103，基于各特征向量，采用N种方式计算医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数。

其中，关联向量，是指可以表征待校验的医疗数据与候选文档之间的关联程度的向量。

在本申请实施例中，可以采用多种计算方式计算待校验的医疗数据与候选文档间的相关性，以提升待校验的医疗数据与候选文档相关性表达的准确性，进而提升医疗数据校验的准确性。

作为一种可能的实现方式，可以首先将待校验的医疗数据对应的各特征向量进行整合，以生成待校验的医疗数据对应的第一特征矩阵，以及可以将候选文档对应的各特征向量进行整合，以生成候选文档对应的第二特征矩阵。之后分别采用N种方式对第一特征矩阵和第二特征矩阵进行计算，并将每种方式对应的计算结果，确定为一个关联向量。

需要说明的是，实际使用时，N种方式可以包括softmax运算、减法运算、余弦运算、正弦运算、正切运算、加法运算、乘法运算、除法运算等运算方式中的N种，本申请实施例对此不做限定。

需要说明的是，若某种方式对第一特征矩阵和第二特征矩阵的计算结果仍然为矩阵，则可以对计算得到的矩阵进行转化，以将计算得到的矩阵转化为向量形式，从而生成通过该种方式计算得到的关联向量。比如，可以对计算得到的矩阵的每行元素或每列元素进行求和或求均值均值计算，以将计算得到的矩阵转化为关联向量。

举例来说，待校验的医疗数据中包含m个字符，对应的各特征向量为n维的行向量；候选文档中包含k个字符，对应的各特征向量为n维的行向量；N的取值为3，N种方式分别为softmax运算、减法运算、余弦运算；则待校验的医疗数据对应的第一特征矩阵的维度为m×n，候选文档对应的第二特征矩阵的维度为k×n，之后可以分别对第一特征矩阵与第二特征矩阵分别进行softmax运算、减法运算、余弦运算，以生成待校验的医疗数据与候选文档间的3个关联向量。

步骤104，对N个关联向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。

在本公开实施例中，确定出待校验的医疗数据与候选文档间的N个关联向量之后，可以通过分类模型中的全连接层对N个关联向量进行融合计算，并通过softmax层根据N个关联向量的融合结果，进行分类处理，以输出待校验的医疗数据基于候选文档的置信度。具体的，待校验的医疗数据基于候选文档的置信度越大，说明以候选文档为支撑证据证明待校验的医疗数据可靠的可能性越大；反之，说明以候选文档为支撑证据证明待校验的医疗数据可靠的可能性越小。

作为一种可能的实现方式，在构建医疗图谱场景中，可以在确定出医疗数据基于候选文档的置信度之后，在待校验的医疗数据的置信度大于或等于置信度阈值时，可以确定待校验的医疗数据成立，并将相应的候选文档与该待校验的医疗数据进行关联存储，以对医疗图谱进行扩充。

需要说明的是，若待校验的医疗数据对应的候选文档有多个，则可以在基于任意一个候选文档，待校验的医疗数据的置信度大于或等于置信度阈值时，确定待校验的医疗数据成立，并将使得该待校验的医疗数据的置信度最大的候选文档与该待校验的医疗数据进行关联存储，以对医疗图谱进行扩充。

根据本申请实施例的技术方案，通过利用自然语言处理模型对待校验的医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量，并基于各特征向量，采用多种方式计算医疗数据与候选文档间的相关性，以获取多个关联向量，进而对多个关联向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。由此，通过一个端到端的深度学习模型，采用多种方式计算医疗数据与候选文档间的相关性，以从多个维度准确表示医疗数据与候选文档间的关联与差异，并且端到端模型不会产生误差累积，从而提升了医疗数据校验的准确性。

在本申请一种可能的实现形式中，待校验的医疗数据可以以SPO三元组的形式进行表示，其中S表示实体，P表示属性，O表示属性值，进而通过根据S、P、O分别与候选证据间的关联性，确定待校验的医疗数据是否成立，从而进一步提升了医疗数据验证的准确性。

下面结合图3，对本申请实施例提供的医疗数据校验方法进行进一步说明。

图3为本申请实施例所提供的另一种医疗数据校验方法的流程示意图。

如图3所示，该医疗数据校验方法，包括以下步骤：

步骤201，获取待校验的医疗数据及候选文档。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，利用自然语言处理模型对医疗数据及候选文档进行处理，以获取医疗数据中包括的实体对应的第一特征向量、属性对应的第二特征向量、属性值对应的第三特征向量、及候选文档对应的第四特征向量，其中，医疗数据中包括实体、属性及属性值。

在本申请实施例中，每条待校验的医疗数据可以以SPO三元组的形式进行表示，S表示实体，P表示属性，O表示属性值。其中，实体可以是指具体的疾病；属性可以包括以临床特征、病因病理、检查检验、建议手术、治疗方案、推荐用药、药品作用、并发症中的至少一种；属性值是指相应属性的具体取值。以医疗数据<麻疹，症状，皮肤斑丘疹>为例，实体S为麻疹，属性P为症状，属性值O为皮肤斑丘疹。

在本申请实施例中，若待校验的医疗数据的表现形式为SPO三元组，则可以将待校验的医疗数据与候选文档以“S[SEP]P[SEP]O[SEP]PARA”的形式输入自然语言处理模型，以使自然语言处理模型分别对待校验的医疗数据中包括的实体、属性、属性值以及候选文档进行识别处理，并分别输出实体、属性、属性值及候选文档对应的向量表示，即实体对应的第一特征向量，属性对应的第二特征向量，属性值对应的第三特征向量，以及候选文档对应的第四特征向量。其中，PARA为候选文档，[SEP]为分隔符。

需要说明的是，在自然语言处理模型将实体、属性、属性值及候选文档分别划分为多个基本单元进行处理，以生成每个基本单元对应的向量表示时，则第一特征向量、第二特征向量、第三特征向量、第四特征向量均可以由多个向量表示构成，即第一特征向量、第二特征向量、第三特征向量、第四特征向量的表现形式可以为矩阵。

进一步的，由于医疗数据的实体与属性之间，以及属性与属性值之间具体较强的依赖关系，因此还可以确定SP对应的向量表示，以及PO对应的向量表示，以提升对医疗数据进行表示的准确性。即在本申请实施例一种可能的实现形式中，上述方法，还可以包括：

获取实体与属性对应的第五特征向量、属性与属性值对应的第六特征向量、及实体与属性值对应的第七特征向量中的至少一种。

在本申请实施例中，还可以对自然语言处理模型进行预训练，以使自然语言处理模型可以根据输入的医疗数据的实体、属性、属性值，确定出实体与属性对应的第五特征向量、属性与属性值对应的第六特征向量，以及实体与属性值对应的第七特征向量中的至少一种，以从实体与属性的关系、属性与属性值的关系、实体与属性值的关系等多个方面，对待校验的医疗数据进行全面、完整的描述。

作为一种可能的实现方式，由于对于医疗数据来说，实体与属性之间的关系信息，以及属性与属性值之间的关系信息更加重要，从而可以通过自然语言处理模型生成实体与属性对应的第五特征向量，以及属性与属性值对应的第六特征向量。

步骤203，分别采用N种方式，计算第一特征向量与第四特征向量间的相关性，以获取N个第一类关联向量。

在本申请实施例中，通过自然语言处理模型确定出待校验的医疗数据与候选文档的向量表示之后，可以分别确定实体与候选文档的关联性、属性与候选文档的关联性，以及属性值与候选文档的关联性，以从多个维度描述待校验的医学数据与候选文档间的相关性，从而进一步提升医疗数据校验的准确度。

作为一种可能的实现方式，可以首先分别采用N种方式对第一特征向量与第四特征向量进行计算，并将每种方式对应的计算结果，确定为一个第一类关联向量，用于表征实体与候选文档间的相关性。

步骤204，分别采用N种方式，计算第二特征向量与第四特征向量间的相关性，以获取N个第二类关联向量。

在本申请实施例中，可以分别采用N种方式对第二特征向量与第四特征向量进行计算，并将每种方式对应的计算结果，确定为一个第二类关联向量，用于表征属性与候选文档间的相关性。

步骤205，分别采用N种方式，计算第三特征向量与第四特征向量间的相关性，以获取N个第三类关联向量。

在本申请实施例中，可以分别采用N种方式对第三特征向量与第四特征向量进行计算，并将每种方式对应的计算结果，确定为一个第三类关联向量，用于表征属性值与候选文档间的相关性。

需要说明的是，本实施例中的N种方式可以与上述实施例中所描述的运算方式相同，确定第一类关联向量、第二类关联向量、第三类关联向量的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

进一步的，若在前述步骤中通过自然语言处理模型生成了实体与属性对应的第五特征向量、属性与属性值对应的第六特征向量、及实体与属性值对应的第七特征向量，则还可以采用N种方式对第五特征向量与第四特征向量进行计算，并将每种方式对应的计算结果，确定为一个第五类关联向量，用于表征SP与候选文档间的相关性；以及采用N种方式对第六特征向量与第四特征向量进行计算，并将每种方式对应的计算结果，确定为一个第六类关联向量，用于表征PO与候选文档间的相关性；以及采用N种方式对第七特征向量与第四特征向量进行计算，并将每种方式对应的计算结果，确定为一个第七类关联向量，用于表征SO与候选文档间的相关性。

步骤206，对关联向量进行融合计算，以确定基于候选文档时，所述医疗数据的置信度。

在本申请实施例中，确定出待校验的医疗数据对应的SPO三元组与候选文档的各类关联向量之后，可以通过全连接层对各类关联向量进行融合计算，以生成待校验的医疗数据基于候选文档的置信度。

作为一种可能的实现方式，可以分别对每类关联向量进行融合处理，以确定实体、属性、属性值分别与候选文档的整体关联性。即在本申请实施例一种可能的实现形式中，上述步骤206，可以包括：

将N个第一类关联向量进行融合，以获取第一融合向量；

将N个第二类关联向量进行融合，以获取第二融合向量；

将N个第三类关联向量进行融合，以获取第三融合向量；

对第一融合向量、第二融合向量及第三融合向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。

在本申请实施例中，可以将N个第一类关联向量进行拼接，以生成第一融合向量；或者，可以将N个第一类关联向量之和，确定为第一融合向量；或者，可以将N个第一类关联向量的均值，确定为第一融合向量；或者，还可以根据N个第一类关联向量的重要程度，分别对N个第一类关联向量赋予不同的权重值，并将N个第一类关联向量的加权和，确定为第一融合向量。

相应的，可以采用上述相同的方式分别对N个第二类关联向量，以及N个第三类关联向量进行融合处理时，以生成第二融合向量与第三融合向量，此处不再赘述。

需要说明的是，对第一类关联向量、第二类关联向量及第三类关联向量进行融合的方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，确定对各类关联向量进行融合处理的方式，本申请实施例对此不做限定。

在本申请实施例中，由于第一融合向量可以反映待校验的医学数据中的实体与候选文档的整体相关性，第二融合向量可以反映待校验的医学数据中的属性与候选文档的整体相关性，第三融合向量可以反映待校验的医学数据中的属性值与候选文档的整体相关性，从而可以通过分类模型中的softmax层对第一融合向量、第二融合向量及第三融合向量进行融合计算，以生成待校验的医疗数据与候选文档的整体相关性，即待校验的医疗数据基于候选文档的置信度。

可以理解的是，若在上述步骤中生成了N个第五类关联向量、N个第六类关联向量或N个第七类关联向量，还可以按照上方式分别对第五类关联向量、第六类关联向量及第七类关联向量进行融合处理，以生成第五融合向量、第六融合向量及第七融合向量。进而对第一融合向量、第二融合向量、第三融合向量、第五融合向量、第六融合向量及第七融合向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。

作为另一种可能的实现方式，还可以各类关联向量直接融合，以通过融合后的向量表征待校验的医疗数据与候选文档的整体关联度。即在本申请实施例一种可能的实现形式中，上述方法，还可以包括：

将N个第一类关联向量、N个第二类关联向量及N个第三类关联向量进行融合，以生成第四融合向量；

对第四融合向量进行计算，以确定基于候选文档时，医疗数据的置信度。

在本申请实施例中，可以将N个第一类关联向量、N个第二类关联向量与N个第三类关联向量进行拼接，以生成第四融合向量；或者，可以将N个第一类关联向量、N个第二类关联向量与N个第三类关联向量之和，确定为第四融合向量；或者，可以将N个第一类关联向量、N个第二类关联向量与N个第三类关联向量的均值，确定为第四融合向量；或者，还可以根据实体、属性与属性值与候选文档间关联性的重要程度，分别对第一类关联、第二类关联向量与第三类关联向量赋予不同的权重值，并将N个第一类关联向量、N个第二类关联向量与N个第三类关联向量的加权和，确定为第四融合向量。

需要说明的是，对第一类关联向量、第二类关联向量及第三类关联向量进行融合的方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，确定对关联向量进行融合处理的方式，本申请实施例对此不做限定。

可以理解的是，若在上述步骤中生成了N个第五类关联向量、N个第六类关联向量或N个第七类关联向量，还可以按照上方式对N个第一类关联向量、N个第二类关联向量、N个第三类关联向量、N个第五类关联向量、N个第六类关联向量及N个第七类关联向量进行融合处理，以生成第四融合向量。

在本申请实施例中，由于第四融合向量可以反映待校验的医学数据与候选文档的整体相关性，从而可以通过分类模型中的softmax层对第四融合向量进行计算，以生成待校验的医疗数据与候选文档的整体相关性，即待校验的医疗数据基于候选文档的置信度。

根据本申请实施例的技术方案，通过SPO三元组的形式表示待校验的医疗数据，并利用自然语言处理模型对待校验的医疗数据及候选文档进行处理，以获取医疗数据中的实体对应的第一特征向量、属性对应的第二特征向量、属性值对应的第三特征向量、及候选文档对应的第四特征向量，以及采用多种方式分别计算实体、属性、属性值与候选文档间的相关性，以获取多个第一类、第二类、第三类关联向量，进而对多类关联向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。由此，通过一个端到端的深度学习模型，采用多种方式、从医疗数据的各个数据维度计算医疗数据与候选文档间的相关性，以从多个维度准确表示医疗数据与候选文档间的关联与差异，并且端到端模型不会产生误差累积，从而进一步提升了医疗数据校验的准确性。

在本申请一种可能的实现形式中，可以首先从权威的医疗数据库中检索与待校验的医疗数据相关的文档作为候选文档，以减少候选文档的数量；并且由于不同的计算方式在计算向量之间关联度的关注点不同，从而使得不同关联向量的重要程度不同，因此，可以对不同的计算方式赋予不同的权重，以进一步提升医疗数据与候选文档间关联性表达的准确性。

下面结合图4，对本申请实施例提供的医疗数据校验方法进行进一步说明。

图4为本申请实施例所提供的再一种医疗数据校验方法的流程示意图。

如图4所示，该医疗数据校验方法，包括以下步骤：

步骤301，获取待校验的医疗数据及所对应的描述文本。

其中，待校验的医疗数据所对应的描述文本，可以是指提取待校验的医疗数据时所使用的原始文本。

在本公开实施例中，可以根据实际的应用场景从病人的病历、医生出具的诊断书、用药记录等原始文本中，提取SPO三元组数据，以构成待校验的医疗数据，并将提取待校验的医疗数据所依据的元素文本，确定为对应的描述文本。

举例来说，本申请实施例的医疗数据校验方法应用在医疗机构的辅助诊断场景时，服务器获取到医生客户端发送的诊断结果为“体表出现皮肤斑丘疹，确诊为麻疹”，从而从诊断结果中提取的待校验的医疗数据为<麻疹，症状，皮肤斑丘疹>，并可以将诊断结果“体表出现皮肤斑丘疹，确诊为麻疹”，确定为对应的描述文本。

步骤302，根据描述文本与数据库中每个文档的相关性，从数据库中获取与描述文本关联的候选文档。

在本申请实施例中，可以将描述文本作为检索关键词在数据库中进行检索，或者对描述文本进行关键词提取，进而将提取出的关键词作为检索关键词在数据库中进行检索，以确定描述文本与数据库中每个文档的相关性，进而根据描述文本与数据库中每个文档的相关性，对数据库中的各文档进行降序排序，之后从各文档中选取与描述文本的相关性较高的文档作为候选文档。比如，可以将与描述文本的相关性最大的M(M为正整数，如M＝1)个文档确定为候选文档；或者，还可以预设相关性阈值，并将与描述文本的相关性大于或等于相关性阈值的文档确定为候选文档，本申请实施例对此不做限定。

举例来说，预设的相关性阈值为0.8，描述文本为“体表出现皮肤斑丘疹，确诊为麻疹”，将该描述文本作为关键词在数据库中进行检索，确定文档A“《传染病学》第8版第五节麻疹：麻疹(measles)是由麻疹病毒(measles virus)引起的病毒感染性传染病，在我国法定的传染病中属于乙类传染病。其主要的临床表现有发热、咳嗽、流涕等卡他症状及眼结合膜炎，特征性表现为口腔麻疹粘膜斑(Koplik spots)及皮肤斑丘疹”，与描述文本的相关性为0.9，则可以将《传染病学》第8版第五节麻疹中的这段文档，确定为候选文档。

需要说明的是，数据库可以是预先指定的医疗数据库中，其中医疗数据库中可以存储各类权威医疗资料，包括书籍、杂志和论文等。

步骤303，利用自然语言处理模型对医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量。

步骤304，基于各特征向量，采用N种方式计算医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数。

上述步骤303-304的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤305，确定每种计算方式对应的权重值。

在本申请实施例中，由于采用多种方式计算医疗数据与候选文档间的相关性时，每种计算方式对向量间差异与关联的关注点不同，从而导致各关联向量对表征医疗数据与候选文档间相关性时的重要程度存在差异，因此，可以根据每种计算方式对相关向表达的重要程度，确定每种计算方式对应的权重值。比如，N种计算方式分别为softmax运算、减法运算、余弦运算，则可以确定余弦运算的权重值大于softmax运算的权重值，softmax运算的权重值大于减法运算的权重值。

需要说的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及各种计算方式的特点，确定各计算方式对应的权重值，本申请实施例对此不做限定。

步骤306，基于每种计算方式对应的权重值，将N个关联向量进行加权融合，以确定基于候选文档时，医疗数据的置信度。

在本公开实施例中，对N个关联向量进行融合处理时，可以根据每个关联向量对应的计算方式的权重值，确定N个关联向量的加权和，并利用分类模型的softmax层根据N个关联向量的加权和，确定待校验的医疗数据基于候选文档的置信度。

根据本申请实施例的技术方案，通过根据待校验的医疗数据对应的描述文本，从数据库中检索与待校验的医疗数据关联的候选文档，并利用自然语言处理模型对待校验的医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量，并基于各特征向量，采用多种方式计算医疗数据与候选文档间的相关性，以获取多个关联向量，进而基于每种计算方式对应的权重值，将N个关联向量进行加权融合，以确定基于候选文档时，医疗数据的置信度。由此，通过从权威的医疗数据库中检索与待校验的医疗数据相关的文档作为候选文档，以减少候选文档的数量，并根据各计算方式的重要程度，赋予各关联向量不同的权重值，以进一步提升医疗数据与候选文档间关联性表达的准确性，从而不仅进一步提升了医疗数据校验的准确性，而且降低了医疗数据校验的计算复杂度。

为了实现上述实施例，本申请还提出一种医疗数据校验装置。

图5为本申请实施例提供的一种医疗数据校验装置的结构示意图。

如图5所示，该医疗数据校验装置40，包括：

第一获取模块41，用于获取待校验的医疗数据及候选文档；

第二获取模块42，用于利用自然语言处理模型对医疗数据及候选文档进行处理，以获取医疗数据及候选文档分别对应的各特征向量；

第三获取模块43，用于基于各特征向量，采用N种方式计算医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数；

确定模块44，用于对N个关联向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。

在实际使用时，本申请实施例提供的医疗数据校验装置，可以被配置在任意电子设备中，以执行前述医疗数据校验方法。

在本申请一种可能的实现形式中，上述医疗数据中包括实体、属性及属性值，相应的，上述第二获取模块42，包括：

第一获取单元，用于获取实体对应的第一特征向量、属性对应的第二特征向量、属性值对应的第三特征向量、及候选文档对应的第四特征向量。

进一步的，在本申请另一种可能的实现形式中，上述第二获取模块42，还包括：

第二获取单元，用于获取实体与属性对应的第五特征向量、属性与属性值对应的第六特征向量、及实体与属性值对应的第七特征向量中的至少一种。

进一步的，在本申请再一种可能的实现形式中，上述第三获取模块43，包括：

第一计算单元，用于分别采用N种方式，计算第一特征向量与第四特征向量间的相关性，以获取N个第一类关联向量；

第二计算单元，用于分别采用N种方式，计算第二特征向量与第四特征向量间的相关性，以获取N个第二类关联向量；

第三计算单元，用于分别采用N种方式，计算第三特征向量与第四特征向量间的相关性，以获取N个第三类关联向量。

进一步的，在本申请又一种可能的实现形式中，上述确定模块44，包括：

第一融合单元，用于将N个第一类关联向量进行融合，以获取第一融合向量；

第二融合单元，用于将N个第二类关联向量进行融合，以获取第二融合向量；

第三融合单元，用于将N个第三类关联向量进行融合，以获取第三融合向量；

第一确定单元，用于对第一融合向量、第二融合向量及第三融合向量进行融合计算，以确定基于候选文档时，医疗数据的置信度。

第四融合单元，用于将N个第一类关联向量、N个第二类关联向量及N个第三类关联向量进行融合，以生成第四融合向量；

第二确定单元，用于对第四融合向量进行计算，以确定基于候选文档时，医疗数据的置信度。

进一步的，在本申请另一种可能的实现形式中，上述确定模块44，包括：

第三确定单元，用于确定每种计算方式对应的权重值；

第五融合单元，用于基于每种计算方式对应的权重值，将N个关联向量进行加权融合。

进一步的，在本申请再一种可能的实现形式中，上述第一获取模块41，包括：

第三获取单元，用于获取待校验的医疗数据及所对应的描述文本；

第四获取单元，用于根据描述文本与数据库中每个文档的相关性，从数据库中获取与描述文本关联的候选文档。

需要说明的是，前述对图1、图3、图4所示的医疗数据校验方法实施例的解释说明也适用于该实施例的医疗数据校验装置40，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的医疗数据校验方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的医疗数据校验方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的医疗数据校验方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的医疗数据校验方法对应的程序指令/模块(例如，附图5所示的第一获取模块41、第二获取模块42、第三获取模块43及确定模块44)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的医疗数据校验方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据医疗数据校验方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至医疗数据校验方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

医疗数据校验方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与医疗数据校验方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS(VirtualPrivate Server，虚拟专用服务器)服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种医疗数据校验方法，包括：

获取待校验的医疗数据及候选文档；

利用自然语言处理模型对所述医疗数据及候选文档进行处理，以获取所述医疗数据及候选文档分别对应的各特征向量；

基于所述各特征向量，采用N种方式计算所述医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数，其中，所述关联向量是指表征待校验的医疗数据与候选文档之间的关联程度的向量；

对所述N个关联向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度；

其中，所述医疗数据中包括实体、属性及属性值，所述获取所述医疗数据及候选文档分别对应的各特征向量，包括：

获取所述实体对应的第一特征向量、所述属性对应的第二特征向量、所述属性值对应的第三特征向量、及所述候选文档对应的第四特征向量。

2.如权利要求1所述的方法，其中，所述获取所述医疗数据及候选文档分别对应的各特征向量，还包括：

获取所述实体与属性对应的第五特征向量、所述属性与属性值对应的第六特征向量、及所述实体与属性值对应的第七特征向量中的至少一种。

3.如权利要求1所述的方法，其中，所述采用N种方式计算所述医疗数据与候选文档间的相关性，以获取N个关联向量，包括：

分别采用N种方式，计算所述第一特征向量与所述第四特征向量间的相关性，以获取N个第一类关联向量；

分别采用N种方式，计算所述第二特征向量与所述第四特征向量间的相关性，以获取N个第二类关联向量；

分别采用N种方式，计算所述第三特征向量与所述第四特征向量间的相关性，以获取N个第三类关联向量。

4.如权利要求3所述的方法，其中，所述对所述N个关联向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度，包括：

将所述N个第一类关联向量进行融合，以获取第一融合向量；

将所述N个第二类关联向量进行融合，以获取第二融合向量；

将所述N个第三类关联向量进行融合，以获取第三融合向量；

对所述第一融合向量、第二融合向量及第三融合向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度。

5.如权利要求3所述的方法，其中，所述对所述N个关联向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度，包括：

将所述N个第一类关联向量、N个第二类关联向量及N个第三类关联向量进行融合，以生成第四融合向量；

对所述第四融合向量进行计算，以确定基于所述候选文档时，所述医疗数据的置信度。

6.如权利要求1-5任一所述的方法，其中，所述对N个关联向量进行融合，包括：

确定每种计算方式对应的权重值；

基于每种计算方式对应的权重值，将所述N个关联向量进行加权融合。

7.如权利要求1-5任一所述的方法，其中，所述获取待校验的医疗数据及候选文档，包括：

获取待校验的医疗数据及所对应的描述文本；

根据所述描述文本与数据库中每个文档的相关性，从所述数据库中获取与所述描述文本关联的候选文档。

8.一种医疗数据校验装置，包括：

第一获取模块，用于获取待校验的医疗数据及候选文档；

第二获取模块，用于利用自然语言处理模型对所述医疗数据及候选文档进行处理，以获取所述医疗数据及候选文档分别对应的各特征向量；

第三获取模块，用于基于所述各特征向量，采用N种方式计算所述医疗数据与候选文档间的相关性，以获取N个关联向量，其中N为大于1的正整数，其中，所述关联向量是指表征待校验的医疗数据与候选文档之间的关联程度的向量；

确定模块，用于对所述N个关联向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度；

中，所述医疗数据中包括实体、属性及属性值，所述第二获取模块，包括：

第一获取单元，用于获取所述实体对应的第一特征向量、所述属性对应的第二特征向量、所述属性值对应的第三特征向量、及所述候选文档对应的第四特征向量。

9.如权利要求8所述的装置，其中，所述第二获取模块，还包括：

第二获取单元，用于获取所述实体与属性对应的第五特征向量、所述属性与属性值对应的第六特征向量、及所述实体与属性值对应的第七特征向量中的至少一种。

10.如权利要求8所述的装置，其中，所述第三获取模块，包括：

第一计算单元，用于分别采用N种方式，计算所述第一特征向量与所述第四特征向量间的相关性，以获取N个第一类关联向量；

第二计算单元，用于分别采用N种方式，计算所述第二特征向量与所述第四特征向量间的相关性，以获取N个第二类关联向量；

第三计算单元，用于分别采用N种方式，计算所述第三特征向量与所述第四特征向量间的相关性，以获取N个第三类关联向量。

11.如权利要求10所述的装置，其中，所述确定模块，包括：

第一融合单元，用于将所述N个第一类关联向量进行融合，以获取第一融合向量；

第二融合单元，用于将所述N个第二类关联向量进行融合，以获取第二融合向量；

第三融合单元，用于将所述N个第三类关联向量进行融合，以获取第三融合向量；

第一确定单元，用于对所述第一融合向量、第二融合向量及第三融合向量进行融合计算，以确定基于所述候选文档时，所述医疗数据的置信度。

12.如权利要求10所述的装置，其中，所述确定模块，包括：

第四融合单元，用于将所述N个第一类关联向量、N个第二类关联向量及N个第三类关联向量进行融合，以生成第四融合向量；

第二确定单元，用于对所述第四融合向量进行计算，以确定基于所述候选文档时，所述医疗数据的置信度。

13.如权利要求8-12任一所述的装置，其中，所述确定模块，包括：

第三确定单元，用于确定每种计算方式对应的权重值；

第五融合单元，用于基于每种计算方式对应的权重值，将所述N个关联向量进行加权融合。

14.如权利要求8-12任一所述的装置，其中，所述第一获取模块，包括：

第四获取单元，用于根据所述描述文本与数据库中每个文档的相关性，从所述数据库中获取与所述描述文本关联的候选文档。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。