CN116778495A

CN116778495A - 医疗文档图像的分析方法、装置、设备及介质

Info

Publication number: CN116778495A
Application number: CN202310743262.6A
Authority: CN
Inventors: 胡兴; 郝碧波
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-19

Abstract

本发明涉及人工智能及医疗健康领域，公开了一种医疗文档图像的分析方法、装置、设备及介质，方法包括获取医疗文档图像以及与医疗文档图像对应的需求信息；若需求信息中包括图像分割需求信息，通过图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像；若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像；通过信息提取模型，对候选文档图像和需求信息中的文本需求信息进行处理，得到与文本需求信息对应的目标信息，候选文档图像剔除了噪声，提高了从候选文档图像提取的目标信息的准确度。

Description

医疗文档图像的分析方法、装置、设备及介质

技术领域

本发明涉及人工智能及医疗健康领域，尤其涉及一种医疗文档图像的分析方法、装置、设备及介质。

背景技术

文档是当前社会发展中最重要的数据载体，每一张文档都承载了重要的业务或者个人数据，伴随着当前数字化的发展，越来越多的纸质文档转换成了数字图像，也即文档图像作为信息载体。对于文档图像的智能化解析，是很多领域使用文档图像的关键。对于一些拍摄的文档图像，清晰度受到限制，影响文档图像的解析效果。

比如，医疗健康领域，对于检查报告、病历等医疗文档图像的存储、调取以及解析等，相对于纸质文档会便利很多，并且也可以避免医疗文档图像的丢失等。由于有些医疗文档图像只有纸质版的，比如，医生填写的病历等，这些医疗文档图像可以通过拍照的方式，将纸质文档转换为与医疗文档图像进行保存，这些图像往往会由于拍摄的清晰度、拍摄背景等，对解析工作带来很大的难度，影响解析的准确度。

发明内容

本发明提供一种医疗文档图像的分析方法、装置、设备及介质，来解决目前对于医疗文档图像解析准确度低的问题。

第一方面，本发明实施例提供了一种医疗文档图像的分析方法，方法包括：

获取医疗文档图像以及与所述医疗文档图像对应的需求信息；

若所述需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像；

若所述需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像进行文档图像的分割，获得从所述医疗文档图像中剔除了背景的候选文档图像；

通过预训练的信息提取模型，对所述候选文档图像和所述需求信息中的文本需求信息进行处理，得到与所述文本需求信息对应的目标信息，其中，所述目标信息包括目标文本和/或目标文档图像。

第二方面，本发明实施例还提供了一种医疗文档图像的分析装置，装置包括：

信息获取模块，用于获取医疗文档图像以及与所述医疗文档图像对应的需求信息，其中，每个所述医疗文档图像中包括至少一个医疗文本页；

第一图像分割模块，用于若所述需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像；

第二图像分割模块，用于若所述需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像进行文档图像的提取，获得从所述医疗文档图像中剔除了背景的候选文档图像；

目标信息获取模块，用于通过预训练的信息提取模型，对所述候选文档图像和所述需求信息中的文本需求信息进行处理，得到与所述文本需求信息对应的目标信息，其中，所述目标信息包括目标文本和/或目标文档图像。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上方法的步骤。

上述医疗文档图像的分析方法、装置、设备及介质所实现的方案中，可以通过客户端获取医疗文档图像以及医疗文档图像对应的需求信息，若需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像。若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像，通过预训练的信息提取模型，对候选文档图像和需求信息中的文本需求进行处理，得到与文本需求信息对应的目标信息，将目标信息反馈回客户端，在本发明中，实现了获取医疗文档图像和需求信息，在需求信息包括图像分割需求信息时，获得图像分割信息对应的候选文档图像，若需求信息中包括不包括图像分割需求信息，则获得剔除了背景的候选文档图像，通过预训练的信息提取模型，实现对候选文档图像和需求信息中的文本需求信息的处理，得到目标信息，在进行医疗文档图像的分割或者背景的剔除，使得得到的候选文档图像可以去除噪声，进而，从候选文档图像中，获得目标信息，提高了目标信息获取的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中一种医疗文档图像的分析方法的应用环境示意图；

图2是本发明一实施例中一种医疗文档图像的分析方法的流程示意图；

图3是本发明一实施例中一种医疗文档图像的分析装置的结构示意图；

图4是本发明一实施例中计算机设备的一结构示意图；

图5是本发明一实施例中计算机设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种医疗文档图像的分析方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信。服务端可以通过客户端接收获取医疗文档图像以及医疗文档图像对应的需求信息，若需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像。若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像，通过预训练的信息提取模型，对候选文档图像和需求信息中的文本需求进行处理，得到与文本需求信息对应的目标信息，将目标信息反馈回客户端。

医生填写的病历等，这些医疗数据可以通过拍照的方式，将纸质文档转换为与医疗文档图像进行保存，这些图像往往会由于拍摄的清晰度、拍摄背景等，对解析工作带来很大的难度。在本发明中，实现了获取医疗文档图像和需求信息，在需求信息包括图像分割需求信息时，获得图像分割信息对应的候选文档图像，若需求信息中包括不包括图像分割需求信息，则获得剔除了背景的候选文档图像，通过预训练的信息提取模型，实现对候选文档图像和需求信息中的文本需求信息的处理，得到目标信息，在进行医疗文档图像的分割或者背景的剔除，使得得到的候选文档图像可以去除噪声，进而，从候选文档图像中，获得目标信息，提高了目标信息获取的准确度。

其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。

请参阅图2所示，图2为本发明实施例提供的一种医疗文档图像的分析方法的一个流程示意图，包括如下步骤：

S110、获取医疗文档图像以及与所述医疗文档图像对应的需求信息。

其中，医疗文档图像包括病历、体检报告等。需求信息可以包括对医疗文档图像的图像分割需求信息，也可以包括文本需求信息。图像分割需求信息可以是指对医疗文档图像进行分割的信息。文本需求信息包括对医疗文档图像中的文本、与文本对应的解答信息的获取。示例性的，医疗文档图像包括两个文档，左右两个文档，图像分割需求信息包括获取左侧的文档图像。文本需求信息可以包括提取候选文档图像中的病症特征、根据病症特征获得相对应的解决方案等。

本发明实施例中，获取医疗文档图像以及与医疗文档图像对应的需求信息，使得后续步骤可以根据需求信息对医疗文档图像进行处理，得到目标信息。

S120、若所述需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像。

其中，图像分割模型是预先训练完成的，图像分割模型用于对医疗文档图像进行分割，得到候选文档图像。

具体的，若是需求信息中包括图像分割需求信息，则通过图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像，本发明实施例，可以实现根据图像分割需求信息进行医疗文档图像的分割。图像分割需求信息可以是从客户端获取的，使得得到的候选文档图像更加具有针对性，提高用户体验度。

S130、若所述需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像进行文档图像的分割，获得从所述医疗文档图像中剔除了背景的候选文档图像。

通过图像分割模型对医疗文档图像进行文档图像的分割，剔除医疗文档图像中的背景图像，得到剔除了背景的候选文档图像，使得候选文档图像剔除了噪声，进而使得后续的目标信息的提取，更加准确。

S140、通过预训练的信息提取模型，对所述候选文档图像和所述需求信息中的文本需求信息进行处理，得到与所述文本需求信息对应的目标信息。

其中，信息提取模型是预先训练好的，可以提取候选文档图像中的目标信息。目标信息包括目标文本和/或目标文档图像，比如，目标文本包括病症特征，与病征特征对应的解答信息等。比如，目标文档图像，包括根据文本需求信息从医疗文档图像中获取了文本信息，之后基于医疗文档图像的中文档的格式以及文本信息，得到目标文档图像。示例性的，在目标信息为将医疗文档图像中的病症标注出来，则首先文本信息为病症，通过医疗文档图像的文档的格式以及病症所在的位置，得到目标文档图像。

具体的，通过信息提取模型，对候选文档图像和需求信息中的文本需求信息进行处理，得到文本需求信息对应的目标信息，由于对医疗文档图像剔除噪声或者进行了图像分割，得到的候选文档图像更有针对性，再对候选文档图像进行目标信息的提取，使得目标信息更加准确。

本发明实施例的技术方案，通过获取医疗文档图像以及医疗文档图像对应的需求信息，若需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像。若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像，通过预训练的信息提取模型，对候选文档图像和需求信息中的文本需求进行处理，得到与文本需求信息对应的目标信息。在本发明中，实现了获取医疗文档图像和需求信息，在需求信息包括图像分割需求信息时，获得图像分割信息对应的候选文档图像，若需求信息中包括不包括图像分割需求信息，则获得剔除了背景的候选文档图像，通过预训练的信息提取模型，实现对候选文档图像和需求信息中的文本需求信息的处理，得到目标信息，在进行医疗文档图像的分割或者背景的剔除，使得得到的候选文档图像可以去除噪声，进而，从候选文档图像中，获得目标信息，提高了目标信息获取的准确度。

在另一本发明实施例中，所述图像分割模型包括第一编码器和第一解码器；所述通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像，包括：通过第一编码器，将所述医疗文档图像转换为第一图像向量；将所述图像分割需求信息转换为分割文本向量；通过第一解码器，基于所述分割文本向量，对所述第一图像向量进行分割，得到与所述图像分割需求信息对应的候选文档图像。

其中，第一编码器用于将医疗文档图像转换为第一图像向量，第一解码器，用于基于分割文本向量对第一图像向量进行分割，得到候选文档图像。需要说明的是，第一编码器和第一解码器的具体模型不做限定，比如，第一编码器可以是指卷积神经网络，还比如，将医疗文档图像转换为嵌入式向量的模型。第一解码器可以是指掩码解码器。

本发明实施例中，通过第一编码器将医疗文档图像转换为第一图像向量，通过将图像分割需求信息转换为分割文本向量，进而通过第一解码器，基于分割文本向量对第一图像向量进行分割，得到候选文档图像，获取与图像分割需求信息对应的候选文档图像，由于图像分割需求信息可以根据需要来设定，进而提高了候选文档图像获取的灵活性。

示例性的，第一编码器包括提示词编码器和图像编码器。图像编码器将医疗文档图像提取为嵌入式向量embedding，也即第一图像向量。提示词编码器可以采用稀疏编码和稠密编码。提示词编码器用于将图像分割需求信息转换为分割文本向量。可选的，本发明实施例中的提示词编码器和图像编码器可以是指图像分割基础模型(Segment AnythingModel，SAM)中的提示词编码器和图像编码器。比如，图像分割需求信息的形式包括医疗文档图像的坐标点、坐标区域或者文本。比如，一张500*500像素的图片，图像分割需求信息为坐标点为200*300，提示词编码器将该坐标点作为提示词将坐标转换为对应的分割文本向量。

在另一本发明实施例中，所述信息提取模型包括第二编码器和第二解码器，所述文本信息提取需求信息包括获取候选文档图像中的至少一个目标文本、确定所述目标文本的位置以及获取与所述目标文本对应的解答信息中的至少一项，所述解答信息是指从预设的数据库中调取与所述目标文本对应的信息；所述通过预训练的信息提取模型，对所述候选文档图像和所述需求信息中的文本需求信息进行处理，得到与所述文本需求信息对应的目标信息，包括：通过所述第二编码器分别对所述候选文档图像和所述文本需求信息进行向量转换，得到候选文档图像向量和文本需求信息向量，以基于所述候选文档图像向量和所述文本需求信息向量拼接，得到目标向量；通过第二解码器，对所述目标向量进行目标文本和/或目标文档图像的提取，获得与所述文本需求信息对应的目标信息。

其中，第二编码器和第二解码器的具体模型不做限定，比如，第二编码器包括卷积神经网络模型，第二编码器可以实现将候选文档图像和文本需求信息分别转换为向量，并将向量进行拼接，得到目标向量。第二解码器也可以是卷积神经网络模型，第二解码器进行目标文本和/或目标文档图像的获取。

本发明实施例中，通过第二编码器分别对候选文档图像和文本需求信息进行编码，得到候选文档图像对应的候选文档图像向量和文本需求信息向量，进而将候选文档图像向量和文本需求信息向量进行拼接，得到目标向量。可选的，可以将候选文档图像和文本需求信息依次输入到第二编码器中，输出拼接好的目标向量。通过第二解码器，对目标向量进行目标文本和/或目标文档图像的提取，得到与文本需求信息对应的目标信息。通过第二编码器和第二解码器实现对候选文本图像和文本需求信息的处理，得到目标信息，提高目标信息获得准确度，不需要人工参与，提高了工作效率。

在另一本发明实施例中，所述第二解码器包括文本解码器和布局解码器；所述通过第二解码器，对所述目标向量进行目标文本和/或目标文档图像的提取，获得与所述文本需求信息对应的目标信息，包括：通过所述文本解码器，对所述目标向量进行文本提取，得到至少一个所述目标文本；在所述文本需求信息包括确定所述目标文本的位置信息的情况下，通过所述布局解码器，获取所述目标文本的位置信息；基于所述位置信息，对所述候选文档图像中的所述目标文本进行标记，获得包括标记了所述目标文本的目标文档图像；在所述文本需求信息包括获取所述目标文本的解答信息的情况下，根据所述目标文本，从所述数据库中调取与所述目标文本对应的解答信息，其中，所述目标信息包括解答信息。

应当理解，解答信息也属于一种文本信息，也即目标信息中的目标文本也可以是指解答信息。

具体的，通过文本解码器，对目标向量进行文本提取，得到至少一个目标文本，在文本需求信息包括确定目标文本的位置信息的情况下，可以通过布局解码器，得到目标文本的位置信息，进而根据位置信息，对候选文档图像中的目标文本进行标记，得到包括标记了目标文本的目标文档图像，在文本需求信息中包括获取目标文本的解答信息的情况下，根据目标文本，从数据库中调取与目标文本对应的解答信息，实现了对目标向量的目标文本的获取、目标文本的位置信息的确定以及最终解答信息的获取，使得用户在需要候选文档图像中的解答信息时，可以根据候选文档图像，得到解答信息，提高用户体验度。

在另一本发明实施例中，在所述候选文档图像包括多个的情况下，所述通过所述第二编码器分别对所述候选文档图像和所述文本需求信息进行向量转换，得到候选文档图像向量和文本需求信息向量，以基于所述候选文档图像向量和所述文本需求信息向量拼接，得到目标向量，包括：获取每个所述候选文档图像中的文本语义信息和每个所述候选文档图像的页面信息，其中，所述页面信息包括所述候选文档图像的页码信息；根据所述文本语义信息以及所述页面信息，判断各所述候选文档图像是否有关联关系；若是存在具有关联关系的至少两个所述候选文档图像，基于所述关联关系，对各具有关联关系的所述候选文档图像进行拼接，得到目标候选文档图像；通过所述第二编码器分别对所述目标候选文档图像和所述文本需求信息进行向量转换，分别得到目标候选文档图像向量和文本需求信息向量，以基于所述目标候选文档图像向量和所述文本需求信息向量拼接，得到目标向量。

具体的，获取每个候选文档图像中的文本语义信息和每个候选文档图像的页面信息，根据文本语义信息和页面信息，判断各个候选文档图像是否有关联关系，若是有的话，根据关联关系，将各个具有关联关系的候选文档图像进行拼接，得到目标候选文档图像，通过第二编码器分别对目标候选文档图像和文本需求信息进行向量转换，将得到的目标候选文档图像向量和文本需求信息向量进行拼接，得到目标向量，实现了将具有关联关系的医疗文档图像进行拼接，这样，在进行目标信息的获取时，可以从多个医疗文档图像中进行获取，使得目标信息更加准确完整。

在另一本发明实施例中，所述图像分割模型的训练步骤，包括：获取第一训练样本集，其中，所述第一训练样本集包括各医疗文档样本图像，与所述医疗文档样本图像对应的分割需求样本信息，以及与所述医疗文档样本图像对应的标准图像；通过第一初始模型，对所述第一训练样本集中的各个所述医疗文档样本图像以及与所述医疗文档样本图像对应的分割需求样本信息进行处理，分别得到每个医疗文档样本图像对应的预测图像；根据每个所述预测图像以及与每个所述预测图像对应的所述标准图像，得到第一损失值，并根据所述第一损失值更新所述第一初始模型的网络参数，直至所述第一损失值满足第一损失条件的情况下，将所述第一初始模型作为所述图像分割模型。

其中，样本需求信息与医疗文档样本图像对应，是指针对医疗文档样本图像中的部分图像的分割信息，可以是坐标点、坐标区域或者文字来描述，比如，文字描述：将医疗文档样本图像的左侧文档分割出来，当然，该医疗文档样本图像中包括左右排列的两个文档。

本发明实施例中，首选获取第一训练样本集，通过第一初始模型对第一训练样本集中的各个医疗文档样本图像和医疗文档样本图像对应的分割需求样本信息进行处理，得到每个医疗文档样本图像和样本需求信息进行处理，得到每个医疗文档样本图像对应的预测图像，根据每个预测图像和相对应的标注图像进行比较，得到第一损失值，根据第一损失值更新第一初始模型的网络参数，直到第一损失值满足第一损失条件，将此时的第一初始模型作为图像分割模型。本发明实施例实现了对第一初始模型的训练过程，保证第一初始模型训练的准确度，进而提高图像分割模型的准确度。

在另一本发明实施例中，所述信息提取模型的训练步骤，包括：获取第二训练样本集，其中，所述第二训练样本集包括各样本文档图像，与所述样本文档图像对应的样本需求信息以及与所述样本需求信息对应的标准信息，所述样本图像中仅包括一个文档；通过第二初始模型，对所述第二训练样本集中的各个样本文档图像和所述样本需求信息进行处理，得到与每个所述样本需求信息对应的预测信息；根据所述预测信息与所述标准信息得到第二损失值，并根据所述第二损失值更新所述第二初始模型的网络参数，直至在第二损失值满足第二损失条件的情况下，将所述第二初始模型作为所述信息提取模型。

其中，样本需求信息包括从样本文档图像中获取预测文本信息或者获取预测文档图像，比如，样本需求信息为从样本文档图像中获取A病症、获取A病症对应的解答信息、获取具有标注的A病症的文档图像等等。每个样本需求信息是针对对应的样本文档图像进行设置的。

具体的，通过第二初始模型，对第二训练样本集中的各个样本文档图像和样本需求信息进行处理，得到每个与样本需求信息对应的预测信息，根据预测信息与标准信息得到第二损失值，根据第二损失值更新第二初始模型的网络参数，在第二损失值满足第二损失条件的情况下，将此时的第二初始模型作为信息提取模型。本发明实施例实现了第二初始模型的训练，保证训练的准确度，进而提高了信息提取模型提取信息的准确度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在另一本发明实施例中，提供了一种医疗文档图像的分析装置，该医疗文档图像的分析装置与上述实施例中医疗文档图像的分析方法一一对应。如图3所示，该医疗文档图像的分析装置包括：信息获取模块410、信息处理模块420、医疗文档图像分割模块430和目标信息获取模块440，各功能模块详细说明如下：

信息获取模块410，用于获取医疗文档图像以及与所述医疗文档图像对应的需求信息；信息处理模块420，用于若所述需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像；医疗文档图像分割模块430，用于若所述需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像进行文档图像的分割，获得从所述医疗文档图像中剔除了背景的候选文档图像；目标信息获取模块440，用于通过预训练的信息提取模型，对所述候选文档图像和所述需求信息中的文本需求信息进行处理，得到与所述文本需求信息对应的目标信息，其中，所述目标信息包括目标文本和/或目标文档图像。

在另一本发明实施例中，所述图像分割模型包括第一编码器和第一解码器；信息处理模块420还用于：

通过第一编码器，将所述医疗文档图像转换为第一图像向量；将所述图像分割需求信息转换为分割文本向量；通过第一解码器，基于所述分割文本向量，对所述第一图像向量进行分割，得到与所述图像分割需求信息对应的候选文档图像。

在另一本发明实施例中，所述信息提取模型包括第二编码器和第二解码器，所述文本信息提取需求信息包括获取候选文档图像中的至少一个目标文本、确定所述目标文本的位置以及获取与所述目标文本对应的解答信息中的至少一项，所述解答信息是指从预设的数据库中调取与所述目标文本对应的信息；

目标信息获取模块440还用于：

通过所述第二编码器分别对所述候选文档图像和所述文本需求信息进行向量转换，得到候选文档图像向量和文本需求信息向量，以基于所述候选文档图像向量和所述文本需求信息向量拼接，得到目标向量；通过第二解码器，对所述目标向量进行目标文本和/或目标文档图像的提取，获得与所述文本需求信息对应的目标信息。

在另一本发明实施例中，所述第二解码器包括文本解码器和布局解码器；

目标信息获取模块440还用于：

通过所述文本解码器，对所述目标向量进行文本提取，得到至少一个所述目标文本；

在所述文本需求信息包括确定所述目标文本的位置信息的情况下，通过所述布局解码器，获取所述目标文本的位置信息；

基于所述位置信息，对所述候选文档图像中的所述目标文本进行标记，获得包括标记了所述目标文本的目标文档图像；

在所述文本需求信息包括获取所述目标文本的解答信息的情况下，根据所述目标文本，从所述数据库中调取与所述目标文本对应的解答信息，其中，所述目标信息包括解答信息。

在另一本发明实施例中，在所述候选文档图像包括多个的情况下，目标信息获取模块440还用于：

获取每个所述候选文档图像中的文本语义信息和每个所述候选文档图像的页面信息，其中，所述页面信息包括所述候选文档图像的页码信息；

根据所述文本语义信息以及所述页面信息，判断各所述候选文档图像是否有关联关系；

若是存在具有关联关系的至少两个所述候选文档图像，基于所述关联关系，对各具有关联关系的所述候选文档图像进行拼接，得到目标候选文档图像；

通过所述第二编码器分别对所述目标候选文档图像和所述文本需求信息进行向量转换，分别得到目标候选文档图像向量和文本需求信息向量，以基于所述目标候选文档图像向量和所述文本需求信息向量拼接，得到目标向量。

在另一本发明实施例中，所述图像分割模型的训练模块，用于：

获取第一训练样本集，其中，所述第一训练样本集包括各医疗文档样本图像，与所述医疗文档样本图像对应的分割需求样本信息，以及与所述医疗文档样本图像对应的标准图像；

通过第一初始模型，对所述第一训练样本集中的各个所述医疗文档样本图像以及与所述医疗文档样本图像对应的分割需求样本信息进行处理，分别得到每个医疗文档样本图像对应的预测图像；

根据每个所述预测图像以及与每个所述预测图像对应的所述标准图像，得到第一损失值，并根据所述第一损失值更新所述第一初始模型的网络参数，直至所述第一损失值满足第一损失条件的情况下，将所述第一初始模型作为所述图像分割模型。

在另一本发明实施例中，所述信息提取模型的训练模块，用于：

获取第二训练样本集，其中，所述第二训练样本集包括各样本文档图像，与所述样本文档图像对应的样本需求信息以及与所述样本需求信息对应的标准信息，所述样本图像中仅包括一个文档；

通过第二初始模型，对所述第二训练样本集中的各个样本文档图像和所述样本需求信息进行处理，得到与每个所述样本需求信息对应的预测信息；

根据所述预测信息与所述标准信息得到第二损失值，并根据所述第二损失值更新所述第二初始模型的网络参数，直至在第二损失值满足第二损失条件的情况下，将所述第二初始模型作为所述信息提取模型。

本发明实施例的技术方案，可以通过客户端获取医疗文档图像以及医疗文档图像对应的需求信息，若需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像。若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像，通过预训练的信息提取模型，对候选文档图像和需求信息中的文本需求进行处理，得到与文本需求信息对应的目标信息，将目标信息反馈回客户端，在本发明中，实现了获取医疗文档图像和需求信息，在需求信息包括图像分割需求信息时，获得图像分割信息对应的候选文档图像，若需求信息中包括不包括图像分割需求信息，则获得剔除了背景的候选文档图像，通过预训练的信息提取模型，实现对候选文档图像和需求信息中的文本需求信息的处理，得到目标信息，在进行医疗文档图像的分割或者背景的剔除，使得得到的候选文档图像可以去除噪声，进而，从候选文档图像中，获得目标信息，提高了目标信息获取的准确度。

关于医疗文档图像的分析装置的具体限定可以参见上文中对于医疗文档图像的分析方法的限定，在此不再赘述。上述医疗文档图像的分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗文档图像的分析方法服务端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗文档图像的分析方法客户端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

本发明实施例的计算机设备，处理器执行计算机程序时可以获取医疗文档图像以及医疗文档图像对应的需求信息，若需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像。若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像，通过预训练的信息提取模型，对候选文档图像和需求信息中的文本需求进行处理，得到与文本需求信息对应的目标信息，在本发明中，实现了获取医疗文档图像和需求信息，在需求信息包括图像分割需求信息时，获得图像分割信息对应的候选文档图像，若需求信息中包括不包括图像分割需求信息，则获得剔除了背景的候选文档图像，通过预训练的信息提取模型，实现对候选文档图像和需求信息中的文本需求信息的处理，得到目标信息，在进行医疗文档图像的分割或者背景的剔除，使得得到的候选文档图像可以去除噪声，进而，从候选文档图像中，获得目标信息，提高了目标信息获取的准确度。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本发明实施例的计算机可读存储介质，计算机程序被处理器执行时，可以获取医疗文档图像以及医疗文档图像对应的需求信息，若需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像和图像分割需求信息进行处理，得到与图像分割需求信息对应的候选文档图像。若需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对医疗文档图像进行文档图像的分割，获得从医疗文档图像中剔除了背景的候选文档图像，通过预训练的信息提取模型，对候选文档图像和需求信息中的文本需求进行处理，得到与文本需求信息对应的目标信息，在本发明中，实现了获取医疗文档图像和需求信息，在需求信息包括图像分割需求信息时，获得图像分割信息对应的候选文档图像，若需求信息中包括不包括图像分割需求信息，则获得剔除了背景的候选文档图像，通过预训练的信息提取模型，实现对候选文档图像和需求信息中的文本需求信息的处理，得到目标信息，在进行医疗文档图像的分割或者背景的剔除，使得得到的候选文档图像可以去除噪声，进而，从候选文档图像中，获得目标信息，提高了目标信息获取的准确度。

需要说明的是，上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤，可对应参阅前述方法实施例中，服务端侧以及客户端侧的相关描述，为避免重复，这里不再一一描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种医疗文档图像的分析方法，其特征在于，包括：

2.根据权利要求1所述的医疗文档图像的分析方法，其特征在于，所述图像分割模型包括第一编码器和第一解码器；所述通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像，包括：

通过所述第一编码器，将所述医疗文档图像转换为第一图像向量；

将所述图像分割需求信息转换为分割文本向量；

通过所述第一解码器，基于所述分割文本向量，对所述第一图像向量进行分割，得到与所述图像分割需求信息对应的候选文档图像。

3.根据权利要求1所述的医疗文档图像的分析方法，其特征在于，所述信息提取模型包括第二编码器和第二解码器，所述文本信息提取需求信息包括获取候选文档图像中的至少一个目标文本、确定所述目标文本的位置以及获取与所述目标文本对应的解答信息中的至少一项，所述解答信息是指从预设的数据库中调取与所述目标文本对应的信息；

所述通过预训练的信息提取模型，对所述候选文档图像和所述需求信息中的文本需求信息进行处理，得到与所述文本需求信息对应的目标信息，包括：

通过所述第二编码器分别对所述候选文档图像和所述文本需求信息进行向量转换，得到候选文档图像向量和文本需求信息向量，以基于所述候选文档图像向量和所述文本需求信息向量拼接，得到目标向量；

通过第二解码器，对所述目标向量进行目标文本和/或目标文档图像的提取，获得与所述文本需求信息对应的目标信息。

4.根据权利要求3所述的医疗文档图像的分析方法，其特征在于，所述第二解码器包括文本解码器和布局解码器；所述通过第二解码器，对所述目标向量进行目标文本和/或目标文档图像的提取，获得与所述文本需求信息对应的目标信息，包括：

在所述文本需求信息包括获取所述目标文本的解答信息的情况下，根据所述目标文本，从所述数据库中调取与所述目标文本对应的解答信息，其中，所述目标信息还包括解答信息。

5.根据权利要求4所述的医疗文档图像的分析方法，其特征在于，在所述候选文档图像包括多个的情况下，所述通过所述第二编码器分别对所述候选文档图像和所述文本需求信息进行向量转换，得到候选文档图像向量和文本需求信息向量，以基于所述候选文档图像向量和所述文本需求信息向量拼接，得到目标向量，包括：

6.根据权利要求1所述的医疗文档图像的分析方法，其特征在于，所述图像分割模型的训练步骤，包括：

7.根据权利要求1所述的医疗文档图像的分析方法，其特征在于，所述信息提取模型的训练步骤，包括：

8.一种医疗文档图像的分析装置，其特征在于，包括：

信息获取模块，用于获取医疗文档图像以及与所述医疗文档图像对应的需求信息；

信息处理模块，用于若所述需求信息中包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像和所述图像分割需求信息进行处理，得到与所述图像分割需求信息对应的候选文档图像；

医疗文档图像分割模块，用于若所述需求信息中不包括图像分割需求信息，则通过预训练的图像分割模型，对所述医疗文档图像进行文档图像的分割，获得从所述医疗文档图像中剔除了背景的候选文档图像；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。