CN114694780A

CN114694780A - 用于数据处理的方法、设备和介质

Info

Publication number: CN114694780A
Application number: CN202011614761.8A
Authority: CN
Inventors: 李作峰; 倪伟; 宗辉; 张泽宇
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-01

Abstract

本公开的实施例涉及用于数据处理的方法、设备和介质。根据各种实施例，获取患者的医学文件的数字化图像。基于对数字化图像的图像分析来将数字化图像分类到多个类别中的目标类别。如果确定目标类别包括多个子类，从数字化图像提取文本信息；以及基于对所提取的文本信息的文本分析来确定数字化图像属于目标类别的多个子类中的目标子类。通过这个方案，可以自动将数字化图像进行准确分类，使患者的医学文件的数字化图像的存储和访问更方便。

Description

用于数据处理的方法、设备和介质

技术领域

本公开的实施例总体上涉及医学数据处理，并且更具体地，涉及用于数据处理的方法、设备和介质。

背景技术

在患者的诊断、治疗、手术和其他医疗过程中，会产生各种不同的医学文件，例如医学胶片和医学报告等。虽然已经存在一些医学信息的电子系统能够提供和存储各类医学文件，但在很多医院，特别是欠发达地区的医院或者较低级别的医院可能仍然没有硬件和软件基础架构能够支持这样的电子系统。此外，跨医院，特别是跨地区的医院之间的患者医学文件信息共享也存在局限性。因此，当前很多患者仅会获得打印出来的硬拷贝形式的医学文件，诸如各种胶片以及相关联的检查报告。

在后续医学诊断和治疗过程中，患者需要随身携带各类硬拷贝形式的医学文件，以供临床医生对患者的疾病状态和诊断历史进行追踪，从而正确评估后续的诊断和治疗。此外，同一个患者跨医院、跨地区转诊的情况经常发生，在患者转诊的时候，通常会携带大量的各种类别的医学文件，这种情况下，医生想要查看该患者的某一类别的医学文件会更加困难。

目前，某些医院在接收患者时，会首先对患者的医学文件进行收集，将患者的各类的医学文件转换成数字化图像并保存到医院的电子系统中，以供医生查阅。然而，一方面，当前的电子系统仅对各类医学文件的数字化图像进行存储，而没有将各类医学文件的数字化图像进行分类，因此不利于医生方便地查看。另一方面，由于医学文件种类繁多，如何将各类医学文件的数字化图像进行分类以及基于分类结果将数字化图像转换成对应格式的影像或文本数据存储在医院现有的不同信息化系统(如PACS，RIS，HIS，EMR)中，以便医生后续从相应的信息化系统中调阅/查找患者的相关检查或诊断信息亟需得到改进。特别是对于诸如癌症之类的复杂且治疗周期长的疾病，患者的相关医学文件非常多，医生想要查找某一类别的医学文件的数字化图像或相应的影像或文本数据时，经常会由于相关文件太多而难以快速的找到。因此，期望能够有更智能的系统来更好地管理和存储患者的医学信息。

发明内容

根据本公开的实施例，提供一种用于数据处理的方案。

在本公开的第一方面，提供了一种数据处理的方法。该方法包括：获取患者的医学文件的数字化图像。该方法还包括基于对数字化图像的图像分析来将数字化图像分类到多个类别中的目标类别。该方法进一步包括如果确定目标类别包括多个子类，从数字化图像提取文本信息；以及基于对所提取的文本信息的文本分析来确定数字化图像属于目标类别的多个子类中的目标子类。

根据一些可选实施例，将数字化图像分类到目标类别包括：提取数字化图像的视觉特征信息；以及基于所提取的视觉特征信息来将数字化图像分类到目标类别。

根据一些可选实施例，确定数字化图像属于目标子类包括：从文本信息提取语义特征信息；以及基于语义特征信息来确定数字化图像属于目标类别中的目标子类。根据一些可选实施例，确定数字化图像属于目标子类包括：从文本信息提取语义特征信息；以及基于语义特征信息来确定数字化图像属于目标类别中的目标子类。根据一些可选实施例，提取语义特征信息包括：确定文本信息中的多个文本单元各自在文本信息中的重要度；基于所确定的重要度，从文本信息中选择关键文本信息；以及提取关键文本信息的语义特征信息。

根据一些可选实施例，其中语义特征信息的提取和基于语义特征信息的确定通过文本分类模型来执行，其中文本分类模型至少基于反馈信息而被训练，反馈信息包括：指示将训练数字化图像被分类到目标类别是否正确的信息，以及指示将训练数字化图像被分类到目标类别中的目标子类是否正确的信息。

根据一些可选实施例，多个类别包括以下中的一项：医学胶片、纯文本医学报告和文本图像医学报告。根据一些可选实施例，如果目标类别是医学胶片，多个子类包括CT胶片和MR胶片；如果目标类别是纯文本医学报告，多个子类包括CT报告和MR报告；以及如果目标类别是文本图像医学报告，多个子类包括超声检查报告和内窥镜检查报告。

根据一些可选实施例，该方法还包括：基于目标类别或目标子类将数字化图像转换成对应格式的影像或文本数据。

根据一些可选实施例，该方法还包括：如果目标类别不具有子类的划分，确定数字化图像属于目标类别。根据一些可选实施例，不具有子类的划分的目标类别包括实验室检查报告。

在本公开的第二方面，提供了一种电子设备。该设备包括：处理单元；以及存储器，耦合至处理单元并且包含存储于其上的指令。指令在由处理单元执行时使设备执行以下动作：获取患者的医学文件的数字化图像；基于对数字化图像的图像分析来将数字化图像分类到多个类别中的目标类别；如果确定目标类别包括多个子类，从数字化图像提取文本信息；以及基于对所提取的文本信息的文本分析来确定数字化图像属于目标类别的多个子类中的目标子类。

根据一些可选实施例，指令在由处理单元执行时还使设备执行根据第一方面的方法的各种可选实施例。

在本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据第一方面的方法的各种实施例。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过参考附图阅读下文的详细描述，本公开的上述以及其他目的、结构和特征将更加清楚。在附图中，以示例性而非限制性的方式示出了本公开的若干实施例，其中：

图1示出了根据本公开的一些实施例的用于实现医学数据处理的环境的示意图；

图2示出了根据本公开的一些实施例的数据处理方法的流程图；

图3示出了根据本公开的一些实施例的纯文本医学报告类别中的多个子类的示例的示意图；

图4示出了根据本公开的一些实施例的医学胶片类别中的多个子类的示例的示意图；

图5示出了根据本公开的一些实施例的文本图像医学报告类别中的多个子类的示例的示意图；

图6示出了根据本公开的一些实施例的实验室检查报告类别的示例的示意图；

图7示出了根据本公开的一些实施例的数据处理方法的流程图；以及

图8示出了适于实现本公开的实施例的设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上文简述，患者携带大量的各类的硬拷贝的医学文件会给医生带来不便。在一些现实场景中，可能需要收集患者的各类医学文件，并且将各类医学文件进行数字化，得到数字化图像。例如，通过扫描仪来将医学文件扫描成JPG、TIFF或PNG等格式的数字化图像。

一方面，这些数字化图像可以被链接到患者的电子病历(EMR)作为该患者的历史医学记录以供医生查看。

然而，仅仅将各类医学文件的数字化图像直接链接到患者的EMR，而没有对各类医学文件的数字化图像进行分类，这会对医生查看患者的医学文件造成不便，特别是当医生想要查看某一类别的医学文件时，很难快速准确的找到他想要查看的那一类别的医学文件。目前，某些医院在收集了患者的各种医学文件的数字化图像之后，会由医生对这些数字化图像进行手动分类，这种手动分类方式非常费时，加重了医生的工作量。而且，在手动分类的过程中，医生容易由于疲劳而将数字化图像分类到错误的类别中。这种数字化图像的错误的分类，会对医生将来查看患者的医学信息带来不便。

另一方面，这些数字化图像还可以基于分类结果被转换成对应格式的影像或文本数据存储在医院现有的不同信息化系统(如PACS，RIS，HIS，EMR)中。以便医生后续从相应的信息化系统中调阅/查找患者的相关检查或诊断信息。若数字化图像的错误的分类或相应的医学文件没有根据分类结果被存储在对应的信息化系统中，会对医生将来查看患者的医学信息带来不便。

根据本公开的实施例，提出了一种改进的用于医学数据处理的方案。根据该方案，通过包括图像分析和文本分析的两阶段分析，来对患者的医学文件的数字化图像进行精确分类。对数字化图像的图像分析用于将数字化图像分类到某个大类别。如果该类别包括多个子类，通过数字化图像呈现的文本信息进行文本分析，进一步将该数字化图像分类到多个子类中的某个子类。通过这个方案，可以自动将数字化图像进行准确分类，使患者的医学文件的数字化图像或相应格式的影像或文本数据的存储和访问更方便。

图1示出了根据本公开的一些实施例的用于实现医学数据处理的环境100的示意图。应当理解，图1示出的实体、元素和模块的数目和布置仅是示例，环境100中可以包括不同数目和不同布置方式的实体、元素和模块。

在图1的环境100中，数据处理系统110被配置为对医学文件的数字化图像105进行处理，以将其分类到目标类别115中的目标子类125。在本文中，医学文件可以是患者的医学胶片、纯文本医学报告、文本图像医学报告或实验室检查报告等等。

为了执行后续处理，医学文件经由数字化设备转换成数字化图像105。在一些实施例中，数字化设备可以集成在数据处理系统100中。在其他的实施例中，数字化设备可以是独立于数据处理系统100的单独的设备。在一些实施例中，数字化设备例如可以是任何适当的扫描仪或摄像设备，特别是高清胶片扫描仪，例如支持200dpi(每英寸点数)、2000dpi、3000dpi等分辨率的扫描仪。数字化设备也可以是其他能够将硬拷贝转换成数字化图像的图像数字化仪，例如是高速摄像设备。数字化设备也可以是支持将电子医学报告转换为数字图像格式的设备。在本文中，文件的“格式”或“电子格式”指的是按预定的标准化方式来将信息组织或编码到计算机文件中，使文件中的信息能够被存储、通信和按预定方式被显示。数字化图像105可以是任何格式的图像，例如JPG、TIFF、PNG格式等。数字化图像105是计算机可读、可传输和可显示的。

经数字化后得到的数字化图像105被提供给数据处理系统110。如图1所示，数据处理系统110包括图像分析模块120和文本分析模块130。图像分析模块120被配置为对数字化图像105进行图像分析，以将数字化图像105分类到目标类别115。文本分析模块130对已分类到目标类别115的数字化图像105进行文本分析，以将该数字化图像105进一步分类到目标类别115中的目标子类125。

根据本公开的实施例，数据处理系统110能够分析医学文件的数字化图像105的图像信息和文本信息，并自动将数字化图像105进行分类，便于医学信息存储以及后续的查看。下文将结合后续附图更详细描述数据处理系统110中对数字化图像的两阶段分析的示例实施例。

此外，图1的环境100中，还包括数据存储系统140，数据存储系统140被配置为存储数字化图像105以及由数据处理系统110分析得到的该数字化图像105的目标类别115及目标子类125。目标类别115及目标子类125可以被用于标记数字化图像105的类别信息。数据存储系统140是适合于存储数字化图像105的对应格式数据的任何数据存储系统，例如服务器、数据管理中心、文件系统等。数字化图像105作为患者的医学数据，与其所对应的目标类别115及目标子类125一起被归档到数据存储系统140后可以作为后续诊断和治疗的参考。

在一些应用中，可以使用终端设备通过发起文件获取请求来查看数据存储系统140中的数字化图像105。终端设备例如可以是医学观察站的设备，医院或医生的终端设备等。在一些实施例中，医生可以通过查询患者的多个数字化图像105的类别信息，例如目标类别115及目标子类125，来查找到他想要查看的数字化图像105。

下文将结合图2对数据处理系统110的具体实施例的数据处理过程进行详细描述。图2示出了根据本公开的一些实施例的数据处理方法200的流程图。方法200可以由图1的数据处理系统110实现。应当理解，方法200还可以被其他适当的设备或装置执行。方法200可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框210处，数据处理系统110获取患者的医学文件的数字化图像105。在框220处，数据处理系统110对数字化图像105进行图像分析，以将其分类到多个类别中的目标类别115。

在一些实施例中，多个类别可以包括预期要对各种医学文件分类的多个类别。在一些实施例中，多个类别可以根据预期要分类的医学文件的视觉特性来划分，使得每个类别的对应图像至少在视觉上与其他类别的图像能够相互区别。在一些示例，多个类别可以包括纯文本医学报告、医学胶片、文本图像医学报告和实验室检查报告。下文中将会对这些示例类别详细描述。应当理解，数字化图像105的多个类别也可以包括任何其他的适当的医学文件类别。

可选地，在一些实施例中，可以使用数据处理系统110的图像分析模块120提取数字化图像105的视觉特征信息，并基于所提取的视觉特征信息来将数字化图像105分类到多个类别中的目标类别115，例如分类到纯本文医学报告类别。在一些实施例中，图像分析模块120可以使用训练的基于机器学习的模型，例如训练的神经网络模型来对数字化图像105进行分类。应当理解，图像分析模块120可以使用其他的机器学习模型。

在一些实施例中，图像分析模块120可以包括特征提取器和分类器两个部分。特征提取器可以基于适合用于图像处理的任何机器学习模型或神经网络模型来构造。在一些示例中，特征提取器例如可以使用基于Inception-v3架构的卷积神经网络(CNN)。在一些实施例中，特征提取器可以通过训练数据集来被训练为能够提取图像的视觉特征信息。用于训练特征提取器的训练数据集例如可以包括ImageNet数据集。特征提取器可以接收数字化图像105作为输入，并从中提取出视觉特征信息。

分类器可以基于适合用于图像处理的任何机器学习模型或神经网络模型来构造。在一些示例中，分类器可以由一个或多个全连接层和softmax层组成。分类器可以通过训练数据集(例如可以包括ImageNet数据集)被训练为能够对图像进行分类。分类器的输入是由特征特征提取器从图像提取的视觉特征信息，并且其输出是输入图像的分类结果，其指示该图像属于多个类别中的哪一个类别。

在一些可选的实施例中，训练的分类器还可以使用医学图像数据集(例如，已被存储在数据存储系统140中的历史医学数字化图像)来进行微调。在一些实施例中，还可以对医学图像数据集中的医学图像进行旋转、平移、翻转或任意的变形，并使用这些经旋转、平移、翻转或任意的变形的医学图像对分类器进行进一步地微调。以这种方式，可以确保使用足够多的医学图像样本对分类器进行微调，从而使分类器得到更准确的分类结果。

在一些实施例中，特征提取器和分类器还可以执行端到端的训练，从而使得整个模型能够更好地对输入的数字化图像来执行视觉特征提取和分类。

在框230处，数据处理系统110确定目标类别115是否包括多个子类。

如以上提及的，在图像分析阶段，多个类别主要是基于医学文件的区别性视觉特征来划分的，以便能够通过图像分析手段来实现分类。然而，有些医学文件可能视觉上特征差异较小，如果通过图像分析的手段可能难以实现精确分类，导致分类结果错误率高。在本公开的实施例中，通过图像分析的手段来实现粗略划分，将视觉特征差异较小的医学文件划分到同一个大类别中。然后，再通过文本分析的手段来执行精细划分，进一步将医学文件划分到大类别中的更小子类中。

因此，在一些实施例中，多个类别中的一个或一些类别可以进一步地被划分为多个子类，每个子类可以对应于医学文件的数字化图像的使用中期望被划分到的准确类别信息。在一些实施例中，取决于可能要处理的医学文件的特点，多个类别中的一个或多个可能不具有子类的划分。

在一些实施例中，多个类别包括纯文本医学报告类别，其还可以被分为多个子类。纯文本医学报告是基于文本的报告，其中不包括任何图像。通常，纯文本医学报告是由医生根据患者所做的医学检查(例如，CT、MR等放射学检查或者其他检查)所准备的报告，其主要作用是将对医学检查中的医学发现传达给其他医学专家，诸如患者的临床医师、肿瘤学家等。因此，纯文本医学报告是基于文本的报告，主要或完全包括与医学检查相关联的文本，但其中不包括其他类型的内容，例如图像。由于纯文本医学报告类别的多个子类都是基于文本的报告，因此不同类型的(例如，不同检查项目所给出的)纯文本医学报告通常具有类似的视觉特征信息，难以使用图像分析来对其进行进一步划分。

在一些示例中，纯文本医学报告类别的可能的子类可以包括如图3所示的CT报告310、MR报告320等子类。应当理解，图3所示出的纯文本医学报告类别的子类仅仅是示意性的，纯文本医学报告类别也可以包括其他适当的子类，例如病理检查报告。

在一些实施例中，多个类别包括医学胶片类别，其还可以被为多个子类。医学胶片是基于胶片形式的医学文件。医学胶片通常是对患者的一个或多个部位进行适当的放射学检查而得到。医学胶片捕获到患者的一个或多个部位，例如腹部、脑部、胸部、颈部、以及任何其他器官/组织。医学胶片类别的数字化图像105是将胶片形式的医学图像进行数字化后得到的，该类别的数字化图像105中主要包括了胶片的图像信息，并且还可以包括少量的与胶片相关的文本信息。医学胶片类别的多个子类都是基于胶片的形式，因而通常具有类似的视觉特征信息，通过图像分析来对其进行细分将对图像分析技术的精确性要求非常高。

图4示出了根据本公开的实施例的医学胶片类别的示例，其中包括了CT胶片410、MR胶片420等子类。应当理解，图4所示出的医学胶片类别的子类仅仅是示意性的，医学胶片类别也可以包括其他可能的子类，例如正电子发射断层摄影(PET)胶片、PET-CT胶片、单光子发射计算机断层摄影(SPECT)胶片等等。

在一些实施例中，多个类别包括文本图像医学报告，其还可以被为多个子类。在文本图像医学报告中，可以包括患者的图像信息和与图像信息相关联的文本信息两者。通常，文本图像医学报告是由医生根据患者所做的医学检查(例如，内窥镜检查、超声检查、X射线检查或者其他检查)所准备的既包括图像信息又包括文本信息的报告，其主要作用是将对医学检查中的医学发现结合图像更直观地传达给其他医学专家。文本图像医学报告类别的多个子类都包括图像和文本两信息者，因而通常具有类似的视觉特征信息，因此通过图像分析来对其进行进一步细分也对图像分析技术的精确性要求非常高。

图5示出了根据本公开的实施例的文本图像医学报告类别的示例。如图5所示，文本图像医学报告类别可以包括内窥镜检查报告510、超声检查报告520等子类。应当理解，图5所示出的文本图像医学报告类别的子类仅仅是示意性的，文本图像医学报告类别也可以包括其他适当的子类，例如X射线检查报告。

在一些实施例中，某些类别的医学文件可以不具有子类划分。例如，实验室检查报告类别可能不具有子类的划分。实验室检查报告通常以表格或类似表格的模式来组织实验室检查(例如，血液检查、基因检查等)的结果。这类医学文件从视觉特征上通常与图3至图5示出的其他类别的医学文件具有显著差异，因此通常可以在图像分析阶段被准确地识别出来。图6示出了实验室检查报告类别下的示例实验室检查报告610，其中包括患者所做的实验室检查的结果的类似表格模式的文本信息。应当理解，在一些实施例中，除实验室检查报告610类别外，还可以包括其他不具有子类划分的类别。

应当理解，图3-图6所示的对数字化图像105的划分方式仅仅是示意性的，还可以使用其他划分方式将数字化图像105划分到其他的类别和其他的子类。

返回到图2，如果在框230处数据处理系统110确定目标类别115包括多个子类，在框240处，数据处理系统110从数字化图像105提取文本信息。

例如，如果数字化图像105被分类到纯文本医学报告类别，数据处理系统110可以确定该目标类别115包括多个子类(如图3所示的示例)。在一些实施例中，数据处理系统110的文本分析模块130可以使用光学字符识别(OCR)技术从数字化图像105中提取文本信息。

在框250处，数据处理系统110基于对所提取的文本信息的文本分析，确定数字化图像105属于目标类别115中的目标子类125。数字化图像105的文本信息可以提供关于该数字化图像(也对应的医学文件)的语义信息。借助文本分析，可以提取数字化图像105的语义信息来进一步确定数字化图像105与目标类别的多个子类中的哪一个子类更相关。数字化图像105的文本信息可以包括医学文件正文内容、标题名称、患者的个人信息、患者所做的检查信息等等。借助文本分析，可以提取数字化图像105的文本信息中的关键文本用于进一步确定数字化图像105属于目标类别的具体哪个子类。下文将结合图7更详细地描述文本分析的一些示例实施例。

备选地或附加地，在一些实施例中，如果在框230处数据处理系统110确定目标类别115不具有子类的划分，在框260处，数据处理系统110确定数字化图像属于该目标类别115。例如，如果在框220处将数字化图像105分类到实验室检查报告类别(如图6所示的示例)，数据处理系统110确定该目标类别115不具有子类的划分，则方法200进行到框260，在框260处，数据处理系统110确定数字化图像105属于实验室检查报告610。以这种方式，对于不具有子类的划分的类别，不需要执行文本分析过程，这样减少了数据处理系统110的处理工作量，简化了处理过程。

应理解，虽然在图中以特定顺序示出各个步骤，但这些步骤中的一些或全部可以以其他顺序或者并行执行。例如，在图2中，框220和框250可以由多个步骤执行，框210和220的操作可以并行执行。

以此方式，使用方法200可以对医学文件的数字化图像105进行分类。特别地，对于使用图像分析方法难以进一步区分的数字化图像105的类别，可以使用文本分析方法将其进一步划分到具体的子类。

进一步地，在图示方法200的基础上，基于目标类别或目标子类将数字化图像105转换成对应格式的影像或文本数据并存储在医院现有的不同信息化系统(如PACS，RIS，HIS，EMR)中。例如，如果数字化图像105被分类为CT影像，则可通过影像分析提取技术将数字化图像105转换为DICOM格式的CT影像数据并存储在PACS系统中。再如，如果数字化图像105被分类为CT报告，则可通过影像分析提取技术或OCR技术将数字化图像105转换为CT文本报告存储在RIS系统中。

由此，可以便于将数字化图像105或基于分类结果将数字化图像105转换成的对应格式的影像或文本数据进行分类存储，并且方便医生查看想要查看的某一子类的数字化图像105或对应格式的影像或文本数据，节省了医生诊断、治疗患者的时间，减轻了医生的工作负担。此外，这种分类方式的准确度很高，能够避免由于医生手动分类造成的分类错误。

在一些可选的实施例中，在使用数据处理系统110对数字化图像105进行分类之后，可以由医生对数字化图像105的分类结果的目标类别115和目标子类125进行确认。如果目标类别115和目标子类125全部正确，则医生可以确认分类结果正确，并且该目标类别115和目标子类125的结果可以与数字化图像105相关联的存储在数据存储系统140中。如果目标类别115正确而目标子类125不正确，则医生可以选择正确的目标子类125对其进行纠正，将目标类别115和经纠正的正确的目标子类125结果与数字化图像105相关联的存储在数据存储系统140中。类似地，如果目标类别115和目标子类125均不正确，则医生可以对两者进行纠正，将正确的目标类别115和目标子类125结果与数字化图像105相关联的存储在数据存储系统140中。通过提供自动分类的结果供医生确认和纠正，与要求医生手动分类的方案相比，节省了医生的脑力和时间。此外这些经过医生确认的数字化图像105的分类信息可以被存储并且可以用于对数据处理系统110进行训练，从而能够进一步提高数据处理系统110分类的准确度。

在一些实施例中，可以使用如图7所示的方法700来基于对所提取的文本信息的文本分析来确定数字化图像105的目标子类。下文将结合图7更加详细地描述基于文本分析来确定数字化图像105的目标子类的若干实施例。

图7示出了根据本公开的一些实施例的基于对所提取的文本信息的文本分析来确定数字化图像105的目标子类的示例方法700的示意图。方法700可以视为方法200中的框250的一个示例实现。

如图7所示，在框710处，数据处理系统110从所提取的数字化图像105的文本信息中提取语义特征信息。例如，数据处理系统110的文本分析模块130可以统计从数字化图像105中所提取的文本信息中各个词或短语出现的频率，对各个词或短语按照频率进行排序，从中选取频率最高的预定个数的词或短语作为语义特征信息，或者从中选取频率高于预定的频率阈值的词或短语作为语义特征信息。

在一些可选的实施例中，数据处理系统110的文本分析模块130还可以使用词频-逆文本频率(TF-IDF)来从数字化图像105的文本信息中提取语义特征信息。TF-IDF值高的词或短语表示该词或短语在该数字化图像105的文本信息中出现的频率高，而在整个数据存储系统140中该患者的其他数字化图像的文本信息中出现的频率不高，因此能够代表该数字化图像105中重要度高的词或短语。这样的TF-IDF值高的词或短语具有很好的类别区分能力，能够表示各个词或短语在文本信息中的重要度，能够用来对数字化图像105进行分类。

在一些实施例中，数据处理系统110的文本分析模块130可以计算文本信息中各个词或短语的TF-IDF指数，对各个词或短语按照TF-IDF指数值由高到低进行排序，选择TF-IDF指数最高的预定数目的词或短语作为关键文本信息，并从关键文本信息中提取出语义特征信息。以此方式，所提取的语义特征信息能够更好的代表数字化图像105中的重要性高的文本信息。

在框720处，数据处理系统110基于所提取的语义特征信息来确定数字化图像105属于目标类别115中的目标子类125。在一些实施例中，数据处理系统110的文本分析模块130可以使用基于机器学习的分类算法，基于所提取的语义特征信息，来确定数字化图像105属于目标类别115中的目标子类125。可应用的分类算法例如可以包括K最近邻(KNN)、支持向量机(SVM)和逻辑回归(LR)等。

作为一个示例，通过图像分析确定数字化图像105属于目标类别“纯文本报告类别”。在一些实施例中，数据处理系统110可以仅从数字化图像105中提取部分的文本信息，例如，使用OCR技术提取数字化图像105的标题名称信息(例如，“CT检查报告”)。数据处理系统110可以提取文本信息对应的语义特征信息，进而可以确定该数字化图像105属于纯文本报告类别中的CT报告310。

在其他的实施例中，数据处理系统110可以使用OCR技术提取数字化图像105的全部的文本信息，包括数字化图像105的标题名称信息(也是对应的医学文件的标题名称)、患者的身份信息、检查项目类别信息、具体的报告内容(诸如，患者患病的部位、症状的表现)等。基于所提取的文本信息，进一步可以提取出语义特征信息，例如，标题名称信息“CT报告”、检查项目类别信息“CT”、扫描方式“CT平扫”、症状信息“异常密度影”等信息。数据处理系统110进而可以通过这些所提取的文本信息确定该数字化图像105属于纯文本报告类别中的CT报告310。通过这种方式，由于提取了数字化图像105中的所有文本信息，避免了由于OCR文本提取错误而造成的分类错误，提高了分类的准确度。

在一些可选的实施例中，数据处理系统110可以输出分类结果，该分类结果指示数字化图像105被分类到目标类别115中的目标子类125。可选地，可以将数字化图像105的分类结果与数字化图像105相关联地被存储在数据存储系统140中，以供用于对文本分析模块130进行训练。

在一些可选实施例中，数据处理系统110的文本分析模块130可以使用基于机器学习的文本分类模型来进行语义特征信息提取和数字化图像105分类。该文本分类模型可以基于反馈信息而被训练。可选地，在将数字化图像105和由数据处理系统110得到的该数字化图像105的目标类别115信息和目标子类125信息存储到数据存储系统140中之后，用户(例如，医生)可以对该数字化图像105的分类是否正确进行确认，并将指示数字化图像105被分类到目标类别115是否正确的信息以及指示数字化图像105被分类到目标类别115中的目标子类125是否正确的信息反馈到文本分析模块130。文本分析模块130可以基于这些反馈信息来对文本分类模型进行进一步地训练。

以这种方式，能够使用经确认的正确的数字化图像105的分类结果来对文本分析模块130中的文本分类模型进行训练，从而提高文本分类的准确度，得到更准确的数字化图像的分类结果。

上文中描述的各个模块可以用硬件、软件、固件或前述的任意组合来实现。在一些实现中，各个模块可以被集中在具有计算能力的单个计算设备中实现。在一些实现中，不同模块还可以被实现在具有计算能力的多个计算设备上。在一些情况下，单个模块的功能也可以被分布到多个设备上来实现。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。图1的数据处理系统110的全部或部分组件可以被实现在设备800。如图所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801可以执行上文所描述的各个方法和处理，例如方法200和方法700。例如，在一些实施例中，方法200和方法700可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法200和方法700的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200和方法700。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种数据处理方法，包括：

获取患者的医学文件的数字化图像；

基于对所述数字化图像的图像分析来将所述数字化图像分类到多个类别中的目标类别；

如果确定所述目标类别包括多个子类，从所述数字化图像提取文本信息；以及

基于对所提取的文本信息的文本分析来确定所述数字化图像属于所述目标类别的所述多个子类中的目标子类。

2.根据权利要求1所述的方法，其中将所述数字化图像分类到所述目标类别包括：

提取所述数字化图像的视觉特征信息；以及

基于所提取的视觉特征信息来将所述数字化图像分类到所述目标类别。

3.根据权利要求1所述的方法，其中确定所述数字化图像属于所述目标子类包括：

从所述文本信息提取语义特征信息；以及

基于所述语义特征信息来确定所述数字化图像属于所述目标类别中的所述目标子类。

4.根据权利要求3所述的方法，其中提取所述语义特征信息包括：

确定所述文本信息中的多个文本单元各自在所述文本信息中的重要度；

基于所确定的重要度，从所述文本信息中选择关键文本信息；以及

提取所述关键文本信息的语义特征信息。

5.根据权利要求3所述的方法，其中所述语义特征信息的所述提取和基于所述语义特征信息的所述确定通过文本分类模型来执行，

其中所述文本分类模型至少基于反馈信息而被训练，所述反馈信息包括：指示将训练数字化图像被分类到所述目标类别是否正确的信息，以及指示将训练数字化图像被分类到所述目标类别中的所述目标子类是否正确的信息。

6.根据权利要求1所述的方法，其中所述多个类别包括以下中的一项：医学胶片、纯文本医学报告和文本图像医学报告。

7.根据权利要求6所述的方法，其中：

如果所述目标类别是所述医学胶片，所述多个子类包括计算机断层摄影CT胶片和磁共振MR胶片；

如果所述目标类别是所述纯文本医学报告，所述多个子类包括CT报告和MR报告；以及

如果所述目标类别是所述文本图像医学报告，所述多个子类包括超声检查报告和内窥镜检查报告。

8.根据权利要求1所述的方法，还包括

基于目标类别或目标子类将数字化图像转换成对应格式的影像或文本数据。

9.根据权利要求1所述的方法，如果所述目标类别不具有子类的划分，确定所述数字化图像属于所述目标类别。

10.一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

获取患者的医学文件的数字化图像；

11.根据权利要求10所述的设备，其中将所述数字化图像分类到所述目标类别包括：

提取所述数字化图像的视觉特征信息；以及

12.根据权利要求10所述的设备，其中确定所述数字化图像属于所述目标子类包括：

从所述文本信息提取语义特征信息；以及

13.根据权利要求12所述的设备，其中提取所述语义特征信息包括：

提取所述关键文本信息的语义特征信息。

14.根据权利要求12所述的设备，其中所述语义特征信息的所述提取和基于所述语义特征信息的所述确定通过文本分类模型来执行，

15.根据权利要求10所述的设备，其中所述多个类别包括以下中的一项：医学胶片、纯文本医学报告和文本图像医学报告。

16.根据权利要求10所述的设备，其中：

17.根据权利要求10所述的设备，其中所述动作还包括：

18.根据权利要求10所述的设备，如果所述目标类别不具有子类的划分，确定所述数字化图像属于所述目标类别。

19.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至9中任一项所述的方法。