CN114365181B

CN114365181B - 使用机器学习自动检测和替换图像中的识别信息

Info

Publication number: CN114365181B
Application number: CN202080059262.9A
Authority: CN
Inventors: D·M·萨根特; 朴仙瑛; D·S·茂德林
Original assignee: Maredif Usa
Current assignee: Maredif Usa
Priority date: 2019-08-30
Filing date: 2020-08-20
Publication date: 2023-06-23
Anticipated expiration: 2040-08-20
Also published as: CN114365181A; WO2021038399A1; US11183294B2; GB2602581B; GB202203689D0; GB2602581A; US20210065881A1; DE112020004092T5; JP2022546666A

Abstract

提供了用于管理实体的识别信息的方法和系统。检测被嵌入在数字图像中或与数字图像相关联的实体的识别信息，其中，其中所述识别信息是从由以下组成的组中选择的：与所述实体的一个或多个特征相对应的文本信息和图像信息。可以从数字图像中移除文本信息。所述图像信息可用一个或多个计算机生成的合成图像来替换，其中所述计算机生成的合成图像基于所述数字图像的自然外观。可由GAN生成的合成内容是基于图像的自然外观。医学图像还可在与私有标签/字段相关联的基于文本的字段中包含PHI，所述私有标签/字段使用本文所提供的系统和方法被自动识别和移除。

Description

使用机器学习自动检测和替换图像中的识别信息

技术领域

本发明实施例涉及用于识别和替换图像中的识别信息的机器学习系统，并且具体地，涉及使用包括受保护健康信息的特征的合成和/或通用数据自动识别和替换医疗图像中的受保护健康信息。

背景技术

医学成像研究可以包含若干形式的受保护的健康信息(PHI)，这些健康信息可以用于识别特定的人。这些信息包括包含在医学图像文件的标头中的患者特定信息，例如患者姓名和生日，或包含在医学报告中的信息，例如患者地址。另外，PHI可在装置或软件特定的私有标签中找到。

PHI还可以在医学图像本身中找到。例如，图像中的内置批注可识别患者。在一些情况下，可以通过医学成像扫描中存在的解剖特征来识别患者。例如，可以从头部CT扫描的3D渲染或通过可视化某些植入物(例如，牙齿、医疗植入物等)或在图像中可见的其他独特特征来识别人的面部。

用于减轻此信息的公开的当前技术依赖于人为干预。通常，人类审阅者手动地审阅文件以识别和替换基于文本的PHI。然而，这种方法是耗时且容易出错的过程。例如，人类审阅者可能错过私人标签或图像本身中的信息。另外，所识别的数据通常被编辑或删除，从而导致数据丢失。因此，当前的方法受到受保护信息的意外公开，这可能由于不知不觉或意外暴露个人健康信息而违反隐私法律和法规。

发明内容

根据本发明的实施例，提供了用于自动移除嵌入在数字图像中和/或与数字图像相关联的识别信息的方法、系统和计算机可读介质。移除PHI可包括用不包含PHI的内容(例如，通用和/或合成内容)替换PHI，以防止与数字图像相关联的实体的识别。

在一些方面，检测嵌入在数字图像中或与其相关联的识别信息，其中，该识别信息是从由以下组成的组中选择的：与实体相关联的一个或多个特征(包括解剖特征)相对应的文本信息和图像信息。可以从数字图像中移除文本信息。所述图像信息可用一个或多个计算机生成的合成图像来替换，其中所述计算机生成的合成图像是基于所述数字图像的自然外观。计算机生成的合成图像可由机器学习系统生成。

可以用一个或多个计算机生成的合成图像来替换图像信息，其中，计算机生成的合成图像是基于数字图像的自然外观的(例如，合成图像模拟数字图像内的真实对象(例如，解剖特征或其他特征)以使得数字图像能够看起来提供真实对象)。例如，具有自然外观的合成图像可以是实体(例如，用户、机器学习系统等)不能区分该合成图像是来自患者的医学成像研究还是计算机生成的图像(例如，通过机器学习系统等生成的)的图像。

在实施例中，可以在头文件中、在元数据中或在与数字图像相关联的其他基于文本的表示中检测识别信息。该信息可以被检测和移除。在一些方面，移除可包括使用包括识别信息的各方面的通用信息来替换一个或多个类型的识别信息，同时阻止实体的识别。PHI可在头文件的私有标签中检测到。在其他实施例中，本文提供的方法、系统和计算机可读介质可被配置为使包含医学相关PHI的数字图像变形以掩饰患者身份。

应当理解的是，本发明内容并不旨在识别本公开的实施例的关键特征或必要特征，也不旨在用于限制本公开的范围。通过以下描述，本公开的其他特征将变得易于理解。

附图说明

通常，不同附图中的相同参考标号用于指定相同部件。

图1是根据本发明的实施例的用于自动识别和缓解PHI的示例计算环境的示意图。

图2是根据本发明的实施例的用于图1的计算环境的示例计算设备。

图3是示出了根据本发明的实施例的机器学习和合成数据生成系统的组件之间的示例数据流的流程图。

图4是根据本发明的实施例的通过机器学习和合成数据生成系统生成有界区域的示例。

图5是根据本发明实施例的用于训练深度学习分类器和生成对手网络以生成合成数据的示例操作的流程图。

图6是示出了根据本发明的实施例的用于自动移除PHI的示例操作的详细流程图。

图7是根据本发明实施例的用于自动移除PHI的示例操作的高级流程图。

具体实施方式

提供了用于自动移除医疗成像或其他研究中的实体的识别信息或其他信息(例如，受保护的健康信息(例如，PHI等))的方法、系统和计算机可读介质。这些技术可通过用包含患者特定数据的方面的通用和/或合成数据替换患者特定数据或识别数据来最小化数据丢失。这些方法用保留由计算机以自然外观生成的PHI和/或合成图像的特性同时移除敏感PHI数据的通用内容来替换可识别患者的图像内容和相关联的文本。

图1中示出了与本发明实施例一起使用的示例环境。具体地，环境包括一个或多个服务器系统10、一个或多个客户端或终端用户系统20、数据库30和网络45。服务器系统10和客户端系统20可以彼此远离并且可以通过网络45进行通信。网络可通过任何数量的任何合适的通信介质来实现，诸如广域网(WAN)、局域网(LAN)、互联网、内联网等。可替代地，服务器系统10和客户端系统20可以是彼此本地的，并且可以通过任何合适的本地通信介质(诸如局域网(LAN)、硬线、无线链路、内联网等)进行通信。

客户端系统20使得用户能够向服务器系统10提交数据集以用于训练机器学习和合成数据生成系统并且用于使用此系统来从医学图像中识别和缓解PHI。服务器系统10包括机器学习和合成数据生成系统15，如本文所描述的，其包括文本分类器105、OCR和基于图像的分类器110、深度学习分类器115、生成对手网络120、形态网络122以及图像合成器130。数据库30可存储用于分析的不同信息，诸如PHI数据集32、合成数据集36和无PHI数据集38等。PHI数据集32包含具有患者特定信息的医疗成像文件。合成数据集36包含由生成的对手网络120或形态网络122生成的图像。无PHI数据集38包含其中患者识别信息已被移除或修改的图像。

数据库系统30可以由任何常规或其他数据库或存储单元来实现，可以位于服务器系统10和客户端系统20的本地或远离服务器系统10和客户端系统20，并且可以通过任何合适的通信介质(如局域网(LAN)、广域网(WAN)、互联网、硬线、无线链路、内联网等)进行通信。客户端系统可呈现图形用户界面(诸如GUI等)或其他界面(诸如命令行提示、菜单屏幕等)以从用户请求关于所需数据集、识别和数据缓解的信息，并且可提供包括数据集的分析结果的报告，所述分析结果包括PHI的类型、位置和来源。在一些方面，无PHI数据集可例如由第三方分析以将医疗诊断信息与无PHI数据集的特性相关。例如，无PHI的血管造影图像可保留通用文本(例如，诸如患者年龄范围、城市等)和合成解剖特征。这些特征可用于将CT图像分组并评估作为年龄和其他相关医学因素的函数的冠状动脉疾病的进展。可使用无PHI数据来执行任何合适的医疗分析。

服务器系统10和客户端系统20可以由优选地配备有显示器或监视器、底座(包括至少一个硬件处理器(例如，微处理器、控制器、中央处理单元(CPU)等)、一个或多个存储器和/或内部或外部网络接口或通信设备(例如，调制解调器、网卡等)、可选输入设备(例如，键盘、鼠标或其他输入设备)、以及任何可商购的和定制的软件(例如，服务器/通信软件、机器学习和合成数据生成系统软件、浏览器/接口软件等)的任何常规或其他计算机系统来实现。举例来讲，服务器/客户端包括至少一个处理器16、22、一个或多个存储器17、24和/或内部或外部网络接口或通信设备18、26(如调制解调器或网络卡)、以及用户接口19、28等。可选的输入设备可以包括键盘、鼠标或其他输入设备。

可替代地，一个或多个客户端系统20可以作为独立设备或单元来执行对医学图像上或与医学图像相关联的PHI的识别和移除/替换。在独立操作模式中，客户端系统存储或具有对数据(诸如PHI数据集32)的访问，并且生成合成数据集36和无PHI数据集38，并且包括机器学习和合成数据生成系统15。图形用户或其他接口19、28(例如GUI、命令行提示、菜单屏幕等)从对应用户请求关于所要的识别和PHI缓解的信息，且可提供包括分析结果的报告。在一些方面，可分析无PHI数据集以使医疗诊断信息与数据集的特性相关。

机器学习和合成数据生成系统15可以包括用于执行本文描述的本发明的实施例的不同功能的一个或多个模块或单元。不同模块(诸如文本分类器105、OCR和基于图像的分类器110、深度学习分类器115、生成对手网络120、形态网络122和图像合成器130等)可以由任何数量的软件和/或硬件模块或单元的任何组合来实现，并且可以驻留在服务器的存储器17内以供处理器16执行。下面更详细地描述这些模块。

客户端系统20和服务器系统10可以由任何合适的计算设备实现，如图2中所示的用于计算环境100的计算设备212。这个实例不旨在暗示对本文描述的本发明的实施例的使用或功能性的范围的任何限制。无论如何，计算设备212能够被实现和/或执行本文所阐述的任何功能。

在该计算装置中，存在计算机系统，该计算机系统与许多其他通用或专用计算系统环境或配置一起运行。适于与计算机系统一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括以上系统或设备中的任一个的分布式云计算环境等。

可以在由计算机系统执行的计算机系统可执行指令(如程序模块(例如，机器学习和合成数据生成系统15及其相应模块))的一般上下文中描述计算机系统212。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。

计算机系统212以通用计算设备的形式示出。计算机系统212的组件可以包括但不限于一个或多个处理器或处理单元155、系统存储器136、以及将包括系统存储器136的不同系统组件耦合至处理器155的总线218。

总线218表示若干类型的总线结构中的任何一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，此类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。

计算机系统212典型地包括多种计算机系统可读介质。这样的介质可以是可由计算机系统212访问的任何可用介质，并且其包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器136可以包括呈易失性存储器形式的计算机系统可读介质，如随机存取存储器(RAM)230和/或高速缓存存储器232。计算机系统212可进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例的方式，存储系统234可以被提供用于从不可移除的非易失性磁性介质(未示出，并且通常被称为“硬盘驱动器”)进行读取和写入。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线218。如以下将进一步描绘和描述的，存储器136可以包括具有被配置成执行本发明的实施例的功能的一组(例如，至少一个)程序模块的至少一个程序产品。

具有一组(至少一个)程序模块242(例如，机器学习和合成数据生成系统15和对应的模块等)的程序/实用程序240以及操作系统、一个或多个应用程序、其他程序模块和程序数据可以通过举例而非限制的方式存储在存储器136中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。程序模块242通常执行如本文所述的本发明的实施例的功能和/或方法。

计算机系统212还可以与一个或多个外部设备214(如键盘、定点设备、显示器224等)通信；和/或使用户能够与计算机系统212交互的一个或多个设备和/或使计算机系统212与一个或者多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口222发生。此外，计算机系统212可经由网络适配器225与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)的一个或多个网络通信。如所描绘的，网络适配器225经由总线218与计算机系统212的其他部件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机系统212结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。

图3是示出了机器学习和合成数据生成系统15的各个模块和输出的流程图。医学图像104被提供给文本分类器105和深度学习分类器115。文本分类器105可以接收医学图像，其可以是时间序列格式。文本分类器105可分析包含PHI的基于文本的信息(例如，文件头中的文本、文件元数据、链接到所述文件的相关联的报告等)的文件。分析可使用递归神经网络(RNN)106来执行以识别用于时间序列医学成像研究的PHI(例如，基于文本的PHI)。

一旦识别了PHI，基于规则的分析器107就可以用于用通用PHI替换所识别的PHI。通用PHI包含特定患者PHI的特性，但维持患者隐私性。因而，基于规则的分析器107旨在以减少数据丢失同时将数据的质量维持到患者隐私不受危害的程度的方式来使PHI通用化。在一些情况下，如果不能生成通用等同物或不保护患者隐私，则可通过基于规则的分析器执行编校。

在一些情况下，医学图像文件的头可以包含含有PHI的私有字段。与私有字段相关联的私有字段名称/标签可以不与私有字段中包含的信息的内容相关。根据当前方法，机器学习和合成数据生成系统15可独立于私有字段名称/标签的名称来分析和分类与私有字段相关联的信息以确定这样的字段是否包含PHI。

在一些情况下，该图像可以具有存在于数字图像的主体中的嵌入式文本，如以图像采集软件生成的文本(例如，年龄、生日、名字等)来烧写。图像可通过光学字符识别和基于图像的分类器110经受光学字符识别(OCR)以识别嵌入式文本以创建嵌入式文本的机器可读版本。所得到的机器可读文本可以被提供给文本分类器105用于进一步分析。在一些情况下，嵌入的或烧录的文本可被编辑，而在其他情况下，嵌入的文本可经历图像恢复或校正过程，其中基于数字图像填充嵌入的文本部分。嵌入的文本(如果不存在于报头文件中)可以以通用化的方式添加到报头文件。通用化的PHI连同包含PHI的图像可被提供给图像合成器130，用于与GAN120的输出集成。

可以将图像提供给深度学习分类器115以识别数字图像的可以包含私人健康识别的特征。深度学习分类器115可以逐像素地分析图像，并且提供与每个像素相关联的关于该像素是否包含PHI的概率。在一些方面，深度学习分类器115可以使用完全卷积网络(FCN)117来执行像素分析。

一旦每个像素具有相关联的概率，深度学习分类器115可以围绕彼此邻近的像素组建立边界310，如图4中所示。阴影区域对应于具有与包含PHI相关联的概率(例如，超过阈值)的像素。如此图中所示，可将这些像素分组在一起以形成由边界310包围的区，其中所述区可出于连续性而包含有限数目个非阴影像素。此信息(例如，包含PHI的有界区域和有界区域相对于数字图像的相应位置)可被提供给GAN 120以用于合成图像生成。

返回参见图3，深度学习分类器115可以与GAN 120进行通信，以指示哪些区域(例如，有界区域)包含PHI。GAN 120可生成不含PHI的一个或多个合成图像以与包含PHI的数字图像组合。

对于包含PHI的感兴趣区域之外的区域，GAN可以生成相对于医学图像104具有逼真或自然外观的合成GAN图像125。这些图像可被提供给图像合成器130，图像合成器130可用通用化文本-PHI将合成GAN图像125覆盖在图像上以产生无PHI的图像140。

GAN典型地包括至少两个神经网络。例如，GAN 120可包括生成图像的生成器127和将图像分类为真实或假图像的鉴别器126。随着相对神经网络的训练进行，生成器基于来自鉴别器的反馈改进计算机生成的图像的质量。在训练开始时，GAN 120可生成不真实的图像(例如，不正确的解剖特征数量、不正确位置的解剖特征、维数损失或平面图像等)。随着训练进展，GAN学习如何生成更逼真和自然的图像(例如，适当位置中的特征、附件的正确数目、3D外观等)。

接收无PHI文本图像107(包括没有基于文本的PHI的图像)的图像合成器130可将无PHI文本图像与GAN生成的无PHI的合成图像125叠加。因此，所得无PHI图像140没有医疗图像中存在的基于文本的PHI(与头部相关联或被烧录至文件中)和图像PHI(例如，识别特征，诸如牙齿植入体、面部特征、身体标记、金属植入体等)两者。

基于图像的分类器115可以识别包含医学相关信息和PHI两者的区域。形态网络122可对数字图像的各方面进行变形以隐藏患者识别，同时保持医学相关信息。例如，系统可以保持医学相关部分，并变形其他识别特征(例如，眼睛、鼻子等)以防止患者识别。

因此，文本分类器105、OCR和基于图像的分类器110、深度学习分类器115、GAN120、形态网络122以及图像合成器130被配置成协同操作以从医学成像研究中自动移除所有识别的PHI而无需人工干预。根据本实施例，这些操作可以自动方式用于替换任意模态的图像中的所有可检测的PHI。

在一些方面，该图像可以是CT图像或MRI图像。图像可作为基于时间序列的图像集合来获得。除了MRI和CT之外，可根据本文提供的技术分析的其他图像类型包括但不限于超声、PET扫描、X射线等。本技术可以用于2D或3D图像。

图5示出了训练深度学习分类器115和GAN 120的方面。可以分割的训练数据101可以被提供给深度学习分类器115和GAN 120。通过用一种类型的图像(例如，大脑的CT扫描)训练GAN，可以是神经网络的生成器127将生成与在训练数据中提供的图像具有相似性的新图像。此新图像可提供到鉴别器126，鉴别器126将辨别所述新图像是真实医学图像(从患者获得)还是假图像(由产生器127产生)。随着训练进展，鉴别器126失去辨别真实图像与假图像的能力，因为所创建的图像的质量提高。训练可继续进行，直到超过阈值(例如，一定百分比的伪造图像被分类为真实的)，并且因此具有合并到无PHI文本图像107中的合适质量。在一些方面，所生成的GAN图像125可在训练期间或在操作期间按间隔审阅以确保满足图像生成准则(产生逼真图像)。

类似地，深度学习分类器115可以经历训练以生成有界区域以提供给GAN。随着训练进展，分类器随着从没有PHI的医学相关区域辨别可以用于患者识别的解剖学或其他独特特征而改进。具有PHI的区域135可以被审阅并反馈给系统以确保像素分类的准确性，并且深度学习分类器115可以根据需要在本文数据上重新训练。

图6示出了与机器学习和合成数据生成系统15相关联的具体操作的流程图。在操作410处，识别基于文本的PHI。PHI可存在于与图像文件相关联的标头信息中、与图像文件相关联的元数据中，或链接到图像文件或与图像文件相关联的任何其他基于文本的信息中。在一些方面中，图像可利用DICOM格式、基于XML的格式、医学成像网络传输格式或任何其他合适的基于图像的格式(例如，JPEG、TIFF、GIF、PNG等)或任何其他合适的等效物。

例如，文本分类器105可以扫描并分析DICOM图像头、相关联的DICOM结构化报告和与图像相关联或链接的任何其他医疗报告数据中的基于文本的信息。

在一些方面中，文本分类器可利用在DICOM标头上训练的RNN 106，所述DICOM标头已被标记以指示包含PHI的短语。PHI可包括但不限于患者姓名、患者识别符(例如，数字识别符)、患者地址、年龄、患者出生日期、医学成像研究的类型、性别、体重、医疗历史、成像研究的日期、用于生成成像研究的设备设置、与医学成像研究相关联的医疗设施和地理数据等。RNN可以用于分析基于时间序列的信息。其他类型的机器学习算法可用于在基于时间序列的成像研究中识别PHI，包括长短期记忆(LSTM)单元、循环网络或能够识别数据(例如，文本等)的时间序列中的模式的任何其他合适类型的神经网络。

在操作420，在RNN 106已识别PHI之后，基于规则的分析器107可用于使PHI通用化。在一些方面，RNN可与用于用通用内容替换所识别的包含PHI的字段的一个或多个基于规则的算法配对。因此，PHI可被修改以使得患者识别不能被执行，同时PHI的特性被保留(例如，年龄范围而不是年龄、城市而不是地址等)。

在一些实例中，如果DICOM图像(或其他图像)被存储在存储库中，则系统15可以分析所存储的数据的特性以确定是否通用化该数据。所述系统可跟踪与数据特性相关联的统计信息，以便识别特定的PHI或PHI的组合以便通用化。

在一些方面，该系统可以考虑文本字段的特性，并且可以通用化存储在文本字段中的数据或其数据的组合以保持患者特定数据的特性同时维持患者隐私。例如，如果数据集包含与成像研究相关联的年龄为51的单个人，则系统可以用包含一组患者的年龄范围代替DICOM中的个体的年龄，以防止基于年龄的识别。然而，如果数据集(PHI数据集32)被分析并被确定为包含大量51岁，则年龄可能不需要被通用化，因为患者将不能单独从年龄识别。

系统还可以考虑PHI的组合以确定使哪些字段通用化。例如，DICOM报头可以包含性别、年龄和居住城市。虽然每个参数单独地可能不允许识别该个人，但是组合组可能仅具有特定性别和年龄的一个成员生活在特定城市。由此，系统可基于类别的组合来通用化PHI。

在操作430，可以对图像执行OCR以识别不可读文本并且产生该文本的机器渲染版本。OCR可用以从图像的时间序列中的每一图像提取文本。可将所提取的文本提供给文本分类器105的RNN，以识别基于文本的PHI。

在操作440，经处理的文本被文本分类器105分析以找到并移除/修改包含PHI的文本。在一些情况下，所识别的文本可以在图像中编辑和/或添加到文件的DICOM头部。在其他情况下，如果所识别的文本是DICOM报头中存在的文本的重复，则不需要保留重复数据，并且可以从图像编辑重复数据。或者，图像可经历图像校正以移除嵌入的文本。

在操作450，可以分析图像本身以识别可以用于识别患者的解剖特征。深度学习分类器115可以用于分析可以识别患者的图像(例如，时间序列中的每个图像)的解剖学特征或其他特征。例如，这些特征可以包括个人的面部、牙齿植入体、医疗植入体、身体标记、胎记、珠宝、异常或其他独特特征。深度学习分类器115将像素标记为具有包含PHI或不包含PHI的概率以确定将哪些像素或其区域提供给GAN。

在其他情况下，PHI特征可从多个图像(例如，相对于竖直轴线的图像堆叠)重构，诸如重构面部。可以将具有PHI的区域提供给GAN 120，并且GAN创建不具有PHI的对应图像(伪造图像)以用替换图像的具有PHI的部分。

在一些方面，可以在强标记的医学图像系列上训练全卷积网络(FCN)以识别时间序列中的哪些像素/体素包含可以用于识别患者的解剖结构或其他特征，例如，如果用适当的3D渲染工具观看。然而，在区域上操作的算法(像素组而非单个像素也将是适合的，包括具有定位组件的一般分割或检测算法)。

在操作460处，所述系统确定所述包含PHI的区域是否与所执行的医学研究相关。所述系统确定移除PHI是否可无意地移除相关医疗信息。

如果移除PHI还将移除与成像研究有关的医疗信息，则系统进行至操作490。否则，如果移除PHI对成像研究的医疗信息没有可辨别的影响，或者如果包括PHI的区域与包含与诊断有关的医疗信息的区域分开且不重叠，则系统根据操作470进行。

在操作470，GAN 120可用于生成要集成到医疗成像研究中的合成图像，替换包含PHI的所识别的特征以保持患者隐私。为了生成合成图像，可以在用于训练深度学习分类器115的相同数据上训练GAN。在一些情况下，可以在整个身体区域(例如，整个图像)上训练GAN。在其他情况下，可以针对要为其生成合成图像的每个身体区域训练GAN。例如，在一些方面，身体可被分段成头部、颈部、肩部、胸部、腹部、骨盆、腿、手、脚、和手臂区域。对于每个身体区域，可以训练GAN以生成通用身体部位来替换识别患者的图像内容。例如，如果深度学习分类器115确定该面部在图像中可见(并且在医学上不相关)，则可以训练GAN以生成逼真的面部。GAN 120生成的合成图像在不识别患者的情况下保持逼真的外观。

此外，通过根据操作480生成现实替换图像并将这些图像覆盖(替换)在医学图像的相应部分上(而不是生成具有裁剪掉的面部或其他特征的编辑图像)，可继续在依赖于图像配准和多图集分割的应用中使用图像，这可能不能正确地处理具有缺失或编辑区域的图像。例如，当处理图像时，一些应用依赖于某些特征(例如，面部或颅骨)的存在。通过编辑来移除这些特征可导致应用程序的不正确输出或应用程序无法加载和处理图像。本技术通过替换或修改包含PHI的区域来保存图像内容，从而允许这样的应用适当地运行。

如先前所讨论的，基于图像的分类器115可以识别包含医疗信息和PHI的区域。在操作490，形态网络122可改变其他结构以保持身份。例如，可将面部结构(例如，面部、眼睛、鼻子等的形状)变形为不同面部，从而改变面部的总体形状以防止患者识别，同时保持可包括PHI的医学相关信息。

图7示出了使用合成数据和生成机器学习系统15来通过识别和缓解PHI来管理PHI或其他识别信息的示例高级操作。在操作510，合成数据和生成机器学习系统检测嵌入在数字图像中的受保护的健康信息，其中从患者的文本和解剖特征中选择PHI。在操作520，从数字图像移除PHI。在操作530处，用通用内容代替基于文本的PHI，并且用合成图像代替基于图像的PHI，其中与数字图像相比，合成图像具有自然外观。无PHI图像可由生成的对手网络生成。无文本PHI可由基于规则的平台生成。

本系统使用多种方法来自动地移除PHI或其他识别信息。与现有PHI移除系统相比，本技术用通用或合成内容代替敏感文本和图像内容，而不是简单地编辑所识别的PHI。该方法最小化了数据丢失，保持了数据的自然外观和批量特性，同时促进了无PHI数字图像与不同处理应用的质量和共享。

将认识到，以上描述的并且在附图中展示的实施例仅表示实现通过用更通用化的内容和/或修改的或变形的图像替换包含PHI的内容来自动识别和减轻PHI的实施例的许多方式中的一些方式。

本发明实施例的环境可以包括任何数量的计算机或其他处理系统(例如，客户端或终端用户系统、服务器系统等)和以任何所希望的方式安排的数据库或其他储存库，其中本发明实施例可以应用于任何所希望类型的计算环境(例如，云计算、客户端-服务器、网络计算、大型机、独立系统等)。本发明所采用的计算机或其他处理系统可以由任何数量的任何个人或其他类型的计算机或处理系统(例如，台式计算机、膝上型计算机、PDA、移动设备等)来实现，并且可以包括任何市售的操作系统以及市售和定制软件(例如，浏览器软件、通信软件、服务器软件、机器学习和合成数据生成系统15等)的任何组合。这些系统可包括任何类型的监视器和输入设备(例如，键盘、鼠标、语音识别等)以输入和/或查看信息。

应当理解的是，本发明的实施例的软件(例如，机器学习和合成数据生成系统15，包括文本分类器105、OCR和基于图像的分类器110、深度学习分类器115、生成对手网络120、形态网络122、图像合成器130等)可以用任何期望的计算机语言来实现，并且可以由计算机领域的普通技术人员基于说明书中包含的功能描述和附图中所展示的流程图来开发。进一步，本文中对执行不同功能的软件的任何引用通常指在软件控制下执行这些功能的计算机系统或处理器。本发明的实施例的计算机系统可以可选地通过任何类型的硬件和/或其他处理电路来实现。

计算机或其他处理系统的不同功能可以以任何方式分布在任何数量的软件和/或硬件模块或单元、处理或计算机系统和/或电路之间，其中，计算机或处理系统可以彼此本地或远程地布置并且经由任何合适的通信介质(例如，LAN、WAN、内联网、互联网、硬线、调制解调器连接、无线等)进行通信。例如，本发明的实施例的功能可以以任何方式分布在不同终端用户/客户端和服务器系统、和/或任何其他中间处理设备之间。上面描述的和流程图中示出的软件和/或算法可以以实现本文描述的功能的任何方式进行修改。此外，流程图或描述中的功能可以以实现期望操作的任何顺序执行。

本发明的实施例的软件(例如，机器学习和合成数据生成系统15，包括文本分类器105、OCR和基于图像的分类器110、深度学习分类器115、生成对手网络120、形态网络122、图像合成器130等)可以在固定或便携式程序产品装置或设备的非瞬态计算机可用介质(例如，磁性或光学介质、磁光介质、软盘、CD-ROM、DVD、存储器设备等)上可用，以便与独立系统或通过网络或其他通信介质连接的系统一起使用。

通信网络可以由任何数量的任何类型的通信网络(例如，LAN、WAN、互联网、内联网、VPN等)来实现。本发明实施例的计算机或其他处理系统可以包括用于经由任何常规或其他协议通过网络进行通信的任何常规或其他通信设备。计算机或其他处理系统可利用用于访问网络的任何类型的连接(例如，有线、无线等)。本地通信介质可由任何合适的通信介质(例如，局域网(LAN)、硬线、无线链路、内联网等)来实现。

该系统可以采用任何数量的任何常规或其他数据库、数据存储或存储结构(例如，文件、数据库、数据结构、数据或其他储存库等)来存储信息(例如，机器学习和合成数据生成系统15，包括文本分类器105、OCR和基于图像的分类器110、深度学习分类器115、生成对手网络120、形态网络122、图像合成器130等)。数据库系统可由任何数量的任何常规或其他数据库、数据存储或存储结构(例如，文件、数据库、数据结构、数据或其他储存库等)来实现，以存储信息(例如，PHI数据集32、合成数据集36、无PHI数据集36等)。数据库系统可以包括在服务器和/或客户端系统内或者耦接至服务器和/或客户端系统。数据库系统和/或存储结构可远离计算机或其他处理系统或对计算机或其他处理系统是本地的，并且可存储任何所需数据(例如，PHI数据集32、合成数据集36、无PHI数据集36等)。

本发明的实施例可采用任何数量的任何类型的用户界面(例如，图形用户界面(GUI)、命令行、提示等)来获得或提供信息(例如，PHI数据集32、合成数据集36、无PHI数据集36等)，其中该界面可包括以任何方式安排的任何信息。该界面可以包括布置在任何位置处的任何数量的任何类型的输入或致动机构(例如，按钮、图标、字段、框、链接等)以输入/显示信息和经由任何合适的输入设备(例如，鼠标、键盘等)发起期望的动作。界面屏幕可包括任何合适的致动器(例如，链接、选项卡等)以在屏幕之间以任何方式导航。

机器学习和合成数据生成系统15的输出可以包括以任何方式安排的任何信息，并且可以是基于规则或其他标准可配置的以将所希望的信息提供给用户(例如，分类结果、图像分析结果、PHI分析、基于PHI图像和无PHI图像的医疗分析等)。

本发明实施例不限于上文描述的特定任务或算法，而是可以用于移除PHI是有用的任何应用。例如，虽然本示例在神经网络的上下文中，但是可以使用任何合适的分类器。进一步，此方法一般可适用于在任何上下文中减轻任何识别或其他信息，且不限于医学实施例。

本文使用的术语仅是出于描述特定实施例的目的，并且不旨在限制本发明。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还应当理解，当在本说明书中使用术语“包含(comprises)”、“包含(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(has)”、“具有(having)”、“带有(with)”等时，规定所述特征、整体、步骤、操作、元件和/或部件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。

以下权利要求书中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于与如具体要求保护的其他要求保护的元件组合执行所述功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本发明的描述，但并不旨在是详尽的或限于所公开形式的本发明。在不背离本发明的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例以便最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有适合于预期的特定用途的各种修改的各种实施例。

已经出于说明的目的呈现了对本发明的不同实施例的描述，但并不旨在是详尽的或限于所披露的实施例。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

本发明可以是在任何可能的技术细节集成度上的系统、方法、和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可以保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载至相应的计算/处理设备或下载至外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给计算机的处理器、或其他可编程数据处理装置以产生机器，这样使得经由该计算机的处理器或其他可编程数据处理装置执行的这些指令创建用于实现流程图和/或框图的或多个框中所指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

该计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置、或其他设备上，以便使得在该计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程，从而使得在该计算机、其他可编程装置、或其他设备上执行的指令实现流程图和/或框图的或多个框中所指定的功能/动作。

附图中的流程图和框图展示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法，所述至少一个存储器包括由所述至少一个处理器执行的指令以使所述至少一个处理器管理实体的识别信息，所述方法包括：

检测与数字图像相关联的实体的识别信息，其中所述识别信息包括识别所述实体的文本信息和与识别所述实体的一个或多个解剖特征相对应的图像信息；

从所述数字图像移除所述文本信息；以及

用所述一个或多个解剖特征的一个或多个计算机生成的合成图像来替换所述图像信息，其中所述计算机生成的合成图像是基于所述数字图像中的所述一个或多个解剖特征的自然外观，

其中，所述方法进一步包括：

通过鉴别器神经网络生成候选合成图像；

由对手神经网络确定所述候选合成图像是真实的还是计算机生成的；

迭代地再生成所述候选合成图像，直到所述对手神经网络确定所述候选合成图像是真实的；以及

当所述对手神经网络确定所述候选合成图像是真实的时，用所述候选合成图像替换对应图像信息。

2.根据权利要求1所述的方法，进一步包括：

使用深度学习分类器相对于包含所述识别信息对所述数字图像的每个像素进行分类；

生成与包含所述识别信息的像素组对应的区域；以及

用由生成性对手网络(GAN)生成的合成图像来替换包含所述识别信息的所述区域。

3.根据权利要求2所述的方法，其中，所述实体是患者，并且所述分类进一步包括：

确定包含所述识别信息的区域与医疗诊断相关；以及

对所述图像信息进行变形以改变不在相关区域中的患者的解剖特征。

4.根据权利要求2所述的方法，其中，所述深度学习分类器包括完全卷积网络(FCN)。

5.根据权利要求2所述的方法，其中，所述实体包括患者，并且所述方法进一步包括：

将所述数字图像分割成与所述患者的特定解剖特征对应的不同部分；以及

使用所述深度学习分类器相对于包含所述识别信息来对所述部分的每个像素进行分类。

6.根据权利要求1所述的方法，进一步包括：

识别与所述数字图像相关联的包含私有字段和文本的报头；

使用递归神经网络(RNN)来分析所述私有字段和文本以获得所述文本信息；以及

用包括所述文本信息的特性的通用文本替换所述私有字段和头部中的所述文本信息，同时维护实体隐私。

7.根据权利要求1所述的方法，进一步包括：

对所述数字图像执行OCR以识别嵌入在所述数字图像中的文本；

从所述嵌入的文本生成机器可读文本并且评估所述机器可读文本以用于所述识别信息；以及

从所述数字图像移除所述嵌入的文本的包含所述识别信息的部分。

8.一种用于管理实体的识别信息的设备，所述设备包括：

一个或多个处理器；

一个或多个计算机可读存储介质；

存储在所述一个或多个计算机可读存储介质上的程序指令，用于由所述一个或多个计算机处理器中的至少一个执行，所述程序指令包括用于以下操作的指令：

检测与数字图像相关联的实体的识别信息，其中识别信息包括识别所述实体的文本信息和与识别所述实体的一个或多个解剖特征相对应的图像信息；

从所述数字图像移除所述文本信息；以及

其中，所述程序指令进一步包括用于以下操作的指令：

通过鉴别器神经网络生成候选合成图像；

9.根据权利要求8所述的设备，其中，所述程序指令进一步包括用于以下操作的指令：

生成与包含所述识别信息的像素组对应的区域；以及

10.根据权利要求9所述的设备，其中，所述实体是患者，并且所述程序指令进一步包括用于以下操作的指令：

确定包含所述识别信息的区域与医疗诊断相关；以及

11.根据权利要求9所述的设备，其中，所述实体是患者，并且所述程序指令进一步包括用于以下操作的指令：

12.根据权利要求8所述的设备，其中，所述程序指令进一步包括用于以下操作的指令：

识别与所述数字图像相关联的包含私有字段和文本的报头；

13.根据权利要求8所述的设备，其中，所述程序指令进一步包括用于以下操作的指令：

14.一种计算机可读存储介质，所述计算机可读存储介质具有体现在其中的程序指令，所述程序指令可由计算机执行以使所述计算机：

从所述数字图像移除所述文本信息；以及

其中，所述程序指令进一步使所述计算机：

通过鉴别器神经网络生成候选合成图像；

15.根据权利要求14所述的计算机可读存储介质，其中，所述程序指令进一步使所述计算机：

生成与包含所述识别信息的像素组对应的区域；以及

16.根据权利要求14所述的计算机可读存储介质，其中，所述程序指令进一步使所述计算机：

识别与所述数字图像相关联的包含私有字段和文本的报头；

17.根据权利要求14所述的计算机可读存储介质，其中，所述程序指令进一步使所述计算机：