CN114446434A - 一种报告生成方法、系统及终端设备 - Google Patents
一种报告生成方法、系统及终端设备 Download PDFInfo
- Publication number
- CN114446434A CN114446434A CN202111334388.5A CN202111334388A CN114446434A CN 114446434 A CN114446434 A CN 114446434A CN 202111334388 A CN202111334388 A CN 202111334388A CN 114446434 A CN114446434 A CN 114446434A
- Authority
- CN
- China
- Prior art keywords
- report
- visual
- knowledge
- image
- extractor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请适用于图像处理技术领域,提供了一种报告生成方法、系统及终端设备,基于训练数据中的报告文本数据提取报告的知识主题,接着将原始图像输入视觉提取器中结合预先得到的知识主题特征进行端对端的分类训练,得到和知识主题特征对齐的视觉特征向量;将所述视觉特征向量输入至报告生成模块中进行报告单词预测,生成报告,通过将图像特征和知识主题建立关联,使得图像描述过程中的图像特征和文本特征能够有效地结合,并基于此生成报告,使得生成的报告能够准确地描述出医学图像中的特征信息,缓解目前图像和文本特征不匹配的现象,解决了目前图像描述应用在医学图像的报告生成时存在报告准确率和可靠性低的问题。
Description
技术领域
本申请属于图像处理技术领域,尤其涉及一种报告生成方法、系统及终端设备。
背景技术
随着人工智能技术的不断发展,让机器学会看懂图像并描述图像成为了可能。图像描述就是将图像信息转化为文字信息的过程,图像描述是计算机视觉和自然语言处理的交叉领域,常见的图像描述应用有新闻图片标题生成、图片检索标题生成等等。
目前的图像描述应用通常是基于固定模板,通过从照片中识别出对象,属性以及关系,通过条件随机场推断出对象与属性、关系(介词),得到每一个对象的单词填入固定模板中,最后预测连接词以及标记句子结尾,得到整个完整的描述。这种方式虽然能描述出图像中的内容,但是由于模板固定,因此存在句子形式单一、内容受限等问题。
基于此,目前的图像描述应用还提出了一种基于编解码结构的端到端图像描述方法,这种方法不需要固定的文字模板,先通过编码器确定出图像中的特征,得到特征向量,再基于解码器逐步生成每个特征向量对应的描述字,逐字生成描述文本。
然而,医学图像由于存在极高的相似性,即正常图像与患者图像的相似度非常高,差异仅在很小的病灶部分,且医学图像的报告通常需要准确的描述患者的病情细节,因此医学文本具有多样化的特点,即对于医学图像的描述即存在图像特征高度相似又存在文本特征高度离散的问题,导致图像描述应用在医学图像的报告生成时很难准确地描述出图像细节,使得生成的报告准确率和可靠性较低。
发明内容
有鉴于此,本申请实施例提供了一种报告生成方法、系统及终端设备,以解决目前图像描述应用在医学图像的报告生成时存在报告准确率和可靠性低的问题。
第一方面,本申请实施例提供一种报告生成方法,包括:
将原始图像输入至完成训练的视觉提取器中进行特征提取,得到所述原始图像的视觉特征向量,所述视觉特征向量与知识主题对应,所述知识主题基于训练数据的报告文本数据提取得到;
将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告。
可选的,上述报告生成方法还包括:
根据训练数据的报告文本数据提取知识主题;
基于训练数据的历史医学图像和与历史医学图像对应的知识主题分类结果,对未训练的视觉提取器进行训练,得到完成训练的视觉提取器;
基于历史医学报告、完成训练的视觉提取器提取的视觉图像特征向量对未训练的报告生成模块进行训练,得到训练完成的报告生成模块。
可选的,所述视觉提取器包括视觉编码器和TF编码器,所述将原始图像输入至完成训练的视觉提取器中进行视觉特征提取,得到所述原始图像的视觉特征向量,包括:
通过所述视觉提取器提取所述原始图像中出与知识主题对应的视觉特征向量;
通过所述TF编码器确定所述视觉特征向量的权重和知识主题中对应的关键词向量。
可选的,所述TF编码器包括多头注意力机制网络和前向传播网络。
可选的,所述将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告,包括:
通过报告生成模块确定与所述视觉特征向量对应的报告单词;
对报告单词进行词嵌入,得到报告。
可选的,所述根据训练数据中的报告文本数据报告提取知识主题,包括:
将报告文本数据进行词嵌入,得到词向量;
根据词向量进行聚类,得到不同的知识主题。
可选的,所述原始图像包括原始图像对。
第二方面,本申请实施例提供一种报告生成系统,包括知识蒸馏模块、视觉提取器以及报告生成模块;
所述知识蒸馏模块,用于根据训练数据中的报告文本数据提取报告的知识主题;
所述视觉提取器,用于将原始图像输入至完成训练的视觉提取器中进行特征提取,得到所述原始图像的视觉特征向量,所述视觉特征向量与知识主题对应,所述知识主题基于训练数据的报告文本数据提取得到;
所述报告生成模块,用于将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告。
第三方面,本申请实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面的任意可选方式所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面的任意可选方式所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面或第一方面的任意可选方式所述的方法。
实施本申请实施例提供的一种报告生成方法、系统及终端设备、终端设备、计算机可读存储介质及计算机程序产品具有以下有益效果:
本申请实施例提供的一种报告生成方法,通过将图像特征和知识主题建立关联,使得图像描述过程中的图像特征和文本特征能够有效地结合,识别出结合了知识主题的视觉特征向量,并基于此生成报告,使得生成的报告能够准确地描述出医学图像中的特征信息,缓解目前图像和文本特征不匹配的现象,解决了目前图像描述应用在医学图像的报告生成时存在报告准确率和可靠性低的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种报告生成方法的示意性流程图;
图2是本申请实施例提供的另一种报告生成方法的示意性流程图;
图3是本申请实施例提供一种报告生成系统结构示意图;
图4是本申请另一实施例提供的一种终端设备的结构示意图;
图5是本申请实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、系统、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
还应当理解,在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
医学图像是指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程,可以通过医学成像系统来获取医学图像。
利用人工智能技术进行医学图像描述,生成医学报告可以减少对放射科医生的依赖,使得医学图像检测能够被更广泛地普及。
然而,患者图像与正常图像的差异往往只在病灶部分,即患者图像和正常图像往往只存在非常细微的差异,而且医学报告需要很精准地描述出患者的情况,医学报告往往比较长且不同医生的撰写医学报告的风格也不同,这就导致了将已有的图像描述方法直接应用到医学图像的描述的时候,取得的效果不佳,即无法准确描述出患者的情况。
基于此,本申请实施例提供了一种报告生成方法,通过将知识主题与图像特征进行。
以下将对本申请实施例提供的报告生成方法、系统及终端设备进行详细的说明:
请参阅图1,图1是本申请实施例提供的一种报告生成方法的示意性流程图。
如图1所示,上述报告生成方法可以包括S11~S12,详述如下:
S11:将原始图像输入至完成训练的视觉提取器中进行特征提取,得到所述原始图像的视觉特征向量。
在本申请实施例中,上述原始图像可以是通过医学成像系统获取到的医学图像,上述原始图像可以只包括一张图像,也可以包括两张或两张以上的患者图像,即通过医学成像系统获取到的医学图像,且为同一患者的不同角度拍摄得到的医学图像。例如可以是患者的胸腔的正侧位的X光片。
在本申请实施例中,上述知识主题是指从大量的训练数据中的报告文本数据中提取到的知识主题分类。不同知识主题分类中包含大量用于描述该主题分类下的关键词向量,每个关键词向量可以对应一个视觉特征,不同关键词向量也可以对应同一个视觉特征,即一个视觉特征可以使用某个主题分类中的某些关键词向量来进行描述。
在本申请实施例中,通过将原始图像输入到完成训练的视觉提取器中进行处理,就可以得到与知识主题对应的视觉特征向量(视觉特征),该视觉提取器是基于预先得到的只是主题特征进行端对端的分类训练后得到的,因此可以提取到与知识主题特征对其的视觉特征向量。
需要说明的是,原始图像中可以提取出多个视觉特征向量,每个视觉特征向量都有其对应的知识主题分类结果(即知识主题特征),将知识主题作为特征提取过程中图像的标签,以提高图像与文字描述的匹配度。
需要说明的是,上述视觉特征向量对应的知识主题分类结果是指每个视觉特征向量所对应的知识主题中的关键词向量。
在本申请一实施例中,上述视觉提取器可以包括视觉编码器和TF (Transformer)编码器。
示例性的,上述视觉编码器可以采用ResNET-101(当然还可以采用其他类型的神经网络,在此仅为示例)网络来构建。
在具体应用中,输入的原始图像可以是原始图像对,原始图像对中包括第一原始图像和第二原始图像,所述第一原始图像可以是第一预设方位采集到的医学图像,第二原始图像可以是第二预设方位采集到的医学图像。需要说明的是,第一预设方位和第二预设方位可以根据检测需要进行设置,例如设置第一预设方位为正面拍摄,第二预设方位为左侧面拍摄等,本申请对此不加以限制。
通过对原始图像对中的视觉特征向量进行提取,具体可以是分别提取原始图像对中每张图像的视觉特征向量,然后将视觉特征向量进行叠加,进而的得到原始图像对的视觉特征向量,并且可以添加两层线性层将特征维度进行缩小,然后再进行分类任务。
需要说明的是,上述分类任务就是确定图像的特征向量对应哪个知识主题的过程。
在本申请实施例中,上述TF编码器采用多头注意力机制网络和前向传播网络,将视觉编码器提取到的特征作为TF编码器的输入,然后利用多头注意力机制确定出每个头的结果,再将多个头进行拼接,就可以得到每个视觉特征向量对应的权重,并且该过程是多对多的关系,因此能够得到视觉特征向量对应的多个关键词向量,使得视觉提取器能够关注到对生成报告有用的视觉特征向量,并赋予更多权重给到该图像特征向量。
在本申请实施例中,上述多头注意力机制的头数可以是8头,对于每个头的结果,可以使用缩放点击attention机制,得到每个头的拼接结果,将拼接结果经过残差连接和基于层的归一化操作后,得到归一化结果,再基于前向传播网络,得到最终结果。
在此,通过训练完成的视觉提取器就能够提取出与输入的原始图像对中的与知识主题对齐的视觉特征向量。
基于此,上述S11可以包括以下步骤:
通过所述视觉提取器提取所述原始图像中出与知识主题对应的视觉特征向量;
通过所述TF编码器确定所述视觉特征向量的权重和知识主题中对应的关键词向量。
S12:将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告。
在本申请实施例中,对于每个视觉特征向量均输入到完成训练的报告生成模块中进行处理,就可以预测出各个视觉特征向量和的报告单词,对全部视觉特征向量都预测出其对应的报告单词,就能逐词生成报告。
在本申请实施例中,上述报告生成模块同样可以采用多头注意力机制和向前传播网络来实现,经过视觉提取器后,得到与知识主题对应的原始图像的视觉特征向量,然后经过报告生成模块确定与之对应的报告单词进行词嵌入,就可以得到完整的报告。
在本申请一实施例中,上述多头注意力机制同样可以采用8头注意力机制。
上述向前传播网络可以参见已有的向前传播网络的架构和原理,为避免重复,本申请在此不加以赘述。
基于此,上述S12可以包括以下步骤:
通过报告生成模块确定与所述视觉特征向量对应的报告单词;
对报告单词进行词嵌入,得到报告。
以上可以看出,通过将图像特征和知识主题建立关联,使得图像描述过程中的图像特征和文本特征能够有效地结合,识别出结合了知识主题的视觉特征向量,并基于此生成报告,使得生成的报告能够准确地描述出医学图像中的特征信息,缓解目前图像和文本特征不匹配的现象,解决了目前图像描述应用在医学图像的报告生成时存在报告准确率和可靠性低的问题。
请参阅图2,图2示出了本申请另一实施例提供的一种报告生成方法的实现流程示意图。如图2所示,区别于上一实施例,本申请实施例提供的一种报告生成方法,还包括以下步骤:
S13:根据训练数据提取知识主题。
在本申请实施例中,上述训练数据可以包括报告文本数据和历史医学图像。
上述报告文本数据包含大量的历史医学报告(由医生给出的报告文本)。上述历史医学图像包含大量与历史医学报告对应的历史医学图像。
在本申请实施例中,为了使得生成的报告更接近医生给出的报告,通过知识提取来得到历史医学报告中的文本特征。具体地,可以先将报告文本数据进行词嵌入,得到词向量,然后根据词向量进行聚类,得到不同的知识主题。
在本申请实施例中,可以使用BERT进行词嵌入,聚类时的聚类算法采用经典的UMAP算法。
对大量的历史医学报告进行处理,就可以得到多个知识主题,且每个知识主题之间具有差异性,知识主题内的各个关键词向量具有较高的相似度。
S14:基于历史医学图像和与历史医学图像对应的知识主题分类结果,对未训练的视觉提取器进行训练,得到完成训练的视觉提取器。
在本申请实施例中,将历史医学图像对应的知识主题分类结果作为该历史医学图像的标签,通过大量的训练数据(即历史医学图像和历史医学图像对应的知识主题分类结果)对未训练的视觉提取器进行训练,使得损失函数收敛,确定此时视觉提取器的参数,完成对视觉提取器的训练过程,得到完成训练的视觉提取器,以便在后续应用中使用。训练完成的视觉提取器就能够提取出和知识主题特征对齐的视觉特征向量。
S15:基于历史医学报告、完成训练的视觉提取器提取的视觉特征向量对未训练的报告生成模块进行训练,得到训练完成的报告生成模块。
在本申请实施例中,将训练完成的视觉提取器提取到的视觉图像特征向量作为该历史医学图像的真值和关键值,然后得到预测的报告单词,再与历史医学报告对应的报告单词进行对比,以此对未训练的报告生成模块进行训练,使得训练完成的报告生成模块能够输出与历史医学报告差异较小的报告(即此时报告生成模块的损失函数收敛),确定此时的报告生成模块的参数,完成对报告生成模块的训练过程,得到完成训练的报告生成模块,以便在后续应用中使用。
由此可以看出,本申请实施例提供的一种报告生成方法,通过训练数据中的报告文本数据提取出知识主题能够通过图像和报告的自学习,缓解了图像和文本特征不匹配的现象,使得生成的报告的可读性较高,而且能够准确地描述出图像细节,使得生成的报告的准确度和可靠性较高。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
基于上述实施例所提供的报告生成方法,本发明实施例进一步给出实现上述方法实施例的报告生成系统的实施例。
请参阅图3,图3是本申请实施例提供的一种报告生成系统的结构示意图。本申请实施例中,报告生成系统包括的各单元用于执行图1和图2对应的实施例中的各步骤。具体请参阅图1以及图1对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图3所示,报告生成系统30包括:知识蒸馏模块31、视觉提取器32以及报告生成模块33。其中:
知识蒸馏模块31用于根据训练数据中的报告文本数据提取报告的知识主题。
视觉提取器32用于基于历史医学图像和与历史医学图像对应的知识主题分类结果,对未训练的视觉提取器进行训练,得到完成训练的视觉提取器。
上述视觉提取器32还用于将原始图像输入至完成训练的视觉提取器中进行与知识主题对应的视觉特征向量提取,得到所述原始图像的视觉特征向量。
上述报告生成模块33用于基于历史医学报告、完成训练的视觉提取器提取的历史医学图像的视觉特征向量对未训练的报告生成模块进行训练,得到训练完成的报告生成模块。
上述报告生成模块33还用于将视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告。
上述视觉提取器32可以包括视觉编码器和TF编码器。
通过所述视觉提取器提取所述原始图像中出与知识主题对应的视觉特征向量;通过所述TF编码器确定所述视觉特征向量的权重和知识主题中对应的关键词向量。
需要说明的是,本申请实施例提供的报告生成系统,同样能够通过将图像特征和知识主题建立关联,使得图像描述过程中的图像特和文本特征能够有效地结合,并基于此生成报告,使得生成的报告能够准确地描述出医学图像中的特征信息,缓解目前图像和文本特征不匹配的现象,解决了目前图像描述应用在医学图像的报告生成时存在报告准确率和可靠性低的问题。
图4是本申请另一实施例提供的一种终端设备的结构示意图。如图4所示,该实施例提供的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如多智能体系统的协同控制的程序。处理器40执行所述计算机程序42时实现上述各个报告生成方法实施例中的步骤,例如图1所示的S11~S12。或者,所述处理器40执行所述计算机程序42时实现上述各终端设备实施例中各模块/单元的功能,例如图3 所示单元31~33的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由处理器40执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。例如,所述计算机程序42可以被分割成第一获取单元和第一处理单元,各单元具体功能请参阅图3对应地实施例中的相关描述,此处不赘述。
所述终端设备可包括但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4 的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质。请参阅图5,图5是本申请实施例提供的一种计算机可读存储介质的结构示意图,如图5所示,计算机可读存储介质5中存储有计算机程序51,计算机程序51被处理器执行时可实现上述报告生成方法。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述报告生成方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述终端设备的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参照其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种报告生成方法,其特征在于,包括:
将原始图像输入至完成训练的视觉提取器中进行特征提取,得到所述原始图像的视觉特征向量,所述视觉特征向量与知识主题对应,所述知识主题基于训练数据的报告文本数据提取得到;
将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告。
2.根据权利要求1所述报告生成方法,其特征在于,还包括:
根据训练数据的报告文本数据提取知识主题;
基于训练数据的历史医学图像和图像对应的知识主题分类结果,对未训练的视觉提取器进行训练,得到完成训练的视觉提取器;
基于历史医学报告、完成训练的视觉提取器提取的视觉图像特征向量对未训练的报告生成模块进行训练,得到训练完成的报告生成模块。
3.根据权利要求1所述报告生成方法,其特征在于,所述视觉提取器包括视觉编码器和TF编码器,所述将原始图像输入至完成训练的视觉提取器中进行视觉特征提取,得到所述原始图像的视觉特征向量,包括:
通过所述视觉提取器提取所述原始图像中出与知识主题对应的视觉特征向量;
通过所述TF编码器确定所述视觉特征向量的权重和知识主题中对应的关键词向量。
4.根据权利要求3所述报告生成方法,其特征在于,所述TF编码器包括多头注意力机制网络和前向传播网络。
5.根据权利要求1所述报告生成方法,其特征在于,所述将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告,包括:
通过报告生成模块确定与所述视觉特征向量对应的报告单词;
对报告单词进行词嵌入,得到报告。
6.根据权利要求2所述报告生成方法,其特征在于,所述根据训练数据中的报告文本数据提取知识主题,包括:
将报告文本数据进行词嵌入,得到词向量;
根据词向量进行聚类,得到不同的知识主题。
7.根据权利要求1至6任一项所述报告生成方法,其特征在于,所述原始图像包括原始图像对。
8.一种报告生成系统,其特征在于,包括知识蒸馏模块、视觉提取器以及报告生成模块;
所述知识蒸馏模块,用于根据训练数据中的报告文本数据提取报告的知识主题;
所述视觉提取器,用于将原始图像输入至完成训练的视觉提取器中进行特征提取,得到所述原始图像的视觉特征向量,所述视觉特征向量与知识主题对应,所述知识主题基于训练数据的报告文本数据提取得到;
所述报告生成模块,用于将所述视觉特征向量输入至完成训练的报告生成模块中进行报告单词预测,生成报告。
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111334388.5A CN114446434A (zh) | 2021-11-11 | 2021-11-11 | 一种报告生成方法、系统及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111334388.5A CN114446434A (zh) | 2021-11-11 | 2021-11-11 | 一种报告生成方法、系统及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114446434A true CN114446434A (zh) | 2022-05-06 |
Family
ID=81364480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111334388.5A Pending CN114446434A (zh) | 2021-11-11 | 2021-11-11 | 一种报告生成方法、系统及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114446434A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665012A (zh) * | 2023-06-09 | 2023-08-29 | 匀熵智能科技(无锡)有限公司 | 图像字幕自动生成方法、装置及存储介质 |
-
2021
- 2021-11-11 CN CN202111334388.5A patent/CN114446434A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665012A (zh) * | 2023-06-09 | 2023-08-29 | 匀熵智能科技(无锡)有限公司 | 图像字幕自动生成方法、装置及存储介质 |
CN116665012B (zh) * | 2023-06-09 | 2024-02-09 | 匀熵智能科技(无锡)有限公司 | 图像字幕自动生成方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bai et al. | A survey on automatic image caption generation | |
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
Yu et al. | Multimodal transformer with multi-view visual representation for image captioning | |
Li et al. | Visual question generation as dual task of visual question answering | |
Logeswaran et al. | Sentence ordering and coherence modeling using recurrent neural networks | |
Liang et al. | Cpgan: Content-parsing generative adversarial networks for text-to-image synthesis | |
US11620814B2 (en) | Contextual grounding of natural language phrases in images | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN114387567B (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
US20240152770A1 (en) | Neural network search method and related device | |
CN114282013A (zh) | 一种数据处理方法、装置及存储介质 | |
Cornia et al. | A unified cycle-consistent neural model for text and image retrieval | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Sun et al. | Study on medical image report generation based on improved encoding-decoding method | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
Xue et al. | LCSNet: End-to-end lipreading with channel-aware feature selection | |
Tüselmann et al. | Recognition-free question answering on handwritten document collections | |
CN114446434A (zh) | 一种报告生成方法、系统及终端设备 | |
Cornia et al. | Towards cycle-consistent models for text and image retrieval | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
Pendurkar et al. | Attention based multi-modal fusion architecture for open-ended video question answering systems | |
Kurach et al. | Better text understanding through image-to-text transfer | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |