CN106846306A

CN106846306A - 一种超声图像自动描述方法和系统

Info

Publication number: CN106846306A
Application number: CN201710026085.4A
Authority: CN
Inventors: 刘邦贵; 曾宪华
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-06-13

Abstract

本发明公开了一种超声图像自动理解生成方法，涉及计算机信息处理技术领域，CNN模型提取超声图像特征向量，分词工具将超声图像对应的描述句子进行分词，获得词序列特征向量；利用超声图像特征向量和对应的词序列特征向量训练LSTM模型；LSTM语言模型，利用束搜索方法，在时间步产生多个合适的句子，根据概率估计产生描述该幅超声图像的句子。本发明可以很好的解决传统图像主题描述自动生成中出现新的组合情况不能及时调整的问题。能广泛用于对超声图像的理解和语句描述。

Description

一种超声图像自动描述方法和系统

技术领域

本方法涉及模式识别技术领域，具体是结合深度学习算法中的卷积神经网络模型(CNN)和长短期记忆模型(LSTM)自动描述超声图像的方法。

背景技术

超声图像自动化理解生成方法指的是根据输入的超声图像，可以自动的生成对超声图像内容进行描述的句子。而现如今基于超声图像内容自动生成描述超声图像内容句子的方法正逐渐被越来越多的学者所关注，但却依旧存在一些技术难点：1)由于超声图像本身的复杂性，使得传统的特征提取方法，如：SIFT，LBP，SURF等等，并不能很好的捕捉超声图像中重要的图像信息；2)超声图像特征的捕捉除了要捕捉超声图像中病变区域，还需要捕捉病变程度信息、病变位置信息等等；3)传统的图像主题生成方法，主要是以图像检索文本信息方式为主，但是这需要准备一个专门的用于存储文本信息数据库，而且可能由于搜集的文本信息不全面，这就使得当新来的图像内容并不能用数据库中的文本信息来描述时，会使得生成的用于描述图像内容的句子效果很差。

基于上述这些问题，使用一种结合深度学习算法中卷积神经网络CNN模型(Convolut ional Neural Network，简称CNN)和长短期记忆模型(Long-Short TermMemory,简称LSTM)LSTM模型来自动生成描述超声图像内容句子的方法，不同于传统的人工特征提取方法和传统语言模型结合的方法。

发明内容

为了克服超声图像描述自动生成中存在的超声图像特征难以捕捉、超声图像中病变程度信息捕捉、超声图像中存在新情况组合等问题，本发明通过直接将超声图像和描述超声图像内容的文本内容作为训练样本对，用来训练LSTM模型，提高了对超声图像特征的捕捉能力，同时可以很好的解决传统的自动生成描述图像内容的病情新的组合情况出现等问题。

本发明解决其技术问题所采用的技术方案是：一种超声图像自动化理解生成方法，其特征在于，包括：获取超声图像并进行预处理；CNN模型提取超声图像的特征，得到固定长度的超声图像特征向量；将超声图像对应的描述句子用分词工具进行分词，将分词用独热编码one-hot向量表示，根据one-hot向量获得词序列特征向量；利用超声图像特征向量和对应的词序列特征向量训练LSTM语言模型；将超声图像特征向量输入训练好的LSTM语言模型，在每个时间步生成描述超声图像的词，将当前时间步及之前时间步得到的词进行拼接，直到句子长度达到最大长度或者遇到结束符为止，得到描述超声图像的若干个子句，利用束搜索方法，根据公式S＝argmax_S'p(S'|I)，选中一个使得概率估计P(S'|I)最大对应的句子，为描述该幅超声图像的句子。

本发明的其中一个实施例包括，所述对超声图像做预处理具体包括，图像提取模块获取超声图像，根据CNN模型的要求调整所有超声图像的大小，对调整后的超声图像的每个像素通道的像素值做减均值操作。

本发明的其中一个实施例包括，所述通过CNN模型对超声图像进行特征提取具体包括，CNN模型从超声图像最原始的像素特征开始，进行一系列的卷积和池化操作，逐层对超声图像进行特征提取，形成超声图像2维特征映射，将超声图像2维特征映射中的每个神经元与全连接层的每个神经元相连接，再将2维特征映射转换成固定长度的1维特征向量，提取CNN模型中第二个全连接层的输出作为超声图像的特征向量。

本发明的其中一个实施例包括，所述获得词序列特征向量具体包括：将第个时间步得到的词用一个one-hot向量表示，向量的大小为词库的大小，向量中的每一个位代表词库中的一个词，然后利用投影矩阵，将词的one-hot向量转换到和超声图像的特征向量相同的特征空间表示。

本发明的其中一个实施例包括，所述训练LSTM模型包括，在-1时间步输入超声图像的特征向量，其余每个时间步的LSTM产生对下一个词的预测概率值，利用该概率值得到每个时间步的损失函数，根据公式将每个时间步的损失函数相加，得到LSTM模型的损失函数，最小LSTM模型的损失函数对应的LSTM模型为训练好的LSTM语言模型，其中，I表示超声图像，S表示描述超声图像的句子，N表示描述句子的长度，p_t(S_t)表示在t时间步时输入第t个词S_t在经过LSTM模型后，得到词库中词可能为下一个词的概率值。

本发明还提供一种超声图像自动化理解生成系统，包括：图像预处理模块、CNN模型、特征向量生成模块、模型训练模块、LSTM模型，图像预处理模块获取超声图像并进行预处理；CNN模型提取超声图像特征，得到固定长度的超声图像特征向量；分词工具将超声图像对应的描述句子进行分词，拆分成由词组成具有固定序列的分词，每个时间步得到的分词用一个独热编码one-hot向量表示，根据one-hot向量获得词序列特征向量；模型训练模块输入超声图像的特征向量和的词序列特征向量训练LSTM语言模型；LSTM语言模型将输入的超声图像特征向量在每个时间步产生多个图像描述候选句子，根据概率估计产生描述超声图像的句子。

本发明用训练好的CNN模型直接对超声图像进行特征提取，可以很好的捕捉超声图像中难以捕捉到的病理特征；同时将超声图像和描述超声图像内容的文本内容作为训练对，然后将提取的特征直接作为LSTM语言模型的输入，直接用得到的图像特征和词特征作为训练样本对，用来训练LSTM模型，对超声图像中病变程度、病变部位等等特征的捕捉也有很好的效果；最后生成适合描述超声图像内容的句子。CNN模型逐层从图像底层最原始的像素特征进行抽象，最终得到适合表达图像的特征，这种特征可以很好的弥补人类感知图像和机器感知图像之间“语义鸿沟”的问题。同时将超声图像和描述超声图像内容的文本内容作为训练对，用来训练LSTM模型，可以很好的解决传统图像主题描述自动生成中病情新的组合情况出现这种问题。

附图说明

图1为本发明具体模型框架图；

图2为本发明训练CNN模型在验证集上准确率的变化以及误差的变化情况。

具体实施方式

以下针对附图对本发明的实施作具体说明。

图1为本发明具体模型框架图，主要包括：CNN模型和长短期记忆(LSTM)模型。具体为，一种超声图像自动化理解生成系统，包括：图像预处理模块、CNN模型、特征向量生成模块、模型训练模块、LSTM模型，图像预处理模块获取超声图像并进行预处理；CNN模型提取超声图像的特征，得到固定长度的超声图像特征向量；分词工具生成模块将超声图像对应的描述句子拆分成由词组成具有固定序列的分词，每个时间步得到的词用一个独热编码one-hot向量表示，根据one-hot向量获得词序列特征向量；模型训练模块用超声图像的特征向量和词序列特征向量作为输入训练LSTM模型得到LSTM语言生成模型；LSTM语言生成模型将输入的超声图像特征向量在每个时间步产生多个合适的句子，根据概率估计产生描述超声图像的句子。

提取超声图像并进行预处理操作，利用训练好的卷积神经网络(CNN)模型，对超声图像进行特征提取，通过CNN模型提取的特征可以很好的捕获超声图像中复杂变化的特征，而且CNN模型直接从图像底层的像素特征逐层进行特征提取，这种特征提取方式和人类感知图像的方式十分相似，因此用这种方法进行特征提取可以很好的解决人类感知图像和机器感知图像之间“语义鸿沟”的问题。将超声图像和对应的描述超声图像内容的文本作为训练对，输入长短期记忆(LSTM)模型训练LSTM语言生成模型，通过上述训练可以很好的解决无法捕获超声图像中病变位置、病变程度等特征信息以及对新获得的超声图像中全新病理情况组合可能会得到新的内容描述等问题。

LSTM模型训练模块用超声图像的特征向量和词序列特征向量作为输入。提前在-1时间步会输入一次超声图像的特征向量X_i，然后通过一个映射矩阵W_s，将超声图像的特征向量X_i映射成低维的特征向量W_sX_i。然后LSTM模型在t≥0的每个时间步输入分别来自上一时间步t-1中间隐层记忆单元的激活函数的输出值，以及当前t时间步第t个词的特征向量S_t，由于原始词的特征向量S_t为one-hot向量，与超声图像的特征向量具有不同的特征空间，故先利用一个投影矩阵W_e，将one-hot向量转换到与超声图像相同的特征空间W_eS_t。本发明中，在除了-1时间步外，每个时间步t的LSTM模型都会得到词库中每个词可能为下一个词的概率值p_i，然后对该概率值取对数可以得到每个时间步t的损失函数，根据公式将每个时间步的损失函数相加，就得到整个LSTM模型的损失函数L(S,I)。然后通过随机梯度优化算法，最小化损失函数。

下面以具体实例详细说明本发明的技术方案。

图像预处理操作。将所有图像的尺寸进行缩放，使其成统一的大小，然后进行去均值操作。图像提取模块获取训练集超声图像，根据CNN模型的精度要求调整所有训练集超声图像的大小，所有超声图像调整为适合CNN模型要求输入的图像大小。根据精度要求，可以有不同的设置要求，然后可进一步对调整大小后的超声图像的每个像素通道的像素值再做减均值操作。

特征提取。用预训练好的CNN模型对经过预处理的超声图像进行特征提取。从超声图像最原始的像素特征开始，利用预训练好的CNN模型中一系列的卷积和池化操作，逐层对超声图像进行特征提取，逐渐形成对超声图像具有更好描述的、更为高层的、更抽象的2维特征映射。完成所有的卷积和池化操作后，将超声图像2维特征映射中的每个神经元与全连接层的每个神经元相连接，再将这些2维特征映射转换成固定长度的1维特征向量，提取CNN模型中第二个全连接层的输出作为超声图像的特征向量。

生成词特征向量。分词工具将超声图像对应的描述句子拆分成由词组成具有固定序列的词序列，每个时间步得到的词用一个独热编码one-hot向量表示，如第t个时间步的向量表示为S_t。向量S_t的大小为词库的大小，向量中的每一个位代表词库中的一个词，在向量的分量中，只有一个为1，其余全为0。例如：词序列中第t个位置的词在词库中位置是i，则在one-hot向量S_t中对应第i个位置用1标记，其余位置全标记为0。然后利用投影矩阵W_e，将词的one-hot向量S_t映射到与超声图像特征向量相同的特征空间。

训练LSTM模型。模型训练模块用超声图像的特征向量和词序列特征向量作为输入。不同于传统的神经网络模型的输入，在-1时间步只输入一次超声图像的特征向量X_i，LSTM模型在每个时间步t≥0的输入，分别来自上一时间步t-1中间隐层记忆单元的激活函数的输出值以及当前时间步t第t个词的特征向量S_t。本发明中，在除了-1时间步外，每个时间步t的LSTM都会得到词库中每个词可能为下一个词的概率值，利用该概率值可以得到每个时间步t的损失函数，根据公式将每个时间步的损失函数相加，就得到整个LSTM模型的损失函数L(S,I)。通过随机梯度优化算法，最小化LSTM模型的损失函数，得到可以直接产生描述超声图像句子的语言模型。其中I表示超声图像，S表示描述超声图像的句子，N表示描述句子的长度，p_t(S_t)表示在t时间步时输入第t个词S_t在经过LSTM模型后，得到词库中每个词可能为下一个词的概率值。

生成描述新超声图像内容的句子。内容描述单元将特征向量生成模块生成的特征向量输入到训练好的LSTM语言模型，利用束搜索法，在t时间步产生多个合适的句子，内容描述单元将特征向量生成模块生成的特征向量输入到训练好的LSTM语言模型。然后在每个时间步利用包含超声图像内容信息的特征向量以及之前时间步得到的用于描述图像内容的若干个子句，自动得到一个包含词库中每个词可能出现的概率的向量，将子句与当前时间步生成的词进行拼接，得到新的子句，每个时间步会产生多个子句，组成子句的词的概率相乘得到子句的得分，利用束搜索方法，从中选择得分最高的子句作为候选句子，一直不停的迭代，直到句子长度达到最大长度或者遇到结束符为止。从最后一个时间步产生的所有句子中，根据公式S＝argmax_S'p(S'|I)，选中一个使得概率估计P(S'|I)近似最大，具有最好的概率估计句子，为产生最适合描述该幅超声图像的句子。其中s'表示LSTM模型生成描述图像I的句子，p(S'|I)表示生成的每个句子的得分，S表示得分最高的最适合描述超声图像内容的句子。

图2为本发明训练CNN模型在验证集上准确率的变化(左)以及误差的变化情况(右)。从右图中可以看出，整个CNN模型在经过5000多次训练以后在验证集上的误差率基本稳定在0.6左右；而从左图中可以看到，最后训练好的CNN模型在验证集上的准确率可以达到88.0％左右。

综上所述，本发明提出的一种超声图像自动化理解生成方法，不但可以很好的捕获超声图像中复杂的病理特征，而且还可以适用于许多其它全新病理情况组合的超声图像中；本发明提出的一种超声图像自动化理解生成方法，步骤清晰，针对性强；本发明提出的一种超声图像自动化理解生成方法，操作简单，易理解。

以上所述为本发明的较佳实例，并不用于限定本发明的保护范围。凡在本发明的原则之内，任何熟悉本领域的技术人员作出的修改、同等替换和改进，都应视为包含在本发明的保护范围内。

Claims

1.一种超声图像自动化描述生成方法，其特征在于，包括：获取超声图像并进行预处理；CNN模型提取超声图像的特征，得到固定长度的超声图像特征向量；将超声图像对应的描述句子用分词工具进行分词，将分词用独热编码one-hot向量表示，根据one-hot向量获得词序列特征向量；利用超声图像特征向量和对应的词序列特征向量训练LSTM语言模型；将超声图像特征向量输入训练好的LSTM语言模型，在每个时间步生成描述超声图像的词，将当前时间步及之前时间步得到的词进行拼接，直到句子长度达到最大长度或者遇到结束符为止，得到描述超声图像的若干个子句，利用束搜索方法，根据公式S＝arg max_S'p(S'|I)，选中一个使得概率估计P(S'|I)最大对应的句子，为描述该幅超声图像的句子。

2.根据权利要求1所述的方法，其特征在于，所述对超声图像做预处理具体包括，图像提取模块获取超声图像，根据CNN模型的要求调整所有超声图像的大小，对调整后的超声图像的每个像素通道的像素值做减均值操作。

3.根据权利要求1所述的方法，其特征在于，所述通过CNN模型对超声图像进行特征提取具体包括，CNN模型从超声图像最原始的像素特征开始，进行一系列的卷积和池化操作，逐层对超声图像进行特征提取，形成超声图像2维特征映射，将超声图像2维特征映射中的每个神经元与全连接层的每个神经元相连接，再将2维特征映射转换成固定长度的1维特征向量，提取CNN模型中第二个全连接层的输出作为超声图像的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述获得词序列特征向量具体包括：将第个时间步得到的词用一个one-hot向量表示，向量的大小为词库的大小，向量中的每一个位代表词库中的一个词，然后利用投影矩阵，将词的one-hot向量转换到和超声图像的特征向量相同的特征空间表示。

5.根据权利要求1所述的方法，其特征在于，所述训练LSTM语言模型包括，在-1时间步向LSTM语言模型输入超声图像的特征向量，其余每个时间步产生对下一个词的预测概率值，利用该概率值得到每个时间步的损失函数，根据公式将每个时间步的损失函数相加，得到LSTM语言模型的损失函数，最小损失函数对应的LSTM语言模型为训练好的LSTM语言模型，其中，I表示超声图像，S表示描述超声图像的句子，N表示句子的长度，p_t(S_t)表示在t时间步产生的概率值。

6.一种超声图像自动化描述生成系统，其特征在于，包括：图像预处理模块、CNN模型、特征向量生成模块、模型训练模块、LSTM模型，图像预处理模块获取超声图像并进行预处理；CNN模型提取超声图像特征，得到固定长度的超声图像特征向量；分词工具将超声图像对应的描述句子进行分词，拆分成由词组成具有固定序列的分词，每个时间步得到的分词用一个独热编码one-hot向量表示，根据one-hot向量获得词序列特征向量；模型训练模块输入超声图像的特征向量和的词序列特征向量训练LSTM语言模型；LSTM语言模型将输入的超声图像特征向量在每个时间步产生多个图像描述候选句子，根据概率估计产生描述超声图像的句子。

7.根据权利要求6所述的系统，其特征在于，所述对超声图像做预处理具体包括，图像提取模块获取超声图像，根据CNN模型的要求调整所有超声图像的大小，对调整后的超声图像的每个像素通道的像素值做减均值操作。

8.根据权利要求6所述的系统，其特征在于，所述通过CNN模型对超声图像进行特征提取具体包括，CNN模型从超声图像最原始的像素特征开始，进行一系列的卷积和池化操作，逐层对超声图像进行特征提取，形成超声图像2维特征映射，将超声图像2维特征映射中的每个神经元与全连接层的每个神经元相连接，再将2维特征映射转换成固定长度的1维特征向量，提取CNN模型中第二个全连接层的输出作为超声图像的特征向量。

9.根据权利要求6所述的系统，其特征在于，所述获得词序列特征向量具体包括：特征向量生成模块将第t个时间步得到的词用一个one-hot向量S_t表示，向量S_t的大小为词库的大小，向量中的每一个位代表词库中的一个词，然后利用投影矩阵，将词的one-hot向量转换到和超声图像的特征向量相同的特征空间表示。

10.根据权利要求6所述的系统，其特征在于，其特征在于，所述训练LSTM模型进一步包括，在-1时间步输入超声图像的特征向量，其余每个时间步t的LSTM产生对下一个词的预测概率值，利用该概率值得到每个时间步的损失函数，根据公式将每个时间步的损失函数相加，得到LSTM模型的损失函数，最小化LSTM模型的损失函数，得到描述超声图像句子的语言模型，其中，I表示超声图像，S表示描述超声图像的句子，N表示描述句子的长度，p_t(S_t)表示在t时间步产生的概率值。