CN116740688A

CN116740688A - 一种药品识别方法和系统

Info

Publication number: CN116740688A
Application number: CN202311008681.1A
Authority: CN
Inventors: 魏力; 王巍; 郑芳; 陈辰; 张韶辉
Original assignee: Wuhan Hospital Of Traditional Chinese And Western Medicine
Current assignee: Wuhan Hospital Of Traditional Chinese And Western Medicine
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-09-12
Anticipated expiration: 2043-08-11
Also published as: CN116740688B

Abstract

本发明公开了一种药品识别方法和系统，构建基于卷积神经网络的药品识别模型；将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品。本发明采用多种网络模型相结合的算法对药品进行识别，通过本发明可以对图片严重模糊、文字变形、文本图片前景与背景相似等药品可以很精确地处理并识别出药品信息。

Description

一种药品识别方法和系统

技术领域

本发明属于文本识别技术领域，具体涉及一种药品识别方法和系统。

背景技术

药品识别技术作为一种基于人类智能技术的药品信息管理工具，已经得到了广泛应用，目前，国内许多医院和药店应用药物来认识和管理药品信息，提高药品安全和服务质量。药品识别技术可以帮助用户快速查找并获得药品标签信息的信息，通过各类药品信息资源，实现药品信息的快速检测和智能推荐等功能。

文本识别技术是药品识别的核心技术之一，药品信息的采集和整合是，药品识别技术研究的基础。应用各种数据统计和数据挖掘技术获取药品信息并对其进行整合和归类，以方便后续的药品识别和监控。

目前，药品识别技术主要包括图像识别、文本识别。图像识别是指通过图像信息来进行药品识别，主要应用于扫描枪等设备上。文本识别是指通过文本信息来进行药品识别，主要应用于药品信息管理系统和药品监控平台规范等。但在一些具有挑战的复杂场景情况下，例如图片严重模糊、文字变形、文本图片前景与背景相似等，部分药品识别方法可能会显现出一些缺点，不能很精确地识别出药品信息。

发明内容

为了提高药品识别的精度和效率，本发明提出一种药品识别方法和系统，实现本发明目的之一的一种药品识别方法，包括如下步骤：构建基于卷积神经网络的药品识别模型；

将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品。

实现本发明目的之二的一种药品识别系统，包括药品识别模型构建模块和模型训练模块，所述药品识别模型构建模块用于构建基于卷积神经网络的药品识别模型；所述模型训练模块用于将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品。

本发明的有益效果至少包括：

1、本发明通过对设备采集得到的图片进行数据增强操作，选取具有代表性和多样性的样本进行训练，可以提高模型的精度；

2、本发明使用特征金字塔结构和ResNet对输入图像进行操作，并引入新模块REM来减小检测的误差；

3、本发明将检测到的文本实例输入双向长短期记忆网络并采用CTC Loss进行模型优化，优化了文本排列问题；

4、本发明提供了一种减小检测误差模块REM，对检测到的文本边界框区域进行特征提取，然后使用一系列反卷积层来进行上采样操作，采用空间注意力机制来计算特征图不同位置的权重，根据文本位置和边界框信息来自适应地调整不同位置的特征权重，对新的文本图像进行检测，并通过与训练数据的对比来确定文本位置，通过调整加权系数来进一步减小误差；

5、本发明对于每一行文本，利用欧几里得距离来计算其中每两个字符之间的距离，然后根据距离将字符分为不同的组别，通过对它们的位置和大小进行调整，在得到优化后的字符组别后，将它们组合成文本行，进一步优化了识别结果。

附图说明

图1是本发明所述的实施例的流程图；

图2是本发明实施例的检测模型示意图；

图3是本发明实施例所述的文本实例示意图。

具体实施方式

下列具体实施方式用于对本发明权利要求技术方案的解释，以便本领域的技术人员理解本权利要求书。本发明的保护范围不限于下列具体的实施结构。本领域的技术人员做出的包含有本发明权利要求书技术方案而不同于下列具体实施方式的也是本发明的保护范围。

本申请实施例包括一种药品识别方法，具体包括如下步骤：

步骤一、构建基于卷积神经网络的药品识别模型；

步骤二、将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品。

上述技术方案中，还包括对训练集中的药盒外观图像进行数据增强，得到更多药盒的外观图像，具体步骤包括：

S1：通过摄像头或其他图像采集设备获取多个药盒的外观图像，对采集得到药品图像进行数据增强处理，得到更多药盒的外观图像；所述数据增加处理方法是一种基于合成文本的方法，利用药盒图片数据的背景和字体来进行合成。具体步骤包括：

S11：利用语义理解方法从每个药盒的外观图像抽取出其中的实体和关系信息，所述实体即药盒的外观图像中的文本区域和背景，关系信息是抽取出的文本区域中的文本间的语义关系；

S12：根据抽取出的实体和关系信息，采用基于字形变换、字体变换和布局变换等方式，对文本进行扰动和变换，生成新的文本图像样本，以获得更加多样化的数据；

S13：采用基于分类器置信度、相似性度量和样本多样性等指标，对生成的新的文本图像样本进行评估和排序，选取最具代表性和多样性的样本用于训练；

S14：将上一步骤中选取出的样本和原始样本进行混合得到更多药盒的外观图像，其作为训练集，用于药品识别模型的训练。

上述技术方案中，所述药品识别模型包括文本检测模块和文本识别模块；所述文本检测模块基于特征金字塔结构和ResNet网络，用于根据药盒的外观图像得到药盒上的用文本检测框标示的文本图像；所述文本识别模块基于CNN和Bi-LSTM网络，其用于根据文本图像得到药盒上的文本。

如图2所示，文本检测模块使用特征金字塔FPN结构，采用ResNet骨干网络对每个原始样本进行自下而上的卷积操作和自上而下的上采样，得到多尺度特征图，将输出的多尺度特征图进行融合得到融合后的特征图，其包括局部的字体边缘信息或者是全局的语义信息，如图3所示，具体包括如下步骤：

S21：连续对每个原始样本进行多个卷积操作，得到尺寸比分别为原始图像的1/2、1/4、1/8和1/16的特征图；

S22：如图2所示，对每个原始样本采用ResNet骨干网络进行多个自下而上的下采样卷积操作；利用特征金字塔（FPN）结构对ResNet骨干网络每一层的输出进行自上而下的上采样操作，并进行横向融合，将每一层输出的特征图融合起来，得到融合后的特征图，融合后的特征图为带有文本检测框的图像。

上述技术方案中，为了处理一行文本可能出现多个检测框的情况，在文本检测模块中加入REM（Reduce Error Module）模块，得到优化后的特征图，所述优化后的特征图将同一行中的文本检测框进行了删除或连接，使得一行完整的文本在一个检测框中，如图3所示，一行文本所在的文本检测框形成一个文本实例；具体包括如下步骤：

S31：利用REM模块中的回归算法对文本检测模块输出的融合后的特征图进行回归操作得到文本检测框的边界框区域，对边界框区域采用反卷积层进行上采样操作，得到回归操作后的特征图，所述回归操作后的特征图标示有文本区域的位置和形状估计结果；

S32：采用REM模块中的空间注意力机制来计算回归操作后的特征图不同位置的特征权重，根据其中文本区域的位置来自适应地调整不同位置的特征权重，得到权重特征图；

S33：对权重特征图再次进行回归操作，并根据各个位置的特征权重对权重特征图中的特征向量进行加权求和，得到一个总特征向量，对总特征向量进行回归操作得到一个合并的检测框，可使文本检测结果更加精确；

上述步骤S33中，每个小检测框对应不同的特征权重（以向量的形式存在，也就是特征向量），对这些小检测框的特征向量计算一个权重系数，用于调整其重要性；对这些小检测框的特征向量采用不同的系数进行加权，合并出大检测框的向量，也就表示特征（也就可以回归出最后的检测框了）。

上述技术方案中，基于CNN 网络和Bi-LSTM网络的文本识别模块将文本检测模块输出的优化后的特征图进行文本识别，得到识别的文字；具体步骤包括：

S41：使用CNN提取文本检测模块输出的每个优化后的特征图的原始特征向量；所述原始特征向量即相当于原图中的一个小矩形区域；

S42：将提取的原始特征向量输入到前向和后向LSTM中，并在LSTM中间的每个时间步长输出中间向量；

S43：将每个时间步长输出的中间向量和对应的原始特征向量连接形成新的向量，所述新的向量表示当前时间的文本特征；

S44：将得到的新的向量输入到Bi-LSTM网络的全连接层进行分类，使每个新的向量包含类别分数，所述类别分数用于对文本进行更精确的识别；

S45：将所述新的向量输入CTC Loss函数进行对齐调整，得到药盒上的文本。

上述步骤S45是为了解决文本实例的输入和识别结果的输出的对齐问题，将CTCLoss（Connectionist Temporal Classification）函数引入文本识别模型训练中，对文本识别模块进行优化，以调整输出的文字；所述CTC Loss是一种用于解决时序数据分类问题的损失函数；具体包括如下步骤：

S51：计算由REM模块输出的文本实例{s,z}的条件概率p(z|x)；z是目标识别结果；x是输入的待识别的文本实例，由输入的待识别的文本实例x预测到目标识别结果z的过程称为路径；在文本识别中路径即给定一个单词，从单词中的第一个字母识别到最后一个字母的一个过程。CTC Loss是处理这个识别过程中可能识别重复或少识别的问题。

S52：利用下式计算概率p(z|x)，其中β^-1是所有路径集合的映射函数；

，

,/>，

式中：

z：表示目标识别结果；

x：表示给定输入待识别的文本实例x；

α：表示增加blank标签后的路径；blank标签，即字符“-”，用来解决重复字符(eg.hello)或字符间存在空白区域的识别问题而引入的无用字符；路径表示的是二维字符数组中从第一列到最后一列的移动路线，二维数组的横坐标表示字符集合(包含伪字符)，纵坐标表示时间序列，坐标值表示当前位置的概率值；

L表示增加blank标签后的所有路径集合；

t表示时间序列；

表示当前位置的概率值，上标t表示时间序列，下标α_t表示当前时刻的字符值；

：表示字符集合；

p(α|x)：表示，输出路径α的概率，即从时间t=1到T每个时间点的概率y相乘。

本步骤中将CTC Loss函数与步骤S44中所述的全连接层连接在一起，对S44所述的类别分数上的每个特征向量所做的预测转换成标签序列，从而更好地解决文本识别中的排列问题。

上述技术方案中，为了进一步提高识别的准确性，还包括以下的后处理操作，具体步骤包括：

S61：对于文本识别模块输出的识别结果中的每一行文本，利用欧几里得距离来计算每两个前后相邻的字符之间的距离，包括前后相邻字符之间的横向距离或上下相邻字符的竖向距离。

式中：(x,y)代表字符的中心点坐标。

S62：根据相邻字符之间的距离，我们将字符分为不同的组别。如果两个相邻字符之间的横向距离或竖向距离小于设定的阈值，我们就将它们划分到同一组中。通过这种方式，我们可以将同一行文本中字符之间的距离小于设定阈值的相邻的字符分到同一组中，从而得到更为准确的字符分组结果；分组的目的是用于更好的识别药盒上不同字体的文字差异，如英文药名中不同单词的间隔和同一单词的字母间隔不一样；

S63：对于每一组中的字符，通过对它们的位置和大小进行调整，缩小每一组文本中间隔大于设定阈值的相邻字符的距离，即重新定位另一字符的中心点坐标，得到优化了字符间距后的字符组别；

S64：将优化了字符间距后的每一组字符组别中的字符逐一组合成文本行，所述文本行为最终识别出的药盒外观图像对应的药品信息。

为了验证本发明所述方法的优越性，在两个数据集MSRA-TD500和Total Text进行消融实验，以比较使用新模块REM和不使用它的实验结果，以验证我们提出的模块的有效性。如表1和表2所示，与不使用REM相比，使用REM时，准确性和性能率都会得到提高。在MSRA-TD500和Total Text数据集中，F测量值分别提高了1.2%和0.8%，性能率也略有提高。

表1 REM模块在MSRA-TD500上进行的消融实验结果

表2 REM模块在Total Text上进行的消融实验结果

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例还包括一种药品识别系统，包括药品识别模型构建模块和模型训练模块，所述药品识别模型构建模块用于构建基于卷积神经网络的药品识别模型；所述模型训练模块用于将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种药品识别方法，其特征在于，包括如下步骤：

构建基于卷积神经网络的药品识别模型；

将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品；

还包括对训练集中的药盒外观图像进行数据增强，得到更多药盒的外观图像；

所述数据增强的步骤包括：

S11：利用语义理解方法从每个药盒的外观图像中抽取出实体和关系信息，所述实体即药盒的外观图像中的文本区域和背景，所述关系信息为抽取出的文本区域中的文本间的语义关系；

S12：根据抽取出的实体和关系信息，采用包括基于字形变换、字体变换和布局变换的方式，对文本进行扰动和变换，生成新的图像样本，以获得更加多样化的数据；

S13：采用包括基于分类器置信度、相似性度量和样本多样性指标，对生成的新的图像样本进行评估和排序后从中选取多个图像样本；

S14：将上一步骤中选取出的文本图像样本和药盒的外观图像进行混合得到更多药盒的外观图像。

2.如权利要求1所述的药品识别方法，其特征在于，所述药品识别模型包括文本检测模块和文本识别模块；所述文本检测模块基于特征金字塔结构和ResNet网络，用于根据药盒的外观图像得到药盒上的用文本检测框标示的文本图像；所述文本识别模块基于CNN和Bi-LSTM网络，其用于根据文本图像得到药盒上的文本。

3.如权利要求２所述的药品识别方法，其特征在于，所述文本检测模块还包括REM模块，其用于删除或连接同一行文本中的文本检测框，使一行完整的文本只存在于一个文本检测框中。

4.如权利要求3所述的药品识别方法，其特征在于，利用REM模块删除或连接同一行文本中的文本检测框的方法包括：

S31：利用REM模块中的回归算法对文本检测模块输出的特征图进行回归操作得到文本检测框的边界框区域，对边界框区域采用反卷积层进行上采样操作，得到回归操作后的特征图，所述回归操作后的特征图标示有文本区域的位置和形状估计结果；

S32：采用REM模块中的空间注意力机制来计算回归操作后的特征图不同位置的权重，根据其中文本区域的位置自适应调整不同位置的特征向量的特征权重，得到权重特征图；

S33：对权重特征图再次进行回归操作，根据权重特征图中的各个位置的特征权重对其对应的特征向量进行加权求和，得到一个总特征向量，对总特征向量进行回归操作得到一个合并的检测框。

5.如权利要求2所述的药品识别方法，其特征在于，所述文本识别模块得到药盒上的文字的方法包括：

使用CNN网络提取文本检测模块输出的文本图像的原始特征向量；

将提取的原始特征向量输入到Bi-LSTM网络中，Bi-LSTM网络在每个时间步长输出中间向量；

将每个时间步长输出的中间向量和对应的原始特征向量连接形成新的向量，所述新的向量表示当前时间的文本特征；

将所述新的向量输入CTC Loss函数进行对齐调整，得到药盒上的文本。

6.如权利要求5所述的药品识别方法，其特征在于，得到药盒上的文本后还包括如下步骤：

S61：对于药盒上的每一行文本，利用欧几里得距离来计算每两个相邻的字符之间的距离，包括前后相邻字符之间的横向距离或上下相邻字符的竖向距离；

S62：根据相邻字符之间的距离将字符分为不同的组别；每一组中的两个相邻字符之间的横向距离或竖向距离在设定范围内；

S63：对于每一组别中的字符，根据其位置和大小缩小每一组别中的文本中间隔大于设定阈值的相邻字符的间距，得到优化了字符间距的字符组别；

S64：将优化了字符间距的每一字符组别中的字符逐一组合成文本行，所述文本行即为最终识别出的药盒外观图像对应的药品信息。

7.一种如权利要求1所述方法的药品识别系统，其特征在于，包括药品识别模型构建模块和模型训练模块，所述药品识别模型构建模块用于构建基于卷积神经网络的药品识别模型；所述模型训练模块用于将多份药盒外观图像及对应的药品信息作为训练集对所述模型进行训练，得到训练完成的药品识别模型；所述药品识别模型用于根据药盒的外观图像得到药盒上的文本，从而识别药品。

8.如权利要求7所述的药品识别系统，其特征在于，所述药品识别模型包括文本检测模块和文本识别模块；所述文本检测模块基于特征金字塔结构和ResNet网络，用于根据药盒的外观图像得到药盒上的用文本检测框标示的文本图像；所述文本识别模块基于CNN和Bi-LSTM网络，其用于根据文本图像得到药盒上的文本。