CN113920335A

CN113920335A - 基于深度学习的图像和文本嵌入的药物标签识别方法

Info

Publication number: CN113920335A
Application number: CN202111167848.XA
Authority: CN
Inventors: 陈勇; 刘念; 朱芳军
Original assignee: Suzhou Lengwang Network Technology Co ltd
Current assignee: Suzhou Lengwang Network Technology Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-11

Abstract

本发明公开了基于深度学习的图像和文本嵌入的药物标签识别方法，包括步骤：获取药物标签信息数据，标签信息数据包括药品图片信息；结合光学字符识别方式提取输入的药品图片信息，光学字符识别使用Tesseract OCR引擎完成图像文本的识别和提取；基于相似度模块处理提取的图片文本信息；基于相似度模块处理提取的图片内容；基于图片内容文本识别结果整合模块将分别获得的相似度排名靠前的K张图片进行比较，并在比较后进行模型训练。本发明使用图片内容信息和图像文本识别信息相结合的方法提高了判断的准确性，提高了调查人员的工作效率。

Description

基于深度学习的图像和文本嵌入的药物标签识别方法

技术领域

本发明涉及医疗图像文本识别领域，具体为基于深度学习的图像和文本嵌入的药物标签识别方法。

背景技术

不合法、未经批准、假冒和具有潜在风险的药品会对医疗患者造成严重的危害，法律在药品监管方面的作用有限且取决于人们对法律的遵守程度。目前针对违法违禁药品的核查需要人工输入药品名称进行查验且非常依赖历史违法查验记录库，此外无法对违法药品名称记录库之外的药品给出即时的判断，对于记录库外的药品进行调查往往需要较多时间，这会大大降低调查人员的效率。对于监管调查人员而言，如何针对违法药品记录库之外的药品即刻做出是否调查的决定是非常复杂的问题。

目前基于深度学习的图像识别技术已经较为成熟，通过比较图片内容相似度可以对违规药品图片进行识别，但是由于已有的违规药品的数据集较小且基于图像内容的相似性分析对环境要求较高，不适宜仅采用图片内容检索的方式，采用文本识别的方式通过识别图片中的药品名称等文本信息，通过比较文本相似度来进行是否调查的决策更为可行，目前被工业界主要使用的文本识别引擎为Tesseract OCR，但是在面对不同背景的文本识别情况下仍然存在较大问题。因此，如何设计出较好利用图片和文本信息的药品标签识别方法是一件非常困难的事情。

发明内容

本发明的目的在于提供基于深度学习的图像和文本嵌入的药物标签识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于深度学习的图像和文本嵌入的药物标签识别方法，包括步骤：

S1：获取药物标签信息数据，标签信息数据包括药品图片信息；

S2：结合光学字符识别方式提取输入的药品图片信息，光学字符识别使用Tesseract OCR引擎完成图像文本的识别和提取；

S3：基于相似度模块处理提取的图片文本信息；

S4：基于相似度模块处理提取的图片内容；

S5：基于图片内容文本识别结果整合模块将分别获得的相似度排名靠前的K张图片进行比较，并在比较后进行模型训练。

优选的，S2中在对图片进行Tesseract OCR引擎处理前还通过CTPN网络结构对图片背景进行一致化处理。

优选的，S3中将经CTPN和OCR已经识别出来每一张图片的有效信息，将有效信息进行嵌入编码得到向量并和参考数据集中的图片标签向量进行余弦相似度计算，余弦相似度计算：Similarity(A,B)＝A.B/||A||.||B||,A和B分别代表一个句子，通过找到相似度排名前K张图片和相对应的药物标签。

优选的，S4中使用感知哈希算法对图片的相似度进行比较，感知哈希采用离散余弦的变换来获得图像低频部分，通过感知哈希计算出图片哈希值后，比较哈希值的汉明距离，若为0，则表示两张图片非常相似从而得到相似度排名前K张图片和相对应的药物标签。

优选的，S5中通过设置指标精确率P@K以表示检索到的药物标签与测试药物标签具有相同标签的药物标签的比例，其中P1@K表示仅仅使用图片内容相似度所得到的标签识别精确率，P2@K表示使用图片文本信息嵌入所计算出的相似度得到的标签识别精确率，使用P@K＝0.5*P1@K+0.5*P2@K的指标计算方法。

优选的，S5中待模型训练完毕之后，针对输入药物图片所示药品给出准确的是否需要调查的判断，并将输入药物图片分类标签结果在人为核验之后加入参考数据集，对参考数据集进行更新。

与现有技术相比，本发明的有益效果是：

本发明利用图片的内容信息和文本信息对图像进行标签识别，相对于仅使用图片内容相似度检索图片从而获得图片标签的方法而言，大大提高了药物标签识别的准确性；而且能够较短时间内给出某图片表示的药品是否需要进行调查的判断，使用图片内容信息和图像文本识别信息相结合的方法提高了判断的准确性，提高了调查人员的工作效率，参考图片数据集在可以药品图片不断的传入过程中被不断更新，保证了时效性；同时本发明对检索出来的图片人工核验之后加入参考数据集，可以进一步可以提高方法的准确性和领域适用性。

附图说明

图1为本发明方法的逻辑框图；

图2为本发明实施例中CTPN的模型架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：基于深度学习的图像和文本嵌入的药物标签识别方法，包括步骤：

S3：基于相似度模块处理提取的图片文本信息；

S4：基于相似度模块处理提取的图片内容；

在本实施例中，S2中在对图片进行Tesseract OCR引擎处理前还通过CTPN网络结构对图片背景进行一致化处理。CTPN主要包括VGG16和双向LSTM，最后经过全连接层得到图片不同信息的分块，使用光学字符识别将这些不同块中的图像文本信息进行提取，完成图像文本的识别和提取。

在本实施例中，S3中将经CTPN和OCR已经识别出来每一张图片的有效信息，将有效信息进行嵌入编码得到向量并和参考数据集中的图片标签向量进行余弦相似度计算，余弦相似度计算：Similarity(A,B)＝A.B/||A||.||B||,A和B分别代表一个句子，通过找到相似度排名前K张图片和相对应的药物标签。

在本实施例中，S4中使用感知哈希算法对图片的相似度进行比较，感知哈希采用离散余弦的变换来获得图像低频部分，通过感知哈希计算出图片哈希值后，比较哈希值的汉明距离，若为0，则表示两张图片非常相似从而得到相似度排名前K张图片和相对应的药物标签。

在本实施例中，S5中通过设置指标精确率P@K以表示检索到的药物标签与测试药物标签具有相同标签的药物标签的比例，其中P1@K表示仅仅使用图片内容相似度所得到的标签识别精确率，P2@K表示使用图片文本信息嵌入所计算出的相似度得到的标签识别精确率，使用P@K＝0.5*P1@K+0.5*P2@K的指标计算方法。

在本实施例中，S5中待模型训练完毕之后，针对输入药物图片所示药品给出准确的是否需要调查的判断，并将输入药物图片分类标签结果在人为核验之后加入参考数据集，对参考数据集进行更新。

在本实施例中，本发明的方法是通过对于输入的药品图片首先使用场景文本检测与识别结合光学字符识别方法提取得到输入药品图片中的信息，然后使用基于文本相似度的方法将图片文本信息表示的向量与参考数据集中图片的标签向量进行余弦相似度计算，从而找到相似度最高的K个候选图片，接着将输入药物图片使用基于图片内容的相似度识别方法从参考数据集中找到相似度最高的K个候选图片，然后将两种方式所得结果与图片标签进行比对，给出是否调查和是否更新参考数据集的判断。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习的图像和文本嵌入的药物标签识别方法，其特征在于，包括步骤：

S2：结合光学字符识别方式提取输入的药品图片信息，光学字符识别使用TesseractOCR引擎完成图像文本的识别和提取；

S3：基于相似度模块处理提取的图片文本信息；

S4：基于相似度模块处理提取的图片内容；

2.根据权利要求1所述的基于深度学习的图像和文本嵌入的药物标签识别方法，其特征在于，所述S2中在对图片进行Tesseract OCR引擎处理前还通过CTPN网络结构对图片背景进行一致化处理。

3.根据权利要求1所述的基于深度学习的图像和文本嵌入的药物标签识别方法，其特征在于，所述S3中将经CTPN和OCR已经识别出来每一张图片的有效信息，将有效信息进行嵌入编码得到向量并和参考数据集中的图片标签向量进行余弦相似度计算，余弦相似度计算：Similarity(A,B)＝A.B/||A||.||B||,A和B分别代表一个句子，通过找到相似度排名前K张图片和相对应的药物标签。

4.根据权利要求1所述的基于深度学习的图像和文本嵌入的药物标签识别方法，其特征在于，所述S4中使用感知哈希算法对图片的相似度进行比较，感知哈希采用离散余弦的变换来获得图像低频部分，通过感知哈希计算出图片哈希值后，比较哈希值的汉明距离，若为0，则表示两张图片非常相似从而得到相似度排名前K张图片和相对应的药物标签。

5.根据权利要求1所述的基于深度学习的图像和文本嵌入的药物标签识别方法，其特征在于，所述S5中通过设置指标精确率P@K以表示检索到的药物标签与测试药物标签具有相同标签的药物标签的比例，其中P1@K表示仅仅使用图片内容相似度所得到的标签识别精确率，P2@K表示使用图片文本信息嵌入所计算出的相似度得到的标签识别精确率，使用P@K＝0.5*P1@K+0.5*P2@K的指标计算方法。

6.根据权利要求1所述的基于深度学习的图像和文本嵌入的药物标签识别方法，其特征在于，所述S5中待模型训练完毕之后，针对输入药物图片所示药品给出准确的是否需要调查的判断，并将输入药物图片分类标签结果在人为核验之后加入参考数据集，对参考数据集进行更新。