CN111783710B

CN111783710B - 医药影印件的信息提取方法和系统

Info

Publication number: CN111783710B
Application number: CN202010657780.2A
Authority: CN
Inventors: 常帅东; 周日贵
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-10-03
Anticipated expiration: 2040-07-09
Also published as: CN111783710A

Abstract

本发明公开了一种医药影印件的信息提取方法和系统，方法包含：将医药影印件文件转换成待识别电子文件；采用光学字符识别方法对所述待识别电子文件进行字符识别，得到电子文档和特征信息；根据所述特征信息对所述电子文档进行模糊分类；对经模糊分类处理的电子文档根据其所属的类别进行信息提取，得到初步提取结果；对初步提取结果进行纠错处理得到有效的电子文档；根据预设信息提取条件，对有效的电子文档进行第二次信息提取，得到关键信息；根据所述关键信息，对经有效的电子文档进行分类，得到分类结果，本发明可以实现在显著的减少人工成本的情况下具有更加精确的文字识别准确率，且能根据文本的特征自动识别并归类，达到统一化处理的目的。

Description

医药影印件的信息提取方法和系统

技术领域

本发明涉及文本处理技术领域，特别涉及一种医药影印件的信息提取方法和系统。

背景技术

数字化建设是近十年来国家大力推进的重点国家建设专项之一。对于医药行业来说，一个数据完善的数字平台对规范化管理，严格化监管都有着至关重要的作用。在现有的技术中，绝大部分是将种类繁多的文档资料进行人工扫描分类，并进行通篇OCR(OpticalCharacter Recognition，光学字符识别)处理为半结构化数据。进一步的数据整理依赖于人工提取过程，耗费巨大财力物力和人力。且现有的OCR技术在识别医药影印件文档时，因其不规范性，多样性和一些公章，印记等，识别效率低下，这往往又需要后期矫正，增加了人工成本。

发明内容

本发明的目的是提供一种医药影印件的信息提取方法和系统，能够实现自动扫描并进行OCR识别入库的系统和方法，可以在显著的减少人工成本的情况下具有更加精确的文字识别准确率，且能根据文本的特征自动识别并归类，达到统一化处理的目的。

为了实现以上目的，本发明通过以下技术方案实现：

一种医药影印件的信息提取方法，包含：

步骤S1、将医药影印件文件转换成待识别电子文件；

步骤S2、采用光学字符识别方法对所述待识别电子文件进行字符识别，得到电子文档和特征信息；

步骤S3、根据所述特征信息对所述电子文档进行模糊分类；

步骤S4、对经模糊分类处理的电子文档根据其所属的类别进行第一次信息提取，得到初步提取结果；

步骤S5、对所述初步提取结果进行纠错处理得到有效的电子文档；

步骤S6、根据预设信息提取条件，对所述有效的电子文档进行第二次信息提取，得到关键信息；

步骤S7、根据所述关键信息，对经所述有效的电子文档进行分类，得到分类结果。

优选地，还包括：步骤S8、显示和/或存储所述分类结果。

优选地，所述步骤S1包括：提供待识别的医药影印件文件，扫描所述医药影印件文件，得到所述待识别电子文件；所述待识别电子文件为PDF格式文件；所述待识别电子文件为若干个，在执行所述步骤S2之前，将若干个所述待识别电子文件的尺寸调整为统一尺寸，根据图像的灰度值设置阈值，以裁剪每一所述待识别电子文件的空白部分。

优选地，所述步骤S2包括：采用预先训练好的第一神经网络对所述待识别电子文档进行字符识别，所述第一神经网络包括：卷积神经网络、循环神经网络和联接时间分类；

所述卷积神经网络用于对所述待识别电子文档进行特征向量提取，得到特征向量序列；

所述循环神经网络对其接收到的所述特征向量序列进行计算得到预测标签分布；

所述联接时间分类对所述预测标签分布进行翻译得到所述电子文档并输出。

优选地，所述步骤S3包括：

步骤S3.1、选择所述特征信息中的位于待识别电子文档的特定位置的标题作为第一判断依据；根据所述第一判断依据对所述待识别电子文件进行模糊分类；若采用所述第一判断依据对所述待识别电子文件进行模糊分类操作失败，则进入步骤S3.2；

步骤S3.2、选择在所述医药影印件文件预先提取的字段作为第二判断依据；根据所述第二判断依据对所述待识别电子文件进行模糊分类。

优选地，对经模糊分类处理的电子文档被分为以下类别：药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

优选地，所述步骤S5包括：

步骤S5.1、采用语言模型对所述电子文档进行文字拼写错误纠正，并输出第一纠正电子文档；

步骤S5.2、采用seq2seq模型对所述第一纠正电子文档进行语法错误纠正，得到第二纠正电子文档；

步骤S5.3、采用所述语言模型对所述第二纠正电子文档进行语句检查，得到所述的有效的电子文档；

具体的，所述步骤S6包括：采用预先训练好的第二神经网络对经所述有效的电子文档进行第二次信息提取，得到所述关键信息；

所述第二神经网络包括卷积神经网络、循环神经网络、单隐藏层前馈神经网络和条件随机场；

所述卷积神经网络用于根据接收到的所述有效的电子文档，将该所述有效的电子文档中的每一句子进行编码，得到所有所述句子的句子编码向量；

所述循环神经网络用于根据接收到的每一所述句子编码向量提取与该句子对应的上下文句子编码向量，形成上下文句子编码向量序列；

所述单隐藏层前馈神经网络用于根据上下文句子编码向量序列转换为与所述句子相对应的概率向量；

所述条件随机场用于根据所述概率向量计算出每个待识别句子所属标签的概率值，概率值最高的标签为所述关键信息；

步骤S7、根据所述关键信息，对经所述有效的电子文档进行分类，得到分类结果。所述分类结果包括以下几类：药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

另一方面本发明还提供一种医药影印件的信息提取系统，包括：

转换模块，用于将医药影印件文件转换成待识别电子文件；

OCR识别模块，用于对所述待识别电子文件进行字符识别，得到电子文档和特征信息；

第一分类模块，用于根据所述特征信息对所述电子文档进行模糊分类；

第一提取模块，用于对经模糊分类处理的电子文档根据其所属的类别进行第一次信息提取，得到初步提取结果；

纠错模块，用于对所述初步提取结果进行纠错处理得到有效的电子文档；

第二提取模块，用于根据预设信息提取条件，对所述有效的电子文档进行第二次信息提取，得到关键信息；以及

第二分类模块，用于根据所述关键信息，对经所述有效的电子文档进行分类，得到分类结果。

优选地，所述第一提取模块包括：

生物药品说明书提取模块，用于对属于生物药品说明书类的所述电子文档进行信息提取；

药品生产许可证提取模块，用于对属于药品生产许可证类的所述电子文档进行信息提取；

药品GMP证书提取模块，用于对属于药品GMP证书类的所述电子文档进行信息提取；

药品再注册批件类提取模块，用于对属于药品再注册批件类的所述电子文档进行信息提取；以及

药品进口可证提取模块，用于对属于药品进口可证类的所述电子文档进行信息提取，得到所述初步提取结果。

优选地，还包括：

显示模块，用于显示所述分类结果；

存储模块，用于存储所述分类结果；

所述分类结果包括以下几类：药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

本发明与现有技术相比具有以下优点：

本发明提供的一种医药影印件的信息提取方法实现了一个一体化的OCR识别提取架构，从纸质版文本资料到数字化信息。与现有的技术相比，本发明提供了一个多功能的生物药品影像处理系统，可以处理多个模块的文件，如药品说明书(生物药品说明书)类、药品生产许可证类、药品进口许可证类、药品再注册批件类，药品GMP证书五类影印件。简化人工分类成本。本发明方法通过将基于注意力机制的OCR识别方法和语言模型seq2seq的纠错方法以及最后的分类器的融合，与现有技术相比具有很好的容错性，避免了因识别图片的质量问题造成的提取结果错误的问题。此外，本发明提出了一种具有特色的分类方法。不仅可以利用上下文信息特征还可以加上所需关键字的相对位置信息特征，从而到达了更精确的分类结果。因此，本发明所具有的一体化的设计架构，支持多类型的生物类型影印件，支持单个扫描展示和多个扫描入库以及丰富的扩展模式，不仅保证了优秀的OCR的识别精度，而且能将识别结果更准确的提取出所需的关键字段，从而大大减少了人工的分类成本和后期人工提取的成本。

附图说明

图1为本发明一实施例提供的一种文本识别方法的流程示意图；

图2为本发明一实施例提供的一种电子设备的结构框图。

具体实施方式

以下结合附图1～2和具体实施方式对本发明提出的一种医药影印件的信息提取方法和系统作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本实施例提供的一种医药影印件的信息提取方法，包含：

步骤S1、将医药影印件文件转换成待识别电子文件。

在本实施例中，所述步骤S1还包括：提供医药影印件文件为纸质文档，扫描所述待识别的纸质文档(医药影印件文件)，得到所述待识别电子文件。

在本实施例中，所述待识别电子文件为PDF格式文件。生成的PDF格式文件可以很好的保留文件的清晰度，能够保证识别效率。

在本实施例中，所述待识别电子文件为若干个，在执行所述步骤S2之前，将若干个所述待识别电子文件的尺寸调整为统一尺寸，根据图像的灰度值设置阈值，以裁剪每一所述待识别电子文件的空白部分。

步骤S2、采用光学字符识别方法对所述待识别电子文件进行字符识别，得到电子文档和特征信息。

具体的，所述步骤S2包括：采用预先训练好的第一神经网络对所述待识别电子文档进行字符识别，所述第一神经网络包括：卷积神经网络、循环神经网络和联接时间分类。所述卷积神经网络用于对所述待识别电子文档进行特征向量提取，得到特征向量序列。所述循环神经网络对其接收到的所述特征向量序列进行计算得到预测标签分布。所述联接时间分类对所述预测标签分布进行翻译得到所述电子文档并输出。

具体的，OCR技术是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。OCR技术能够让机器看图识字，可以实现高效的信息录入、存储和检索。

所述OCR识别为整个流程为对图像的质量进行判断，主要是判断图像的模糊性，对比度和反光性等。之后将图像进行倾斜校正，去背景，去噪，方向矫正，图像增强等一系列预处理操作。其次就是检测文本，再次则为识别文本和输出结果。其中，识别文本也是OCR模块的核心。

OCR识别文本采用的是卷积神经网络CNN(Convolution Neural Network)+循环神经网络RNN(Recurrent Neural Networks)+联接时间分类CTC(Connectionist TemporalClassification)，也就是现在经典流行的CRNN+CTC架构。从上到下依次为卷积层，循环层和转录层。

卷积神经网络CNN(Convolution Neural Network)有着能够将大数据量的图片降维成小数据量和能够有效的保留内部特征的特点。其由三个小层组成，分别是卷积层，池化层和全连接层。卷积层用来提取图像特征，池化层可以降维防止过拟合，全连接层则是能够输出结果。在OCR模块的卷积层中，主要是用到了CNN中的卷积层和池化层，将输入的图像缩放至相同的高度，然后从卷积层卷积出来的特征图中提取特征向量序列。这些特征序列将作为下一层循环层的输入。

循环层采用的是BiLSTM。BiLSTM是一种循环神经网络，它可以将前一次的输出结果作为输入提供给下一层中，共同训练。最基本的循环神经网络因为其存在梯度消失和梯度爆炸的问题，所以本发明中采用了BiLSTM。不仅解决了梯度消失和梯度爆炸的问题，而且也解决了上下文关系的问题。循环层在OCR模块中的作用是利用从卷积层提取好的特征序列，对其进行预测标签分布。

接下来的是转录层，利用CTC将从循环层预测的标签分布通过去重整合等操作转换成最终的识别结果。由于在不同文本文档中因为此特殊的排版，会造成字符间隔，图像边缘变形等系列问题，从而导致同一个文字有多种不同的表现形式。在OCR模块中加入CTC就是为了解决这种问题，该网络能够去除间隔字符，去掉重复数字，最终翻译出正确的结果。

步骤S3、根据所述特征信息对所述电子文档进行模糊分类。

具体的，所述步骤S3对电子文档进行模糊分类，模糊分类包括的类别有：药品说明书或生物药品说明书，药品生产许可证，药品GMP证书，药品再注册批件和药品进口许可证。模糊分类的标准包括：文档的标题，字段的唯一性，例如：药品说明书中的用法用量和禁忌；药品生产许可证中的社会信用代码；药品GMP证书中的认证范围；药品再注册批件中的批件号和受理号；药品进口许可证中的进口单位和出口单位。

具体的，所述步骤S3包括：步骤S3.1、选择所述特征信息中的位于待识别电子文档的特定位置的标题作为第一判断依据；根据所述第一判断依据对所述待识别电子文件进行模糊分类；若采用所述第一判断依据对所述待识别电子文件进行模糊分类操作失败，则进入步骤S3.2。

步骤S4、对经模糊分类处理的电子文档根据其所属的类别进行第一次信息提取，得到初步提取结果；所述第一次信息提取的方法可以利用预设字段的规则和特征，提取出所需的字段信息，得到所述初步提取结果或文档。

步骤S5、对所述初步提取结果进行纠错处理得到有效的电子文档。

具体的，所述步骤S5包括：

步骤S5.3、采用所述语言模型对所述第二纠正电子文档进行语句检查，得到所述的有效的电子文档。

具体的，所述步骤S5.1包括：

首先将所述电子文档中的句子进行分词并利用预设设置的困惑集对句子中的每个字符进行替换，形成候选句；

接着对候选句子进行评分，选出得分较高的句子。

具体的，所述步骤S5.2包括：采用编码器对所述第一纠正电子文档中的每个句子进行编码，得到句子的特征向量；

采用解码器，将编码器得到的特征向量通过学习输出纠正后的句子的特征向量。

具体的，所述步骤S5.3包括：将所述纠正后的句子再利用语言模型进行重新评分，选出得分高的句子，得到所述第三纠正电子文档，即所述有效的所述电子文档。

具体的，OCR模块最后一部分是纠错部分，该部分用来对OCR识别的结果进行错误修正，采用的是语言模型和编码器-解码器网络(seq2seq模型)相结合的框架。语言模型(Language Model)依靠其强大的功能来计算相邻单词的概率，该能力用于纠正拼写错误。对于语法错误(例如单词遗漏)，可以将其视为一个机器翻译的任务，将有语法错误的句子“翻译”成正确的句子。所以这部分采用的是编码器-解码器网络(seq2seq模型)，最后将经过语法纠错后的句子再次用语言模型进行检查。

语言模型就是用来计算一个句子的概率的模型。语言模型在基于统计模型的机器翻译，汉语自动分词和句法分析中有着广泛的应用，目前采用的主要是n元语法模型(N-Gram Language Model)。首先将所述得到OCR识别后的文本文档对其进行分词处理，并利用混淆集将句子中的每个字符进行替换，形成候选句，并利用语言模型对候选句子进行评分，输出得分较高的句子。这样可以解决一些拼写错误。

将得到纠正语言错误之后的句子，作为输入传给seq2seq模型。该模型常用于神经机器翻译。采用这个模型并对其进行训练可以将具有语法错误的句子翻译成正确的句子。这是一个编码-解码的过程。其中编码器(神经网络)对纠正过语言错误的句子进行编码，转换为隐藏状态序列，即句子特征向量，解码器(神经网络)根据编码器生成的隐藏序列学习，输出预测序列并转换为句子。其中编码器和解码器的神经网络采用的是卷积神经网络(CNN)和基于注意力机制的结构，该结构能够更精确地控制句子的最大长度，并利用并行计算减少计算时间。整个框架的一个明显优点是它不需要显式提取语言特征。最后，将纠正过语法错误的句子再次通过语言模型进行二次检查修正，这样做是为了避免学习纠错后的句子不符合常规表达的问题。

所述步骤S6包括：采用预先训练好的第二神经网络对经所述有效的电子文档进行第二次信息提取，得到所述关键信息；

具体的，以OCR模块处理完的序列作为输入，之后利用CNN进行编码，这个过程与文本分类类似。为了形成该句子的最终表示向量，使用了基于注意力的池化技术，然后得到句子编码向量。因为要分类的句子存在上下文的关联，故将编码好的句子向量通过BiLSTM输出上下文句子编码矢量的新序列，该序列丰富了来自周围句子的上下文信息。随后将这些向量中的每一个输入到仅具有一个隐藏层的前馈神经网络，以获取相应的概率向量，该概率向量表示该句子属于每个标签的概率。由于需要提取的字段具有严格的位置关系，所以利用CRF算法可以有效地处理这种情况。在CRF算法中，为了建模后续标签之间的依赖性，我们合并了一个包含两个后续标签之间的转移概率的矩阵。从上一步得到每个句子输入每个标签的概率，再由CRF去计算句子每个标签的分数，最后选出得分最高的一个标签，即为最终的结果。

步骤S7、根据所述关键信息，对经所述有效的电子文档进行分类，得到分类结果。所述步骤S7包括：所述分类结果包括以下几类：药品说明书类或生物药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

本实施例还包括：步骤S8、显示和/或存储所述分类结果。

基于同一发明构思，本发明还提供一种医药影印件的信息提取系统，包括：

转换模块，用于将医药影印件文件转换成待识别电子文件；

优选地，所述第一提取模块包括：

生物药品说明书提取模块，用于对属于生物药品说明书类的所述电子文档进行信息提取(第一次信息提取)；

药品生产许可证提取模块，用于对属于药品生产许可证类的所述电子文档进行信息提取(第一次信息提取)；

药品GMP证书提取模块，用于对属于药品GMP证书类的所述电子文档进行信息提取(第一次信息提取)；

药品再注册批件类提取模块，用于对属于药品再注册批件类的所述电子文档进行信息提取(第一次信息提取)；以及

药品进口可证提取模块，用于对属于药品进口可证类的所述电子文档进行信息提取(第一次信息提取)，得到所述初步提取结果。

此处上述几种模块进行第一次信息提取的方法包括：利用预设字段的规则和特征，提取出所需的字段信息，得到所述初步提取结果或文档；

优选地，还包括：

显示模块，用于显示所述分类结果；

存储模块，用于存储所述分类结果；

本实施例中，所述转换模块还包括一预处理模块，其用于将若干个所述待识别电子文件的尺寸调整为统一尺寸，根据图像的灰度值设置阈值，以裁剪每一所述待识别电子文件的空白部分。

在本实施例中，所述OCR识别模块包括：第一神经网络，所述第一神经网络包括：卷积神经网络、循环神经网络和联接时间分类；

在本实施例中，所述纠错模块包括语言纠错模块和语法纠错模块：所述语言纠错模块用于采用语言模型进行语法纠错和检查修正；

所述语言模型用于对所述文本文档根据预先设置的困惑集对句子中的每个字符进行替换形成的候选句进行评分，选出得分最高的句子；由此可以解决句子中的拼写错误。

所述语法纠错模块用于采用所述编码器-解码器网络将所述语言纠错后的句子进行编码，形成句子的特征向量，并通过编码器网络进行学习并输出纠错后的句子。

所述检查修正的语言模型是用于将语法纠正后的句子进行二次评分，并选出得分最高的句子，评分最高的句子即是需要保留的句子。

在本实施例中，所述第二提取模块具体包括：第二神经网络；所述第二神经网络包括卷积神经网络、循环神经网络、单隐藏层前馈神经网络和条件随机场；

所述卷积神经网络用于根据接收到的所述第三纠正电子文档，将该所述第三纠正电子文档中的每一句子进行编码，得到所有所述句子的句子编码向量；

所述条件随机场用于根据所述概率向量计算出每个待识别句子所属标签的概率值，概率值最高的标签为所述关键信息。

所述待识别的纸质文档包括：生物药品说明书类、生产许可证类、进口许可证类、营业执照、药品再注册批件类和GMP证书类中的一种或多种。

在本实施例中，所述系统还包括以扫描装置用于将待识别的纸质文档例如：生物药品说明书类，生产许可证类，进口许可证类，药品再注册批件类和GMP证书类中的任意一种进行扫描得到电子文档或者是影印件。

由此可知，本实施例的目的是提供一套自动扫描并进行OCR识别信息提取和分类的方法，可以实现在显著的减少人工成本的情况下具有更加精确的准确率的目的，以及能根据文本的句子的特征向量自动识别并归类，达到统一化处理的目的。

本实施例增加了seq2seq纠错的OCR文档提取分类模板。主要由下述步骤组成：

本实施例提供的文本识别系统可以是一体化设计，包含了从文本扫描到数据分类显示和提取入库的全部工作。

本实施例通过OCR识别器(方法)对待识别分类的电子文档进行识别。其中OCR识别器采用的是卷积神经网络CNN+循环神经网络RNN+联接时间分类CTC架构。用CNN的特征作为输入，用RNN计算出特征标签序列，最后通过CTC对结果进行翻译输出结果。在对所述待识别分类的电子文档进行识别之前，采用包括但不限于常见的生物或药品影印件资料，包括要求说明，检查报告，许可报告等专项重要资料作为此OCR识别器训练的数据集；预先对所述卷积神经网络CNN+循环神经网络RNN+联接时间分类进行训练。

本实施例通过所述纠错模块，其可以适用于当待识别纸质文件的清晰度不高、有遮挡物或印章等造成OCR识别精度差的情况时提高提取效果和精度的效果。所述纠错模块支持纠错的错误主要是词形错误和语法错误。分别通过所述语言模型和seq2seq模型来实现。在纠错之前，根据NLPCC2018语料和上述文件相结合的大型语料库对所述纠错模块进行训练，由此实现对词形错误和语法错误的智能纠正。

根据经纠错处理后得出的识别结果，做最后的分类处理。本发明支持的种类为药品说明书，生产许可证，进口许可证，营业执照，药品再注册批件，GMP证书，这几类中均有相似字段，且每个关键字段均有严格的位置关系。所述分类模块利用的是CNN+BiLSTM+CRF的分类方法，在进行分类步骤之前，预先采用从国药集团提供的影印资料中挑选出的清晰数据作为所述分类模块的训练数据集进行训练，由此实现对所述第三纠正电子文档进行分类的目的。

最后将提取出的结果进行保存。本系统支持单个扫描识别展示和批量扫描入库两种模式。单次扫描展示，通过扫描，识别和提取之后的结果能快速展示到前端供业内人员查看。批量处理模式，则将大量待识别纸质资料通过扫描，识别、纠错、提取和分类处理之后，直接将结果保存到数据库(存储模块)中，以备后来使用。

再一方面，基于同一发明构思，本发明还提供一种电子设备，如图2所示，所述电子设备包括处理器301和存储器303，所述存储器303上存储有计算机程序，所述计算机程序被所述处理器301执行时，实现如上文所述的医药影印件的信息提取方法。

本实施例提供的电子设备，可以实现在显著的减少人工成本的情况下具有更加精确的文字识别准确率，且能根据文本的特征自动识别并归类，达到统一化处理的目的。

继续参考图2，所述电子设备还包括通信接口302和通信总线304，其中所述处理器301、所述通信接口302、所述存储器303通过通信总线304完成相互间的通信。所述通信总线304可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。所述通信接口302用于上述电子设备与其他设备之间的通信。

本实施例中所称处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器301是所述电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

所述存储器303可用于存储所述计算机程序，所述处理器301通过运行或执行存储在所述存储器303内的计算机程序，以及调用存储在存储器303内的数据，实现所述电子设备的各种功能。

所述存储器303可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

其他方面，基于同一发明构思，本发明还提供了一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时可以实现如上文所述的医药影印件的信息提取方法。

本实施例提供的可读存储介质，可以实现在显著的减少人工成本的情况下具有更加精确的文字识别准确率，且能根据文本的特征自动识别并归类，达到统一化处理的目的。

本实施例提供的可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机硬盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其组合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

在本实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应当注意的是，在本文的实施方式中所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的，例如，附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用于执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种医药影印件的信息提取方法，其特征在于，包含：

步骤S1、将医药影印件文件转换成待识别电子文件；

步骤S3、根据所述特征信息对所述电子文档进行模糊分类；

所述步骤S3包括：

步骤S3.2、选择在所述医药影印件文件预先提取的字段作为第二判断依据；根据所述第二判断依据对所述待识别电子文件进行模糊分类；

所述步骤S5包括：

步骤S7、根据所述关键信息，对经所述有效的电子文档进行分类，得到分类结果；所述步骤S7包括：所述分类结果包括以下几类：药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

2.如权利要求1所述的医药影印件的信息提取方法，其特征在于，还包括：

步骤S8、显示和/或存储所述分类结果。

3.如权利要求2所述的医药影印件的信息提取方法，其特征在于，所述步骤S1包括：提供待识别的医药影印件文件，扫描所述医药影印件文件，得到所述待识别电子文件；所述待识别电子文件为PDF格式文件；所述待识别电子文件为若干个，在执行所述步骤S2之前，将若干个所述待识别电子文件的尺寸调整为统一尺寸，根据图像的灰度值设置阈值，以裁剪每一所述待识别电子文件的空白部分。

4.如权利要求3所述的医药影印件的信息提取方法，其特征在于，所述步骤S2包括：采用预先训练好的第一神经网络对所述待识别电子文档进行字符识别，所述第一神经网络包括：卷积神经网络、循环神经网络和联接时间分类；

5.如权利要求4所述的医药影印件的信息提取方法，其特征在于，对经模糊分类处理的电子文档被分为以下类别：药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。

6.一种医药影印件的信息提取系统，其特征在于，包括：

转换模块，用于将医药影印件文件转换成待识别电子文件；

所述第一分类模块具体用于选择所述特征信息中的位于待识别电子文档的特定位置的标题作为第一判断依据；根据所述第一判断依据对所述待识别电子文件进行模糊分类；若采用所述第一判断依据对所述待识别电子文件进行模糊分类操作失败，则选择在所述医药影印件文件预先提取的字段作为第二判断依据；根据所述第二判断依据对所述待识别电子文件进行模糊分类；

纠错模块，用于对所述初步提取结果进行纠错处理得到有效的电子文档；所述纠错模块具体用于采用语言模型对所述电子文档进行文字拼写错误纠正，并输出第一纠正电子文档；

采用seq2seq模型对所述第一纠正电子文档进行语法错误纠正，得到第二纠正电子文档；

采用所述语言模型对所述第二纠正电子文档进行语句检查，得到所述的有效的电子文档；

第二提取模块，用于根据预设信息提取条件，对所述有效的电子文档进行第二次信息提取，得到关键信息；

所述第二提取模块具体用于采用预先训练好的第二神经网络对经所述有效的电子文档进行第二次信息提取，得到所述关键信息；

以及

第二分类模块，用于根据所述关键信息，对经所述有效的电子文档进行分类，得到分类结果；

7.如权利要求6所述的医药影印件的信息提取系统，其特征在于，所述第一提取模块包括：

药品说明书提取模块，用于对属于药品说明书类的所述电子文档进行信息提取；

药品生产证提取模块，用于对属于药品生产证类的所述电子文档进行信息提取；

8.如权利要求7所述的医药影印件的信息提取系统，其特征在于，还包括：

显示模块，用于显示所述分类结果；

存储模块，用于存储所述分类结果。