CN104933429A

CN104933429A - 图像中信息提取的方法及装置

Info

Publication number: CN104933429A
Application number: CN201510294118.4A
Authority: CN
Inventors: 关艳峰; 谌璟; 宁迪浩
Original assignee: Neighbour Science And Technology Ltd Of Shenzhen's Promise
Current assignee: Shenzhen self Technology Co., Ltd.
Priority date: 2015-06-01
Filing date: 2015-06-01
Publication date: 2015-09-23
Anticipated expiration: 2035-06-01
Also published as: CN104933429B

Abstract

本发明公开了一种图像中信息提取方法，图像中信息提取的方法包括以下步骤：对图像进行区域识别和二值化生成预处理图像；对预处理图像进行格式特征分析以获取预处理图片的关键分割点；根据关键分割点对信息区域进行二重字符分割以获取信息区域内每一源字符的位置；提取源字符的字符信息，并从预设的字符库内获取与字符信息相关度最大的目标字符，并将目标字符存储至预设的位置。本发明还公开了一种图像中信息提取的装置。本发明使得图像中所包含的字符信息以电子化的形式存储，从而避免医学信息因为纸质载体损坏和丢失而丢失，有利于重要的医学信息的自动保存和智能分析，从而有利于医学信息的管理和利用。

Description

图像中信息提取的方法及装置

技术领域

本发明涉及信息提取领域，尤其涉及图像中信息提取的方法及装置。

背景技术

在医疗卫生领域，诊疗过程会产生许多单据等纸质材料，传统的借助手写，比较先进的借助计算机打印。由于纸质材料的易损和丢失，使得这些重要的医学信息容易丢失。不利于医学信息的管理和利用。

发明内容

本发明的主要目的在于解决医学信息记载于易损和易丢失的纸质材质上的技术问题。

为实现上述目的，本发明提供的一种图像中信息提取的方法，所述图像中信息提取的方法包括以下步骤：

获取源图像内的信息区域的位置，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像；

对所述预处理图像进行格式特征分析以获取所述预处理图像的关键分割点；

根据所述关键分割点对所述信息区域进行二重字符行列分割以获取所述信息区域内源字符的目标区域；

从所述源字符的目标区域提取字符信息，并从预设的字符库内获取与所述字符信息相关度最大的目标字符；

将所述目标字符存储至预设的位置。

优选地，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像的步骤具体包括：

采用一种或多种图像灰度门限进行二值化操作；

根据所述二值化操作的结果生成预处理图像。

优选地，所述获取源图像内的信息区域的位置，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像的步骤具体包括：

对所述源图像进行区域识别以获取信息区域的位置；

对所述信息区域的源图像进行图像旋转以使所述源图像位于预设的位置；

对预设位置的所述源图像进行二值化操作。

优选地，根据所述关键分割点对信息区域进行二重字符行列分割以获取所述信息区域内源字符的区域的步骤包括：

根据所述关键分割点对信息区域进行一次字符行列分割，所述一次字符行列分割指对信息区域预处理图像的能量在行列两个方向进行投影，并根据能量强度对字符进行行列分割得到源字符的一次分割信息，所述一次分割信息包括所述源字符初始区域；

根据所述一次分割信息对信息区域进行二次字符行列分割，所述二次行列分割是指根据所述一次分割信息对行列分割的可靠性进行检查和调整，得到二次分割信息，二次分割信息为源字符的目标区域。

优选地，所述格式特征包括医院名称、医院地址、二维码、所述信息区域的位置、特征图形；所述信息区域包括病患信息区域、处方信息区域、医院信息区域和医生信息区域中的一种或多种。

优选地，所述处方信息包括处方药名称、处方药规格、处方药用法和处方药用量中的一种或多种；所述病患信息包括患者的年龄、身高、体重、性别、诊断和过敏史中的一种或多种；将所述目标字符存储至预设的位置的步骤之后还包括：

根据所述处方药名称和处方药规格生成药品混用的禁忌性度量，比对所述禁忌性度量与预设的禁忌性度量阀值；

当所述禁忌性度量小于预设的所述禁忌性度量阀值时，根据所述药品用量和患者的年龄、身高、体重、性别和过敏史中的一种或多种生成药品用量度量，并比对所述药品用量度量与预设的药品用量度量阀值。

优选地，在所述比对药品用量度量与预设的药品用量度量阀值的步骤之后还包括：

当所述药品用量度量小于所述药品用量度量阀值时，根据所述处方药名称、处方药规格、患者的所述诊断、过敏史中的一种或多种以及预置的病症数据库生成诊断性度量；

比对所述诊断性度量与预设的诊断性度量阀值，以判断所述诊断是否合理。

此外，为实现上述目的，本发明还提供一种图像中信息提取的装置，所述图像中信息提取的装置包括：

预处理模块，用于对获取的图像进行预处理并生成预处理图像；

预处理模块，用于获取源图像内的信息区域的位置，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像；

格式分析模块，用于对所述预处理图像进行格式特征分析以获取所述预处理图像的关键分割点；

字符分割模块，用于根据所述关键分割点对所述信息区域进行二重字符行列分割以获取所述信息区域内源字符的目标区域；

字符识别模块，用于从所述源字符的目标区域提取字符信息，并从预设的字符库内获取与所述字符信息相关度最大的目标字符；

字符存储模块，用于将所述目标字符存储至预设的位置。

优选地，所述信息区域包括病患信息区域、处方信息区域、医院信息区域、医生信息区域；

所述处方信息包括处方药名称、处方药规格和药品用法用量；所述病患信息包括患者的年龄、身高、体重、性别、诊断、过敏史中的一种或多种；

所述图像中信息提取的装置还包括：

药品禁忌性测量模块，用于根据所述处方药名称和处方药规格生成药品混用的禁忌性度量，比对所述禁忌性度量与预设的禁忌性度量阀值；

药品用量测量模块，用于当所述禁忌性度量小于预设的所述禁忌性度量阀值时，根据所述药品用量和患者的年龄、身高、体重、性别和过敏史中的一种或多种生成药品用量度量，并比对所述药品用量度量与预设的药品用量度量阀值。

优选地，所述图像中信息提取的装置还包括：

诊断合理性判断模块，用于当所述药品用量度量小于所述药品用量度量阀值时，根据所述处方药名称、处方药规格、患者的所述诊断、过敏史中的一种或多种以及预置的病症数据库生成诊断性度量；比对所述诊断性度量与预设的诊断性度量阀值，以判断所述诊断是否合理。

本发明，通过对图像进行区域识别和二值化生成预处理图像，再对预处理图像进行格式特征分析以获取预处理图片的关键分割点，然后根据关键分割点对信息区域进行二重字符分割以获取信息区域内每一源字符的目标行宽、目标列宽以及目标位置，然后提取源字符的字符信息，并从预设的字符库内获取与字符信息相关度最大的目标字符，并将目标字符存储至预设的位置，以提取图像中的字符信息，使得提取的字符信息形成与信息区域对应的电子化信息区域，使得图像中所包含的字符信息以电子化的形式存储，从而避免医学信息因为纸质载体损坏和丢失而丢失，有利于重要的医学信息的自动保存和智能分析，从而有利于医学信息的管理和利用。

附图说明

图1为本发明图像中信息提取的方法第一实施例的流程示意图；

图2为本发明图像中信息提取的方法第二实施例的流程示意图；

图3为本发明图像中信息提取的方法第三实施例的流程示意图；

图4为本发明图像中信息提取的方法第四实施例的流程示意图；

图5为本发明图像中信息提取的装置第一实施例的功能模块示意图；

图6为本发明图像中信息提取的装置第二实施例的功能模块示意图；

图7为本发明图像中信息提取的装置第三实施例的功能模块示意图；

图8为本发明图像中信息提取的装置第四实施例的功能模块示意图；

图9为本发明未处理的处方单图像；

图10为本发明处方单图像经过光照处理后的图像；

图11为本发明处方单图像经过二值化处理后的图像；

图12为本发明处方单图像的病患信息经过行列切割后的图像；

图13为本发明处方单图像的处方信息经过二重字符行列切割后的图像。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明涉及对纸质材料类医学信息(以处方单为例)的识别过程和对识别后的医学信息的准确性的判定过程。其中，对医学信息的识别过程涉及鲁棒的行分割和列分割，可提高对医学信息的识别精度和对医学信息内容准确性的判定精度。

本发明提供一种图像中信息提取的方法，参照图1和图9至图13，图1为本发明图像中信息提取的方法第一实施例的流程示意图；图9为本发明未处理的处方单图像；图10为本发明处方单图像经过光照处理后的图像；图11为本发明处方单图像经过二值化处理后的图像；图12为本发明处方单图像的病患信息经过行列切割后的图像；图13为本发明处方单图像的处方信息经过二重行列切割后的图像。

在一实施例中，图像中信息提取的方法包括以下步骤：

S10：获取源图像内的信息区域的位置，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像；

S11：对源图像进行区域识别以获取信息区域的位置；

S12：对信息区域的源图像进行图像旋转以使源图像位于预设的位置；

S13：对预设位置的源图像进行二值化操作；

S14：根据二值化操作的结果生成信息区域的预处理图像。

本实施例中，图像为处方单图像，获取图像的方法有很多，以扫描获取为例，本实施例中，图像以处方单图像为例。对获取的图像进行区域识别，具体为，先对图像进行光照处理，通常光照处理采用光照归一化方法，光照归一化是将原始图像的灰度分布平均化的一种操作，通常采用一种将非均匀化转化为均匀化的变换，例如累积概率分布变换。再采用边缘检测方法，有效识别出处方单的边缘。即对光照处理后的图像进行图像膨胀处理，从而获得处方单图像的区域特征，即对处方单的信息进行分区或区域识别，确定图像的哪些区域有需要提取的字符信息。分区或区域识别的准确性是为了更好地二值化。

在对源图像进行二值化操作之前，还需要将源图像放置到预设的位置上。即，当源图像的位置不正确时，需要经过旋转、偏移等操作，将源图像调整至预设的位置上。在对源图像进行二值化操作的过程中，源图像在不同的位置，将得到不同的二值化结果，其中预设位置为二值化效果最好的位置。例如，以字符的水平性或垂直性为度量，当源图像中同一行的字符的中心线与水平方向的夹角最小为0时，即是最好的位置，但是当源图像存在透视等拍摄效果时，并不能保证所有行都能旋转到最好的位置。

需要说明的是，光照及旋转处理并不是必须的操作，在处理光照条件均匀，没有旋转的图像时，可不进行光照归一化和选择处理。

一幅图像包括目标信息、背景还有噪声，要从多值的数字图像中直接提取出目标信息，最常用的方法就是设定一个全局的阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群。将大于T的像素群的像素值设定为白色(或者黑色)，小于T的像素群的像素值设定为黑色(或者白色)。在区域识别后对图像进行二值化，二值化就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。以生成预处理图像。在二值化操作过程中，为了使二值化效果更加明显，可设置多个灰度临界值，即灰度门限。通过为每个区域图像设置一种图像灰度门限，可使区域图像的二值化操作的效果更好，更准确。

S20：对预处理图像进行格式特征分析以获取预处理图像的关键分割点；

对预处理图像进行格式特征分析是为了获取关键分割点，对于一份处方单图像来说，其格式特征包括医院名称、医院地址、二维码、信息区域的位置、处方单的图像上的特征图型等特征中的一个或多个。如果根据上述格式特征可确定处方单图像的模板，则根据处方单图形的模板确定关键分割点，其中，确定处方单是否存在模板的方法可以为从预设的模板库中查找符合上述格式特征的模板；

如果根据上述格式特征不能确定处方单的模板或者没有获取格式特征时，则对预处理图像进行自动检测，以获取关键分割点。

S30：根据关键分割点对信息区域进行二重字符行列分割以获取信息区域内源字符的区域；

根据关键分割点对信息区域进行一次字符行列分割，一次字符行列分割指对信息区域预处理图像的能量在行列两个方向进行投影，并根据能量强度对字符进行行列分割得到源字符的一次分割信息，一次分割信息包括源字符的初始区域，初始区域包括一次分割后得到的源字符的初始行宽、初始列宽，以及源字符的初始位置；此处的初始区域不限定为矩形区域，也可以为根据具体字符的形状而形成的区域，如“小”字，可形成菱形的区域，如此分割可减少提取字符信息的工作量；

根据一次分割信息对信息区域进行二次字符行列分割，二次行列分割是指根据一次分割信息对行列分割的可靠性进行检查和调整，得到二次分割信息，二次分割信息为源字符的目标区域，即二次分割后得到源字符的目标行宽、目标列宽以及目标位置，这是源字符的最终区域信息，可以用于提取每个源字符的图像信息，即图像中的字符信息。

本实施例中信息区域包括病患信息区域、处方信息区域、医院信息区域、医生信息区域等中的一个或多个。关键分割点为不同源字符区域之间的分界标识，可以为分界线。

在确定信息区域后，对每一信息区域进行字符分割，以确定各信息区域内每一源字符的位置。字符分割包括行分割和列分割。

其中，行分割包括：行预分割、行分割检查、行分割调整。即，对信息区域根据字符行进行预分割，再对预分割后的预分割行进行行分割检查，当检查判定行预分割有误(例如将某些上下结构的字符分成两个字符)时，则对预分割行进行调整，以使每一行的分割无误；

列分割包括：列预分割、列分割检查、列分割调整。即，对对信息区域根据字符列进列预分割，再对预分割后的预分割列进行列分割检查，当检查判定列预分割有误(例如将某些左右结构的字符分割成两个字符)时，则对预分割列进行调整，以使每一列的分割无误。

根据一次分割信息对信息区域进行二次字符行列分割，二次行列分割是指根据一次分割信息对行列分割的可靠性进行行列分割检查和行列分割调整，得到二次分割信息，二次分割信息为源字符的目标区域。二重行列分割可提高字符行列识别准确性。当行列清晰且没有特殊干扰图案或字符影响时，通常采用一重行列切割就能够正确识别行列信息。例如，医院信息，医院名称是单独一行，经过一重行列切割后能够准确判断每个字符的位置。但是处方信息区域一般存在多种形式，各家医院不尽相同，以本实施例中的为例，如果通过常规的一重行列分割，前三种药物由于大括号的影响，在某些光照和图片质量的情况下会被分析成一行，基于其他已经识别的标准行宽的信息，本发明采用第二次行列切割，从而有效的识别出各个有效行和有效列。

在对信息区域进行行分割和列分割后，每一源字符的行宽、列宽以及位置被确定，即每一源字符所占目标区域也被确定。

S40：从源字符的目标区域提取字符信息，并从预设的字符库内获取与字符信息相关度最大的目标字符；

S50：将目标字符存储至预设的位置。

在确定每一源字符所在的位置后，提取源字符的字符信息，利用字符信息从预设的字符库中查找与该字符信息相关的字符，并将与该字符信息相关度最高的字符确定为目标字符，并将目标字符存贮至预设的文字，在获取每一信息区域所有源字符的目标字符同时，将目标字符按照源字符的顺序排列，形成与每一信息区域对应的电子化信息区域，电子化信息区域内的每一字符都可供用户查询。

本实施例中，通过先对获取的图像进行区域识别和二值化生成预处理图像，再对预处理图像进行格式特征分析以获取预处理图片的关键分割点，然后根据关键分割点对信息区域进行字符分割以获取信息区域内每一源字符的位置，然后提取源字符的字符信息，并从预设的字符库内获取与字符信息相关度最大的目标字符，并将目标字符存储至预设的位置，以提取图像中的字符信息，使得提取的字符信息形成与信息区域对应的电子化信息区域，使得图像中所包含的字符信息以电子化的形式存储，从而避免医学信息因为纸质载体损坏和丢失而丢失，有利于重要的医学信息的保存，从而有利于医学信息的管理和利用。

将目标字符与源字符进行匹配，当目标字符与源字符不匹配时，重新获取目标字符。

本实施中，多个字符组成的字符串也可认为为一个整体字符，在获取了所有的目标字符后，为了确定目标字符的准确性，还需要将目标字符与源字符进行匹配，当目标字符与源字符完成匹配时，停止对该目标字符的检查，当目标字符与源字符不匹配时需要根据源字符重新获取目标字符，以保证目标字符的准确性。

本实施例，通过对目标字符的检查，确保了目标字符的准确性，从而保证了医学信息的准确性，有利于医学信息更加准确的保存和使用。

将处方单图像形成电子化处方单后，再对处方单的内容进行评估分析，其评估分析包括药品混合的禁忌性分析，药品的用量分析，以及对诊断结果的分析(即症状和药品的匹配分析)。

参照图3，图3为本发明图像中信息提取的方法第三实施例的流程示意图。在上述实施例的基础上，处方信息包括处方药名称、处方药规格、处方药用法和处方药用量中的一种或多种。病患信息包括患者的年龄、身高、体重、性别、诊断和过敏史中的一种或多种。其中，一种还是多种根据药物的药性来确定，当一些处方药只分未成年人和成人时，则可以不需要具体的身高、体重、性别等信息，当一些处方药的药效、药量和药物规格等对患者的性别，年龄、身高、体重有严格要求时，则需要多种因素综合考虑。即使用其中的一种或者多种需要根据实际的处方药名称和处方药规格等来确定。在以下实施例中的一种还是多种均适用上述的规则。

在步骤S50之后还包括：

S60：根据处方药名称和处方药规格生成药品混用的禁忌性度量，比对禁忌性度量与预设的禁忌性度量阀值；

任何药品都有自身的药物特性，在其与另外的药品共同使用时需要判断两种或多种药品之间是否会发生化学反应生成新的物质，如果会生成新的物质或者降低药效、或者产生不良的影响，如果产生新物质就需要判断新的物质对人体是否有害，是否能完成药理所需的功能。其中，药品与药品之间存在禁忌搭配，如果处方单中的药物搭配的禁忌程度高或者不满足共同使用的要求，则说明对应的药品不允许同时使用，即禁忌性度量已超过预设的禁忌性度量阀值时，则不能按照处方单进行配药。药品混合的禁忌性分析有利于提高用户使用药品的安全性。

S70：当禁忌性度量小于预设的禁忌性度量阀值时，根据药品用量和患者的年龄、身高、体重、性别和过敏史中的一种或多种生成药品用量度量，并比对药品用量度量与预设的药品用量度量阀值。

任何药品要对人体进行治疗，需要药品和人体发生反应，这就要求任何药物都有一个量的限制，这个量的影响因素包括性别、体重、年龄和过敏等。当禁忌性度量小于预设的禁忌性度量阀值时，即处方单中的药品在一定比例下共同服用时不会对患者造成不可承受的损害时，根据药品用量和患者的年龄、身高、体重、性别和过敏史生成药品用量度量。当药品用量度量小于药品用量度量阀值时，说明药方单中的药品用量合理，当药品用量度量大于或者等于药品用量度量阀值时，说明药方单中的药品用量不合理，不能按照处方单使用药品。药品用量度量有利于提高药品的合理使用。

参照图4，图4为本发明图像中信息提取的方法第四实施例的流程示意图在上述实施例的基础上，在步骤S70之后还包括：

S80：当药品用量度量小于药品用量度量阀值时，根据处方药名称、处方药规格、患者的诊断、过敏史中的一种或多种以及预置的病症数据库生成诊断性度量；比对诊断性度量与预设的诊断性度量阀值，以判断诊断是否合理。

具体地，本实施例中，根据患者的诊断、过敏史以及病症数据库确定患者的病症，根据处方药名称、处方药规格确定处方药可治疗的病症，比对患者病症和处方药可治疗的病症，并且生成诊断性度量，诊断性度量与诊断性度量的阀值比较。当诊断性度量小于诊断性度量的阀值时说明处方单中的药品能治疗处方单中的病症；当诊断性度量大于或者等于诊断性度量的阀值时说明处方单中的药品不能治疗处方单中的病症，不能按照处方单购药治病。通过诊断性度量的计算，可判断处方单上的药品能否治疗处方单上的病症，有利于防止患者用错药品；当诊断性度量大于或者等于诊断性度量的阀值时，为了避免上述结果由于目标字符的生成出错而造成，可查阅对应的源字符，即可从侧面反映标准字符生成的准确性。

本发明中，记录重要医学信息的载体除了处方单之外还可以是病历本以及检查单等。本发明实现医疗诊断和药物流通过程中纸质材料中所含信息的自动提取、存储、分析、评价和应用，通过鲁棒的行列分割方法来提高处方单识别分析的准确性，进而提高医疗系统的管理效率。

此外，处方单自动识别及分析评价系统中处方单数字图像的获取、以及预处理一般运行在PC、智能终端等硬件实体上、而其他处理一般运行与服务器上。基于处方单自动识别及分析评价系统，医疗、药店等实体还可以构建个人健康电子档案系统。电子档案系统主要存储和处理以下三大类信息：病患信息、诊断信息、处方信息，例如：根据病患信息或诊断结论检索处方信息、根据处方信息检错病患信息或诊断结论。

为了更好的实现上述目的，本发明进一步提出一种图像中信息提取的装置。

一种图像中信息提取的装置，参照图5，图5为本发明图像中信息提取的装置第一实施例的功能模块示意图；参照图6，图6为本发明图像中信息提取的装置第二实施例的功能模块示意图。该图像中信息提取的装置包括：

预处理模块10：用于获取源图像内的信息区域的位置，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像；

区域识别单元11：用于对源图像进行区域识别以获取信息区域的位置；

位置调整单元12：用于对信息区域的源图像进行图像旋转以使源图像位于预设的位置；

二值化单元13：用于对预设位置的源图像进行二值化操作；

生成单元14：用于根据二值化操作的结果生成信息区域的预处理图像。

本实施例中，图像为处方单图像，获取图像的方法有很多，以扫描获取为例，本实施例中，图像以处方单图像为例。对获取的图像进行区域识别，具体为，先对图像进行光照处理，通常光照处理采用光照归一化方法，光照归一化是将原始图像的灰度分布平均化的一种操作，通常采用一种将非均匀化转化为均匀化的变换，例如累积概率分布变换。再采用边缘检测方法，有效识别出处方单的边缘。即对光照处理后的图像进行图像膨胀处理，从而获得处方单图像的区域特征，即对处方单的信息进行分区。即确定图像的哪些区域有需要提取的字符信息。分区的准确性是为了更好地二值化。

在对源图像进行二值化操作之前，还需要将源图像放置到预设的位置上。即，当源图像的位置不正确时，需要经过旋转、偏移等操作，将源图像调整至预设的位置上。在对源图像进行二值化操作的过程中，源图像在不同的位置，将得到不同的二值化结果，其中预设位置为二值化效果最好的位置。

一幅图像包括目标物体、背景还有噪声，要想从多值的数字图像中直接提取出目标物体，最常用的方法就是设定一个全局的阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群。将大于T的像素群的像素值设定为白色(或者黑色)，小于T的像素群的像素值设定为黑色(或者白色)。在区域识别后对图像进行二值化，二值化就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。以生成预处理图像。在二值化操作过程中，为了使二值化效果更加明显，可设置多个灰度临界值，即灰度门限。通过设置多种图像灰度门限，可使二值化操作的效果更好，更准确。

格式分析模块20：用于对预处理图像进行格式特征分析以获取预处理图像的关键分割点；

对预处理图像进行格式特征分析是为了获取关键分割点，对于一份处方单图像来说，其格式特征包括医院名称、医院地址、医院二维码、信息区域的位置、处方单的图像上的特征图型等特征中的一个或多个。

如果根据上述格式特征可确定处方单图像的模板，则根据处方单图形的模板确定关键分割点，其中，确定处方单是否存在模板的方法可以为从预设的模板库中查找符合上述格式特征的模板；

如果根据上述格式特征不能确定处方单的模板，则对预处理图像进行自动检测，以获取关键分割点。

字符分割模块30：用于根据关键分割点对信息区域进行二重字符行列分割以获取信息区域内源字符的目标区域；

一次分割单元：用于根据关键分割点对信息区域进行一次字符行列分割，一次字符行列分割指对信息区域预处理图像的能量在行列两个方向进行投影，并根据能量强度对字符进行行列分割得到源字符的一次分割信息，一次分割信息包括源字符的初始区域，初始区域包括行宽、列宽，以及源字符的位置；

二次分割单元：用于根据一次分割信息对信息区域进行二次字符行列分割，二次行列分割是指根据一次分割信息对行列分割的可靠性进行检查和调整，得到二次分割信息，二次分割信息为源字符的目标区域。

在获取关键分割点后，根据关键分割点确定不同的信息区域，本实施例中信息区域包括病患信息区域、处方信息区域、医院信息区域、医生信息区域等中的一个或多个。关键分割点为不同的信息区域之间的分界标识，可以为分界线。

根据一次分割信息对信息区域进行二次字符行列分割，二次行列分割是指根据一次分割信息对行列分割的可靠性进行检查和调整，得到二次分割信息，二次分割信息为源字符的目标区域。二重行列分割可提高字符行列识别准确性。对于行列清晰且没有特殊干扰图案或字符影响，通常采用一重行列切割就能够正确识别行列信息。例如，医院信息，医院名称是单独一行，经过一重行列切割后能够准确判断每个字符的位置。但是处方信息区域一般存在多种形式，各家医院不尽相同，以本实施例中的为例，如果通过常规的一重行列分割，前三种药物由于大括号的影响，在某些光照和图片质量的情况下会被分析成一行，基于其他已经识别的标准行宽的信息，本发明采用第二次行列切割，从而有效的识别出各个有效行和有效列。

在对信息区域进行行分割和列分割后，每一源字符的位置被确定，每一源字符所占区域也被确定。

字符识别模块40：用于从源字符的区域提取字符信息，并从预设的字符库内获取与字符信息相关度最大的目标字符；

字符存储模块50：用于将目标字符存储至预设的位置。

本实施例中，通过先对获取的图像进行区域识别和二值化生成预处理图像，再对预处理图像进行格式特征分析以获取预处理图片的关键分割点，然后根据关键分割点确定信息区域，并对信息区域进行字符分割以获取信息区域内每一源字符的位置，然后提取源字符的字符信息，并从预设的字符库内获取与字符信息相关度最大的目标字符，并将目标字符存储至预设的位置，以提取图像中的字符信息，使得提取的字符信息形成与信息区域对应的电子化信息区域，使得图像中所包含的字符信息以电子化的形式存储，从而避免医学信息因为纸质载体损坏和丢失而丢失，有利于重要的医学信息的保存，从而有利于医学信息的管理和利用。

本实施中，多个字符组成的字符串也可认为为一个整体字符，在获取了所有的目标字符后，为了确定目标字符的准确性，还需要将目标字符与源字符进行匹配，当目标字符与源字符完应时匹配时，停止对该目标字符的检查，当目标字符与源字符不匹配时需要根据源字符重新获取目标字符，以保证目标字符的准确性。

参照图7，图7为本发明图像中信息提取的装置第三实施例的功能模块示意图。在上述实施例的基础上，处方信息包括处方药名称、处方药规格、处方药用法和处方药用量中的一种或多种。病患信息包括患者的年龄、身高、体重、性别、诊断和过敏史中的一种或多种。其中，一种还是多种根据药物的药性来确定，当一些处方药只分未成年人和成人时，则不需要具体的身高、体重、性别等信息，当一些处方药的药效、药量和药物规格等对患者的性别，年龄、身高、体重有严格要求时，则需要多种因素综合考虑。即使用其中的一种或者多种需要根据实际的处方药名称和处方药规格等来确定。在以下实施例中的一种还是多种均适用上述的规则。

图像中信息提取的装置还包括：

药品禁忌性测量模块60：用于根据处方药名称和处方药规格生成药品混用的禁忌性度量，比对禁忌性度量与预设的禁忌性度量阀值；

任何药品都有自身的药物特性，在其与另外的药品共同使用时需要判断两种或多种药品之间是否会发生化学反应生成新的物质，如果会生成新的物质，就需要判断新的物质对人体是否有害，是否能完成药理所需的功能。其中，药品与药品之间存在禁忌搭配，若果处方单中的药物搭配的禁忌程度高，则说明对应的药品不允许同时使用，即禁忌性度量已超过预设的禁忌性度量阀值时，则不能按照处方单进行配药。药品混合的禁忌性分析有利于提高用户使用药品的安全性。

药品用量测量模块70：用于当禁忌性度量小于预设的禁忌性度量阀值时，根据药品用量和患者的年龄、身高、体重、性别和过敏史中的一种或多种生成药品用量度量，并比对药品用量度量与预设的药品用量度量阀值。

参照图8，图8为本发明图像中信息提取的装置第四实施例的流程示意图在上述实施例的基础上，图像中信息提取的装置还包括：

诊断合理性判断模块80：用于当药品用量度量小于药品用量度量阀值时，根据处方药名称、处方药规格、患者的诊断、过敏史中的一种或多种以及预置的病症数据库生成诊断性度量；比对诊断性度量与预设的诊断性度量阀值，以判断诊断是否合理。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像中信息提取的方法，其特征在于，所述图像中信息提取的方法包括以下步骤：

将所述目标字符存储至预设的位置。

2.如权利要求1所述的图像中信息提取的方法，其特征在于，所述获取源图像内的信息区域的位置，对每个信息区域的源图像进行独立的二值化操作并生成信息区域预处理图像的步骤具体包括：

对所述源图像进行区域识别以获取信息区域的位置；

对预设位置的所述源图像进行二值化操作；

根据所述二值化操作的结果生成所述信息区域的预处理图像。

3.如权利要求2所述的图像中信息提取的方法，其特征在于，所述对预设位置的所述源图像进行二值化操作的步骤具体包括：

采用一种或多种图像灰度门限进行二值化操作。

4.如权利要求1所述的图像中信息提取的方法，其特征在于，根据所述关键分割点对信息区域进行二重字符行列分割以获取所述信息区域内源字符的区域的步骤包括：

根据所述关键分割点对信息区域进行一次字符行列分割，所述一次字符行列分割指对信息区域预处理图像的能量在行列两个方向进行投影，并根据能量强度对字符进行行列分割得到源字符的一次分割信息，所述一次分割信息包括所述源字符的初始区域；

根据所述一次分割信息对信息区域进行二次字符行列分割，所述二次字符行列分割是指根据所述一次分割信息对行列分割的可靠性进行检查和调整，得到二次分割信息，二次分割信息为源字符的目标区域。

5.如权利要求1所述的图像中信息提取的方法，其特征在于，所述格式特征包括医院名称、医院地址、二维码、所述信息区域的位置、特征图形；所述信息区域包括病患信息区域、处方信息区域、医院信息区域和医生信息区域中的一种或多种。

6.如权利要求4所述的图像中信息提取的方法，其特征在于，所述处方信息包括处方药名称、处方药规格、处方药用法和处方药用量中的一种或多种；所述病患信息包括患者的年龄、身高、体重、性别、诊断和过敏史中的一种或多种；将所述目标字符存储至预设的位置的步骤之后还包括：

7.如权利要求6所述的图像中信息提取的方法，其特征在于，在所述比对药品用量度量与预设的药品用量度量阀值的步骤之后还包括：

当所述药品用量度量小于所述药品用量度量阀值时，根据所述处方药名称、处方药规格、患者的所述诊断、过敏史以及预置的病症数据库生成诊断性度量；

8.一种图像中信息提取的装置，其特征在于，所述图像中信息提取的装置包括：

字符识别模块，根据所述源字符的目标区域提取字符信息，并从预设的字符库内获取与所述字符信息相关度最大的目标字符；

字符存储模块，用于将所述目标字符存储至预设的位置。

9.如权利要求8所述的图像中信息提取的装置，其特征在于，所述信息区域包括病患信息区域、处方信息区域、医院信息区域、医生信息区域；

所述图像中信息提取的装置还包括：

10.如权利要求9所述的图像中信息提取的装置，其特征在于，所述图像中信息提取的装置还包括：