CN113128490B

CN113128490B - 一种处方信息扫描和自动识别方法

Info

Publication number: CN113128490B
Application number: CN202110466829.0A
Authority: CN
Inventors: 窦钰涛; 胡彪; 夏飞; 肖坚; 金持
Original assignee: Hunan Rongguan Intelligent Technology Co ltd
Current assignee: Hunan Rongguan Intelligent Technology Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-12-05
Anticipated expiration: 2041-04-28
Also published as: CN113128490A

Abstract

本申请属于数据处理方法技术领域，尤其涉及一种处方信息扫描和自动识别方法。包括用于进行文本识别的步骤；包括获取处方笺图片，以处方笺图片为输入获取输出的文本识别数据以及文本位置数据；用于完成信息抽取的步骤，包括步获取文本识别数据和文本位置数据；通过处方笺上固有的Rp文本作为参考点，将文本识别数据和文本位置数据分割为处方信息部分及药方信息部分；本申请提出了一种能够用于快速识别和分析处方笺上文本信息，并实现自动化分类信息收集和处方信息预处理的技术方案，本方法实现方式相对简单，适应性好，且能够充分保证信息收集的准确性，并具有一定的纠错勘误能力，能够提高处方笺信息电子化的效率，降低操作成本。

Description

一种处方信息扫描和自动识别方法

技术领域

本申请属于数据处理方法技术领域，尤其涉及一种处方信息扫描和自动识别方法。

背景技术

目前，市场上现有的信息扫描和自动识别应用大多应用在身份证和银行卡上，该类技术要求卡片大小和信息相对于卡片的位置固定，所得到的识别效果已经达到目前工程化的需求，但是现有自动识别技术要求卡片信息相对卡片位置固定，对于卡片信息相对卡片位置不固定的情况识别效果较差。处方笺中药方信息相对处方位置不固定，数量不固定、药方信息有部分缺失，在进行自动识别时难以获得准确信息。

发明内容

本申请的目的在于，构建能够用于进行电子化的处方信息的识别和抽取，以便于实现自动化和智能化的处方笺信息收集处理工作，对药方进行切分实现处方笺的信息扫描和自动识别的处方信息扫描和自动识别方法。

为实现上述目的，本申请采用如下技术方案。

一种处方信息扫描和自动识别方法，包括步骤①～②：

①用于进行文本识别的步骤；包括：

A1.获取处方笺图片，基于TrWebOCR，以处方笺图片为输入获取输出的文本识别数据以及文本位置数据；

所述TrWebOCR采用CNN+RNN+CTC模型，具体而言，包括：

构建自下而上的卷积层、循环层和转录层三个部分；在卷积层输入图像特征提取序列，利用双向LSTM组成循环层，循环层对卷积层输出的特征序列的每一帧进行预测，利用转录层将每帧的预测转化为标签序列；

②用于完成信息抽取的步骤，包括步骤B1～B3：

B1.获取文本识别数据和文本位置数据；

B2.通过处方笺上固有的Rp文本作为参考点，将文本识别数据和文本位置数据分割为处方信息部分及药方信息部分；

B3.对于处方信息部分；

以“医院”作为关键字进行匹配，截取与医院直接连接的文本串，获取医院名称数据；

以“医院”和“处方笺”为关键字进行匹配后，截取位于两者之间的文本串，获取处方类型数据；

以“处方笺”为关键字进行匹配确定处方笺文本位置，在处方笺后侧以有效为关键字进行匹配，截取与有效直接连接的文本串作为有效期数据；

以“门诊号”作为关键字进行匹配，截取与门诊号直接连接的文本串直接连接的文本串作为门诊号数据；

以“科室”作为关键字进行匹配，截取与科室直接连接的文本串直接连接的文本串作为科室数据；

以“年”、“月”、“日”作为关键字进行匹配，截取与年月日直接连接的文本串直接连接的文本串作为处方日期数据；

以依次相连的数字加关键字“：”加数字的三组合为匹配规则，确定处方时间数据；

以“姓名”和“性别”为关键字进行匹配后，截取位于两者之间的文本串，获取姓名数据；

以“姓名”为关键字进行匹配确定姓名文本位置，在姓名后侧以“男”或“女”为关键字进行匹配，以截取到的男或女作为性别数据；

以依次相连的数字加关键字“岁”的组合为匹配规则，截取相应的数字文本作为年龄数据；

以“临床诊断”为关键字进行匹配，截取位于“临床诊断”关键字后侧文本数据作为临床诊断数据；

B4.对于药方信息部分，采用步骤b1～b3处理，具体而言：

b1.是指利用文本识别模块所获取的位置信息将每一条药方进行切分，包括步骤：

I、利用已有药方文本位置信息中的宽度信息求得所有药方文本的平均宽度；

II、将相对位置小于平均宽度的文本拼接，作为单条药方的其中一行；

III、每两行作为一条药方，若出现单条药方占处方笺三行，确定该行最左侧文本的横坐标与上一行最左侧文本的横坐标的距离大于判定阈值，若大于阈值则认为此此行与上一行为一行信息；

b2.将易错文本字符进行修正；

b3.对药方的各行分别使用正则匹配的方式分别抽取得到药方数据。

对前述处方信息扫描和自动识别方法的进一步改进和优化，所述步骤b3中具体是指：

C1、使用数字文本对药方的第一行进行正则匹配，截取位于数字文本前侧的字符串作为药品名称数据；

C2、删除前述药方名称文本，在剩下的字符串中使用正则方法匹配中文或中文+字母，以得到的文本串作为要药品来源数据；

C3、以C2的匹配结果切分第一行删除药方名称的部分，切分得到的前一部分为药品规格数据；切分得到的后一部分为药品数量数据；

C4、使用关键字“/”+“周”或“日”的组合方式进行正则匹配，匹配得到的文本串为药品频次数据；

C5、以C4的匹配结果切分药方的第二行，切分得到的前一部为药品单次剂量；

C6、对C5中切分得到的后一部分，使用关键字天进行正则匹配，截取得到的数字字符作为药品周期数据；

C7、对C5中切分得到的后一部分，使用关键字口服、吸入、外用、皮下注射进行正则匹配，以得到的相同字样文本串作为使用类型数据；

C8、对C5中切分得到的后一部分，删除C6、C7相应数据，截取剩下的文本数据作为药方医嘱数据。

对前述处方信息扫描和自动识别方法的进一步改进和优化，所述文本识别方式采用的CNN+RNN+CTC模型实现，具体而言，包括：

构建自下而上的卷积层、循环层和转录层三个部分；在卷积层输入图像特征提取序列，利用双向LSTM组成循环层，循环层对卷积层输出的特征序列的每一帧进行预测，利用转录层将每帧的预测转化为标签序列。

对前述处方信息扫描和自动识别方法的进一步改进和优化，所述步骤③用于完成信息抽取的步骤，还包括准备步骤，所述准备步骤是指将所有处方信息文本拼接为一个字符串，将易错符号进行定位和纠正。

对前述处方信息扫描和自动识别方法的进一步改进和优化，所述步骤B3、B4为并行执行。

其有益效果在于：

基于现有技术方案，提出了一种能够用于快速识别和分析处方笺上文本信息，并实现自动化分类信息收集和处方信息预处理的技术方案，为实现自动化的处方信息收集工作提供了必要的技术基础，本方法实现方式相对简单，适应性好，且能够充分保证信息收集的准确性，并具有一定的纠错勘误能力，能够提高处方笺信息电子化的效率，降低操作成本。

附图说明

图1是处方信息扫描和自动识别方法的流程图。

具体实施方式

以下结合具体实施例对本申请作详细说明。

一种处方信息扫描和自动识别方法，如图1所示，包括步骤①～②：

①用于进行文本识别的步骤；包括：

②用于完成信息抽取的步骤，包括步骤B1～b3：

B1.获取文本识别数据和文本位置数据；

B3.对于处方信息部分；

B4.对于药方信息部分，采用步骤b1～b3处理，具体而言：

b1.是指利用文本识别模块所获取的位置信息，将每一条药方进行切分，包括步骤Ⅰ～Ⅲ：

b2.将易错文本字符进行修正；

b3.对药方的各行分别使用正则匹配的方式分别抽取得到药方数据，中具体是指：

本申请中，文本识别方式采用的CNN+RNN+CTC模型实现，具体而言，包括：

具体而言，采用CRNN文本识别模型，返回识别得到的文本、位置信息，在此基础上提供了http调用的接口，便于后续信息抽取模块的调用。该模块以拍照所得的处方笺图片作为输入，输出为识别的文本结果。文系统识别所采用的模型是CNN+RNN+CTC，CRNN自下而上由卷积层、循环层和转录层三个部分组成。卷积层负责从输入图像中提取特征序列。循环层由双向LSTM组成，负责对卷积层输出的特征序列的每一帧进行预测。转录层负责将每帧的预测转化为标签序列。CRNN训练时使用CTC作为损失函数，可以进行端到端的训练。

最后应当说明的是，以上实施例仅用以说明本申请的技术方案，而非对本申请保护范围的限制，尽管参照较佳实施例对本申请作了详细地说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或者等同替换，而不脱离本申请技术方案的实质和范围。

Claims

1.一种处方信息扫描和自动识别方法，其特征在于，包括步骤①～②：

①用于进行文本识别的步骤；包括：

所述TrWebOCR采用CNN+RNN+CTC模型，具体而言，包括：

②用于完成信息抽取的步骤，包括步骤B1～B4：

B1.获取文本识别数据和文本位置数据；

B3.对于处方信息部分；

以“门诊号”作为关键字进行匹配，截取与门诊号直接连接的文本串作为门诊号数据；

以“科室”作为关键字进行匹配，截取与科室直接连接的文本串作为科室数据；

以“年”、“月”、“日”作为关键字进行匹配，截取与年月日直接连接的文本串作为处方日期数据；

B4.对于药方信息部分，采用步骤b1～b3处理，具体而言：

III、每两行作为一条药方，若出现单条药方占处方笺三行，确定该行最左侧文本的横坐标与上一行最左侧文本的横坐标的距离大于判定阈值，若大于阈值则认为此行与上一行为一行信息；

b2.将易错文本字符进行修正；

2.根据权利要求1所述的一种处方信息扫描和自动识别方法，其特征在于，所述步骤b3中具体是指：

C2、删除前述药方名称文本，在剩下的字符串中使用正则方法匹配中文或中文+字母，以得到的文本串作为药品来源数据；

3.根据权利要求1所述的一种处方信息扫描和自动识别方法，其特征在于，所述步骤②用于完成信息抽取的步骤，还包括准备步骤，所述准备步骤是指将所有处方信息文本拼接为一个字符串，将易错符号进行定位和纠正。

4.根据权利要求1所述的一种处方信息扫描和自动识别方法，其特征在于，所述步骤B3、B4为并行执行。