CN117831043A

CN117831043A - 一种用于医疗票据的ocr关键信息抽取方法及模型

Info

Publication number: CN117831043A
Application number: CN202311819417.6A
Authority: CN
Inventors: 张伟; 张靖; 崔涛; 贺扬
Original assignee: Hangzhou Yongliu Technology Co ltd
Current assignee: Hangzhou Yongliu Technology Co ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-04-05

Abstract

本发明涉及图像识别技术领域，具体涉及一种用于医疗票据的OCR关键信息抽取方法及模型。包括以下步骤：步骤S1、对医疗票据图片进行OCR，输出文本坐标及相应文本内容；步骤S2、基于大语言模型对步骤S1中的输出结果判断医疗票据的场景类别；步骤S3、基于大语言模型根据不同医疗票据类型设计对应的Prompt；步骤S4、大语言模型根据Prompt对QUESTION,ANSWER进行一对一匹配关联，最终以键值对的形式输出结果。本发明具有鲁棒性高、通用性强，无需针对繁杂的垂类任务定制规则模版，能够高效地从样式多变的医疗票据中将关键信息进行抽取并进行有效关联，从而帮助医生提高诊疗效率，减少人工查阅医疗票据的时间。

Description

一种用于医疗票据的OCR关键信息抽取方法及模型

技术领域

本发明涉及图像识别技术领域，具体涉及一种用于医疗票据的OCR关键信息抽取方法及模型。

背景技术

医疗票据作为诊疗依据的信息载体，其承载了关于病患各种身体指征重要信息，医生需要从病患提供的多种医疗票据中找到其所需项目的检查结果，以便制定治疗方案。

医疗票据种类多样，且以非统一的结构化形式呈现，常见的医疗票据有病历、报告单、检查单等，其中病历、报告单往往以非结构化的形式呈现，检查单通常以表格化或结构化的形式呈现，仅经过OCR后得到的文本是一种非结构化的信息；医疗票据样式复杂多样，不同医院、不同项目的检验报告都不尽相同；文字内容复杂，检查项目众多、检查项目名称不统一、报告中文字表述形式不统一；干扰项复杂，光线变化、检验单发生形变或者倾斜等因素的存在；这些现实问题都会导致无法仅通过OCR实现对关键信息进行抽取以及对其对应关系进行匹配。

目前针对医疗票据OCR的解决方案主要有两种方法：第一种是采用规则的方法，其根据文本坐标间的相对关系作为预定义的规则，但当图片发生倾斜或形变时就会失效，第二种是采用模板匹配的方法进行关键信息的匹配，通过提前定义某种样式的模板，之后将OCR的结果与其进行对齐从而得到文本间的相对关系，但是需要针对每种不同样式的医疗票据进行模板的制定，导致通用性不佳且开发成本大。

中国专利CN111985306A，公开日2020年11月24日，本公开的实施例提供了一种应用于医疗领域文档的OCR和信息抽取方法、设备和计算机可读存储介质。所述方法包括获取图像信息；对所述图像信息进行分析，确定所述图像信息内的表格区域和文本区域；通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行；通过OCR文字识别算法将所述文本行转换成文本信息；通过抽取算法提取所述文本信息中的关键信息；将所述关键信息存储到已存的结构化点位信息模版，完成对所述医疗领域文档的抽取，其技术方案虽然可以对文档内容进行智能识别和关键信息的抽取，但针对样式多变的票据进行关键信息抽取时其准确性和通用性存在明显的不足，还不能够有效的解决从样式多变的医疗票据中获取将关键信息进行抽取并进行有效关联的问题，从而帮助医生提高诊疗效率，减少人工查阅医疗票据的时间。

发明内容

为解决现有从样式多变的医疗票据中获取将关键信息进行抽取并进行有效关联的问题，本发明采用如下技术方案：一种用于医疗票据的OCR关键信息抽取方法及模型，包括以下步骤：

步骤S1、对医疗票据图片进行OCR，输出文本坐标及相应文本内容；

步骤S2、基于大语言模型对步骤S1中的输出结果判断医疗票据的场景类别；

步骤S3、基于大语言模型根据不同医疗票据类型设计对应的Prompt；

步骤S4、大语言模型根据Prompt对QUESTION，ANSWER进行一对一匹配关联，最终以键值对的形式输出结果。本发明具有鲁棒性高、通用性强，无需针对繁杂的垂类任务定制规则模版，能够高效地从样式多变的医疗票据中将关键信息进行抽取并进行有效关联，从而帮助医生提高诊疗效率，减少人工查阅医疗票据的时间。

作为优选，所述步骤S1中对票据图片进行OCR的具体步骤为：

S1.1、采用深度学习算法对医疗票据图片中的文字进行文字区域检测；

S1.2、采用一个文字方向4分类模型对步骤S1.1检测到的文字进行方向分类，判断其文字方向；

S1.3、若文字方向非水平放置，则根据模型预测的文字方向对图片进行相应角度的旋转，最终保证票据图片呈水平放置，若文字方向为水平放置，则直接进行步骤S1.4；

S1.4、对经过旋转矫正之后的图片进行文字检测，检测出精确的文字框；

S1.5、对检测出的文字区域进行文字识别，得到识别结果；

S1.6、最终所识别出来的文字根据文本坐标进行顺序调整，顺序在原始图片中按照从左到右、从上到下排列。

作为优选，所述步骤S1.1中的文字区域检测采用的深度学习算法为轻量级神经网络MobileNetV3。

作为优选，所述步骤S1.4中的文字检测采用的深度学习DB算法，所述DB算法公式为：

其中，P为获取的概率，T为阈值，k为增益因子，ij为文本坐标。

作为优选，所述步骤S1.5中的文字识别采用的深度CRNN算法，所述深度CRNN算法使用增加L2正则化的CTC损失函数，其公式为：

其中，X为输入序列，T为输入序列长度，/>表示输出单元的激活概率，L'为类别集合，L为任务字典符号集，π为网络译码路径，π与输入X等长,w是模型的参数向量，||w||₂是参数向量w的L2范数。

作为优选，所述大语言模型是基于医疗领域数据训练得到的LLM模型。

作为优选，所述Prompt为通用的Prompt。

一种用于医疗票据的OCR关键信息抽取模型，包括第一模块、第二模块、第三模块和第四模块，

第一模块、对医疗票据图片进行OCR，输出文本坐标及相应文本内容；

第二模块、基于大语言模型对第一单元中的输出结果判断医疗票据的场景类别；

第三模块、基于大型语言模型根据不同医疗票据类型设计对应的Prompt；

第四模块、大语言模型根据Prompt对QUESTION，ANSWER进行一对一匹配关联，最终以键值对的形式输出结果。

一种计算设备，包括：存储器，用于存储计算机可执行代码；处理器，用于执行所述计算机可执行代码，以实现根据权利要求1-7任一个所述的抽取方法。

一种计算机可读介质，存储计算机可执行代码，所述计算机可执行代码被处理器执行，以实现根据权利要求1-7任一个所述的抽取方法。

本发明的有益技术效果包括：

1.本方法能够对OCR输出的所有信息进行筛选，只保留有价值的关键信息，缩短了人工审核过滤的时间；

2.相较于OCR仅能够输出非结构化信息，本方法可以将这些无序的信息进行结构化，并形成关联信息，极大减少了人工成本；

3.相比较与之前制作字典以匹配医疗术语多变的情况，本方法通过LLM，其可以理解相同术语的不同表述形式，解决了医疗术语不统一带来的问题；

4.相比较与之前的基于规则的方法和基于制作模板的方法，本方法提高了OCR技术在医疗票据垂直领域落地时的通用性，该方法无关乎医疗票据的样式，无论是纸质版本还是电子截屏的都可以进行关键信息提取及匹配，同时，该方法极大地减小了开发成本。

本发明的其他特点和优点将会在下面的具体实施方式、附图中详细的说明。

附图说明

下面结合附图对本发明做进一步的说明：

图1为本发明实施例一种用于医疗票据的OCR关键信息抽取方法操作步骤示意图；

图2为本发明实施例票据图片进行OCR的流程示意图；

图3为本发明实施例基于语言大模型判断医疗票据的场景类别的流程示意图；

图4为本发明实施例一种用于医疗票据的OCR关键信息抽取方法的整体流程图。

具体实施方式

下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明，但下述实施例仅为本发明的优选实施例，并非全部。基于实施方式中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例，都属于本发明的保护范围。

在下文描述中，出现诸如术语“上”、“下”、“左”、“右”等指示方位或者位置关系仅是为了方便描述实施例和简化描述，而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

为了能够有效的解决从样式多变的医疗票据中获取将关键信息进行抽取并进行有效关联的问题，本实施例提出了一种用于医疗票据的OCR关键信息抽取方法及模型。请参阅附图1及图4，该方法包括以下步骤：

具体的是，如图2所示，对医疗票据图片进行OCR的具体步骤为：

文字区域检测采用的深度学习算法为轻量级神经网络MobileNetV3，MobileNetV3是由google团队在2019年提出的轻量化网络模型，MobileNetV3在移动端图像分类、目标检测、语义分割等任务上均取得了优秀的表现。MobileNetV3采用了很多新的技术，包括针对通道注意力的Squeeze-and-Excitation模块、NAS搜索方法等，这些方法都有利于进一步提升网络的性能。

文本检测采用深度学习DB算法，DB算法公式为：

S1.5、对检测出的文字区域进行文字识别，得到识别结果；

文字识别采用的深度CRNN算法，所述深度CRNN算法使用增加L2正则化的CTC损失函数，其公式为：

不同类型的医疗票据中的文本信息往往包含着某种医疗票据特有的特征，所以利用LLM对文字语义理解能力可以对步骤1产生的OCR文字结果进行分析，可以得到该医疗票据属于哪一类型，以方便后续步骤对该类型医疗票据进行准确的信息提取。

如图3所示，经过训练的LLM已经具备对文字语义的理解能力(如与ChatOCR进行对话)；医疗票据图片经过OCR得到图片中的文字；

此时，给LLM设计一个Prompt，LLM可返回一个key-value对，key是“response”，value为判断结果；

不同类型的医疗票据上所承载的信息是不同的，甚至其表达形式也有可能完全不同，比如报告单中是一大段的结论文字、检查单上有检查项目及检查结果等等，所以需要对不同的场景(即医疗票据)设计不同的提示语句(即Prompt)以让LLM准确地提取出关键信息；

特别地，对于较为复杂的场景，还可以通过举例的形式让LLM理解如何做才是正确的；

向LLM提问，即QUESTION，与设计的提示和(或)例子组成一段完整的提示，该提示语句就是最终向LLM输入的命令，即Prompt。

其内容为：’你需要通过图像的OCR文字识别结果，判断该图像是我给定的文档或证件类型列表中的哪一种。OCR的文字识别结果使用```符号包围，包含所识别出来的文字，列表元素用[]包围。结果以json格式返回，包含一个key-value对，key是“response”，value为判断结果，如果不属于列表元素，value设置为实际值，不要包含多余文字。其中OCR文字中包含"检查项目"、"结果"、"参考范围"，该文档类型很可能是检验报告单。其中OCR文字中包含"检查描述"、"检查结论"，该文档类型很可能是报告单。现在开始：OCR文字：```{ocr结果}```文档或证件类型列表：[{type列表}]"""’。

步骤S4、大语言模型根据Prompt对QUESTION，ANSWER进行一对一匹配关联，最终以键值对的形式输出结果。

通过步骤3中的Prompt，LLM理解QUESTION的意图和目的，其从步骤1中的OCR结果中查找文本信息，最终找到答案ANSWER，最终将QUESTION和ANSWER进行关联，以键值对的形式输出。

如：Prompt的举例说明：'你现在的任务是从OCR文字识别的结果中提取关键词列表中每一项对应的关键信息。OCR的文字识别结果使用```符号包围，包含所识别出来的文字，顺序在原始图片中从左至右、从上至下。我指定的关键词列表使用[]符号包围。请注意OCR的文字识别结果可能存在长句子换行被切断、不合理的分词、文字被错误合并等问题，你需要结合上下文语义进行综合判断，以抽取准确的关键信息。在返回结果时使用JSON格式，包含多个key-value对，key值为我指定的关键词，value值为所抽取的结果。如果认为OCR识别结果中没有关键词key对应的value，则将value赋值为"未知"。请只输出json格式的结果，并做json格式校验后返回，不要包含其它多余文字！’。

例如，OCR文字：```{xxx医院检验报告单样本号：xxxx条形码：xxxxxx姓名：xx性别：女年龄：41诊疗卡号：xxxxxx标本种类：尿液报告单号：xxxxxx送检科室：皮肤科门诊送检医生：xx检验科室：检验医学科报告类别：激素标本说明：备注：缩写项目名称检验结果参考数值项目单位高低标志尿蛋白1.U-TP 498.300.00～150.00mg/1H2.CREA肌酐7058.0umol/13.PR/CR尿蛋白/尿肌酐mg/g 624.80.0～200.0H申请时间：2021-10-1109:31:53采集时间：2021-10-1110:08:24接收时间：2021-10-1110:09:45报告时间：2021-10-1112:00:41}```。

结合上面的例子，根据OCR以键值对形式输出关键词列表：[{尿蛋白,肌酐}]结果：{尿蛋白：498.30,肌酐：7058.0}。

本发明的第二方面提供了一种用于医疗票据的OCR关键信息抽取模型，包括第一模块、第二模块、第三模块和第四模块，

本发明的第三方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令运行时，用于执行上述的一种用于医疗票据的OCR关键信息抽取方法。

本发明的第四方面提供一种计算机设备，包含上述的计算机可读存储介质。

本实施例的有益效果包括：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

2.根据权利要求1所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

所述步骤S1中对票据图片进行OCR的具体步骤为：

S1.5、对检测出的文字区域进行文字识别，得到识别结果；

3.根据权利要求2所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

所述步骤S1.1中的文字区域检测采用的深度学习算法为轻量级神经网络MobileNetV3。

4.根据权利要求2所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

所述步骤S1.4中的文字检测采用的深度学习DB算法，所述DB算法公式为：

5.根据权利要求5所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

所述步骤S1.5中的文字识别采用的深度CRNN算法，所述深度CRNN算法使用增加L2正则化的CTC损失函数，其公式为：

6.根据权利要求1所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

所述大语言模型是基于医疗领域数据训练得到的LLM模型。

7.根据权利要求1所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

所述Prompt为通用的Prompt。

8.一种用于医疗票据的OCR关键信息抽取模型，其特征在于，

包括第一模块、第二模块、第三模块和第四模块，

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令运行时，用于执行根据权利要求1-7任一个所述的抽取方法。

10.一种计算设备，包括上述的计算机可读存储介质，以实现根据权利要求1-7任一个所述的抽取方法。