CN116912847A

CN116912847A - 一种医学文本识别方法、装置、计算机设备及存储介质

Info

Publication number: CN116912847A
Application number: CN202310851160.6A
Authority: CN
Inventors: 苏杭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-10-20

Abstract

本申请属于人工智能领域，应用于数字医疗领域中，涉及一种医学文本识别方法，包括解析待识别文件的文件头确定文件类型；将PDF格式的待识别文件转换为图片文件；对图片文件进行预处理图片之后进行文字识别，得到文本识别结果；将图片文件输入分类模型中进行分类，得到识别文本的文本类型；将文本识别结果和图片文件输入多模态实体抽取模型，输出结构化的文本实体；匹配标准模板，根据标准模板的模板字段匹配文本实体，将匹配到的文本实体录入模板字段对应的位置。本申请还提供一种医学文本识别装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，待识别文件可存储于区块链中。本申请能够提高文本分类的准确性，强化对特定场景材料的理解。

Description

一种医学文本识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能及数字医疗技术领域，尤其涉及一种医学文本识别方法、装置、计算机设备及存储介质。

背景技术

随着社会经济的发展和医疗卫生水平的不断提高，人们对健康管理的需求越来越大，相应的保险业务也随之增长。在当前保险行业通行的核保和理赔的制度和流程下，被保险人在申请保险和索赔过程中，需提交的相关材料，医院材料是其中一种重要材料，医院材料的录入也是保险核保、理赔等流程的重要环节之一，通常发生在工作人员接受客户申请的阶段。由于用户会提供大量的材料以备核查，而材料种类繁多，格式通常以图片等无法直接转化的类型为主，过去的手动录入的方式往往耗费大量的人力成本，且存在标准不一、容易出错的特点。近几年随着OCR(Optical Character Recognition，光学字符识别)技术的兴起，市场上产生了很多自动化流程录入的方法，能够在保证准确性的前提下，大幅提高录入效率，可复用性强。

对于医院材料PDF(Portable Document Format，便携文件格式)类型材料的识别，目前市面上并没有统一的解决方案。医院材料本身具有板式多，字段杂，材料类型不统一等特点。不同的医院或体检机构，或是新旧的系统，会产生不同板式的材料；用户体检项目的差异性，会让每份医院材料的字段具有特异性；对于标准化的PDF，解析的方案与扫描或加密的PDF也有不同。中国专利申请CN202110986680.9采用了CTPN(Connectionist TextProposal Network，场景文字检测网络)的检测模型从而能检测出横向分布的文字，并采用CRNN+CTC模型进行文字识别，对识别后的文字采用规则库匹配需要的字段；其缺点是对于新字段可扩展性不高，规则需要严格的医学定义，需要经常维护。中国专利申请CN202111187198.5使用CRNN识别模型，对于实体抽取则采用基于transformer的序列标注模型，按照每行的方式进行实体类型识别；缺点是对于同一行有多个指标的情况较难处理。中国专利申请CN202110216933.4用改进的FAST SCNN模型，检测不同方向的文本，使用Huffman编码的CRNN做文字识别，最后采用带注意力的序列标注模型，得到每个文本行的类别，其缺点是采用规则得到文本行之间的关系，适合发票等版面比较简单的场景。

发明内容

本申请实施例的目的在于提出一种医学文本识别方法、装置、计算机设备及存储介质，以解决现有技术中医学材料识别依赖规则匹配的字段，可扩展性差，以及对同行出现多个指标以及版面复杂的材料难以识别的技术问题。

为了解决上述技术问题，本申请实施例提供一种医学文本识别方法，采用了如下所述的技术方案：

获取待识别文件，解析所述待识别文件的文件头，根据所述文件头确定所述待识别文件的文件类型；

当所述文件类型为PDF格式时，将所述待识别文件转换为图片文件；

对所述图片文件进行旋转和放缩，得到预处理图片文件，对所述预处理图片文件进行文字识别，得到文本识别结果；

将所述图片文件输入训练好的分类模型中进行分类，得到预分类结果，基于所述文本识别结果对所述预分类结果进行校验，确定所述识别文本的文本类型；

将所述文本识别结果和所述图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体；

识别所述文本实体中的模板标识，根据所述文本类型和所述模板标识，获得与所述文本实体匹配的标准模板；

根据所述标准模板中的模板字段进行文本实体匹配，将匹配到的所述文本实体录入所述模板字段对应的位置，得到标准识别文本后输出。

进一步的，所述对所述图片文件进行旋转和放缩，得到预处理图片文件，对所述预处理图片文件进行文字识别，得到文本识别结果的步骤包括：

通过残差网络对所述图片文件进行特征提取，得到全部文本信息的特征图；

将所述特征图通过预先训练完成的方向分类器中进行方向矫正，输出矫正特征图；

将所述矫正特征图按照预设比例进行缩放，得到缩放特征图；

通过文本检测算法对所述缩放特征图进行文本定位，得到包含文本位置信息的文本布局图；

对所述文本布局图进行图像识别，得到文本识别结果。

进一步的，所述基于所述文本识别结果对所述预分类结果进行校验，确定所述识别文本的文本类型的步骤包括：

根据所述预分类结果调用对应的期望词典，将所述文本识别结果与所述期望词典中的期望关键词进行匹配；

若所述文本识别结果存在与所述期望关键词匹配的文本，则根据所述预分类结果调用对应的除外词典，将所述文本识别结果与所述除外词典中的除外关键词进行匹配；

若所述文本识别结果不存在与所述除外关键词匹配的文本，则将所述预分类结果进行调整，得到所述识别文本的文本类型；

若所述文本识别结果不存在与所述期望关键词匹配的文本，或所述文本识别结果存在与所述除外关键词匹配的文本，则将所述预分类结果作为所述识别文本的文本类型。

进一步的，所述多模态实体抽取模型包括文本嵌入层、图像特征提取层、图像嵌入层以及图像对齐层，所述将所述文本识别结果和所述图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体的步骤包括：

将所述文本识别结果输入所述文本嵌入层进行嵌入操作，得到文本向量；

通过所述图像特征提取层对所述图片文件进行特征提取，得到所述图片文件的图像特征信息；

将所述图片文件对应的图像特征信息输入所述图像嵌入层进行嵌入操作，得到图像嵌入向量；

获取所述图片文件中文本位置信息对应的位置向量，将所述文本向量、所述图像嵌入向量以及所述位置向量输入所述图像对齐层进行运算，得到结构化的文本实体。

进一步的，所述根据所述标准模板中的模板字段进行文本实体匹配，将匹配到的所述文本实体录入所述模板字段对应的位置的步骤包括：

根据预设的正则表达式对所述文本实体的文本字段进行提取，所述文本实体包括文本字段和文本内容；

将提取到的所述文本字段与所述文本实体进行匹配，将匹配到的文本字段对应的文本内容录入所述模板字段对应的位置，并将未匹配到的所述文本字段及其对应的文本内容进行滤除。

进一步的，在所述将匹配到的所述文本实体录入所述模板字段对应的位置的步骤之前还包括：

抽取所述模板字段，按照预设通用规则对抽取到的所述模板字段进行合法性校验；

当校验通过时，将所述模板字段对应的所述文本内容录入所述模板字段对应的位置；

当校验未通过时，对所述模板字段进行修正，得到修正模板字段；

按照预设医学规则对所述修正模板字段对应的文本内容进行验证；

当验证通过时，将所述文本内容录入所述修正模板字段对应的位置；

当验证未通过时，根据所述修正模板字段对所述文本识别结果进行文本抽取，得到目标文本；

若所述目标文本符合预设医学规则，则将所述目标文本录入所述修正模板字段对应的位置。

进一步的，在所述将所述待识别文件转换为图片文件的步骤之后还包括：

对所述图片文件进行内容抽取，获得抽取内容；

确定所述抽取内容是否为空；

当所述抽取内容为空时，执行所述对所述图片文件进行文字识别的步骤；

当所述抽取内容不为空时，执行所述将所述图片文件输入训练好的分类模型中进行分类的步骤。

为了解决上述技术问题，本申请实施例还提供一种医学文本识别装置，采用了如下所述的技术方案：

识别模块，用于获取待识别文件，解析所述待识别文件的文件头，根据所述文件头确定所述待识别文件的文件类型；

转化模块，用于当所述文件类型为PDF格式时，将所述待识别文件转换为图片文件；

文本识别模块，用于对所述图片文件进行旋转和放缩，得到预处理图片文件，对所述预处理图片文件进行文字识别，得到文本识别结果；

分类模块，用于将所述图片文件输入训练好的分类模型中进行分类，得到预分类结果，基于所述文本识别结果对所述预分类结果进行校验，确定所述识别文本的文本类型；

实体抽取模块，用于将所述文本识别结果和所述图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体；

模板匹配模块，用于识别所述文本实体中的模板标识，根据所述文本类型和所述模板标识，获得与所述文本实体匹配的标准模板；

录入模块，用于根据所述标准模板中的模板字段进行文本实体匹配，将匹配到的所述文本实体录入所述模板字段对应的位置，得到标准识别文本后输出。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

该计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的医学文本识别方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的医学文本识别方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过获取待识别文件，解析待识别文件的文件头，根据文件头确定待识别文件的文件类型，可以排除后缀名造成的误识别；当文件类型为PDF格式时，将待识别文件转换为图片文件，对图片文件进行旋转和放缩，得到预处理图片文件，对预处理图片文件进行文字识别，得到文本识别结果，通过旋转和放缩，能够有效地进行图片调整，避免方向偏移造成的文本识别不准确的问题；将图片文件输入训练好的分类模型中进行分类，得到预分类结果，基于文本识别结果对预分类结果进行校验，确定识别文本的文本类型，通过对分类结果进行校验，提高文本类型分类的准确性；将文本识别结果和图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体，通过多模态实体抽取模型将文本信息和图像信息进行融合，能够强化对特定场景材料的理解，并最大程度的提升多模态实体抽取模型对材料的识别能力；识别文本实体中的模板标识，根据文本类型和模板标识，获得与文本实体匹配的标准模板，根据标准模板中的模板字段进行文本实体匹配，将匹配到的文本实体录入模板字段对应的位置，得到标准识别文本后输出，通过标准模板将得到的文本实体进行标准化处理，便于管理，同时提升用户的体验度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的医学文本识别方法的一个实施例的流程图；

图3是图2中步骤S203的一种具体实施方式的流程图；

图4是图2中步骤S204的一种具体实施方式的流程图；

图5是根据本申请的医学文本识别装置的一个实施例的结构示意图；

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请提供了一种医学文本识别方法，涉及人工智能，可以应用于如图1所示的系统架构100中，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的医学文本识别方法一般由服务器/终端设备执行，相应地，医学文本识别装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的医学文本识别方法的一个实施例的流程图，包括以下步骤：

步骤S201，获取待识别文件，解析待识别文件的文件头，根据文件头确定待识别文件的文件类型。

在本实施例中，待识别文件包括但不限于不同文件类型的检验单、医学影像报告、病理检查报告、检验报告单以及体检报告等。

解析待识别文件的文件头，具体的，通过文件头标识符确定出待识别文件的文件头区域，在文件头区域中获取十六进制的文件格式关键字，基于文件格式关键字，确定待识别文件的文件类型，具体的，读取文件格式关键字的前16个字节的字符，以确定待识别文件的文件类型。

其中，文件类型包括PDF格式、图片格式等，图片格式为png、jpeg或jpg格式。

在本实施例中，通过文件头判断文件类型，而不使用文件扩展名，是因为扩展名可能会因人为的改动而与真实的文件类型不一致，使用文件头来判断能避免文件类型误识别的问题，且可以区分相同扩展名文件的不同类型，如普通pdf和Adobe Acrobat类型的pdf；此外，文件头只读取文件的少量字符，不会增加文件识别的运算消耗，读取整个文件也可以通过移动文件流的头指针来完成，快速便捷。

需要强调的是，为进一步保证待识别文件的私密和安全性，上述待识别文件还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，当文件类型为PDF格式时，将待识别文件转换为图片文件。

在本实施例中，对文件类型为PDF格式的待识别文件进行格式转换，转换为图片文件，具体的，使用图片转换工具将PDF格式的待识别文件每一页进行拆分，然后转化成图片文件，并将图片文件按照页数放入列表中。

其中，图片转换工具可以采用fitz工具或PyMuPDF，将pdf文件的每一页拆开并转化成图片。fitz工具是python的一个依赖包，用于对pdf类型文件进行处理；PyMuPDF是一个用来操作PDF文档的Python包，功能比较强大，不依赖其他的Python包。

在一些实施例方式中，当待识别文件为图片格式时，直接对待识别文件进行文字识别流程。

步骤S203，对图片文件进行旋转和放缩，得到预处理图片文件，对预处理图片文件进行文字识别，得到文本识别结果。

在本实施例中，可以通过训练完成的文字识别模型对图片文件进行预处理以及文字识别，文字识别模型基于OCR技术对图片文件进行文字识别。其中，文字识别模型包括预处理层、文本检测层以及图像识别层。

待识别文件在采集过程中，可能会存在由于拍照角度造成的倾斜问题，将待识别文件转化为图片文件之后，需要对图片文件进行预处理，预处理包括旋转和放缩，旋转的目的是将倾斜的图片文件进行角度转正，得到角度正常的图片文件。放缩则是将图片文件的宽和高进行按比例放缩，并使较长的边不超过文字识别模型可接受的最大长度，使得图片与模型相适应，提高文本识别的准确度。

预处理完成后，则对预处理图片文件进行文字识别，得到文字识别结果。

在一些实施方式中，上述对图片文件进行旋转和放缩，得到预处理图片文件，对预处理图片文件进行文字识别，得到文本识别结果的步骤包括：

步骤S301，通过残差网络对图片文件进行特征提取，得到全部文本信息的特征图；

步骤S302，将特征图通过预先训练完成的方向分类器中进行方向矫正，输出矫正特征图；

步骤S303，将矫正特征图按照预设比例进行缩放，得到缩放特征图；

步骤S304，通过文本检测算法对缩放特征图进行文本定位，得到包含文本位置信息的文本布局图；

步骤S305，对文本布局图进行图像识别，得到文本识别结果。

其中，步骤S301至步骤S303为预处理层进行预处理，预处理层包括第一残差网络、方向分类器和缩放层。

残差网络采用的是resnet50网络，通过resnet50网络对图片文件进行特征提取。

在本实施例中，采用残差网络进行特征提取，可以有效捕捉图片的特征，避免梯度消失和梯度爆炸的问题。

将全部文本信息的特征图输入预先训练完成的方向分类器中进行方向矫正。具体的，方向分类器是对人为标注标签为0°，90°，180°和270°四个方向角度的训练数据进行训练得到的四种分类的方向分类器，其中，角度是指偏移的图片文件和正图片文件之间的夹角。需要说明的是，小角度倾斜的图片文件可通过文本检测层进行调整。

将矫正特征图按照预设比例进行缩放，具体的，缩放层采用卷积层，通过卷积层对输入的矫正特征图进行缩放，在有效保留图片特征的同时使其适应模型尺寸，提高文本识别的准确性。

步骤S304通过文本检测层实现，文本检测层主要采用文本检测算法，文本检测算法为psenet算法，通过psenet算法定位文本行。

psenet算法采用psenet网络实现，psenet网络的架构为resnet+FPN(FeaturePyramid Networks，特征图金字塔网络)，通过resnet提取特征，取不同层的特征送入FPN进行特征融合，实现分割结果的渐进式的扩展算法。

其中，psenet网络中的resnet是基于Bottleneck(瓶颈层)的残差网络，具体的，采用resnet50网络，resnet50具有50个conv2d层，分别提取Conv2，Conv3，Conv4以及Conv5层输出的特征图构建特征金字塔，利用自顶向下以及横向连接的形式，即对4层特征P2，P3，P4，P5进行提取，得到4个256通道的特征图，将得到的4个通道的特征图进行融合，并将P3，P4，P5分别通过2倍，4倍，8倍的上采样分别于特征层P2进行特征级联，最终得到1024维的融合特征向量，将融合特征向量经过卷积层、BN层(Batch Normalization，批归一化)及ReLU层(激活函数层)，将融合特征向量的维度降为256的特征图，再将此特征图输入到1×1的卷积层中，得到n个分割结果，并将分割结果按照内核规模从小到大顺序排列，采用基于BFE的扩增算法，从最小的内核规模开始，逐步放大，最终扩增到原始文本的大小，实现对文本的定位，输出包含文本位置信息的文本布局图。

步骤S305通过图像识别层进行处理，图像识别层采用resnet+attn(注意力模块)+FN(Feedforward Networks，前馈神经网络)的结构，具体的，通过resnet对文本布局图进行特征提取，得到布局特征；通过注意力模块对布局特征进行注意力计算，得到布局注意力特征；将布局注意力特征输入前馈神经网络进行计算，得到文本布局增强特征，将文本布局增强特征进行输出，得到文本识别结果。

需要说明的是，resnet相当于编码模块；注意力模块相当于解码模块，采用基于注意力的RNN网络。

在本实施例中，注意力机制能很好的提升网络的性能，但将其进行可视化后容易发现注意力在原始图片上的中心点会产生偏移，导致出现重复或漏筛某个文本的情况。而FN模块则是通过计算预测的注意力中心和注意力区域可能的分布来调整注意力到目标区域。

在本实施例中，通过文字识别模型进行图片预处理和文字识别，可以提高文本识别的准确率。

步骤S204，将图片文件输入训练好的分类模型中进行分类，得到预分类结果，基于文本识别结果对预分类结果进行校验，确定识别文本的文本类型。

在本实施例中，分类模型包括残差层、全连接层和softmax层，通过残差层对输入的图片文件进行特征提取，将提取到的特征通过全连接层进行连接，得到全局特征，利用softmax层对全局特征进行分类，并计算每个类别的概率，根据概率确定当前图片文件的预分类结果。

在一些实施例中，分类模型的输入数据可以来自步骤S304得到的文本布局图，直接将文本布局图输入分类模型进行分类，可以提升分类的效率。

在本实施例中，分类模型为预先训练完成的，其训练数据集来自生产所需要录入的真实数据，是模型在训练前按照标注的实际情况预先定义好的。具体类别的区分主要来自于材料本身所属的种类，种类包括但不限于体检报告、医学影像报告、病理检查报告、检验报告单、病案首页、残疾鉴定证明和医保结算单等。对于业务方需要做详细区分的类别，也会在此基础上做进一步的区分，如普通发票可以详细分为普通发票住院原件、普通发票门诊含明细、普通发票门诊不含明细等等。

在一些可选的实现方式中，上述基于文本识别结果对预分类结果进行校验，确定识别文本的文本类型的步骤包括：

步骤S401，根据预分类结果调用对应的期望词典，将文本识别结果与期望词典中的期望关键词进行匹配；

步骤S402，若文本识别结果存在与期望关键词匹配的文本，则根据预分类结果调用对应的除外词典，将文本识别结果与除外词典中的除外关键词进行匹配；

步骤S403，若文本识别结果不存在与除外关键词匹配的文本，则将预分类结果进行调整，得到识别文本的文本类型；

步骤S404，若文本识别结果不存在与期望关键词匹配的文本，或文本识别结果存在与除外关键词匹配的文本，则将预分类结果作为识别文本的文本类型。

在本实施例中，通过关键字词典对分类结果进行校验，关键字词典包括期望词典和除外词典。期望词典为一种文本类型对应的易分错类型所包含的关键词；除外词典为一种文本类型所包含的关键词。

示例的，在实际生产上的场景，会容易把某一个类型的材料(如病理检查报告)错分成另一个类型的材料(如体检报告)。为了避免重训练导致引入更多的不确定性，这里针对每一种易分错的情况进行二次校验，使其必须满足期望关键字和除外关键字。比如，针对病理检查报告错分成体检报告的情况，对每一份分类为体检报告的材料，即体检报告对应的易分错类型为病理检查报告，先检查该材料是否包含期望词典(病理检查报告包含的关键词)中的任意一项(“病理检查报告单”或“病理学诊断报告”)，如果包含则继续判断是否不包含除外词典(体检报告包含的关键词)中的任意一项(“体检报告”)。当两种情况都满足则将该材料的标签调整为病理检查报告，否则原来的标签不做改变。

在本实施例中，通过对分类模型得到的分类结果进行校验，以确保分类的准确性。

步骤S205，将文本识别结果和图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体。

在本实施例中，多模态实体抽取模型采用LayoutLM模型，是一个带有空间感知自注意力机制的多模态Transformer编码器模型，在输入阶段同时接收文本、图像、布局这三种模态的信息，利用深层网络的建模能力实现多模态深度融合。其原理是通过遮挡token的部分文本信息，但保留其2D位置信息和图像信息，来获取token在文本中的位置信息和方向、字体等视觉信息，从而使模型更好理解文本位置和语义的模态对齐关系，得到结构化的文本实体。

步骤S206，识别文本实体中的模板标识，根据文本类型和模板标识，获得与文本实体匹配的标准模板。

在实际应用中，不同的机构或者不同地区的机构，其出具的医学材料的格式并不相同，甚至不同机构所出具的医学材料中，相同的意思可能采用不同的文字表述，例如：血压、血压强度等医学术语在不同的体检报告中可以表示相同的含义。

模板匹配主要针对不同机构，版本不一致的医学材料，进行定制化输出标准模板，提升用户体验度。

在本实施例中，模板匹配主要是针对同种材料的不同展现方式进行区分，如北京医疗门诊发票(新版)和河北省医疗门诊发票为2个模板，其中，北京医疗门诊发票(新版)可以匹配普通发票的模板，而河北省医疗门诊发票为特殊模板，包含医疗机构、执行科室等专有字段。

步骤S207，根据标准模板中的模板字段进行文本实体匹配，将匹配到的所述文本实体录入模板字段对应的位置，得到标准识别文本后输出。

具体的，根据预设的正则表达式对文本实体的文本字段进行提取，文本实体包括文本字段和文本内容；将提取到的文本字段与文本实体进行匹配，将匹配到的文本字段对应的文本内容录入模板字段对应的位置，并将未匹配到的文本字段及其对应的文本内容进行滤除。

在本实施例中，通过识别到的文本实体以模板的形式进行标准化处理，可以方便用户进行管理，同时可以提高文本录入的效率。

本申请通过文件头确定待识别文件的文件类型，可以排除后缀名造成的误识别；通过旋转和放缩，能够有效地进行图片调整，避免方向偏移造成的文本识别不准确的问题；通过对分类结果进行校验，提高文本类型分类的准确性；通过多模态实体抽取模型将文本信息和图像信息进行融合，能够强化对特定场景材料的理解，并最大程度的提升多模态实体抽取模型对材料的识别能力；通过标准模板将得到的文本实体进行标准化处理，便于管理，同时提升用户的体验度。

在本实施例的一些可选的实现方式中，上述将文本识别结果和图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体的步骤包括：

将文本识别结果输入文本嵌入层进行嵌入操作，得到文本向量；

通过图像特征提取层对图片文件进行特征提取，得到图片文件的图像特征信息；

将图片文件对应的图像特征信息输入图像嵌入层进行嵌入操作，得到图像嵌入向量；

获取图片文件中文本位置信息对应的位置向量，将文本向量、图像嵌入向量以及位置向量输入图像对齐层进行运算，得到结构化的文本实体。

在本实施例中，多模态实体抽取模型包括文本嵌入层、图像特征提取层、图像嵌入层以及图像对齐层。LayoutLM模型用于捕捉图片文件的视觉特征与文本相对位置等信息，解决视觉信息层面的问题，通过两部分结合，把对文本的语义理解以及捕捉到的图像特征进行归一化，最终合成拿到了结构化文本实体。

利用医学图片文件与对应的文本数据训练得到了LayoutLM模型，实现对医学图片文件的布局识别，最终得到结构化的文本信息进行输出。

在本实施例中，文本嵌入层的词嵌入所采用的是采用中文的roberta词嵌入模型，而不是模型自带的tokenizer，并在加载完预训练模型后导入行业专有词汇。具体的，基于sentencepiece的robertaxlm分词器，将所有的文本进行拼接，然后把文本中频繁出现的字符组合成子词，从而实现对未知词汇的分词，同时将生成的子词按照频率进行排序，得到子词表。在分词时分词器会将句子拆成可能的多个子词，并查找有无对应的词汇，优先合并词频靠前的子词，直至找不到可以合并的子词。其中，行业专有词汇来自于经验积累，一部分是业务方在其他开发任务重点关注的一些产品和术语清单，一部分是人工对实体进行标注后导出的标注语料。

在本实施例中，通过将获取到体现文本语义理解的的文本向量、表征图片文件中文本位置信息的位置向量以及体现图像特征信息的图像嵌入向量作为图像对齐层的输入，通过这三个向量结合图片文件本身进行对齐，就是把对文本的语义理解以及捕捉到的图像特征进行归一化，最终合成拿到了图片文件的结构化文本实体。

本申请通过多模态实体抽取模型可以实现批量地对图片文件进行结构化解析，便于对复杂场景下的文本数据进行结构化提取。

在一些可选的实现方式中，在上述将匹配到的文本实体录入模板字段对应的位置的步骤之前还包括：

抽取模板字段，按照预设通用规则对抽取到的模板字段进行合法性校验；

当校验通过时，将模板字段对应的文本内容录入模板字段对应的位置；

当校验未通过时，对模板字段进行修正，得到修正模板字段；

按照预设医学规则对修正模板字段对应的文本内容进行验证；

当验证通过时，将文本内容录入所述修正模板字段对应的位置；

当验证未通过时，根据修正模板字段对所述文本识别结果进行文本抽取，得到目标文本；

若目标文本符合预设医学规则，则将目标文本录入修正模板字段对应的位置。

在本实施例中，预设通用规则包括字段名称是否规范、字段对应的文本内容是否规范等。预设医学规则包括对应的前提条件和指标阈值，例如，前提条件为：年龄小于18岁，性别为男；对应的指标阈值包括收缩压阈值：大于100+2乘以年龄，舒张压阈值：大于65+年龄。

将标准模板中所有模板字段进行合法性校验，例如，时间字段是否符合合理的时间表述格式，数值指标是否为有效的数字，检查检验项名称是否为常见的体检项目等等。对于不合法的模板字段进行纠错，然后再次验证合法性。示例的，“脂蛋白a LP(al增高：(结果:445.00范围：0-300mg/L))”，会通过校验将“脂蛋白a LP(al增高)”标准化为“脂蛋白aLP(a)增高”，并对字段结果中的445.00进行判断，是否相对于标准区间0-300处于增高的状态，如果满足则此字段是合法的。

在本实施例中，对修正后的模板字段再次进行验证不通过时，根据修正模板字段从文本识别结果中进行抽取，得到目标文本，将抽取到的目标文本按照预设医学规则录入标准模板中对应字段处。

在一些实施例中，模板中的某个模板字段没有从文本实体中提取到相应文本内容，则从原本的文本识别结果中进行抽取与该模板字段匹配的文本，并按照预设规则录入该模板字段中。

本实施例通过对模板字段进行校验，可以提高输出文本的标准性。

在一些可选的实现方式中，在上述将待识别文件转换为图片文件的步骤之后还包括：

对图片文件进行内容抽取，获得抽取内容；

确定抽取内容是否为空；

当抽取内容为空时，执行对图片文件进行文字识别的步骤；

当抽取内容不为空时，执行将图片文件输入训练好的分类模型中进行分类的步骤。

在本实施例中，可以采用fitz工具尝试对图片文件中的文本内容进行抽取，如果抽取到的内容为空，则说明文件为扫描版的pdf或文件由于加密等原因无法正常打开，则执行步骤S203；若抽取到的内容不为空时，则执行步骤S204。

在一些可选的实施方式中，上述医学文本识别方法使用到多个模型，如果采用单线程的部署方式，则很容易在模型中的某个阶段造成阻塞，从而影响整体的识别效率。因此，选择分布式消息传递的模式，即Celery作为分布式任务调度模块，redis作为消息队列，用来发送和接收消息。Mysql作为backend(后端)，用于存储Celery执行的一些消息和结果，同时也可以跟踪业务的状态。消息队列会即时将任务发送至空闲的服务器，可以视繁忙程度增加或减少服务器实例。

在本实施例中，将模型服务封装为一个整体实例，运行在分布式的系统节点中，从而能够充分利用服务器算力，使资源得到合理化使用，并且此服务结构易于维护，可扩展到不同需求量的文本识别方案中。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图5，作为对上述图2所示方法的实现，本申请提供了一种医学文本识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的医学文本识别装置500包括：识别模块501、转化模块502、文本识别模块503、分类模块504、实体抽取模块505、模板匹配模块506以及录入模块507。其中：

识别模块501用于获取待识别文件，解析所述待识别文件的文件头，根据所述文件头确定所述待识别文件的文件类型；

转化模块502用于当所述文件类型为PDF格式时，将所述待识别文件转换为图片文件；

文本识别模块503用于对所述图片文件进行旋转和放缩，得到预处理图片文件，对所述预处理图片文件进行文字识别，得到文本识别结果；

分类模块504用于将所述图片文件输入训练好的分类模型中进行分类，得到预分类结果，基于所述文本识别结果对所述预分类结果进行校验，确定所述识别文本的文本类型；

实体抽取模块505用于将所述文本识别结果和所述图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体；

模板匹配模块506用于识别所述文本实体中的模板标识，根据所述文本类型和所述模板标识，获得与所述文本实体匹配的标准模板；

录入模块507用于根据所述标准模板中的模板字段进行文本实体匹配，将匹配到的所述文本实体录入所述模板字段对应的位置，得到标准识别文本后输出。

基于上述医学文本识别装置，通过文件头确定待识别文件的文件类型，可以排除后缀名造成的误识别；通过旋转和放缩，能够有效地进行图片调整，避免方向偏移造成的文本识别不准确的问题；通过对分类结果进行校验，提高文本类型分类的准确性；通过多模态实体抽取模型将文本信息和图像信息进行融合，能够强化对特定场景材料的理解，并最大程度的提升多模态实体抽取模型对材料的识别能力；通过标准模板将得到的文本实体进行标准化处理，便于管理，同时提升用户的体验度。

在本实施例中，文本识别模块503包括特征提取子模块、矫正子模块、缩放子模块、文本检测子模块和图像识别子模块，其中：

特征提取子模块用于通过残差网络对所述图片文件进行特征提取，得到全部文本信息的特征图；

矫正子模块用于将所述特征图通过预先训练完成的方向分类器中进行方向矫正，输出矫正特征图；

缩放子模块用于将所述矫正特征图按照预设比例进行缩放，得到缩放特征图；

文本检测子模块用于通过文本检测算法对所述缩放特征图进行文本定位，得到包含文本位置信息的文本布局图；

图像识别子模块用于对所述文本布局图进行图像识别，得到文本识别结果。

通过对图片文件预处理之后再进行文字识别，可以提高文本识别的准确率。

在本实施例的一些可选的实现方式中，分类模块504包括期望匹配子模块、除外匹配子模块、调整子模块以及确认子模块，其中：

期望匹配子模块用于根据所述预分类结果调用对应的期望词典，将所述文本识别结果与所述期望词典中的期望关键词进行匹配；

除外匹配子模块用于若所述文本识别结果存在与所述期望关键词匹配的文本，则根据所述预分类结果调用对应的除外词典，将所述文本识别结果与所述除外词典中的除外关键词进行匹配；

调整子模块用于若所述文本识别结果不存在与所述除外关键词匹配的文本，则将所述预分类结果进行调整，得到所述识别文本的文本类型；

确认子模块用于若所述文本识别结果不存在与所述期望关键词匹配的文本，或所述文本识别结果存在与所述除外关键词匹配的文本，则将所述预分类结果作为所述识别文本的文本类型。

通过对分类模型得到的分类结果进行校验，以确保分类的准确性。

在本实施例中，实体抽取模块505，包括文本嵌入子模块、图像特征子模块、图像嵌入子模块和图像对齐子模块，其中：

文本嵌入子模块用于将所述文本识别结果输入所述文本嵌入层进行嵌入操作，得到文本向量；

图像特征子模块用于通过所述图像特征提取层对所述图片文件进行特征提取，得到所述图片文件的图像特征信息；

图像嵌入子模块用于将所述图片文件对应的图像特征信息输入所述图像嵌入层进行嵌入操作，得到图像嵌入向量；

图像对齐子模块用于获取所述图片文件中文本位置信息对应的位置向量，将所述文本向量、所述图像嵌入向量以及所述位置向量输入所述图像对齐层进行运算，得到结构化的文本实体。

通过多模态实体抽取模型可以实现批量地对图片文件进行结构化解析，便于对复杂场景下的文本数据进行结构化提取。

在本实施例中，录入模块507进一步用于：

在一些可选的实施方式中，医学文本识别装置500还包括校验模块，所述校验模块用于：

通过对模板字段进行校验，可以提高输出文本的标准性。

在一些可选的实现方式中，医学文本识别装置500还包括抽取模块，所述抽取模块用于：对所述图片文件进行内容抽取，获得抽取内容；确定所述抽取内容是否为空；当所述抽取内容为空时，执行所述对所述图片文件进行文字识别的步骤；当所述抽取内容不为空时，执行所述将所述图片文件输入训练好的分类模型中进行分类的步骤。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如医学文本识别方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述医学文本识别方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例医学文本识别方法的步骤，通过文件头确定待识别文件的文件类型，可以排除后缀名造成的误识别；通过旋转和放缩，能够有效地进行图片调整，避免方向偏移造成的文本识别不准确的问题；通过对分类结果进行校验，提高文本类型分类的准确性；通过多模态实体抽取模型将文本信息和图像信息进行融合，能够强化对特定场景材料的理解，并最大程度的提升多模态实体抽取模型对材料的识别能力；通过标准模板将得到的文本实体进行标准化处理，便于管理，同时提升用户的体验度。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的医学文本识别方法的步骤，过文件头确定待识别文件的文件类型，可以排除后缀名造成的误识别；通过旋转和放缩，能够有效地进行图片调整，避免方向偏移造成的文本识别不准确的问题；通过对分类结果进行校验，提高文本类型分类的准确性；通过多模态实体抽取模型将文本信息和图像信息进行融合，能够强化对特定场景材料的理解，并最大程度的提升多模态实体抽取模型对材料的识别能力；通过标准模板将得到的文本实体进行标准化处理，便于管理，同时提升用户的体验度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种医学文本识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的医学文本识别方法，其特征在于，所述对所述图片文件进行旋转和放缩，得到预处理图片文件，对所述预处理图片文件进行文字识别，得到文本识别结果的步骤包括：

对所述文本布局图进行图像识别，得到文本识别结果。

3.根据权利要求1所述的医学文本识别方法，其特征在于，所述基于所述文本识别结果对所述预分类结果进行校验，确定所述识别文本的文本类型的步骤包括：

4.根据权利要求1所述的医学文本识别方法，其特征在于，所述多模态实体抽取模型包括文本嵌入层、图像特征提取层、图像嵌入层以及图像对齐层，所述将所述文本识别结果和所述图片文件输入训练好的多模态实体抽取模型，输出结构化的文本实体的步骤包括：

5.根据权利要求1所述的医学文本识别方法，其特征在于，所述根据所述标准模板中的模板字段进行文本实体匹配，将匹配到的所述文本实体录入所述模板字段对应的位置的步骤包括：

6.根据权利要求5所述的医学文本识别方法，其特征在于，在所述将匹配到的所述文本实体录入所述模板字段对应的位置的步骤之前还包括：

7.根据权利要求1至6中任一项所述的医学文本识别方法，其特征在于，在所述将所述待识别文件转换为图片文件的步骤之后还包括：

对所述图片文件进行内容抽取，获得抽取内容；

确定所述抽取内容是否为空；

8.一种医学文本识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的医学文本识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的医学文本识别方法的步骤。