CN112185520A

CN112185520A - 一种医疗病理报告图片的文本结构化处理系统和方法

Info

Publication number: CN112185520A
Application number: CN202011029211.XA
Authority: CN
Inventors: 骆佳俊; 魏博; 马素芬; 许永超; 李力行; 凌少平
Original assignee: Genowis Beijing Gene Technology Co ltd
Current assignee: Genowis Beijing Gene Technology Co ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-05
Anticipated expiration: 2040-09-27

Abstract

本申请提供了一种医疗病理报告图片的文本结构化处理系统和方法，其中，该系统包括：文本识别模块，用于对医疗病理报告图片进行文本识别，并对识别出的字词进行纠错处理，得到病理文本；文本切割模块，用于将病理文本切割为结构化文本和非结构化文本；字典匹配模块和模型预测模块，用于确定第一和第二医疗指标名实体数据结构；策略融合模块，用于对其进行融合得到医疗指标名实体；数据封装模块，用于封装医疗指标名实体和结构化文本；策略归一化模块，用于对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。本申请可提高图文识别的准确率，在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。

Description

一种医疗病理报告图片的文本结构化处理系统和方法

技术领域

本申请涉及图文识别技术领域，尤其是涉及一种医疗病理报告图片的文本结构化处理系统和方法。

背景技术

目前，针对医疗病理报告的大数据分析技术对医疗领域的技术研究起着非常重要的作用，而病理数据的精准结构化是有价值的医疗大数据分析的基础。然而，我国的医疗信息系统(比如HIS系统)在全国、同城等的医院之间并没有实现病理数据的互联互通，甚至部分医院内部的病理数据也无法跨科室复用，医疗信息孤岛的现象普遍存在。

多数病理报告以半结构化的文本图片数据形式呈现，其中，结构化信息多数为病患的基本信息，诸如性别，年龄，病理号，住院号等；非结构化信息多数为病理诊断或者诊断信息等描述性文字。对于后者，非结构化数据由于不同医院、不同医生的描述习惯不统一，写作模板不一致，呈现出不规范，零散的情况。

当前，许多医院存在将不同类型的病理报告图片需要进行跨科室、跨医院的数据解析并录入的需求。因此，亟需研发一种医疗病理报告图片的文本结构化处理方案。

发明内容

有鉴于此，本申请的目的在于提供一种医疗病理报告图片的文本结构化处理系统和方法，可提高图文识别的准确率，在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。

第一方面，本申请实施例提供了一种医疗病理报告图片的文本结构化处理系统，包括：

文本识别模块，用于将医疗病理报告图片划分为多个文本检测区域，对每个文本检测区域进行文字识别，并对识别出的字词进行纠错处理，得到病理文本；

文本切割模块，用于将所述病理文本切割为结构化文本和非结构化文本，并对所述非结构化文本进行预处理；

字典匹配模块，用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；

模型预测模块，用于利用命名实体识别模型对所述非结构化文本进行预测，得到第二医疗指标名实体数据结构；

策略融合模块，用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合，得到医疗指标名实体；

数据封装模块，用于对所述医疗指标名实体和所述结构化文本进行数据封装；

策略归一化模块，用于对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。

在一种可能的实施方式中，所述文本识别模块包括：

读取单元，用于读取医疗病理报告图片；

预处理单元，用于对所述医疗病理报告图片按照预设大小进行归一化处理；

检测单元，用于利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测，预测每个小尺度文本在竖直方向上的位置，并利用循环神经网络模型将检测出的小尺度文本进行连接，得到多个宽度为预设宽度的文本碎片框；

调整单元，用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框，若是则将每个文本碎片框与临近文本碎片框进行合并，进而从医疗病理报告图片中获取多个文本检测区域；

识别单元，用于利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别；

纠错单元，用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理，得到病理文本。

在一种可能的实施方式中，所述检测单元还用于：将待检测的目标区域的四个角标注出各自的二维坐标，将所述二维坐标合并为一个标记框向量，将每个标记框拆分为预设宽度的矩形框，基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集，以所述矩形框坐标集作为模型训练目标值进行模型训练，得到所述连接文本提议网络模型。

在一种可能的实施方式中，所述纠错单元具体用于：将识别出的字词匹配人工字典进行常识性纠错处理，通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度，确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词，比较识别出的专业词汇和至少一个同义词的余弦相似度，从至少一个同义词中确定目标匹配词，并将识别出的专业词汇替换为所述目标匹配词。

在一种可能的实施方式中，所述模型预测模块还用于：针对特定癌种的病理诊断数据集，根据BIOES标签体系和病理业务知识进行人工标注，将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集，通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型，在训练集和验证集上对所述命名实体识别模型进行训练，最后利用测试集对训练的所述命名实体识别模型进行测试。

在一种可能的实施方式中，所述策略融合模块具体用于：比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最长的医疗指标名实体数据结构；或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最短的医疗指标名实体数据结构。

在一种可能的实施方式中，所述策略归一化模块具体用于：计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度，选取相似度最大的同义词来替换该病理词汇，以对封装结果进行策略归一化处理，并根据业务逻辑进行三层推理，得到医疗病理报告图片的结构化文本。

第二方面，本申请实施例提供了一种医疗病理报告图片的文本结构化处理方法，包括：

将医疗病理报告图片划分为多个文本检测区域，对每个文本检测区域进行文字识别，并对识别出的字词进行纠错处理，得到病理文本；

将所述病理文本切割为结构化文本和非结构化文本，并对所述非结构化文本进行预处理；

将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；

利用命名实体识别模型对所述非结构化文本进行预测，得到第二医疗指标名实体数据结构；

根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合，得到医疗指标名实体；

对所述医疗指标名实体和所述结构化文本进行数据封装；

对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第二方面中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第二方面中的步骤。

本申请实施例提供的一种医疗病理报告图片的文本结构化处理系统，包括：文本识别模块，用于将医疗病理报告图片划分为多个文本检测区域，对每个文本检测区域进行文字识别，并对识别出的字词进行纠错处理，得到病理文本；文本切割模块，用于将所述病理文本切割为结构化文本和非结构化文本，并对所述非结构化文本进行预处理；字典匹配模块，用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；模型预测模块，用于利用命名实体识别模型对所述非结构化文本进行预测，得到第二医疗指标名实体数据结构；策略融合模块，用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合，得到医疗指标名实体；数据封装模块，用于对所述医疗指标名实体和所述结构化文本进行数据封装；策略归一化模块，用于对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。采用本方案可提高图文识别的准确率，在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理系统的模块组成示意图；

图2示出了文本区域划分示意图；

图3示出了文字识别效果示意图；

图4示出了纠错之后的文本示意图；

图5示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法的流程图；

图6示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法中，获取病理文本具体方法的流程图；

图7示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法中，纠错具体方法的流程图；

图8示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种医疗病理报告图片的文本结构化处理系统进行详细介绍。

请参照图1，图1为本申请实施例所提供的一种医疗病理报告图片的文本结构化处理系统的模块组成示意图。如图1所示，所述系统可以包括：

文本识别模块10，用于将医疗病理报告图片划分为多个文本检测区域，对每个文本检测区域进行文字识别，并对识别出的字词进行纠错处理，得到病理文本；

文本切割模块20，用于将所述病理文本切割为结构化文本(如性别、年龄)和非结构化文本(病理症状描述部分)，并对所述非结构化文本进行预处理；

字典匹配模块30，用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；

模型预测模块40，用于利用命名实体识别模型对所述非结构化文本进行预测，得到第二医疗指标名实体数据结构；

策略融合模块50，用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合，得到医疗指标名实体；

数据封装模块60，用于对所述医疗指标名实体和所述结构化文本进行数据封装；

策略归一化模块70，用于对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。

下面分别对上述各个模块进行具体介绍。

文本识别模块10可以包括：

读取单元，用于读取医疗病理报告图片；其中，医疗病理报告图片分为两种类型，第一种类型为扫描件，第二种类型为现场拍摄的照片。第二种类型的拍摄环境要求为摄像头和字纸报告平行，中心轴对齐，图片范围只能包含医疗病理报告内容，自行排除其他文字噪音干扰。生成图片之后上传到本系统图片读取接口中，通过读取函数将文件转化为RGB像素张量存在系统内存里等待后续处理。

预处理单元，用于对所述医疗病理报告图片按照预设大小进行归一化处理。具体地，本系统支持不限定大小的图片识别，因此图片数据进入系统后需要做归一化处理，即将内存中的像素张量信息数据进行降采样，生成[1500,900,3]大小的张量进入检测单元。

检测单元，用于利用连接文本提议网络(Connectionist Text ProposalNetwork，CTPN)模型对归一化处理后的医疗病理报告图片进行小尺度文本检测，预测每个小尺度文本在竖直方向上的位置，水平方向的位置不预测，并利用循环神经网络(Recurrent Neural Network，RNN) 模型将检测出的小尺度文本进行连接，得到多个宽度为预设宽度的文本碎片框。

调整单元，用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框，若是则将每个文本碎片框与临近文本碎片框进行合并，生成大的文本区域框，进而从医疗病理报告图片中获取多个文本检测区域。其中，基于图的文本行构造算法的实现，采用CNN+RNN循环网络将检测的小尺度文本进行连接，得到文本行，同时该网络也能支持多尺寸和多语言的情况，避免了后续再处理大小写英文、数字的情况，效果如图2所示。

识别单元，用于利用密集连接卷积网络DenseNet与联结主义时间分类器(Connectionist Temporal Classifier，CTC)的融合模型对每个文本检测区域进行文字识别。本系统支持不定长文本识别，只要划分完毕文本检测区域，无论区域长度多少，都可以识别出其中的内容生成多组字符串。基于以上需求，本系统的采用密集连接卷积网络DenseNet层用作文字图像分类，并叠加联结主义时间分类器CTC层解决输入特征与输出标签的对齐问题，最终得到精准的OCR识别结果，效果如图3所示。

纠错单元，用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理，得到病理文本。其中，常识性纠错主要是将识别结果匹配人工字典，来做常识性错别字纠错；业务逻辑纠错是计算识别出来的专业词汇和知识库中病理专业词汇的文本相似度，根据计算结果匹配最接近正确词汇的识别词，替换后得到文本识别的最终病理文本。

其中，所述检测单元具体实现为：将待检测的目标区域的四个角标注出各自的二维坐标[x1,y1]、[x2,y2]、[x3,y3]、[x4,y4]，将所述二维坐标合并为一个标记框向量(x1,y1,x2,y2,x3,y3,x4,y4)，将每个标记框拆分为预设宽度的矩形框(两头的可以不为预设宽度，预设宽度可以为16)，基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集，以所述矩形框坐标集作为模型训练目标值进行模型训练，得到所述连接文本提议网络CTPN模型，可以针对文本长度不固定的情况，准确地划分文本区域，并且区域内可以填满完整的文字。

所述纠错单元具体用于：将识别出的字词匹配人工字典进行常识性纠错处理，通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度，确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词，比较识别出的专业词汇和至少一个同义词的余弦相似度，从至少一个同义词中确定目标匹配词，并将识别出的专业词汇替换为所述目标匹配词。

具体地，常识性纠错主要是将识别结果匹配人工字典，来做常识性错别字纠错。例如，人工字典的纠错字典为{‘主院号’：‘住院号’，‘性名’：‘姓名’....}这种形式。

业务逻辑纠错的过程是计算识别出来的专业词汇和知识库中病理专业词汇的文本相似度，根据计算结果匹配最接近识别词汇的纠错词。具体来说，经过人工纠错的文本，切词后和病理知识库中的专业词汇进行比较，生成最小编辑距离值Distance(w0,w1)(w0是识别词，w1是专业词汇)。将Distance(w0,w1)相同的词w1挑选出来，生成基于识别词w0的小词表。在Distance(w0,w1)相同的小词表中，使用word2vec原理或者tf-idf 计算每个专业词和识别词的词向量，接着在w0最小编辑距离的小词表中，将各个专业词和识别词计算余弦相似度cosine(w0,w2)(w0是识别词， w2是小词表中的专业词汇)，取最大值的匹配词对，即可获得最接近识别词汇的纠错词w2。最终完成业务逻辑纠错，生成适用于结构化模式的数据存储方式。两种纠错最终结果如图4所示。

字典匹配模块30，用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；例如(‘弥漫性大B细胞淋巴瘤’，‘pathology’，索引结构)。该结构中包括已经识别成功的医疗指标名实体弥漫性大B细胞淋巴瘤’，实体对应的标注类别‘pathology’以及实体在该条病理文本的首尾位置索引结构。

模型预测模块40还用于：针对特定癌种的病理诊断数据集，根据BIOES 标签体系和病理业务知识进行人工标注，将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集，通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型，在训练集和验证集上对所述命名实体识别模型进行训练，最后利用测试集对训练的所述命名实体识别模型进行测试。

策略融合模块50具体用于：比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最长的医疗指标名实体数据结构(激进策略)；或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最短的医疗指标名实体数据结构(保守策略)。选择的策略不同，实现的业务需求也不同。

数据封装模块60在封装过程中，会注意到业务逻辑中键值对的连续匹配问题，最终输出符合病理业务需求的数据格式。

策略归一化模块70具体用于：计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度，选取相似度最大的同义词来替换该病理词汇，以对封装结果进行策略归一化处理，并根据业务逻辑进行三层推理，得到医疗病理报告图片的结构化文本(例如json结构)。

综上所述，本申请实施例提供的一种医疗病理报告图片的文本结构化处理系统，包括：文本识别模块，用于将医疗病理报告图片划分为多个文本检测区域，对每个文本检测区域进行文字识别，并对识别出的字词进行纠错处理，得到病理文本；文本切割模块，用于将所述病理文本切割为结构化文本和非结构化文本，并对所述非结构化文本进行预处理；字典匹配模块，用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；模型预测模块，用于利用命名实体识别模型对所述非结构化文本进行预测，得到第二医疗指标名实体数据结构；策略融合模块，用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合，得到医疗指标名实体；数据封装模块，用于对所述医疗指标名实体和所述结构化文本进行数据封装；策略归一化模块，用于对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。采用本方案可提高图文识别的准确率，在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。

基于相同的技术构思，本申请实施例还提供一种医疗病理报告图片的文本结构化处理方法、电子设备、以及计算机存储介质等，具体可参见以下实施例。

请参照图5，图5为本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法的流程图。如图5所示，所述方法可以包括：

步骤S501、将医疗病理报告图片划分为多个文本检测区域，对每个文本检测区域进行文字识别，并对识别出的字词进行纠错处理，得到病理文本；

步骤S502、将所述病理文本切割为结构化文本和非结构化文本，并对所述非结构化文本进行预处理；

步骤S503、将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配，得到第一医疗指标名实体数据结构；

步骤S504、利用命名实体识别模型对所述非结构化文本进行预测，得到第二医疗指标名实体数据结构；

步骤S505、根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合，得到医疗指标名实体；

步骤S506、对所述医疗指标名实体和所述结构化文本进行数据封装；

步骤S507、对封装结果进行策略归一化处理和推理，得到医疗病理报告图片的结构化文本。

在步骤S501中，如图6所示，可以包括如下子步骤：

步骤S5011、读取医疗病理报告图片；

步骤S5012、对所述医疗病理报告图片按照预设大小进行归一化处理；

步骤S5013、利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测，预测每个小尺度文本在竖直方向上的位置，并利用循环神经网络模型将检测出的小尺度文本进行连接，得到多个宽度为预设宽度的文本碎片框；

步骤S5014、依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框，若是，则转入步骤S5015，若否，则转入步骤S5014；

步骤S5015、将每个文本碎片框与临近文本碎片框进行合并，进而从医疗病理报告图片中获取多个文本检测区域；

步骤S5016、利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别；

步骤S5017、对识别出的字词进行常识性纠错处理和业务逻辑纠错处理，得到病理文本。

所述连接文本提议网络模型的训练过程包括：将待检测的目标区域的四个角标注出各自的二维坐标，将所述二维坐标合并为一个标记框向量，将每个标记框拆分为预设宽度的矩形框，基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集，以所述矩形框坐标集作为模型训练目标值进行模型训练，得到所述连接文本提议网络模型。

如图7所示，纠错过程可以包括如下步骤：

步骤S701、将识别出的字词匹配人工字典进行常识性纠错处理；

步骤S702、通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度；

步骤S703、确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词；

步骤S704、比较识别出的专业词汇和至少一个同义词的余弦相似度，从至少一个同义词中确定目标匹配词；

步骤S705、将识别出的专业词汇替换为所述目标匹配词。

步骤S504还包括：针对特定癌种的病理诊断数据集，根据BIOES标签体系和病理业务知识进行人工标注，将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集，通过搭建词嵌入层、神经网络BiLSTM层和CRF 层来构建命名实体识别模型，在训练集和验证集上对所述命名实体识别模型进行训练，最后利用测试集对训练的所述命名实体识别模型进行测试。

在步骤S505中，比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最长的医疗指标名实体数据结构；或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最短的医疗指标名实体数据结构。

在步骤S507中，计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度，选取相似度最大的同义词来替换该病理词汇，以对封装结果进行策略归一化处理，并根据业务逻辑进行三层推理，得到医疗病理报告图片的结构化文本。

本申请实施例公开了一种电子设备，如图8所示，包括：处理器801、存储器802和总线803，所述存储器802存储有所述处理器801可执行的机器可读指令，当电子设备运行时，所述处理器801与所述存储器802之间通过总线803通信。所述机器可读指令被所述处理器801执行时执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory， RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种医疗病理报告图片的文本结构化处理系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述文本识别模块包括：

读取单元，用于读取医疗病理报告图片；

3.根据权利要求2所述的系统，其特征在于，所述检测单元还用于：将待检测的目标区域的四个角标注出各自的二维坐标，将所述二维坐标合并为一个标记框向量，将每个标记框拆分为预设宽度的矩形框，基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集，以所述矩形框坐标集作为模型训练目标值进行模型训练，得到所述连接文本提议网络模型。

4.根据权利要求2所述的系统，其特征在于，所述纠错单元具体用于：将识别出的字词匹配人工字典进行常识性纠错处理，通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度，确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词，比较识别出的专业词汇和至少一个同义词的余弦相似度，从至少一个同义词中确定目标匹配词，并将识别出的专业词汇替换为所述目标匹配词。

5.根据权利要求1所述的系统，其特征在于，所述模型预测模块还用于：针对特定癌种的病理诊断数据集，根据BIOES标签体系和病理业务知识进行人工标注，将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集，通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型，在训练集和验证集上对所述命名实体识别模型进行训练，最后利用测试集对训练的所述命名实体识别模型进行测试。

6.根据权利要求1所述的系统，其特征在于，所述策略融合模块具体用于：比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最长的医疗指标名实体数据结构；或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分，保留医疗指标名最短的医疗指标名实体数据结构。

7.根据权利要求1所述的系统，其特征在于，所述策略归一化模块具体用于：计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度，选取相似度最大的同义词来替换该病理词汇，以对封装结果进行策略归一化处理，并根据业务逻辑进行三层推理，得到医疗病理报告图片的结构化文本。

8.一种医疗病理报告图片的文本结构化处理方法，其特征在于，包括：

对所述医疗指标名实体和所述结构化文本进行数据封装；

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求8所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求8所述的方法的步骤。