CN111863268B

CN111863268B - 一种适用于医学报告内容提取与结构化方法

Info

Publication number: CN111863268B
Application number: CN202010695211.7A
Authority: CN
Inventors: 张路; 俞富裕; 高文琪; 徐郁
Original assignee: Hangzhou Meitong Technology Co ltd
Current assignee: Hangzhou Meitong Technology Co ltd
Priority date: 2020-07-19
Filing date: 2020-07-19
Publication date: 2024-01-30
Anticipated expiration: 2040-07-19
Also published as: CN111863268A

Abstract

本发明公开了一种适用于医学报告内容提取与结构化方法，包括以下步骤：将经过数据清洗的文本数据通过自然语言算法进行处理，得到结构文本数据，之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取，得到文本内容。实现报告内容结构化，并且可以对文本内容进行快速的提取。

Description

一种适用于医学报告内容提取与结构化方法

技术领域

本发明涉及医学领域，尤其涉及一种适用于医学报告内容提取与结构化方法。

背景技术

医学报告是判断患者病情的重要依据,目前主要是以文本形式存在。医学报告转变为文本形式的存在可以更方便医生了解病人病情，及时掌握病人是否存在其他的基础病，方便医生做出正确的诊断，准确用药。但现在文本形式的医学报告内容存在没有统一标准结构化，结构化内容难以自动建立词库的问题。

发明内容

本发明提供的一种适用于医学报告内容提取与结构化方法，旨在解决现有技术中存在报告内容未结构化的问题。

为实现上述目的，本发明采用以下技术方案：

本发明的一种适用于医学报告内容提取与结构化方法，包括以下步骤：

获取数据预处理后的文本数据；

根据自然语言处理算法对所述文本数据进行处理得到结构文本数据；

根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。

将经过数据清洗的文本数据通过自然语言算法进行处理，得到结构文本数据，之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取，得到文本内容。实现报告内容结构化，并且可以对文本内容进行快速的提取。

作为优选，获取数据预处理后的文本数据，包括：

对原始文本数据进行字符串纠正获取纠正文本数据；

根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。

作为优选，根据自然语言处理算法对所述文本数据进行处理得到结构文本数据，包括：

获取断句数据库和器官数据库；

根据断句数据库对所述结构文本数据进行处理输出断句文本数据；

根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。

作为优选，根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容，包括：

对所述结构化文本数据进行内容提取获取内容数据；

根据键值查找算法对所述内容数据进行处理输出结构化词库；

根据知识图谱算法对所述结构化词库进行处理输出文本内容。

一种适用于医学报告内容提取与结构化装置，包括：

预处理模块，获取数据预处理后的文本数据；

结构文本内容模块，根据自然语言处理算法对所述文本数据进行处理得到结构文本数据；

文本内容模块，根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。

作为优选，所述获取模块包括：

字符串纠正单元，对原始文本数据进行字符串纠正获取纠正文本数据；

字符串匹配单元，根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。

作为优选，所述结构文本内容模块包括：

获取单元，获取断句数据库和器官数据库；

断句文本数据单元，根据断句数据库对所述结构文本数据进行处理输出断句文本数据；

计算单元，根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。

作为优选，所述文本内容模块包括：

内容文本单元，对所述结构化文本数据进行内容提取获取内容数据；

键值查找算法单元，根据键值查找算法对所述内容数据进行处理输出结构化词库；

知识图谱算法单元，根据知识图谱算法对所述结构化词库进行处理输出文本内容。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种适用于医学报告内容提取与结构化方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种适用于医学报告内容提取与结构化方法。

本发明具有如下有益效果：

附图说明

图1是本发明实施例实现一种适用于医学报告内容提取与结构化方法第一流程图；

图2是本发明实施例实现一种适用于医学报告内容提取与结构化方法第二流程图；

图3是本发明实施例实现一种适用于医学报告内容提取与结构化方法第三流程图；

图4是本发明实施例实现一种适用于医学报告内容提取与结构化方法第四流程图；

图5是本发明实施例实现一种适用于医学报告内容提取与结构化方法的具体实施流程图。

图6是本发明实施例实现一种适用于医学报告内容提取与结构化装置示意图；

图7是本发明实施例实现一种适用于医学报告内容提取与结构化装置的预处理模块示意图；

图8是本发明实施例实现一种适用于医学报告内容提取与结构化装置的结构文本内容模块示意图；

图9是本发明实施例实现一种适用于医学报告内容提取与结构化装置的文本内容模块示意图；

图10是本发明实施例实现一种适用于医学报告内容提取与结构化装置的具体实施流程图；

图11是本发明实施例实现一种适用于医学报告内容提取与结构化方法的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明技术方案之前，示例性的介绍一种本发明技术方案可能适用的场景。

实施例1

如图1所示，一种适用于医学报告内容提取与结构化方法，包括以下步骤：

S110、获取数据预处理后的文本数据；

S120、根据自然语言处理算法对所述文本数据进行处理得到结构文本数据；

S130、根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。

根据实施例1可知，将经过数据清洗的文本数据通过自然语言算法进行处理，得到结构文本数据，之后根据键值查找算法和知识图谱算法对结构文本数据进行相应的报告内容的提取，得到文本内容。实现报告内容结构化，并且可以对文本内容进行快速的提取。

实施例2

如图2所示，一种适用于医学报告内容提取与结构化方法，包括：

S210、获取数据预处理后的文本数据；

S220、对原始文本数据进行字符串纠正获取纠正文本数据；

S230、根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。

实施例2中，建立纠正词库，将一些常见错误添加到纠正词库，将原始文本数据与纠正词库进行字符串纠正比对，获取纠正文本数据。建立开始关键词库，将纠正文本数据进行断句处理，将断句后的纠正文本数据与纠正词库通过字符串匹配算法进行计算，补充缺失的关键字，得到文本数据。例如预先加载纠正词库得到[“中上极”]，通过标点断句得到纠正文本数据[“甲状腺左叶上极小结节”,“中上极结节”，“建议随访”]，将纠正文本数据与纠正词库通过字符串匹配算法进行计算，最终得到“甲状腺左叶上极小结节，左叶中上极结节，建议随访”。本方法可以将原始文本数据中内容不规范、标点错误、错别字和少字内容进行更正，提高文本数据内容的准确性。

实施例3

如图3所示，一种适用于医学报告内容提取与结构化方法，包括：

S310、获取数据预处理后的文本数据；

S320、根据自然语言处理算法对所述文本数据进行处理得到结构文本数据；

S330、获取断句数据库和器官数据库；

S340、根据断句数据库对所述文本数据进行处理输出断句文本数据；

S350、根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。

根据实施例3可知，预先加载断句数据库和器官数据库，将结构文本数据根据断句数据库进行分割，输出断句文本数据，根据自然语言处理算法对断句文本数据进行拆分，并与器官数据库进行比对输出结构化文本数据。本方法将文本数据按照器官进行分类结构化处理，可以实现文本数据的结构化。

实施例4

如图4所示，一种适用于医学报告内容提取与结构化方法，包括：

S410、获取数据预处理后的文本数据；

S420、根据自然语言处理算法对所述文本数据进行处理得到结构文本数据；

S430、根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容；

S440、对所述结构化文本数据进行内容提取获取内容数据；

S450、根据键值查找算法对所述内容数据进行处理输出结构化词库；

S460、根据知识图谱算法对所述结构化词库进行处理输出文本内容。

实施例4中，建立结构化内容数据库和结构化代码数据库，将一些常用的结构化内容配置成词库，使用Dictionary函数将结构化代码数据库转换成键值对词典存储方式，方便直接用键值查找算法直接取出对应的代码值。对分类后的结构化文本数据进行内容提取得到内容数据，根据键值查找算法对内容数据进行处理得到结构化代码数据库中的代码值，如果没有找到对应的代码值，程序会自动将结构化内容提示给用户，让用户来告诉对应的代码值内容，并将用户给出的代码值放入结构化代码数据库中，输出结构化词库，再根据知识图谱算法对结构化词库进行处理派生出关联性的二级数据文本内容。本方法可以快速的提取文本内容。

实施例5

如图5所示，一种具体的实施方式可为：

S510、使用字符串纠正算法对原始文本数据进行处理；

建立纠正词库，将一些常见错误添加到纠正词库；格式为：“a{|}b{m}”，其中a需要清洗的数据，b为清洗后的数据，“{|}”清洗和清洗后数据分隔符，m为下一组分隔符，之后程序自动读取纠正词库并逐一替换进行清洗。

S520、根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据；

建立开始关键词数据库，格式为“a1{m}a2”，其中a1、a2为关键词，m为下一个关键词分隔符，将纠正文本数据用标点符号进行断句得到断句集合,遍历断句集合并判断断句集合的开始字符串是否和开始关键词数据库一致，根据具体业务逻辑自动补充相关字符。例如使用标点断句得到断句集合为：[“甲状腺左叶上极小结节”,“中上极结节”，“建议随访”]，判断断句集合中的数据是否和开始关键词数据库中的关键词[“中上极”]相一致，如果一致则根据不同的业务逻辑自动补充，最终得到“甲状腺左叶上极小结节，左叶中上极结节，建议随访”。

S530、对文本数据的自纠正和标点符号修正；

利用NLP自然语言处理技术，自动学习文本数据的专业词汇和论文建立相应报告类型的知识库，自动纠正明显不符合医学常识的描述，用正则表达式算法一次性替换英文标点符号为中文标点符号。

S540、根据自然语言处理算法对文本数据进行处理得到结构文本数据；

建立断句数据库和器官数据库，预先加载断句数据库和器官数据库，根据断句数据库对所述结构文本数据进行处理输出断句文本数据，再根据根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。

S550、对结构文本数据进行计算提取出文本内容。

建立结构化内容数据库和结构化代码数据库，对分类后的结构化文本数据进行内容提取得到内容数据，根据键值查找算法对内容数据进行处理得到结构化代码数据库中的代码值，如果没有找到对应的代码值，程序会自动将结构化内容提示给用户，让用户来告诉对应的代码值内容，并将用户给出的代码值放入结构化代码数据库中，输出结构化词库，再根据知识图谱算法对结构化词库进行处理派生出关联性的二级数据文本内容。

实施例6

如图6所示，一种适用于医学报告内容提取与结构化装置，包括：

预处理模块10，获取数据预处理后的文本数据；

结构文本内容模块20，根据自然语言处理算法对所述文本数据进行处理得到结构文本数据；

文本内容模块30，根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。

上述装置的一种实施方式可为：预处理模块10，获取数据预处理后的文本数据，结构文本内容模块20，根据自然语言处理算法对所述文本数据进行处理得到结构文本数据，最后，文本内容模块30，根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容。

实施例7

如图7所示，一种适用于医学报告内容提取与结构化装置的获取模块10，包括：

字符串纠正单元12，对原始文本数据进行字符串纠正获取纠正文本数据；

字符串匹配单元14，根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。

上述装置的获取模块10的一种实施方式可为：字符串纠正单元12，对原始文本数据进行字符串纠正获取纠正文本数据，字符串匹配单元14，根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据。

实施例8

如图8所示，一种适用于医学报告内容提取与结构化装置的结构文本内容模块20包括：

获取单元22，获取断句数据库和器官数据库；

断句文本数据单元24，根据断句数据库对所述结构文本数据进行处理输出断句文本数据；

计算单元26，根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。

上述装置的结构文本内容模块20的一种实施方式可为：获取单元22，获取断句数据库和器官数据库，然后断句文本数据单元24，根据断句数据库对所述结构文本数据进行处理输出断句文本数据，最后计算单元26，根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据。

实施例9

如图9所示，一种适用于医学报告内容提取与结构化装置的结构文本内容模块30包括：

内容文本单元32，对所述结构化文本数据进行内容提取获取内容数据；

键值查找算法单元34，根据键值查找算法对所述内容数据进行处理输出结构化词库；

知识图谱算法单元36，根据知识图谱算法对所述结构化词库进行处理输出文本内容。

上述装置的结构文本内容模块30的一种实施方式可为：内容文本单元32，对所述结构化文本数据进行内容提取获取内容数据，然后键值查找算法单元34，根据键值查找算法对所述内容数据进行处理输出结构化词库，最后知识图谱算法单元36，根据知识图谱算法对所述结构化词库进行处理输出文本内容。

实施例10

如图10所示，一种具体的实施方式可为：

S1010、使用字符串纠正算法对原始文本数据进行处理；

S1020、根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据；

S1030、对文本数据的自纠正和标点符号修正；

S1040、根据自然语言处理算法对文本数据进行处理得到结构文本数据；

S1050、对结构文本数据进行计算提取出文本内容。

实施例11

如图11所示，一种电子设备，包括存储器1101和处理器1102，所述存储器1101用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1102执行以实现上述的一种适用于医学报告内容提取与结构化方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种适用于医学报告内容提取与结构化方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1101中，并由处理器1102执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器1101、处理器1102。本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器1102可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器1102、数字信号处理器1102(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1102可以是微处理器1102或者该处理器1102也可以是任何常规的处理器1102等。

存储器1101可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器1101也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器1101还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器1101用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器1101还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种适用于医学报告内容提取与结构化方法，其特征在于，包括：

获取数据预处理后的文本数据；

根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容；

获取数据预处理后的文本数据，包括：

对原始文本数据进行字符串纠正获取纠正文本数据；

根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据；

根据自然语言处理算法对所述文本数据进行处理得到结构文本数据，包括：

获取断句数据库和器官数据库；

根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据；

根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容，包括：

对所述结构化文本数据进行内容提取获取内容数据；

2.一种适用于医学报告内容提取与结构化装置，其特征在于，包括：

预处理模块，获取数据预处理后的文本数据；

文本内容模块，根据键值查找算法和知识图谱算法对所述结构文本数据进行内容提取输出文本内容；

所述预处理模块，包括：

字符串匹配单元，根据字符串匹配算法对所述纠正文本数据进行处理获取文本数据；

所述结构文本内容模块，包括：

获取单元，获取断句数据库和器官数据库；

计算单元，根据自然语言处理算法对所述断句文本数据进行计算并与器官数据库进行比对输出结构化文本数据；

所述文本内容模块，包括：

3.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1所述的一种适用于医学报告内容提取与结构化方法。

4.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1所述的一种适用于医学报告内容提取与结构化方法。