CN115034204B

CN115034204B - 结构化医学文本的生成方法、计算机设备、存储介质

Info

Publication number: CN115034204B
Application number: CN202210518716.5A
Authority: CN
Inventors: 舒强; 俞刚; 徐玮泽; 林博; 董科雄
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-05-23
Anticipated expiration: 2042-05-12
Also published as: CN115034204A

Abstract

本申请提供了结构化医学文本的生成方法，包括：获取医学文本；确定所述医学文本所属的文本类别；根据所述文本类别选择预设的医学模板，所述医学模板中包含多个医学分词；根据所述医学分词对所述医学文本进行分词，得到医学变量；将所述医学文本和所述医学变量输入span‑based模型，得到中间医学文本，所述中间医学文本中包含所述医学变量、以及与所述医学变量对应的变量值；参照标准化医学数据库的格式处理所述中间医学文本，得到所述结构化医学文本。本申请提供的结构化医学文本的生成方法、计算机设备、存储介质和程序产品，能够节省人力，提高效率。

Description

结构化医学文本的生成方法、计算机设备、存储介质

技术领域

本申请涉及医学数据处理领域，特别是涉及结构化医学文本的生成方法、计算机设备、存储介质和程序产品。

背景技术

医学文本数据量大且繁杂，对其进行有效的提取，存储和利用非常重要。医学文本数据所蕴含的价值多样且丰富。将这些数据信息物尽其用，小到可以帮助医院提高分析患者潜在风险的准确度及洞察力，大到帮助相关研究机构突破医疗方法和药物革新。

非结构化的医学文本的合理运用，一直是技术领域的一大难点。现有的方案一般采用人工的方式去处理医学文本信息。需要大量的医生或者相关行业从业人员耗费大量的时间精力去通过人工阅读医学文本并进行标准化录入的方式处理非结构化的历史医学数据。通用方法大致是，由相关人员或者自己或者第三方技术提供商设计并编程实现电子化结构化表格(eCRF)，然后由相关人员逐份人工肉眼去扫描文本数据，发现相关信息后手动输入到结构化的表格中。

现有的解决方案大量依赖于拥有相关专业知识的人工，需要消耗大量的人力和时间成本。整个过程中很少有使用智能化的工具，并且人工录入的情况也会因为工作强度大，内容枯燥无味造成准确率低，效率低下等问题。针对于复杂的医学文本，不同的人可能会存在不同的描述或写法。也会出现缩写或者笔误等情况，导致数据无法利用。这些技术的不足导致整个信息抽取的正确率和召回率无法达到预期的效果。即现有的方案中存在处理过程中智能化，自动化不足，人力成本高，效果不理想等问题。

发明内容

本申请提供了结构化医学文本的生成方法，能够节省人力，提高效率。

本申请提供的结构化医学文本的生成方法，包括：

获取医学文本；

确定所述医学文本所属的文本类别；

根据所述文本类别选择预设的医学模板，所述医学模板中包含多个医学分词；

根据所述医学分词对所述医学文本进行分词，得到医学变量；

将所述医学文本和所述医学变量输入span-based模型，得到中间医学文本，所述中间医学文本中包含所述医学变量、以及与所述医学变量对应的变量值；

参照标准化医学数据库的格式处理所述中间医学文本，得到所述结构化医学文本。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

可选的，所述确定所述医学文本所属的文本类别，具体包括：

提取所述医学文本中的关键信息；

根据所述关键信息确定所述医学文本所属的文本类别。

可选的，所述关键信息为预先由人工设定并存储于数据库中，确定所述医学文本所属的文本类别时，调用所述数据库中的关键信息，并根据所述医学文本中是否存在所述关键信息确定所述医学文本所属的文本类别。

可选的，所述根据所述医学分词对所述医学文本进行分词，得到医学变量，具体包括：

在属于同一统计文本类别的医学文本中，统计医学分词的出现次数；

按出现次数由高到低对医学分词排序；

选择前10个～前20个医学分词作为医学变量。

可选的，在所述获取医学文本的步骤之后，还包括：对所述医学文本进行数据脱敏。

可选的，所述将所述医学文本和所述医学变量输入span-based模型，得到中间医学文本，具体包括：

提取医学变量在医学文本中的位置；

确定一开始位置、一结束位置，所述开始位置为所述医学文本中在所述医学变量之后第一次出现第一预设字符的位置，所述结束位置为所述医学文本中在所述医学变量之后第一次出现第二预设字符的位置；

将所述开始位置和所述结束位置之间的内容提取为所述医学变量的变量值；

组合所述医学变量、所述变量值，得到所述中间医学文本。

可选的，所述参照标准化医学数据库的格式处理所述中间医学文本，具体包括：对所述中间医学文本进行数据清洗、数据转换。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述结构化医学文本的生成方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述结构化医学文本的生成方法的步骤。

本申请还提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现所述结构化医学文本的生成方法的步骤。

本申请提供的结构化医学文本的生成方法、计算机设备、存储介质和程序产品，能够节省人力，提高效率。

附图说明

图1为一个实施例中结构化医学文本的生成方法的流程示意图；

图2为一个实施例中确定文本类别的流程示意图；

图3为一个实施例中确定医学变量的流程示意图；

图4为一个实施例中通过span-based模型处理医学文本的流程示意图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

医疗大数据行业是极其热门和富有挑战的行业，医疗行业早就存在海量数据和非结构化数据的挑战。针对于非结构化数据的挑战主要存在两点。

首先，大量的临床数据以非结构化的文本记录形式存在，这给大数据分析提出了严峻的考验。例如医院临床数据中最大量的也是最具价值的是病人的电子病历数据。电子病历是指医务人员在医疗活动过程中形成的文字、符号、图表、影像、切片等资料的总和，包括门(急)诊病历和住院病历，电子病历不仅指静态病历信息，还包括提供的相关服务。

其次，是医学数据信息的缺乏标准。现今医院内部数据录入者众多，并且无体系化的数据录入标准。同时系统模块众多，数据接口标准不统一。这些原因使数据在本院内都无法有效串联，成为信息孤岛。随着区域医疗资源信息平台，单个医院的数据价值仍然是十分有限，为实现区域医疗资源的优化配置，必须将区域医疗大数据互通互联。这一趋势同样被医院间的缺乏标准而严重阻碍。

在一个实施例中，如图1所示，提供了的结构化医学文本的生成方法，包括以下步骤：

步骤100，获取医学文本；

本实施例对医学文本的类型不做限制，例如医学文本可以是电子病理、检查报告、检验报告、手术记录等。本实施例对获取医学文本的方式不做限制，例如获取医学文本的方式可以是以excel格式上传、从数据库中获取、以txt格式上传、手动输入等。

在一个实施例中，该医学文本的具体内容包括：“

(下文简称“胃镜实例”)描述：

咽部利多卡因胶浆局部麻醉，插镜顺利，送达部位：十二指肠降部

食管：粘膜光滑，舒缩好

贲门：开闭好，E-G线清楚

胃底：粘膜充血水肿，未见溃疡糜烂

胃体：粘膜充血水肿,下部大弯侧见大小约0.5×0.4cm深溃疡，见血管头裸露，以注射针不同部位注射3点，共3ml，止血夹两枚呈交角夹闭疡面，周围粘膜肿胀，未取材，未见活动性出血。

胃角：弧形，光滑

胃窦：蠕动好，粘膜花斑样充血，见散在痘疹样糜烂，未见溃疡肿物

幽门：圆，开闭好，未见胆汁返流

球部：球腔形态正常。

降部：十二指肠乳头及降部粘膜未见异常

建议：凉流食；制酸；若发生再出血，反复内镜或选择外科手术止血。

诊断：

1.胃溃疡(A1期)；血管出血

2.内镜下止血术。”

在一个实施例中，在步骤100之后，还包括：对医学文本进行数据脱敏。

以下述医学文本为例：“

协助医生：张某某

描述：

双房轻度增大，双室内径正常……

诊断：1、双房轻度增大。2、升主动脉稍增宽，主动脉瓣少许钙斑形成伴返流(轻度)。三尖瓣返流(轻度)。3、左室收缩功能测值正常，舒张功能减低。”

以上医学文本中存在“张某某”等包含个人隐私信息的敏感词汇，数据脱敏即去除医学文本中的医生信息、患者信息等敏感词汇。

步骤200，确定医学文本所属的文本类别；

现有的文本类别有多种，例如电子内镜检查检验报告、心脏检查检验报告、产科护理诊断明细等。根据上述医学文本的具体内容，可确定该医学文本的文本类别为电子内镜检查检验报告。

根据医学文本确定文本类别的方法可采用现有技术，在一实施例中，步骤200具体包括：

步骤210，提取医学文本中的关键信息；

步骤220，根据关键信息确定医学文本所属的文本类别。

具体的，在一实施例中，所述关键信息为预先由人工设定并存储于数据库中，确定所述医学文本所属的文本类别时，调用所述数据库中的关键信息，并根据所述医学文本中是否存在所述关键信息确定所述医学文本所属的文本类别。

针对不同的文本类别预设有一个或多个关键信息，如果医学文本中包含了以上的关键信息，则确定该医学文本属于与该关键信息对应的文本类别。参照前述胃镜实例的医学文本，检查该医学文本中是否包含内镜下止血术、十二指肠降部等预设的关键信息，若存在，则将文本类别确定为电子内镜检查检验报告。需要说明的是，一个文本类别可设置一个或多个关键信息。关键信息的内容和数量可根据本领域技术人员的个人经验或参考现有技术设置，关键信息的设置本身不作为本实施例的改进重点。

步骤300，根据文本类别选择预设的医学模板，医学模板中包含多个医学分词；

医学模板可选自现有的医学模板库，例如电子内镜检查检验模板库。

步骤400，根据医学分词对医学文本进行分词，得到医学变量；

参照前述胃镜实例的医学文本，该医学文本中的医学变量包括：送达部位、食管、贲门、胃底、胃体、胃角、胃窦、幽门、球部、降部等，根据医学分词提取医学变量的方法可参考现有技术。

具体的，在一实施例中，获取医学变量的具体步骤包括：

步骤410，在属于同一统计文本类别的医学文本中，统计医学分词的出现次数；

步骤420，按出现次数由高到低对医学分词排序；

步骤430，选择前10个～前20个医学分词作为医学变量。

在另一实施例中，获得医学变量的步骤中包含人工参与。

步骤500，将医学文本和医学变量输入span-based模型，得到中间医学文本，中间医学文本中包含医学变量、以及与医学变量对应的变量值；

在一实施例中，span-based模型采用邱锡鹏团队的unified model模型，具体可参考文章综述“Pre-trained Models for Natural Language Processing:A survey”。

将上述医学变量、电子内镜检查检验报告输入unified model模型，得到的中间医学文本包含医学变量、对应的变量值。例如，医学变量包括：食管、贲门、胃底。各医学变量的变量值分别为：“粘膜光滑，舒缩好”、“开闭好，E-G线清楚”、“粘膜充血水肿，未见溃疡糜烂”。变量值为原始的医学文本中对医学变量的自然语言描述，不同医疗单位或个人对同一事实的描述可能存在差异，因此有必要进一步统一。

具体的，在一实施例中，span-based模型获得中间医学文本的具体步骤包括：

步骤510，提取医学变量在医学文本中的位置；

例如，确定医学变量所在位置如下，球部：球腔形态正常。

步骤520，确定一开始位置、一结束位置，开始位置为医学文本中在医学变量之后第一次出现第一预设字符的位置，结束位置为医学文本中在医学变量之后第一次出现第二预设字符的位置；

例如，第一预设字符为“：”，第二预设字符为“。”

步骤530，将开始位置和结束位置之间的内容提取为医学变量的变量值；

例如，变量值为，球腔形态正常

步骤540，组合医学变量、变量值，得到中间医学文本。

医学变量和变量值的组合方式可参考现有的数据结构，不作为本实施例的改进重点。

步骤600，参照标准化医学数据库的格式处理中间医学文本，得到结构化医学文本。

处理中间医学文本的方法可参考现有的医学文本预处理步骤，在一实施例中，步骤600具体包括：对中间医学文本进行数据清洗、数据转换。

在另一实施例中，根据医学变量判断是否存在同义词，并对同义词进行归并。针对这批数据根据医学标准化数据库对结果中包含的医学变量和对应的结果进行标准化映射处理，得到标准化的结果。

具体的，以医学变量是食管为例，医学标准化数据库中预设有一张食管表。食管表中具有粘膜、舒缩、血管纹影、扩张等字段。例如将中间医学文本中的光滑、平滑、正常等进行描述转换后得到结构化医学文本，并存到医学标准化数据库中。

应该理解的是，虽然图1～4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1～4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医学模板数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现结构化医学文本的生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上任一实施例结构化医学文本的生成方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个实施例中，提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现上任一实施例结构化医学文本的生成方法的步骤。

本实施例中，计算机程序产品包括程序代码部分，以用于当计算机程序产品由一个或多个计算装置执行时，执行以上任一实施例结构化医学文本的生成方法的步骤。

计算机程序产品可被存储在计算机可读记录介质上。还可经由数据网络(例如，通过RAN、经由因特网和/或通过RBS)提供计算机程序产品以便下载。备选地或附加地，该方法可被编码在现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)中，或者功能性可借助于硬件描述语言被提供以便下载。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。不同实施例中的技术特征体现在同一附图中时，可视为该附图也同时披露了所涉及的各个实施例的组合例。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.结构化医学文本的生成方法，其特征在于，包括：

获取医学文本；

确定所述医学文本所属的文本类别；

将所述医学文本和所述医学变量输入span-based模型，得到中间医学文本，包括：

提取医学变量在医学文本中的位置；

确定一开始位置、一结束位置，所述开始位置在所述医学变量之后；

组合所述医学变量、所述变量值，得到所述中间医学文本，所述中间医学文本中包含所述医学变量、以及与所述医学变量对应的变量值，所述变量值为原始的医学文本中对医学变量的自然语言描述；

参照标准化医学数据库的格式处理所述中间医学文本，对所述中间医学文本进行数据清洗、数据转换，得到所述结构化医学文本。

2.根据权利要求1所述的结构化医学文本的生成方法，其特征在于，所述确定所述医学文本所属的文本类别，具体包括：

提取所述医学文本中的关键信息；

根据所述关键信息确定所述医学文本所属的文本类别。

3.根据权利要求2所述的结构化医学文本的生成方法，其特征在于，所述关键信息为预先由人工设定并存储于数据库中，确定所述医学文本所属的文本类别时，调用所述数据库中的关键信息，并根据所述医学文本中是否存在所述关键信息确定所述医学文本所属的文本类别。

4.根据权利要求3所述的结构化医学文本的生成方法，其特征在于，所述根据所述医学分词对所述医学文本进行分词，得到医学变量，具体包括：

按出现次数由高到低对医学分词排序；

选择前10个～前20个医学分词作为医学变量。

5.根据权利要求1所述的结构化医学文本的生成方法，其特征在于，在所述获取医学文本的步骤之后，还包括：对所述医学文本进行数据脱敏。

6.根据权利要求1所述的结构化医学文本的生成方法，其特征在于，所述开始位置为所述医学文本中在所述医学变量之后第一次出现第一预设字符的位置，所述结束位置为所述医学文本中在所述医学变量之后第一次出现第二预设字符的位置。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～6中任一项所述结构化医学文本的生成方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任一项所述结构化医学文本的生成方法的步骤。