CN113241138B

CN113241138B - 医疗事件信息的抽取方法、装置、计算机设备及存储介质

Info

Publication number: CN113241138B
Application number: CN202110686432.2A
Authority: CN
Inventors: 刘东煜; 陈乐清; 曾增烽
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-06-17
Anticipated expiration: 2041-06-21
Also published as: CN113241138A

Abstract

本申请涉及人工智能领域，公开了一种医疗事件信息的抽取方法，包括：解析医疗诊断文本，得到解析结果，解析结果包括文本名称、医疗检查项目、检查描述信息和医疗检查结果；根据解析结果确定医疗事件类别；将医疗检查结果转换为至少一条短语信息；识别每条短语信息中的预设关键词，并根据预设关键词确定每条短语信息对应的器官所属的检查结果类型；根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息。本申请还涉及区块链技术领域。本申请还公开了一种医疗事件信息的抽取装置、计算机设备以及计算机可读存储介质。本申请提高了从医疗诊断文本中抽取医疗事件信息的效率和准确率。

Description

医疗事件信息的抽取方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种医疗事件信息的抽取方法、医疗事件信息的抽取装置、计算机设备以及计算机可读存储介质。

背景技术

目前，当一些企业(如保险公司)需要了解客户详细的身体状况信息时，往往会从客户的体检单中提取相关的医疗信息。而当需要进行客户的医疗信息进行批量读取时，则需要对大量客户的医疗诊断文本(如体检单、病历等)进行事件信息的抽取(即录入医疗诊断相关的关键信息)。

然而一份医疗诊断文本往往存在多张报告，据统计一份医疗诊断文本的页数一般在10～20张不等，通过人眼观察、手工录入将直接消耗大量的人力成本，同时还可能会存在的信息录入的错误。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种医疗事件信息的抽取方法、医疗事件信息的抽取装置、计算机设备以及计算机可读存储介质，旨在解决如何提高从医疗诊断文本中抽取医疗事件信息的效率和准确率的问题。

为实现上述目的，本申请提供一种医疗事件信息的抽取方法，包括以下步骤：

获取医疗诊断文本；

利用序列标注模型解析所述医疗诊断文本，得到解析结果，所述解析结果包括文本名称、医疗检查项目、检查描述信息和医疗检查结果；

根据所述解析结果确定医疗事件类别；以及，

利用条件随机场模型将所述医疗检查结果转换为至少一条短语信息；

利用多模匹配算法识别每条所述短语信息中的预设关键词，并根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型，其中，所述检查结果类型包括检查正常和检查异常，以及除所述检查正常和所述检查异常之外的检查情况；

根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息。

进一步地，所述根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型的步骤包括：

确定每条所述短语信息中字数最多的所述预设关键词，并将字数最多的所述预设关键词作为目标关键词；

将每条所述短语信息中的所述目标关键词对应的检查结果类型，作为每条所述短语信息对应的器官所属的检查结果类型。

进一步地，所述根据所述解析结果确定医疗事件类别的步骤包括：

利用正则表达式匹配与所述文本名称对应的医疗事件类别，并检测是否匹配成功；

若否，利用文本分类模型对所述解析结果进行分析，以得到所述解析结果对应的医疗事件类别，其中，所述文本分类模型基于多个解析结果样本，以及所述解析结果样本对应的医疗事件类别训练得到。

进一步地，所述获取医疗诊断文本的步骤包括：

接收到医疗诊断文本图片时，利用文本识别技术识别所述医疗诊断文本图片中的文本信息；

根据所述文本信息生成医疗诊断文本。

进一步地，所述根据所述文本信息生成医疗诊断文本的步骤包括：

将所述文本信息划分为多个元素，并检测每个所述元素在所述医疗诊断文本图片上的信息边界框；

根据所述信息边界框对所有所述元素进行第一排序，得到元素排序表，并基于所述元素排序表获取所述医疗诊断文本图片的高置信度行；

计算所述高置信度行中每个所述元素的元素坐标，根据所述元素坐标计算所述高置信度行的斜率；

根据所有所述元素坐标和所述斜率，确定所述医疗诊断文本图片中同一行的所述元素对应的行片段，并根据所有所述元素坐标和所述斜率确定所述医疗诊断文本图片中同一列的所述元素对应的列片段；

根据所述行片段和所述列片段对所有所述元素进行第二排序，得到所述医疗诊断文本图片对应的结构化信息表，并根据所述结构化信息表生成医疗诊断文本。

进一步地，所述序列标注模型为LayoutLM模型；所述利用序列标注模型解析所述医疗诊断文本，得到解析结果的步骤包括：

利用所述LayoutLM模型对应边框回归算法的检测框，检测所述医疗诊断文本中的特征向量，其中，每个所述特征向量包括至少一个字向量；在检测所述特征向量的过程中，将所述特征向量对应的字向量的右下角坐标，替换为所述检测框对应的中心点坐标；

根据各个类别的所述特征向量，生成各个类别的解析结果。

进一步地，所述根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息的步骤之后，还包括：

将所述医疗事件信息发送至存储服务端以块链式的账本进行存储。

为实现上述目的，本申请还提供一种医疗事件信息的抽取装置，所述医疗事件信息的抽取装置包括：

获取模块，用于获取医疗诊断文本；

解析模块，用于利用序列标注模型解析所述医疗诊断文本，得到解析结果，所述解析结果包括文本名称、医疗检查项目、检查描述信息和医疗检查结果；

识别模块，用于根据所述解析结果确定医疗事件类别；以及，

转换模块，用于利用条件随机场模型将所述医疗检查结果转换为至少一条短语信息；

处理模块，用于利用多模匹配算法识别每条所述短语信息中的预设关键词，并根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型，其中，所述检查结果类型包括检查正常和检查异常，以及除所述检查正常和所述检查异常之外的检查情况；

生成模块，用于根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息。

为实现上述目的，本申请还提供一种计算机设备，所述计算机设备包括：

所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述医疗事件信息的抽取方法的步骤。

为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述医疗事件信息的抽取方法的步骤。

本申请提供的医疗事件信息的抽取方法、医疗事件信息的抽取装置、计算机设备以及计算机可读存储介质，通过利用一系列的事件信息抽取的模型，自动抽取医疗诊断文本中的关键信息并分析相应的医疗事件类别的同时，将关键信息中医疗检查结果切分为短语，再分析每条短语对应的器官所属的检查结果类型，从而得到医疗事件类别和检测结果类型生成医疗事件信息，提高了从医疗诊断文本中抽取医疗事件信息的效率和准确率。

附图说明

图1为本申请一实施例中医疗事件信息的抽取方法步骤示意图；

图2为本申请一实施例的医疗事件信息的抽取装置示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，在一实施例中，所述医疗事件信息的抽取方法包括：

步骤S10、获取医疗诊断文本；

步骤S20、利用序列标注模型解析所述医疗诊断文本，得到解析结果，所述解析结果包括文本名称、医疗检查项目、检查描述信息和医疗检查结果；

步骤S30、根据所述解析结果确定医疗事件类别；以及，

步骤S40、利用条件随机场模型将所述医疗检查结果转换为至少一条短语信息；

步骤S50、利用多模匹配算法识别每条所述短语信息中的预设关键词，并根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型，其中，所述检查结果类型包括检查正常和检查异常，以及除所述检查正常和所述检查异常之外的检查情况；

步骤S60、根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息。

本实施例中，实施例终端可以是计算机设备，也可以是一种医疗事件信息的抽取装置。

如步骤S10所述：一份医疗诊断文本包括至少一页的医疗诊断报告(如“彩超”、“X射线”等检查报告，或住院病历、身体检验报告、医生诊断单等)。

可选的，医疗诊断文本可以是具有电子文本格式，终端直接获取输入的电子文本格式的医疗诊断文本即可。

可选的，当医疗诊断文本为实物的形式时，相关工作人员事先利用拍摄设备将医疗诊断文本拍摄成图片，并当工作人员将医疗文本图片输入到终端时，终端可以利用文本识别技术(如OCR(Optical Character Recognition)技术)，读取图片中的文本信息和文本信息的排列位置，然后基于此生成医疗诊断文本。

如步骤S20所述：终端预先训练有序列标注模型，其中，所述序列标注模型可以是CRF(Conditional Random Fields，条件随机场)序列标注模型(即基于CRF构建的序列标注模型)。

可选的，所述序列标注模型为终端基于多个医疗诊断文本样本，进行多次迭代训练后得到的。其中，所述医疗诊断文本样本中预先标注有其对应的解析结果，所述解析结果包括文本名称、医疗检查项目、检查描述信息和医疗检查结果。

例如，在一份医疗诊断文本样本中，标注文本名称为“彩色多普勒超声检查报告单”、医疗检查项目为“检查部位：肾”、检查描述信息为“超声描述：双肾大小正常、未见明显异常回声”、医疗检查结果为“双肾未见明显异常”。

应当理解的是，所述医疗诊断文本样本的数量足够多，例如一万份医疗诊断文本样本。且当序列标注模型经多次训练迭代，使模型达到收敛后，则终端判定序列标注模型训练完成，而训练完成的序列标注模型即可学习得到从医疗诊断文本中解析得到相关解析结果(包括文本名称、医疗检查项目、检查描述信息和医疗检查结果)的能力。

可选的，当终端获取到待处理的医疗诊断文本后，则将医疗诊断文本输入到训练完成的序列标注模型中，利用序列标注模型解析医疗诊断文本，以解析得到高医疗诊断文本对应的解析结果(包括文本名称、医疗检查项目、检查描述信息和医疗检查结果)。

如步骤S30所述：终端还预先设置有分类模型，所述分类模型包括正则匹配分类模型和文本分类模型中的至少一个。

可选的，在正则匹配分类模型中的正则表达式对应的匹配规则中，设定有各医疗事件类别的名称。需要说明的是，正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

其中，医疗事件类别的名称可以根据实际情况需要设置，如设定为超声检查事件、X射线检查事件、MRI(Magnetic Resonance Imaging)检查事件等。

或者，终端在得到解析结果后，可以提取解析结果中的文本名称，并将文本名称输入到正则匹配分类模型，由正则匹配分类模型利用正则表达式匹配与文本名称对应的医疗事件类别。

可选的，所述文本分类模型为TextCNN(Text Convolutional Neural Networks)分类模型，所述文本分类模型预先利用多个解析结果样本，以及解析结果样本对应的医疗事件类别进行训练得到。当文本分类模型经过多次迭代训练后达到收敛时，则文本分类模型训练完成，且训练完成的文本分类模型可以学习到从各种解析结果中提取相应的医疗事件类别的能力。

可选的，终端在得到医疗诊断文本对应的解析结果后，可以直接将解析结果输入到文本分类模型中进行分析，由文本分类模型分析出该解析结果对应的医疗事件类别。

可选的，预先设定正则匹配分类模型对应的分类结果，其优先级高于文本分类模型对应的分类结果。这样当终端同时利用正则匹配分类模型和文本分类模型分析分类结果，并当检测到正则匹配分类模型和文本分类模型均成功输出分类结果时，则优先根据正则匹配分类模型对应的分类结果，确定解析结果对应的医疗事件类别。

这样，通过利用序列标注模型解析所述医疗诊断文本，得到解析结果，目的是为了提取医疗诊断文本中的关键信息，再利用解析结果(即相关关键信息)确定医疗事件类别，可以提高确定医疗事件类别的效率。与直接全文检索医疗诊断文本中的内容信息，再基于内容信息判断医疗诊断文本对应的医疗事件类别的方法相比，效率更高。

如步骤S40所述：终端还预先设置有条件随机场模型(CRF模型)作为短语切分模型，且该条件随机场模型基于预设的正则表达式作为短语切分规则。预设的正则表达式示例(包括中英文断句符号)如下：

Pattern.compile("(。|；|\\(\\d\\)|①|②|③|④|⑤|⑥|⑦|⑧|⑨|,|，|\\？|？)")

这样预先设置完成的条件随机场模型即可识别目标语句中的断句位置，从而将目标语句转换为至少一条短语信息。例如，当目标语句本身即为一句短语，并未检测到有断句之处时，则直接将该目标语句作为一条短语信息；当从目标语句中检测到有一个断句之处时，则该目标语句即可被切分为两条短语信息。

可选的，当终端在得到解析结果后，可以提取解析结果中的医疗检查结果，然后将医疗检查结果输入到条件随机场模型中，以利用条件随机场模型对医疗检查结果进行短语切分处理，并将医疗检查结果转换为至少一条短语信息。

如步骤S50所述：终端预先建立有第一词典和第二词典，其中，第一词典中收录有人体多个器官(或检查部位)的名称，例如“肾”、“心室”、“膀胱”等；第二词典中收录有各种用于描述器官检查情况的诊断词组，如“未见明显异常”、“检查正常”、“鼻窦炎”、“阳性结果”等。

进一步地，第二词典中还分为正常诊断词组、异常诊断词组和其他诊断词组；其中，所述正常诊断词组用于描述器官检查正常的情况，如“未见明显异常”、“检查正常”等；所述异常诊断词组用于描述器官检查异常的情况，如“呼吸音粗”、“鼻窦炎”、“病灶”等；所述其他诊断词组为除所述正常诊断词组和异常诊断词组之外的诊断词组，即所述其他诊断词组用于描述器官除检查正常和检测异常之外的其他检查情况，如“阳性结果”、“肥胖”、“肌瘤生长慢”等就目前条件不能判定器官是属于正常还是异常的情况。

可选的，终端将第二词典中的词组均预先设定为预设关键词。

可选的，当终端将医疗检查结果转换为短语信息时，则利用多模匹配算法，在第一词典的基础上识别每条所述短语信息中的器官名称，以及在第二词典的基础上识别每条所述短语信息中的预设关键词。其中，所述多模匹配算法可以是AC(Aho-Corasick)自动机算法。

进一步地，终端基于每条短语信息识别得到的器官名称和预设关键词，与对应的每条短语信息关联。而且基于每条短语信息关联的器官名称，即可得知该短语信息对应的器官(即短语信息中描述的器官)。

进一步地，终端基于每条短语信息对应的预设关键词，检测该预设关键词所属的诊断词组类型(包括正常诊断词组、异常诊断词组和其他诊断词组)，然后根据预设关键词所属的诊断词组类型，确定该预设关键词对应的短语信息中描述的器官(根据关联的器官名称得到)所属的检查结果类型。

其中，正常诊断词组对应的检查结果类型即为检查正常；异常诊断词组对应的检查结果类型即为检查异常；其他诊断词组对应的检查结果类型即为除所述检查正常和所述检查异常之外的检查情况(即其他检查情况)。

如步骤S60所述：当终端得到医疗诊断文本对应的医疗事件类别，以及得到医疗诊断文本中的医疗检查结果对应的每一条短语信息中描述的器官所属的检查结果类型后，则获取医疗事件类别和所有器官所属的检查结果类型，生成一信息集合，并将该信息集合作为所述医疗诊断文本对应的医疗事件信息，从而完成对医疗诊断文本进行事件信息的抽取。

在一实施例中，通过利用一系列的事件信息抽取的模型，自动抽取医疗诊断文本中的关键信息并分析相应的医疗事件类别的同时，将关键信息中医疗检查结果切分为短语，再分析每条短语对应的器官所属的检查结果类型，从而得到医疗事件类别和检测结果类型生成医疗事件信息，提高了从医疗诊断文本中抽取医疗事件信息的效率和准确率。

在一实施例中，在上述实施例基础上，所述根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型的步骤包括：

步骤S71、确定每条所述短语信息中字数最多的所述预设关键词，并将字数最多的所述预设关键词作为目标关键词；

步骤S72、将每条所述短语信息中的所述目标关键词对应的检查结果类型，作为每条所述短语信息对应的器官所属的检查结果类型。

本实施例中，当终端针对每一条短语信息识别其中的预设关键词时，针对同一条短语信息可能会提取得到多个预设关键词。如针对一条“肝胆脾未见异常”的短语信息提取预设关键词时，既会提取得到“异常”这一异常诊断词组，也会提取得到“未见异常”这一正常诊断词组。

因此，当终端识别得到每条短语信息中的预设关键词后，则先确定每条短语信息中字数最多的预设关键词，并将确定的得到的预设关键词作为目标关键词。

进一步地，当终端在确定每条短语信息对应的器官所属的检查结果类型时，则先确定每条短语信息中的目标关键词(即字数最多的预设关键词)所属的诊断词组类型，再进一步确定诊断词组类型对应的检查结果类型，并每条短语信息最终确定得到的检测结果类型，作为每条短语信息对应的器官所属的检查结果类型。

或者，终端采用的AC自动机算法包括归一化处理的算法部分，当终端在一条短语信息中识别得到多个预设关键词时，则先确定每个预设关键词在短语信息中所占据的位置区域范围，然后对每个预设关键词对应的位置区域范围进行归一化处理，将位置区域范围处于其他预设关键词的位置区域范围内的预设关键词进行剔除，即将需要剔除的预设关键词合并至其他预设关键词中(两者取并集)。

例如，针对一条“心脏节律窦性心律不齐”进行预设关键词提取并识别位置区域范围时，处理结果为“心脏节律{窦性心律不[齐]}”，其中“{}”表示为异常诊断词组对应的位置区域范围，“[]”表示为正常诊断词组对应的位置区域范围；而由于正常诊断词组对应的位置区域范围处于异常诊断词组对应的位置区域范围内，因此当对于该处理结果进行归一化处理时，即可将其中的正常诊断词组进行剔除(或者是将该正常诊断词组合并至异常诊断词组中取并集)

这样，可以提高分析短语信息中对应的器官所属的检查结果类型时的准确率。

在一实施例中，在上述实施例基础上，所述根据所述解析结果确定医疗事件类别的步骤包括：

步骤S80、利用正则表达式匹配与所述文本名称对应的医疗事件类别，并检测是否匹配成功；

步骤S81、若否，利用文本分类模型对所述解析结果进行分析，以得到所述解析结果对应的医疗事件类别，其中，所述文本分类模型基于多个解析结果样本，以及所述解析结果样本对应的医疗事件类别训练得到。

本实施例中，终端还预先设置有分类模型，所述分类模型包括正则匹配分类模型和文本分类模型。

可选的，终端在得到解析结果后，可以优先提取解析结果中的文本名称，并将文本名称输入到正则匹配分类模型，由正则匹配分类模型利用正则表达式匹配与文本名称对应的医疗事件类别。

进一步地，终端检测正则匹配分类模型匹配文本名称对应的医疗事件类别是否成功。

可选的，当终端检测到正则匹配分类模型匹配文本名称对应的医疗事件类别成功时，则直接采用正则匹配分类模型所匹配医疗事件类别，并在需要生成医疗事件信息，利用该医疗事件类别和所有器官所属的检查结果类型生成医疗事件信息即可。

可选的，当终端检测到正则匹配分类模型匹配文本名称对应的医疗事件类别失败时，则直接将解析结果输入到文本分类模型中进行分析，由文本分类模型分析出该解析结果对应的医疗事件类别。其中，所述文本分类模型为TextCNN分类模型，所述文本分类模型预先利用多个解析结果样本，以及解析结果样本对应的医疗事件类别进行训练得到。

这样，通过优先采用准确率高的正则表达式分析医疗事件类别，并在无法利用正则表达式分析医疗事件类别时，再采用利用文本分类模型分析医疗事件类别，可以尽可能减少执行算法所需的步骤，减轻系统数据处理压力的同时，提高了分析医疗事件类别时的稳定性。

在一实施例中，在上述实施例基础上，所述获取医疗诊断文本的步骤包括：

步骤S90、接收到医疗诊断文本图片时，利用文本识别技术识别所述医疗诊断文本图片中的文本信息；

步骤S91、根据所述文本信息生成医疗诊断文本。

本实施例中，相关工作人员可以事先利用拍摄设备将医疗诊断文本拍摄成图片，并将医疗文本图片输入到终端。

当终端接收到输入的医疗诊断文本图片时，则可以利用文本识别技术(如OCR(Optical Character Recognition)技术)，读取图片中的文本信息，以及文本信息对应的排列位置，然后根据文本信息和其对应的排列位置，生成医疗诊断文本。

这样，可以提高基于医疗诊断文本图片获取医疗诊断文本的效率。

在一实施例中，在上述实施例基础上，所述根据所述文本信息生成医疗诊断文本的步骤包括：

步骤S100、将所述文本信息划分为多个元素，并检测每个所述元素在所述医疗诊断文本图片上的信息边界框；

步骤S101、根据所述信息边界框对所有所述元素进行第一排序，得到元素排序表，并基于所述元素排序表获取所述医疗诊断文本图片的高置信度行；

步骤S102、计算所述高置信度行中每个所述元素的元素坐标，根据所述元素坐标计算所述高置信度行的斜率；

步骤S103、根据所有所述元素坐标和所述斜率，确定所述医疗诊断文本图片中同一行的所述元素对应的行片段，并根据所有所述元素坐标和所述斜率确定所述医疗诊断文本图片中同一列的所述元素对应的列片段；

步骤S104、根据所述行片段和所述列片段对所有所述元素进行第二排序，得到所述医疗诊断文本图片对应的结构化信息表，并根据所述结构化信息表生成医疗诊断文本。

本实施例中，医疗诊断文本图片中包括有图表类的文字信息，如体检报告单、流程表等。

可选的，在终端利用OCR技术检测医疗诊断文本图片，从其得到文本信息后，则可以先获取同属一类的文本信息，并将同类的文本信息划分为同一元素。例如，一份体检报告包括“姓名:张三”、“性别:女”、“年龄:42岁”，该“姓名:张三”、“性别:女”、“年龄:42岁”则分别对应不同的元素。

进一步地，终端识别每个元素在医疗诊断文本图片中的信息边界框，其中，每个元素对应边界框中，包括了该元素对应的所有文本信息在图中的显示区域。具体地，终端通过识别每个元素的边界坐标(即左下角、左上角、右下角和右上角的坐标)，即可得到每个元素对应的信息边界框。

进一步地，在得到医疗诊断文本图片中的所有信息边界框时，根据该信息边界框对医疗诊断文本图片中的元素进行粗排序(记为第一排序)，即将每个信息边界框的左下点坐标的x坐标，从小到大进行排序，将由小到大依次递增的左下角坐标对应的元素作为同一行元素；在x坐标依次递增之后，检测到x坐标减小时，则将减小的x坐标对应的元素作为第二行的头元素，依次类推，即可得到医疗诊断文本图片对应的元素排序表。在得到元素排序表时，将该元素排序表中元素个数大于等于预设个数的行作为高置信度行，例如，在元素排序表中第二行的元素个数大于等于预设个数，则确定第二行为高置信度行。

可选的，在得到高置信度行时，计算该高置信度行的斜率，该斜率可根据该高置信度行的长度和宽度计算得到，也可根据高置信度行中的每个元素的元素坐标计算得到。计算医疗诊断文本图片的每个元素的元素坐标，其中，每个元素的边界坐标在x轴的平均值即为该元素对应元素坐标的x值，每个元素的边界坐标在y轴的平均值即为该元素对应元素坐标的y值。在得到该元素坐标时，通过最小二乘法对高置信度行中包括的元素的元素坐标进行拟合，得到该高置信度行对应的拟合直线(最小二乘法为一种计算误差估计、不确定度和系统辨识及预测的数学工具)；在得到高置信度行对应的拟合直线时，计算拟合直线的平均值，即得到该高置信度行的斜率。

进一步地，在计算得到元素坐标和高置信度行的斜率时，将该斜率作为医疗诊断文本图片中每个元素的行斜率，将该斜率倒数的负数作为医疗诊断文本图片中每个元素的列斜率。根据该行斜率和元素坐标，则可以确定以该行斜率为直线斜率并经过这个中心点的直线，即该元素所在的直线。计算每个元素所在的直线与x轴的第一交点坐标和与y轴的第二交点坐标，将医疗诊断文本图片中所有第一交点坐标之间的差值小于等于第一预设误差值的元素，确定为同一行的元素，同一行的元素即组成一个行片段；将所有第二交点坐标之间的差值小于等于第二预设误差值的元素，确定为同一列的元素，同一列的元素即组成一个列片段。

进一步地，在得到医疗诊断文本图片的行片段和列片段时，获取医疗诊断文本图片中每个元素的行索引和列索引，其中，该行索引和列索引为每个元素所在的行序号和列序号组成的索引坐标，行序号和列序号代表每个元素属于的行和所属的列。在得到索引坐标时，遍历所有索引坐标对应的元素，根据该索引坐标对医疗诊断文本图片的每个元素进行重新排序，重新排序后的元素表则为该医疗诊断文本图片对应的结构化信息表，然后将结构化信息表转换为医疗诊断文本图片对应的医疗诊断文本。

这样，实现了对医疗诊断文本图片中的文本信息的准确提取，可以避免因图片摆拍位置不正，而导致将原图中属于不同行列的信息，在提取时混杂为同一行列，进而导致基于此得到错误的医疗诊断文本，即本实施例方案的实施，可以提高将医疗诊断文本图片转换为医疗诊断文本的准确率，进而提高从医疗诊断文本中抽取医疗事件信息的准确率。

在一实施例中，在上述实施例基础上，所述序列标注模型为LayoutLM模型；所述利用序列标注模型解析所述医疗诊断文本，得到解析结果的步骤包括：

步骤S110、利用所述LayoutLM模型对应边框回归算法的检测框，检测所述医疗诊断文本中的特征向量，其中，每个所述特征向量包括至少一个字向量；在检测所述特征向量的过程中，将所述特征向量对应的字向量的右下角坐标，替换为所述检测框对应的中心点坐标；

步骤S111、根据各个类别的所述特征向量，生成各个类别的解析结果。

本实施例中，所述序列标注模型可以是LayoutLM模型，LayoutLM模型属于对于文档图像理解任务简单但有效的预训练模型。受到BERT(Bidirectional EncoderRepresentations from Transformers)模型的启发，LayoutLM模型输入的文本信息主要由文本与位置嵌入向量代表，并额外加入输入的嵌入向量的两项：(1)一个2D位置嵌入向量用于表示文档内的相对位置标记；(2)文档内的内的图像嵌入向量用于扫描标记。

进一步地，本实施例在常规的LayoutLM模型的基础上，还对本实施例所采用的LayoutLM模型作出进一步改进，即是利用边框回归算法的检测框(bounding box)，以及利用各种类别的解析结果对应的特征提取方式，检测并提取所述医疗诊断文本中各种类别的特征向量。

其中，边框回归算法可以是通过边缘检测、轮廓检测、连通域等算法得到的文本块，并在此基础上提取特征向量；所述特征向量即为模型预先训练得到的特征检测方式所提取得到的至少一个字向量，即每个特征向量包括至少一个字向量；而特征检测方式即是相对于文本名称、医疗检查项目、检查描述信息、医疗检查结果等各类别的解析结果，进行相应的特征提取的方式(如文本名称的特征检测方式，可以是在文本开头的居中位置检测与预设标题字体吻合的特征向量)。

可选的，在所述LayoutLM模型处理所述医疗诊断文本的过程中，利用检测框检测医疗诊断文本中的特征向量时，会将各个特征向量对应的字向量的右下角坐标，替换为所述检测框对应的中心点坐标。

其中，所述字向量的右下角坐标，即是由一般LayoutLM模型中表示的第二位置向量X1和Y1组成；而一般LayoutLM模型中表示用于表示字向量的左上角坐标的第一位置向量(X0，Y0)则无需更改设置，直接沿用默认设置即可。这样，通过设定在LayoutLM模型处理所述医疗诊断文本的过程中，将用于表示所述医疗诊断文本中的字向量的右下角坐标，替换为所述检测框对应的中心点坐标，就可以间接引入检测框所检测的文字(即字向量)所在文本块的位置信息，从而提高模型提取特征向量的速度(找到相应特征向量时，直接根据该位置信息进行特征提取即可，因此效率高)，进而提高LayoutLM模型解析得到解析结果的效率。

进一步地，当终端提取得到各个类别的特征向量时(如得到文本名称、医疗检查项目、检查描述信息、医疗检查结果这四个类别分别对应的特征向量时)，则分别根据各个类别的特征向量，相应转换生成各个类别对应的解析结果(如根据文本名称对应的特征向量，生成文本名称)。

可选的，本实施例所采用的LayoutLM模型还可以预先进一步切除模型中的R-CNN(Region-Convolutional Neural Networks)网络的图像层(即在预先构建LayoutLM模型时，无需构建LayoutLM模型中的R-CNN网络的图像层)，以加快LayoutLM模型的运行速度，进而提高LayoutLM模型解析医疗诊断文本的效率。

这样，可以提高利用LayoutLM模型解析医疗诊断文本，得到相应的解析结果的效率。

在一实施例中，在上述实施例基础上，所述根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息的步骤之后，还包括：

步骤S120、将所述医疗事件信息发送至存储服务端以块链式的账本进行存储。

本实施例中，终端与基于区块链技术构建的存储服务端建立有通信连接。

可选的，当终端从医疗诊断文本中抽取得到医疗事件信息后，则可以将该医疗事件信息与相应的医疗诊断文本关联，再将关联后的医疗事件信息发送至存储服务端。当存储服务端接收到终端发送的医疗事件信息后，则将医疗事件信息以块链式的账本进行存储。账本(Ledger)，是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中，区块链是以文件系统中的文件的形式来记录交易；状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易，用于支持对区块链中交易的快速查询。

需要说明的是，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

这样，提高了存储医疗事件信息的安全性，从而避免因医疗事件信息泄露而暴露患者的隐私的情况发生。

参照图2，本申请实施例中还提供一种医疗事件信息的抽取装置10，包括：

获取模块11，用于获取医疗诊断文本；

解析模块12，用于利用序列标注模型解析所述医疗诊断文本，得到解析结果，所述解析结果包括文本名称、医疗检查项目、检查描述信息和医疗检查结果；

识别模块13，用于根据所述解析结果确定医疗事件类别；以及，

转换模块14，用于利用条件随机场模型将所述医疗检查结果转换为至少一条短语信息；

处理模块15，用于利用多模匹配算法识别每条所述短语信息中的预设关键词，并根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型，其中，所述检查结果类型包括检查正常和检查异常，以及除所述检查正常和所述检查异常之外的检查情况；

生成模块16，用于根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗事件信息的抽取方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗事件信息的抽取方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的医疗事件信息的抽取方法的步骤。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的医疗事件信息的抽取方法、医疗事件信息的抽取装置、计算机设备和存储介质，通过利用一系列的事件信息抽取的模型，自动抽取医疗诊断文本中的关键信息并分析相应的医疗事件类别的同时，将关键信息中医疗检查结果切分为短语，再分析每条短语对应的器官所属的检查结果类型，从而得到医疗事件类别和检测结果类型生成医疗事件信息，提高了从医疗诊断文本中抽取医疗事件信息的效率和准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种医疗事件信息的抽取方法，其特征在于，包括：

获取医疗诊断文本；

根据所述解析结果确定医疗事件类别；以及，

2.如权利要求1所述的医疗事件信息的抽取方法，其特征在于，所述根据所述预设关键词确定每条所述短语信息对应的器官所属的检查结果类型的步骤包括：

3.如权利要求1所述的医疗事件信息的抽取方法，其特征在于，所述根据所述解析结果确定医疗事件类别的步骤包括：

4.如权利要求1所述的医疗事件信息的抽取方法，其特征在于，所述获取医疗诊断文本的步骤包括：

根据所述文本信息生成医疗诊断文本。

5.如权利要求4所述的医疗事件信息的抽取方法，其特征在于，所述根据所述文本信息生成医疗诊断文本的步骤包括：

6.如权利要求1-5中任一项所述的医疗事件信息的抽取方法，其特征在于，所述序列标注模型为LayoutLM模型；所述利用序列标注模型解析所述医疗诊断文本，得到解析结果的步骤包括：

根据各个类别的所述特征向量，生成各个类别的解析结果。

7.如权利要求1所述的医疗事件信息的抽取方法，其特征在于，所述根据所述医疗事件类别和所有所述器官所属的检查结果类型，生成所述医疗诊断文本对应的医疗事件信息的步骤之后，还包括：

8.一种医疗事件信息的抽取装置，其特征在于，包括：

获取模块，用于获取医疗诊断文本；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的医疗事件信息的抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的医疗事件信息的抽取方法的步骤。