CN113972009A

CN113972009A - 一种基于临床检验医学大数据的医学检验咨询系统

Info

Publication number: CN113972009A
Application number: CN202111147335.2A
Authority: CN
Inventors: 刘靳波; 李光荣; 孔鑫
Original assignee: Affiliated Hospital of Southwest Medical University
Current assignee: Affiliated Hospital of Southwest Medical University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-25

Abstract

本发明提供的一种基于临床检验医学大数据的医学检验咨询系统，涉及检验医学大数据领域。本发明通过医学检验咨询系统提供咨询服务，基于人机对话的问答咨询能回答用户有关医学检验相关的知识的疑问，而基于上传化验单的疾病咨询能帮助用户看懂化验单，并知道自己有没有患病；通过自然语意理解端能准确理解用户的对话意图，进而进行精准的知识检索，并快速提供给用户，自然语言生成端能将生硬的数据以人类自然语言对话的形式向用户进行展示；通过基于多张化验单提供指标对比咨询；通过对比不同时间段的化验单进行横向对比，通过化验变化值，化验变化率来判断改善程度和改善的快慢。

Description

一种基于临床检验医学大数据的医学检验咨询系统

技术领域

本发明涉及检验医学大数据领域，尤其涉及一种基于临床检验医学大数据的医学检验咨询系统。

背景技术

临床检验医学是建立在基础医学与临床医学之间的桥梁学科，涉及到医学各领域的相关知识。由血液学、生物化学、人体寄生学、微生物学、免疫学等多基础学科所组成，是医疗卫生工作的重要组成部分。它是以检验医学为基础，多学科相互渗透、交叉配合的综合性应用学科。涉及化学、物理学、生物学、光学、统计学、人工智能学、免疫学、微生物学、遗传学、分子生物学等多种自然学科。90年代开始，临床检验医学专业快速发展，学科建设空前活跃，检验学科已经从医学检验向临床检验医学方向发展，成为一门独立的学科。临床检验医学本科阶段所设计的主要专业课就包括：分子生物学基础、临床检验医学基础、临床生物化学、临床血液学、临床输血学、临床微生物学、临床免疫学、人体寄生学、实用诊断学、临床检验质量管理等课程。我们不难看出，临床检验医学所涉及到的专业知识广泛、知识结构复杂，其医学检验结果涉及众多专业知识和术语，非专业人士很难知道相关的知识，这就导致了医学检验结果需要专业人士进行解读，而经验丰富的医师时间宝贵，通常是针对病情直接给出结果，若对咨询者的疑问进行逐一回答，会致使其工作效率降低，占用宝贵的医疗资源。

为此，公开号为：CN109559830A的发明申请公开了一种基于医学标准问题库的智能检验咨询系统，包括医学标准问题库和医疗咨询模块；其中医疗咨询模块包括：咨询请求模块、智能咨询模块、人工咨询模块、医疗方案生成模块和病历制作模块。医学标准问题库为购买的第三方知识库服务或自建知识库，其中包括有按科室或病种收集的专家知识库的基本数据，与医生对应的个性化问诊模板，以及与问诊问题和患者答案相关的智能问诊路径。本发明通过事先搭建医学标准问题库来收集存储各种医学问题，利用智能技术，在患者咨询时可通过预设的各种模板自动应答常规的医学问题，有效提高了医疗咨询的效率。

但是，并没有提出针对临床检验医学相关知识的咨询系统，且医学检验报告多以报告单进行呈现，用户很难知道报告单上的指标代表什么。

因此，有必要提供一种基于临床检验医学大数据的医学检验咨询系统来解决上述技术问题。

发明内容

为解决上述技术问题，本发明提出一种基于临床检验医学大数据的医学检验咨询系统，包括医学检验咨询前端和医学检验咨询后端；

所述医学检验咨询前端用于向用户提供临床检验医学的咨询服务；所述医学检验咨询后端用于向所述医学检验咨询前端提供咨询服务支持；

所述医学检验咨询前端能为咨询者提供图形化访问界面，通过APP/小程序/网页应用的形式部署在硬件终端上，用户通过图形化访问界面选择所需的咨询服务；所述咨询服务包括基于人机对话的问答咨询和基于上传化验单的疾病咨询；

当用户选择问答咨询时，所述医学检验咨询前端通过对话采集单元对用户的文字/音频对话内容进行采集，并上传至医学检验咨询后端，医学检验咨询后端生成基于对话内容的应答信息；

当用户选择疾病咨询时，所述医学检验咨询前端通过图像采集单元对用户提供的化验单进行图像采集，并上传至医学检验咨询后端；医学检验咨询后端对化验单图像进行内容提取，并向用户提供基于内容提取的应答信息；

医学检验咨询后端通过数据包将应答信息发送至医学检验咨询前端，医学检验咨询前端通过对话生成单元将应答信息重构成文字/音频，并对用户进行展示。

作为更进一步的解决方案，所述医学检验咨询后端设置有先验的临床检验医学知识库，所述临床检验医学知识库是基于临床检验医学大数据的知识库，通过知识抽取模型对临床检验医学大数据进行知识抽取，并结构化保存至临床检验医学知识库中。

作为更进一步的解决方案，所述临床检验医学知识库将知识以实体、属性、关系以SPO三元组数据进行保存；

所述知识抽取端包括实体抽取端、属性抽取端和关系抽取端，并分别采用三层抽取策略进行实体、属性和关系的抽取；

所述三层抽取策略，初次抽取通过构造临床检验医学实体/属性/关系词典，并通过临床检验医学实体/属性/关系词典进行分词识别，将与临床检验医学实体/属性/关系词典重合的进行标注和抽取；

二次抽取在初次抽取的基础上，对剩余分词进行识别并抽取；二次抽取通过检验医学抽取模型进行抽取，所述检验医学抽取模型为双向LSTM+CRF神经网络模型，依次包括Look-up层、Forward LSTM层、Backwoord LSTM层和CRF层，通过人工已标注的检验医学实体/属性/关系数据对双向LSTM+CRF神经网络模型进行训练和测试，并将满足识别准确度的模型作为检验医学抽取模型进行输出；

三次抽取是对二次抽取进行人工再抽取，通过专业人员验证二次抽取的是否准确，并将人工再抽取和初次抽取的作为抽取端最终输出的实体/属性/关系集。

作为更进一步的解决方案，所述医学检验咨询后端通过自然语意理解端对对话采集单元提供的对话内容进行语意理解；所述自然语意理解端是基于Rasa_NLU的自然语意理解端；所述Rasa_NLU经过先验的于临床检验医学问答对话大数据训练后，能对用户对话内容中的意图和实体信息进行识别，并标注上对应的Intents标签和Entities标签；

其中，所述先验的临床检验医学问答对话大数据保存在Domain库中，并标注有Entities标签、Intents标签、Actions、Templates；所述Entities标签用于保存实体信息的槽值并释义；所述Intents标签用于保存对话意图槽值并释义；所述Actions用于保存执行动作；所述Templates库用于保存Actions对应执行反馈的内容模板。

作为更进一步的解决方案，所述对话生成单元是基于Rasa_Core的自然语言生成端，所述Rasa_Core根据结构化数据信息进行story匹配、Action选择和自然语言输出；所述Rasa_Core通过先验的Stories库进行训练；所述Stories库中保存着不同对话场景下的真实临床检验医学问答数据以及对应的Action选择；通过Stories库训练的Rasa_Core模块能选择最优Action进行执行，所述Action通过Domain库进行释义。

作为更进一步的解决方案，通过如下步骤进行基于人机对话的问答咨询：

S1通过对话采集单元获取用户的文字/音频对话内容；

S2通过自然语意理解端对对话采集单元提供的对话内容进行语意理解，得到用户对话的意图和欲咨询的实体；

S3在临床检验医学知识库中查询实体所对应的临床检验医学知识；

S4根据用户对话意图筛选满足对话意图的实体对应属性、关系；

S5将满足对话意图的实体、属性和关系作为对话内容的应答信息进行输出；

S6通过对话生成单元将应答信息转化成对应的自然语言；

S7医学检验咨询前端将重构成自然语言的应答信息转化为文字/音频，并对用户进行展示

S8重复上述步骤直至问答咨询结束。

作为更进一步的解决方案，所述医学检验咨询后端通过化验单内容提取模型对图像采集单元提供的化验单图像进行内容提取；所述化验单内容提取模型是基于Tesseract的提取模型，并通过如下步骤进行内容提取：

D1通过图像采集单元获取化验单图像；

D2对化验单图像在进行灰度处理；

D3对化验单图像进行二值化处理；

D4对化验单图像进行高斯降噪处理；

D5对化验单图像进行Canny边缘检测，并延边缘进行裁剪矫正；

D6通过霍夫变换提取直线，并进行直线筛选；

D7通过筛选后的直线测量倾角；

D8将化验单图像延倾角进行反向旋转直至抵消；

D9根据霍夫变换得到的直线划分区域；

D10划分区域的长度、厚度，空白区域的最小高度、最小宽度，将化验单图像按照患者信息、检验数据、化验单信息进行分割，得到切割小图片；

D11将切割小图片作为Tesseract的输入进行内容提取。

作为更进一步的解决方案，通过基于XGBoost的疾病识别模型对化验单图像提取的内容进行疾病识别，所述疾病识别模型通过如下步骤训练得到：

G1对临床检验医学大数据进行筛选，选出基于化验单的临床检验医学大数据作为原始数据集；

G2对原始数据集进行预处理操作，包括降噪、清洗、数值均一化、属性一致化和数据离散化，得到预处理数据集；

G3对预处理数据集进行样本分类，分类为正样本数据集和负样本数据集；

G4对正样本数据集和负样本数据集进行基于卡方检验的特征选择，将与目标结果高相关性的特征作为训练特征集；

G5将训练特征集分为训练集和验证集输入到XGBoost模型中进行训练；

G6将满足疾病识别精度的XGBoost模型进行输出，并作为疾病识别模型。

作为更进一步的解决方案，还为用户提供基于多张化验单的指标对比咨询，所述指标对比咨询是基于查询先验知识表的咨询：

提前构建好检验项知识表，所述检验项知识表包括检验项，化验变化值，变化值对应情况、化验变化率和化验变化率对应情况；

通过对多张化验单中同一化验项的数值和化验时间进行横向比较，得到化验变化值和变化率；

通过查询检验项知识表得到变化值对应情况和化验变化率对应情况，并重构成自然语言的应答信息转化为文字/音频，对用户进行展示。

作为更进一步的解决方案，所述医学检验咨询后端部署在Linux服务器上，通过将Nginx作为接入层，业务服务层通过PHP-API/Python-API进行业务对接，所述Linux服务器的数据层通过Jena数据库对SPO三元组数据进行管理和操作。

与相关技术相比较，本发明提供的用于一种基于临床检验医学大数据的医学检验咨询系统具有如下有益效果：

1、本发明通过医学检验咨询系统提供咨询服务，基于人机对话的问答咨询能回答用户有关医学检验相关的知识的疑问，而基于上传化验单的疾病咨询能帮助用户看懂化验单，并知道自己有没有患病；

2、本发明通过自然语意理解端能准确理解用户的对话意图，进而进行精准的知识检索，并快速提供给用户，自然语言生成端能将生硬的数据以人类自然语言对话的形式向用户进行展示；

3、本发明通过基于多张化验单提供指标对比咨询；通过对比不同时间段的化验单进行横向对比，通过化验变化值，化验变化率来判断改善程度和改善的快慢；

4、本发明通过知识词典将这部分较为明显的知识进行抽取，从而减少机器模型抽取的工作量，再通过机器抽取剩余的知识，最后结合人工进行核查，由于人工仅需进行保留、删除的二分操作，故其工作量大大减少，通过加入极少的人工便能得到较好的知识抽取准确度。

附图说明

图1为本发明提供的一种基于临床检验医学大数据的医学检验咨询系统的较佳实施例系统示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1所示，本发明提供的一种基于临床检验医学大数据的医学检验咨询系统，包括医学检验咨询前端和医学检验咨询后端；

需要说明的是：由于医学检验相关的知识涉及面广泛，普通人很难独立掌握，然后化验单上标注着大量医学检验相关的知识，人们很难知道各项指标的检测含义，当人们对某一医学检验相关的知识时或向搞懂化验单的化验结果时，通常是在网络上进行检索，或在问诊时向医师进行询问，然而在网络上进行检索需要对错误信息进行甄别和筛选，非专业人员很容易接收错误的知识信息，而若都在问诊时向医师进行询问，则会占用大量的医疗资源，为此，本实施例通过医学检验咨询系统提供咨询服务，基于人机对话的问答咨询能回答用户有关医学检验相关的知识的疑问，而基于上传化验单的疾病咨询能帮助用户看懂化验单，并知道自己有没有患病。

需要说明的是：在进行问答咨询，其本质即根据语意和知识间的关系进行知识检索，故构建具备快速检索且能体现知识的结构关系的临床检验医学知识库便尤为重要，本实施例考虑到这与知识谱图的三元组(实体、属性、关系)结构不谋而合，故采用SPO三元组数据进行保存。

知识抽取采用纯机器学习的确会减少人工，但是也会存在较多的错误概率，由于检验医学相关的知识其结构性较为明显，本实施例便通过知识词典将这部分较为明显的知识进行抽取，从而减少机器模型抽取的工作量，再通过机器抽取剩余的知识，最后结合人工进行核查，由于人工仅需进行保留、删除的二分操作，故其工作量大大减少，通过加入极少的人工便能得到较好的知识抽取准确度。

需要说明的是：自然语意理解端能准确理解用户的对话意图，进而进行精准的知识检索，并快速提供给用户，自然语言生成端能将生硬的数据以人类自然语言对话的形式向用户进行展示。

S1通过对话采集单元获取用户的文字/音频对话内容；

S6通过对话生成单元将应答信息转化成对应的自然语言；

S8重复上述步骤直至问答咨询结束。

D1通过图像采集单元获取化验单图像；

D2对化验单图像在进行灰度处理；

D3对化验单图像进行二值化处理；

D4对化验单图像进行高斯降噪处理；

D5对化验单图像进行Canny边缘检测，并延边缘进行裁剪矫正；

D6通过霍夫变换提取直线，并进行直线筛选；

D7通过筛选后的直线测量倾角；

D8将化验单图像延倾角进行反向旋转直至抵消；

D9根据霍夫变换得到的直线划分区域；

D11将切割小图片作为Tesseract的输入进行内容提取。

需要说明的是：Tesseract作为开源OCR引擎，对图片内容识别成熟且准确度高。

需要说明的是：通过XGBoost模型构建疾病识别模型，XGBoost模型在多属性决策中有着很强的优势，其决策准确度和速度都很高，在疾病识别这种多属性决策场景下，便成为本实施首选的训练模型。

需要说明的是：很多咨询场景中，用户希望的是得到自己身体指标的改善状况和对应的指导意见，为此，本实施例通过基于多张化验单提供指标对比咨询；通过对比不同时间段的化验单进行横向对比，通过化验变化值，化验变化率来判断改善程度和改善的快慢，例如在一肥胖咨询案例中，通过减重值来判断肥胖改善程度，通过减重速率来判断减重是否过快还是过慢。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，包括医学检验咨询前端和医学检验咨询后端；

2.根据权利要求1所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，所述医学检验咨询后端设置有先验的临床检验医学知识库，所述临床检验医学知识库是基于临床检验医学大数据的知识库，通过知识抽取模型对临床检验医学大数据进行知识抽取，并结构化保存至临床检验医学知识库中。

3.根据权利要求1所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，所述临床检验医学知识库将知识以实体、属性、关系以SPO三元组数据进行保存；

4.根据权利要求2所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，所述医学检验咨询后端通过自然语意理解端对对话采集单元提供的对话内容进行语意理解；所述自然语意理解端是基于Rasa_NLU的自然语意理解端；所述Rasa_NLU经过先验的于临床检验医学问答对话大数据训练后，能对用户对话内容中的意图和实体信息进行识别，并标注上对应的Intents标签和Entities标签；

5.根据权利要求4所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，所述对话生成单元是基于Rasa_Core的自然语言生成端，所述Rasa_Core根据结构化数据信息进行story匹配、Action选择和自然语言输出；所述Rasa_Core通过先验的Stories库进行训练；所述Stories库中保存着不同对话场景下的真实临床检验医学问答数据以及对应的Action选择；通过Stories库训练的Rasa_Core模块能选择最优Action进行执行，所述Action通过Domain库进行释义。

6.根据权利要求4所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，通过如下步骤进行基于人机对话的问答咨询：

S1通过对话采集单元获取用户的文字/音频对话内容；

S6通过对话生成单元将应答信息转化成对应的自然语言；

S8重复上述步骤直至问答咨询结束。

7.根据权利要求4所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，所述医学检验咨询后端通过化验单内容提取模型对图像采集单元提供的化验单图像进行内容提取；所述化验单内容提取模型是基于Tesseract的提取模型，并通过如下步骤进行内容提取：

D1通过图像采集单元获取化验单图像；

D2对化验单图像在进行灰度处理；

D3对化验单图像进行二值化处理；

D4对化验单图像进行高斯降噪处理；

D5对化验单图像进行Canny边缘检测，并延边缘进行裁剪矫正；

D6通过霍夫变换提取直线，并进行直线筛选；

D7通过筛选后的直线测量倾角；

D8将化验单图像延倾角进行反向旋转直至抵消；

D9根据霍夫变换得到的直线划分区域；

D11将切割小图片作为Tesseract的输入进行内容提取。

8.根据权利要求4所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，通过基于XGBoost的疾病识别模型对化验单图像提取的内容进行疾病识别，所述疾病识别模型通过如下步骤训练得到：

9.根据权利要求5所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，还为用户提供基于多张化验单的指标对比咨询，所述指标对比咨询是基于查询先验知识表的咨询：

10.根据权利要求1所述的一种基于临床检验医学大数据的医学检验咨询系统，其特征在于，所述医学检验咨询后端部署在Linux服务器上，通过将Nginx作为接入层，业务服务层通过PHP-API/Python-API进行业务对接，所述Linux服务器的数据层通过Jena数据库对SPO三元组数据进行管理和操作。