CN113886600A

CN113886600A - 一种面向临床检验医学的知识图谱系统

Info

Publication number: CN113886600A
Application number: CN202111158219.0A
Authority: CN
Inventors: 刘靳波; 李光荣; 孔鑫
Original assignee: Affiliated Hospital of Southwest Medical University
Current assignee: Affiliated Hospital of Southwest Medical University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04

Abstract

本发明提供的一种面向临床检验医学的知识图谱系统，涉及知识图谱领域。本发明知识图谱应用层不仅包含知识图谱可视互动端，还包含知识图谱问答互动端，使用者能通过语音、文字等方式进行知识问答，通过知识词典对较为明显的知识进行抽取，从而减少机器模型抽取的工作量，再通过机器抽取剩余的知识，最后结合人工进行核查，由于人工仅需进行保留、删除的二分操作，故其工作量大大减少，通过加入极少的人工便能得到较好的知识抽取准确度；采用RDF三元组结构主要是这种结构简单直接，可以和知识图谱(对象，关系，对象)的三元结构相对应，通过Jena数据库能对SPO三元组数据进行更好的管理和操作。

Description

一种面向临床检验医学的知识图谱系统

技术领域

本发明涉及知识图谱领域，尤其涉及一种面向临床检验医学的知识图谱系统。

背景技术

临床检验医学是建立在基础医学与临床医学之间的桥梁学科，涉及到医学各领域的相关知识。由血液学、生物化学、人体寄生学、微生物学、免疫学等多基础学科所组成，是医疗卫生工作的重要组成部分。它是以检验医学为基础，多学科相互渗透、交叉配合的综合性应用学科。涉及化学、物理学、生物学、光学、统计学、人工智能学、免疫学、微生物学、遗传学、分子生物学等多种自然学科。90年代开始，临床检验医学专业快速发展，学科建设空前活跃，检验学科已经从医学检验向临床检验医学方向发展，成为一门独立的学科。临床检验医学本科阶段所设计的主要专业课就包括：分子生物学基础、临床检验医学基础、临床生物化学、临床血液学、临床输血学、临床微生物学、临床免疫学、人体寄生学、实用诊断学、临床检验质量管理等课程。我们不难看出，临床检验医学所涉及到的专业知识广泛、知识结构复杂，若不进行进一步的知识处理，很难让学习者牢固掌握这些知识和相互的关系。

为此，公开号为：CN110059195A的发明申请公开了一种基于LIS的医学检验知识图谱构建方法，包括：概念层设计、实例层学习和LIS知识图谱的应用；具体为，将LIS系统中的真实记录作为知识库，对知识领域的概念集进行设计，强调概念及概念关系的形式表达；从大量的LIS系统记录中抽取与概念层相匹配的医学检验事实，提取出医学检验实体与关系，并以三元组的形式存储，从而得到最终的医学检验知识图谱；并将医学检验知识图谱应用于检验查询和合理检验两个方面。基于医学检验文献与LIS中的真实数据构建医学检验知识图谱，完善了通用医学知识图谱，可更好地服务于高层次的人工智能医疗应用；同时，作为医生的辅助查询工具，提高医生的工作效率，并开拓LIS系统的应用场景。

近年来，越来越多的领域运用到了人工智能，通过与人工智能机器人进行自然语言对话，就能获得

因此，有必要提供一种面向临床检验医学的知识图谱系统来解决上述技术问题。

发明内容

为解决上述技术问题，本发明提出一种面向临床检验医学的知识图谱系统，包括知识图谱基础层和知识图谱应用层；

所述知识图谱基础层用于描述临床检验医学知识图谱中各知识的实体、关系和属性信息，而知识的实体、关系和属性信息以结构化数据形式进行保存，并提供给知识图谱应用层进行信息抽取；

所述知识图谱应用层包括知识图谱可视互动端和知识图谱问答互动端；所述知识图谱可视互动端通过对知识图谱基础层进行信息抽取，并对抽取内容进行图形化重构，得到交互知识图谱；交互知识图谱通过块对象描述实体和属性，通过线对象描述各块对象之间的关系结构；用户能在不改变原本信息结构和内容的情况下，对块对象和线对象进行拖拽、查看、调用、缩放和重置操作；

所述知识图谱问答互动端通过自然语言与用户进行问答互动；根据问答互动对图谱基础层中对应信息进行抽取，并以自然语言将抽取信息进行输出；其中，所述知识图谱问答互动端通过自然语意理解端对问答互动进行语意理解，通过自然语言生成端进行问答互动。

作为更进一步的解决方案，所述知识图谱基础层部署在云端上，通过API向知识图谱应用层提供知识图谱的知识信息；包括数据录入端、数据预处理端、知识抽取端和知识图谱存储端；

所述数据录入端包括医院检验医学数据录入口和公共检验医学数据录入口；所述医院检验医学数据录入口是将医院提供的检验医学数据作为知识源；通过医院检验医学数据录入口进行数据录入时需进行身份验证，验证用户合法身份后，通过用户账号渠道对医院检验医学数据进行上传，并对上传数据进行脱敏和加密传输；所述公共检验医学数据录入口是将公共检验医学数据作为知识源进行收集和录入，包括网上公开的检验医学数据和检验医学相关知识；

所述数据预处理端用于对数据录入端数据进行预处理操作，包括对数据进行筛选、降噪、去冗余、裁剪、标注、分词和词向量化；

所述知识抽取端用于对预处理后的数据进行实体抽取、关系抽取和属性抽取，并将抽取的实体、关系和属性转化为结构化数据进行存储；

所述知识图谱存储端为知识抽取端提供存储空间，并通过数据库对存储数据进行统一管理和操作。

作为更进一步的解决方案，所述知识抽取端包括实体抽取端、属性抽取端和关系抽取端，并分别采用三层抽取策略进行实体、属性和关系的抽取；

所述三层抽取策略，初次抽取通过构造临床检验医学实体/属性/关系词典，并通过临床检验医学实体/属性/关系词典进行分词识别，将与临床检验医学实体/属性/关系词典重合的进行标注和抽取；

二次抽取在初次抽取的基础上，对剩余分词进行识别并抽取；二次抽取通过检验医学抽取模型进行抽取，所述检验医学抽取模型为双向LSTM+CRF神经网络模型，依次包括Look-up层、Forward LSTM层、Backwoord LSTM层和CRF层，通过人工已标注的检验医学实体/属性/关系数据对双向LSTM+CRF神经网络模型进行训练和测试，并将满足识别准确度的模型作为检验医学抽取模型进行输出；

三次抽取是对二次抽取进行人工再抽取，通过专业人员验证二次抽取的是否准确，并将人工再抽取和初次抽取的作为抽取端最终输出的实体/属性/关系集。

作为更进一步的解决方案，所述知识抽取端将抽取的实体、属性、关系以SPO三元组数据进行保存；所述知识图谱存储端采用RDF三元组结构，并采用Jena数据库对SPO三元组数据进行管理和操作。

作为更进一步的解决方案，所述公共检验医学数据录入口包括第三方检验医学数据录入口和爬虫数据录入口；所述第三方检验医学数据录入口用于接收第三方捐献的数据；所述爬虫数据录入口用于接收网络爬虫从网上爬取的公共的临床检验医学数据信息。

作为更进一步的解决方案，所述自然语意理解端是基于Rasa_NLU的自然语意理解端；所述Rasa_NLU通过先验的临床检验医学问答对话库进行训练，先验内容包括临床检验医学问答所涉及到实体的Entities标签和用户意图的Intents标签；经过先验的临床检验医学问答库进行训练的Rasa_NLU能识别用户对话互动中的意图和实体信息并对Intents标签和Intents标签的槽值进行准确填充；

其中，所述先验的临床检验医学问答库保存在Domain库中，所述Domain库包括临床检验医学Entities库、临床检验医学Intents库、临床检验医学Actions库和临床检验医学Templates库；所述临床检验医学Entities库用于保存实体信息的槽值并释义；所述临床检验医学Intents库用于保存对话意图槽值并释义，所述临床检验医学Actions库用于保存执行动作；所述临床检验医学Templates库用于保存对应执行动作反馈的内容模板。

作为更进一步的解决方案，所述自然语言生成端是基于Rasa_Core的自然语言生成端，所述Rasa_Core根据结构化数据信息进行story匹配、Action选择和自然语言输出；所述Rasa_Core通过先验的Stories库进行训练；所述Stories库中保存着不同对话场景下的真实临床检验医学问答数据以及对应的Action选择；通过Stories库训练的Rasa_Core模块能选择最优Action进行执行，所述Action通过Domain库进行释义。

作为更进一步的解决方案，还包括医院检验医学数据管理端，所述医院检验医学数据管理端用于数据上传者对医院检验医学数据进行管理，通过对医院检验医学数据进行知识图谱绘制，并提供快速检索服务，数据上传者能快速地对数据进行检索、查看、下载和删除操作。

作为更进一步的解决方案，所述知识图谱可视互动端通过B/S框架构建，通过浏览器访问对应URL便能进入知识图谱可视互动页面，通过H5、CSS、FLASK、CUPER、D3构建并渲染可视互动页面；所述知识图谱问答互动端部署在云端，通过API向各终端提供基于自然语言的语音/文字的问答互动。

作为更进一步的解决方案，所所述爬虫数据录入口在进行数据爬取时采取空值优先策略；当SPO三元组数据存在空值时，爬虫优先从网上爬取空值相关内容进行填充，爬取范围包括临床检验医学门户网站和各权威医学知识平台；爬取内容在录入前通过人工审查进行录入、删除二分操作。

与相关技术相比较，本发明提供的用于一种面向临床检验医学的知识图谱系统具有如下有益效果：

1、本发明通过临床检验医学大数据构建面向临床检验医学的知识图谱系统，知识图谱应用层不仅包含知识图谱可视互动端，还包含知识图谱问答互动端，使用者能通过语音、文字等方式进行知识问答，在实际的运用中，可作为科普问答台的核心系统向大众进行科普开放；方便使用者系统、快速地掌握临床检验医学的相关知识，做到哪里不会问哪里；

2、本发明通过知识词典对较为明显的知识进行抽取，从而减少机器模型抽取的工作量，再通过机器抽取剩余的知识，最后结合人工进行核查，由于人工仅需进行保留、删除的二分操作，故其工作量大大减少，通过加入极少的人工便能得到较好的知识抽取准确度；

3、本发明采用RDF三元组结构主要是这种结构简单直接，可以和知识图谱(对象，关系，对象)的三元结构相对应，通过Jena数据库能对SPO三元组数据进行更好的管理和操作；

4、本发明通过加入第三方检验医学数据录入口和爬虫数据录入口进行数据的全面获取，爬虫主要是爬取权威网站上的知识，第三方检验医学数据录入口主要是为第三方提供数据捐赠渠道。

附图说明

图1为本发明提供的一种面向临床检验医学的知识图谱系统的较佳实施例系统示意图；

图2为本发明提供的一种面向临床检验医学的知识图谱系统的较佳实施例识图谱问答互动端示意图一；

图3为本发明提供的一种面向临床检验医学的知识图谱系统的较佳实施例识图谱问答互动端示意图二。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1至图3所示，本发明提供的一种面向临床检验医学的知识图谱系统，包括知识图谱基础层和知识图谱应用层；

具体的：现有的知识图谱系统鲜有针对临床检验医学进行构建的，然而临床检验医学又是涉及知识面广、知识结构复杂的复合型学科；故本实施例通过临床检验医学大数据构建面向临床检验医学的知识图谱系统，此外，知识图谱应用层不仅包含知识图谱可视互动端，还包含知识图谱问答互动端，使用者能通过语音、文字等方式进行知识问答，在实际的运用中，可作为科普问答台的核心系统向大众进行科普开放。方便使用者系统、快速地掌握临床检验医学的相关知识，做到哪里不会问哪里。

具体的：本实施例的知识图谱基础层是知识图谱应用层的知识来源和信息支撑，知识图谱基础层能对接不同的知识图谱应用层从而实现不同的功能，在构建知识图谱基础层时，需要收集大量的检验医学数据，这些数据有些是公共渠道寻找的，有些是医院的检验医学数据，医院的检验医学数据有些是化验报告、有些是样本采集报告，这些具备隐私性的信息在使用前需要进行脱敏操作，并进行加密处理。此外，这些数据是多源异构的，故我们需要对数据进行知识抽取，在将抽取的知识转化成结构化数据，最后保存在对应的数据库中以方便我们进行数据使用和管理。

具体的：知识抽取采用纯机器学习的确会减少人工，但是也会存在较多的错误概率，由于检验医学相关的知识其结构性较为明显，本实施例便通过知识词典将这部分较为明显的知识进行抽取，从而减少机器模型抽取的工作量，再通过机器抽取剩余的知识，最后结合人工进行核查，由于人工仅需进行保留、删除的二分操作，故其工作量大大减少，通过加入极少的人工便能得到较好的知识抽取准确度。

所述检验医学抽取模型为双向LSTM+CRF神经网络模型，第一层是Look-up层，首先会将每个字符转换成其在字表中对应的索引，然后在根据索引去寻找与之对应的向量构成LSTM网络单元的输入。第二层与第三层构成双向LSTM模型，其中第二层是前向LSTM，即每个待预测字符的网络输出利用了其上文信息，如针对‘血常规检查’文本，‘常’字符的网络输出结果利用到其上文‘血’字符的网络输出结果，第三层为反向LSTM，即每个待预测字符的网络输出利用了其下文信息，此时‘常’字符的网络输出结果利用到其下文‘规’字符的网络输出结果。该层的针对每个字符的最终输出为前向LSTM输出结果和反向LSTM输出结果的叠加。最后一层是CRF层，基于双向LSTM学习出来的特征是字符的隐含特征，它并不能很明确的约束各个标签之间的转移限定。CRF层结合双向LSTM网络层的输出并通过计算各标签之间的转移概率得到一个转移矩阵，而后通过维特比算法解码得出一个当前字符最为可能的标签。

具体的：采用RDF三元组结构主要是这种结构简单直接，可以和知识图谱(对象，关系，对象)的三元结构相对应，通过Jena数据库能对SPO三元组数据进行更好的管理和操作。

需要说明的是：由于检验医学相关知识面广，显然只通过医院提供的检验医学数据是难以达到足够的只是覆盖面的。为此，本实施例通过加入第三方检验医学数据录入口和爬虫数据录入口进行数据的全面获取，爬虫主要是爬取权威网站上的知识，第三方检验医学数据录入口主要是为第三方提供数据捐赠渠道。

具体的：本实施例所涉及的问答对话主要还是固定场景的问答对话，多是查询某某相关知识；故本实施例通过容易构建的RASA自然语言对话框架进行构造，能满足大多数对话需求。

需要说明的是：通过B/S框架能使使用者能只需要浏览器就能访问知识图谱可视互动端，从而提高系统的实用性。

具体的：通过采取空值优先策略能对问答时无法提供的知识和空值对象进行优先爬取，从而能更快的满足用户的需求。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向临床检验医学的知识图谱系统，其特征在于，包括知识图谱基础层和知识图谱应用层；

2.根据权利要求1所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述知识图谱基础层部署在云端上，通过API向知识图谱应用层提供知识图谱的知识信息；包括数据录入端、数据预处理端、知识抽取端和知识图谱存储端；

3.根据权利要求2所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述知识抽取端包括实体抽取端、属性抽取端和关系抽取端，并分别采用三层抽取策略进行实体、属性和关系的抽取；

4.根据权利要求3所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述知识抽取端将抽取的实体、属性、关系以SPO三元组数据进行保存；所述知识图谱存储端采用RDF三元组结构，并采用Jena数据库对SPO三元组数据进行管理和操作。

5.根据权利要求4所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述公共检验医学数据录入口包括第三方检验医学数据录入口和爬虫数据录入口；所述第三方检验医学数据录入口用于接收第三方捐献的数据；所述爬虫数据录入口用于接收网络爬虫从网上爬取的公共的临床检验医学数据信息。

6.根据权利要求5所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述自然语意理解端是基于Rasa_NLU的自然语意理解端；所述Rasa_NLU通过先验的临床检验医学问答对话库进行训练，先验内容包括临床检验医学问答所涉及到实体的Entities标签和用户意图的Intents标签；经过先验的临床检验医学问答库进行训练的Rasa_NLU能识别用户对话互动中的意图和实体信息并对Intents标签和Intents标签的槽值进行准确填充；

7.根据权利要求6所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述自然语言生成端是基于Rasa_Core的自然语言生成端，所述Rasa_Core根据结构化数据信息进行story匹配、Action选择和自然语言输出；所述Rasa_Core通过先验的Stories库进行训练；所述Stories库中保存着不同对话场景下的真实临床检验医学问答数据以及对应的Action选择；通过Stories库训练的Rasa_Core模块能选择最优Action进行执行，所述Action通过Domain库进行释义。

8.根据权利要求7所述的一种面向临床检验医学的知识图谱系统，其特征在于，还包括医院检验医学数据管理端，所述医院检验医学数据管理端用于数据上传者对医院检验医学数据进行管理，通过对医院检验医学数据进行知识图谱绘制，并提供快速检索服务，数据上传者能快速地对数据进行检索、查看、下载和删除操作。

9.根据权利要求8所述的一种面向临床检验医学的知识图谱系统，其特征在于，所述知识图谱可视互动端通过B/S框架构建，通过浏览器访问对应URL便能进入知识图谱可视互动页面，通过H5、CSS、FLASK、CUPER、D3构建并渲染可视互动页面；所述知识图谱问答互动端部署在云端，通过API向各终端提供基于自然语言的语音/文字的问答互动。

10.根据权利要求9所述的一种面向临床检验医学的知识图谱系统，其特征在于，所所述爬虫数据录入口在进行数据爬取时采取空值优先策略；当SPO三元组数据存在空值时，爬虫优先从网上爬取空值相关内容进行填充，爬取范围包括临床检验医学门户网站和各权威医学知识平台；爬取内容在录入前通过人工审查进行录入、删除二分操作。