CN113707297B

CN113707297B - 医疗数据的处理方法、装置、设备及存储介质

Info

Publication number: CN113707297B
Application number: CN202110991112.8A
Authority: CN
Inventors: 李吉祥
Original assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2024-04-05
Anticipated expiration: 2041-08-26
Also published as: CN113707297A

Abstract

本申请涉及人工智能领域，尤其涉及医疗数据的处理方法、装置、设备及存储介质，所述方法包括：获取医疗数据，对所述医疗数据进行分类，得到多组医疗数据；对所述多组医疗数据进行分词处理，得到多组标准医疗数据；根据每组所述标准医疗数据生成各自对应的三元组数据，并将每组所述标准医疗数据对应的三元组数据映射到图形数据库中，生成多个医疗知识图谱并存储在所述图形数据库中；获取用户的病情信息，并确定所述病情信息对应的关键词信息；从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，并将所述目标医疗知识图谱推送给目标终端。由此可以辅助医生的诊疗过程，能够利用知识图谱作出合理诊断，提高用户的问诊体验。

Description

医疗数据的处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及医疗数据的处理方法、医疗数据的处理装置、计算机设备及存储介质。

背景技术

由于现有的疾病诊断方法主要依据医生根据个人经验来完成诊断，同时经验丰富的资深医生较少，因此无法满足数目庞大的就诊需求。因此可以通过构建医疗知识图谱来辅助医生问诊。由于医疗知识图谱的研究成果将有助于推进医学数据自动化和智能化处理，有着广阔的应用前景和社会价值，因此完善医疗知识图谱的构建已经成为当前的一个研究热点。

而现有的医疗知识图谱的构建准确性和完整性不高，同时无法根据患者的病情信息很快地确定对应的相关信息，从而导致在进行问诊辅助时的效率和准确度较低。

发明内容

本申请提供了一种医疗数据的处理方法、医疗数据的处理装置、计算机设备及存储介质，旨在解决现有的医疗知识图谱的构建准确性和完整性不高，导致在进行问诊辅助时的效率和准确度较低的问题。

为实现上述目的，本申请提供一种医疗数据的处理方法，所述方法包括：

获取医疗数据，对所述医疗数据进行分类，得到多组医疗数据；

对所述多组医疗数据进行分词处理，得到多组标准医疗数据；

根据每组所述标准医疗数据生成各自对应的三元组数据，并将每组所述标准医疗数据对应的三元组数据映射到图形数据库中，生成多个医疗知识图谱并存储在所述图形数据库中；

获取用户的病情信息，并确定所述病情信息对应的关键词信息；

从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，并将所述目标医疗知识图谱推送给目标终端。

为实现上述目的，本申请还提供一种医疗数据的处理装置，所述医疗数据的处理装置包括：

数据分类模块，用于获取医疗数据，对所述医疗数据进行分类，得到多组医疗数据；

数据分词模块，用于对所述多组医疗数据进行分词处理，得到多组标准医疗数据；

图谱生成模块，用于根据每组所述标准医疗数据生成各自对应的三元组数据，并将每组所述标准医疗数据对应的三元组数据映射到图形数据库中，生成多个医疗知识图谱并存储在所述图形数据库中；

病情提取模块，用于获取用户的病情信息，并确定所述病情信息对应的关键词信息；

图谱推送模块，用于从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，并将所述目标医疗知识图谱推送给目标终端。

此外，为实现上述目的，本申请还提供一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的医疗数据的处理方法。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的医疗数据的处理方法。

本申请实施例公开的医疗数据的处理方法、医疗数据的处理装置、设备及存储介质，可以通过获取得到的医疗数据进行分类、分词处理，从而构建医疗知识图谱，并通过病情关键词给用户推送对应的知识图谱，由此可以根据患者的病情状况查询到相关信息，从而进行针对性的诊断和治疗，辅助医生的诊疗过程，使得病人能够理解诊断结果，医生能够利用知识图谱作出合理诊断，提高用户的问诊体验。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种医疗数据的处理方法的场景示意图；

图2是本申请实施例提供的一种医疗数据的处理方法的流程示意图；

图3是本申请一实施例提供的一种医疗数据的处理装置的示意性框图；

图4是本申请一实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

医疗知识图谱构建技术可以归纳为五部分，即医学知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素，选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接，增强知识库内部的逻辑性和表达能力，并通过人工或自动的方式为医疗知识图谱更新旧知识或补充新知识。借助知识推理，推出缺失事实，自动完成疾病诊断与治疗。质量评估则是保障数据的重要手段，提高医疗知识图谱的可信度和准确度。

由于不同医疗知识图谱的知识来源广泛，构建目的和方法也不同，使得单个知识图谱内存在知识质量低下、知识描述缺失等问题；不同知识图谱间又存在知识大量重复，异构型性强等问题，导致医疗知识图谱的构建准确性和完整性不高，同时无法根据患者的病情信息很快地确定对应的相关信息比如并发症、治疗方案、预防方案等，从而导致在进行问诊辅助时的效率和准确度较低。

为解决上述问题，本申请提供了一种医疗数据的处理方法，应用在服务器，由此可以根据患者的病情状况查询到相关信息，从而进行针对性的诊断和治疗，辅助医生的诊疗过程，使得病人能够理解诊断结果，医生能够利用知识图谱的动态推理过程作出合理诊断，提高用户的问诊体验。

其中，服务器例如可以为单独的服务器或服务器集群。但为了便于理解，以下实施例将以应用于服务器的医疗数据的处理方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，本申请实施例提供的医疗数据的处理方法，可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120，其中，终端设备110可以通过网络与服务器120进行通信。具体地，服务器120可以从终端设备110获取医疗数据，对医疗数据进行分类、分词处理，生成医疗知识图谱，并根据终端设备110获取的病情信息确定目标医疗知识图谱，并发送给终端设备110，以使用户能够理解诊断结果，医生能够利用知识图谱作出合理诊断。其中，服务器120可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图2，图2是本申请实施例提供的一种医疗数据的处理方法的示意流程图。其中，该医疗数据的处理方法可以终端设备中，由此可以根据患者的病情状况查询到相关信息，从而进行针对性的诊断和治疗，辅助医生的诊疗过程，使得病人能够理解诊断结果，医生能够利用知识图谱的动态推理过程作出合理诊断，提高用户的问诊体验。

如图2所示，该医疗数据的处理方法包括步骤S101至步骤S105。

S101、获取医疗数据，对所述医疗数据进行分类，得到多组医疗数据。

其中，所述医疗数据可以包括多种疾病以及每种疾病对应的疾病种类、科室、症状、病因、并发症、治疗、预防等数据。

具体地，由于医院信息系统用于存储大量的医疗信息且能够确保数据的真实可靠性，服务器可以通过与医院信息系统通信连接，通过从医院信息系统中获取医疗数据，还可以利用互联网搜寻可靠、权威的医疗数据来源，并从中获取对应的医疗数据。获取医疗数据之后，可以将所述医疗数据存储在Hadoop分布式文件系统(HDFS)中，HDFS是一个高度容错性的系统，HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一些实施例中，根据所述医疗数据的数据属性，对所述医疗数据进行分类，得到数据分类结果；基于医疗数据爬取工具，根据所述数据分类结果多线程爬取所述医疗数据，得到多组医疗数据。其中，所述医疗数据的数据属性可以是医疗数据对应的科室、疾病种类等。

其中，所述医疗数据爬取工具可以是Elasticsearch检索工具，Elastic Search是一个基于Lucene的搜索服务器，并且可以搭建在存储医疗数据的数据库中。所述Lucene是一套用于全文政策检索和政策搜寻的开源程序库，Elastic Search提供了一个分布式多用户能力的全文搜索引擎，能够达到实时搜索，稳定，可靠，快速且安装使用方便。所述数据分类结果表征医疗数据在某些数据属性的分类情况，具体地，可以是根据疾病种类对医疗数据进行分类的结果，比如癌症作为一类数据、外伤作为一类数据等；还可以是根据科室对医疗数据进行分类的结果，比如心肺科室作为一类数据、眼科科室作为一类数据等。所述多线程是指采用超线程即是可在同一时间里，应用程序可以使用芯片的不同部分。虽然单线程芯片每秒钟能够处理成千上万条指令，但是在任一时刻只能够对一条指令进行操作。而多线程技术可以使芯片同时进行多线程处理，使芯片性能得到提升。

示例性的，根据所述医疗数据对应的不同科室，对所述医疗数据进行分类，得到数据分类结果，比如将心肺科室对应的医疗数据归为一类，将外科对应的医疗数据归为一类。

具体地，对所述医疗数据进行分类，得到数据分类结果；基于Elastic Search在医疗数据的数据库中进行检索，根据所述数据分类结果同时多线程爬取不同类别对应的医疗数据，得到多组医疗数据。

示例性的，对医疗数据进行分类，得到的数据分类结果包括心肺科室对应的数据、眼科科室对应的数据等。通过Elastic Search在HDFS中利用多线程技术分别爬取心肺科室对应的数据、眼科科室对应的数据等。需要说明的是，每个类别对应一组医疗数据。由此通过对医疗数据进行分类，提升医疗数据的爬取效率以及在提升后续的数据处理效率。

在一些实施例中，在得到多组医疗数据之后，确定所述医疗数据的数据类型，其中，所述医疗数据的数据类型包括结构化数据、半结构化数据和非结构化数据；若确定所述医疗数据的数据类型为半结构化数据或非结构化数据，将所述半结构化数据或所述非结构化数据转换为结构化数据。由此可以将不同的数据结构类型的目标源数据转化为结构化数据，便于后续的分词处理，同时也能满足多样化的业务需求。

其中，所述结构化数据具体可以是指一种满足预设的数据格式的数据。通常对于某一个结构化数据，根据该数据所对应的预设的数据格式，能够相对较直接地确定出该数据所包含的不同数据的具体属性。所述半结构化数据具体可以是指一种虽然不满足预设的数据格式，但仍然满足某些其他常规格式(例如，表格格式等)的数据。通常对于某一个半结构化数据，虽然无法像结构化数据那样较为直接地确定出该数据所包含的不同数据的具体属性；但是结合所对应的常规格式，通过一定的语义分析处理，也能够确定出该数据所包含的不同数据的具体属性。所述非结构化数据具体可以是指一种不满足预设的数据格式，同时也不满足某些常规格式的数据，例如，病历中的一段医生嘱咐或体检表格数据等。通常对于非结构化数据，需要进行语义分析处理，才能确定出该数据所包含的不同数据的具体属性。

具体地，确定所述医疗数据的数据类型；若确定所述医疗数据的数据类型为结构化数据，则对所述结构化数据进行分词处理；若确定所述医疗数据的数据类型为半结构化数据或非结构化数据，将所述半结构化数据或所述非结构化数据转换为结构化数据。

在一些实施例中，确定所述医疗数据的数据类型；若确定所述医疗数据的数据类型为半结构化数据或非结构化数据，对所述医疗数据进行预处理，得到预处理后的数据，所述预处理包括去噪处理、去冗处理和清洗处理；从所述预处理后的数据中匹配得到符合预设正则化规则的数据，将所述符合预设正则化规则的数据作为结构化数据。

具体地，可以对所述半结构化数据或所述非结构化数据进行预处理，得到预处理后的数据，所述预处理包括去噪处理、去冗处理和清洗处理；通过正则化表达式技术，从所述预处理后的数据中匹配出符合预设正则化规则的数据，将所述符合预设正则化规则的数据作为结构化数据。

其中，所述正则化表达式技术为通过制定正则表达式规则，检索出符合制定的正则表达式规则的文本的技术，所述正则表达式规则为是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”。这个“规则字符串”用来表达对字符串的一种过滤逻辑规则，通过所述正则表达式规则搜索文本中匹配的一个或多个字符串，将匹配出的字符串确定为符合预设正则化规则的数据，即结构化数据。

示例性的，若医疗数据为表格格式，比如表格为：

可以通过对所述医疗数据进行去噪处理、去冗处理和清洗处理；并通过正则化表达式技术从所述预处理后的医疗表格数据中提取文本信息并匹配得到文本数据为“患者血红蛋白含量检测值为130g/L，而血红蛋白正常含量范围为120～160g/L，检测值属于正常范围内”，并将所述提取得到的文本数据作为结构化数据。

S102、对所述多组医疗数据进行分词处理，得到多组标准医疗数据。

其中，可以基于分词算法对所述多组医疗数据进行分词处理，所述分词算法可以为基于隐马尔可夫模型的分词算法、基于条件随机场的分词算法等算法。所述标准医疗数据为可直接用于生成三元组数据的医疗数据。由于网上获取的医疗数据大多并不是标准数据，因此需要对医疗数据进行分词和转换处理，得到标准医疗数据。

在一些实施例中，基于分词算法，对每组所述医疗数据进行分词处理，得到每组所述医疗数据对应的分词结果；对所述分词结果进行筛选，得到标准医疗数据。由此可以通过对医疗数据进行分词处理并筛选，为后续生成三元组数据打下基础。

具体地，基于预设的医疗知识库，对所述医疗数据进行分词得到多个分词结果；其中，所述预设的医疗知识库中包括标准名、近义词以及关联症状词等等。示例性的，可以基于重大疾病知识库(预设的医疗知识库)，含标准名、近义词、关联症状词等，对医患对话、出院小结等文本数据进行分词，进而得到多个分词结果。

示例性的，比如对一个病历数据中进行分词处理，得到对应的疾病为严重肠道疾病，并发症包括肠穿孔、肠出血、肠梗阻、腹腔感染等病症，关联症状词包括腹痛、腹胀、便血、反跳痛、出现肠鸣音等，再对分词结果进行筛选，得到标准医疗数据。

具体地，可以通过Mapreduce、Spark等技术编写对应语法的程序语言，检测得到医疗数据中的重复数据，将所述重复数据进行合或剔除等操作，得到一个标准医疗数据。其中，所述MapReduce是一种编程模型，用于大规模数据集的并行运算。所述Spark是专为大规模数据处理而设计的快速通用的计算引擎。

示例性的，获取医疗数据A和医疗数据B，并利用Mapreduce、Spark等技术编写对应的程序之后输出我们标准医疗数据C，并将标准医疗数据C导入Hive中。其中，所述Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

在一些实施例中，对所述分词结果进行筛选，得到标准医疗数据具体是基于医疗词义预测模型对所述分词结果中每个分词进行词义预测，得到每个分词对应的词义预测结果，基于所述词义预测结果对所述分词结果进行筛选，得到标准医疗数据。其中，所述医疗词义预测模型用于预测分词结果与标准医疗分词的相似程度，所述医疗词义预测模型通过语义匹配模型与标准医疗分词数据库进行训练得到，所述语义预测模型可以包括LSTM匹配模型、MV-DSSM模型、ESIM模型等模型，所述标准医疗分词数据库用于存储标准医疗分词的数据库，其中，所述词义预测结果为每个分词与标准医疗分词数据库中的标准医疗分词的相似度。由此可以快速筛选得到符合对应的疾病分类且用于生成三元组数据的医疗数据。

具体地，可以通过医疗词义预测模型在对应的疾病类别的标准医疗分词数据库进行医疗分词的匹配，计算每个分词与标准医疗分词数据库中的标准医疗分词的相似度，根据所述相似度对每个所述词义预测结果进行排序，得到排序结果；基于所述排序结果对所述分词结果进行筛选，得到标准医疗数据。

示例性的，若对应的疾病科室为消化内科，而分词结果中的分词包括腹胀、便血、眼睛肿痛、头晕等，由于腹胀和便血属于消化内科的常见症状，因此腹胀和便血对应的相似度较高，而眼睛肿痛和头晕不属于消化内科的常见症状，因此眼睛肿痛和头晕对应的相似度较低，因此可能在后续的筛选中把相似度较低的分词筛选掉，得到比较符合本科室或本疾病分类的医疗数据，并将该医疗数据作为标准医疗数据。

S103、根据每组所述标准医疗数据生成各自对应的三元组数据，并将每组所述标准医疗数据对应的三元组数据映射到图形数据库中，生成多个医疗知识图谱并存储在所述图形数据库中。

其中，所述三元组数据包括通过一个数据关系相关联的两个实体，所述图形数据库可以为Neo4j图形数据库，所述医疗知识图谱可以概括为实体与数据关系的组成图谱，构建医疗知识图谱有助于对医疗数据的分析与研究。其中，所述实体可以包括医疗数据中的科室、症状、病因、治疗方法、药物名称、预防等信息。需要说明的是，每组标准医疗数据对应有不同的医疗知识图谱，在每组标准医疗数据生成对应的医疗知识图谱后，将这些医疗知识图谱存储在图形数据库中。

在一些实施例中，基于医疗知识提取模型，对每组所述标准医疗数据进行实体识别与数据关系抽取，生成实体与数据关系的数据集；根据所述实体与数据关系的数据集生成对应的三元组数据。其中，所述医疗知识提取模型用于提取进行实体识别与数据关系抽取，具体可以通过医疗知识数据库与B-LSTM+CRF知识提取模型训练得到。

其中，实体关系抽取作为信息抽取的重要任务，是指在实体识别的基础上从结构化文本中抽取出预先定义的实体关系，实体指的是具有可区别性且独立存在的某种事物。实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。每一个实体是一个节点，每个患者的每一次就诊都可以是一个单独的节点，每个节点都有许多患者的诊断属性信息，包括姓名、科室、症状、病因、并发症、治疗、预防等诊断信息，这些诊断信息都以长文本的形式存储在该实体对应的节点中；在知识图谱中，关系被形式化为一个函数，是将节点映射到属性值的函数，由此，患者的节点与疾病诊断的属性信息有了直接的关联，形成了实体与数据关系的数据集。

具体地，通过医疗知识提取模型对每组所述标准医疗数据进行实体识别与数据关系抽取，生成实体与数据关系的数据集；对所述数据集中的数据进行格式标准化处理，生成对应的三元组数据。由于数据关系是将节点映射到属性值的函数，需要对数据进行格式标准化处理，对属性信息文字的编码统一以及对文字的分隔符的标准化处理。

生成三元组数据后，将所述三元组数据导入到Neo4j图形数据库中，生成医疗知识图谱。其中，Neo4j图形数据库是一个典型的、高性能的图形数据库，它的存储方式是以网络结构图对结构化数据进行存储的，不同于普通数据库的表格存储方式。与其他NOSQL图数据库相比，Neo4j具有很多优势比如：支持海量数据存储，具有成熟数据库的所有特性，能够很好地解决医疗数据价值密度低、数据量大、更新速度快的问题。

具体地，每组标准医疗数据对应的三元组数据包括多个三元组，将多个三元组映射到Neo4j图形数据库中，通过Neo4j图形数据库对多个三元组进行建模，建立每个三元组之间的关系，从而构建得到成医疗知识图谱。由此可以通过Neo4j图形数据库实现三元组数据到图谱数据的转换与医疗知识图谱的存储，并实现对医疗知识图谱的可视化展示。

S104、获取用户的病情信息，并确定所述病情信息对应的关键词信息。

其中，所述用户的病情信息为病情的描述信息，具体可以是语音信息、文本信息等，可以由患者自行上报的，也可以由医生上报的。

示例性的，若用户自己感到不舒服，比如在终端设备上输入“自己感到头晕、恶心，身体不舒服”等语音信息，并发送给服务器，服务器将所述语音信息进行文本识别，得到对应的文本信息。由此可以帮助患者自我评估病情，当然也可以通过医生上传，从而能够帮助医生找到最佳治疗方案，提高医生工作效率和诊疗质量，为慢病患者提供远程指导和干预。

在一些实施例中，基于预设的医学词库，对所述病情信息进行分词和实体识别，得到多个关键词；确定每个所述关键词的特征信息；根据所述特征信息确定每个所述关键词的权重比例，根据所述权重比例为所述多个关键词进行权重分配，得到关键词信息。其中，所述预设的医学词库用于存储医学常用词。由此可以根据关键词信息快速确定对应的目标医疗知识图谱。所述特征信息可以包括以下任一项或其组合：词频、位置、共现频率。

示例性的，若病情信息包括头晕、腹泻、恶心这三个关键词，可以分别确定这三个关键词的词频、位置和共现频率，比如头晕的词频较高、位置较集中和共现频率较高，则为头晕这一关键词分配较高的权重比例，比如腹泻的词频较低、位置较分散和共现频率较低，则为腹泻这一关键词分配较低的权重比例，最终形成病情信息对应的关键词信息。

具体地，若包括多类特征信息，利用逆向最大匹配算法和多层条件随机场对用户的病情信息进行分词与实体识别，得到多个关键词，并对多个关键字的特征信息进行统计，得到特征统计得分，基于特征统计得分确定每个所述关键词的权重比例并对每个关键词进行加权，以此获取相关度较高的关键词。其中，所述特征统计得分为多类特征信息的综合得分，用于确定每个关键词的权重比例。由此能够结合自然语言处理技术和深度学习算法，对医学数据从语义层面深度挖掘，并且保障特定领域内语义理解的准确度，从而提高医学信息资源的利用率和信息查询效率。

示例性的，若病情信息包括头晕、腹泻、恶心这三个关键词，可以分别确定这三个关键词的词频、位置和共现频率，对头晕这个关键字的特征信息进行统计，得到特征统计得分为100分，则为头晕这一关键词分配的权重比例为50％；对腹泻这个关键字的特征信息进行统计，得到特征统计得分为60分，则为头晕这一关键词分配的权重比例为30％；对恶心这个关键字的特征信息进行统计，得到特征统计得分为40分，则为头晕这一关键词分配的权重比例为20％；最终形成病情信息对应的关键词信息。

S105、从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，并将所述目标医疗知识图谱推送给目标终端。

其中，所述目标医疗知识图谱为所述关键词信息对应的医疗知识图谱，且为用户的病情信息对应的医疗知识图谱，能够帮助患者自我评估病情，帮助医生找到最佳治疗方案，提高医生工作效率和诊疗质量，为慢病患者提供远程指导和干预。所述目标终端为用户的终端设备，具体可以为患者、医生的手机或电脑等设备。

在一些实施例中，根据所述关键词信息在所述图形数据库中进行检索，得到包括所述关键词信息的医疗知识图谱，并将包括所述关键词信息的医疗知识图谱作为目标医疗知识图谱。由此可以快速确定目标医疗知识图谱，并推送给用户。

具体地，可以采用node2vec算法在所述图形数据库中查询每个医疗知识图谱的节点，确定每个医疗知识图谱的节点是否包括关键词信息；若某一个医疗知识图谱的节点是否包括关键词信息，则将该医疗知识图谱作为目标医疗知识图谱。

具体地，还可以根据所述关键词信息中的权重比例确定目标医疗知识图谱，比如优先查找权重比例较高的关键词对应的医疗知识图谱，比如查找包括权重比例较高的关键词最多的医疗知识图谱，由此可以根据推荐更准确的医疗知识图谱给用户进行参考，提高图谱推荐的准确率。

请参阅图3，图3是本申请一实施例提供的一种医疗数据的处理装置的示意性框图，该医疗数据的处理装置可以配置于服务器中，用于执行前述的医疗数据的处理方法。

如图3所示，该医疗数据的处理装置200包括：数据分类模块201、数据分词模块202、图谱生成模块203、病情提取模块204和图谱推送模块205。

数据分类模块201，用于获取医疗数据，对所述医疗数据进行分类，得到多组医疗数据；

数据分词模块202，用于对所述多组医疗数据进行分词处理，得到多组标准医疗数据；

图谱生成模块203，用于根据每组所述标准医疗数据生成各自对应的三元组数据，并将每组所述标准医疗数据对应的三元组数据映射到图形数据库中，生成多个医疗知识图谱并存储在所述图形数据库中；

病情提取模块204，用于获取用户的病情信息，并确定所述病情信息对应的关键词信息；

图谱推送模块205，用于从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，并将所述目标医疗知识图谱推送给目标终端。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。

如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种医疗数据的处理方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种医疗数据的处理方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：获取医疗数据，对所述医疗数据进行分类，得到多组医疗数据；对所述多组医疗数据进行分词处理，得到多组标准医疗数据；根据每组所述标准医疗数据生成各自对应的三元组数据，并将每组所述标准医疗数据对应的三元组数据映射到图形数据库中，生成多个医疗知识图谱并存储在所述图形数据库中；获取用户的病情信息，并确定所述病情信息对应的关键词信息；从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，并将所述目标医疗知识图谱推送给目标终端。

在一些实施例中，所述处理器还用于：根据所述医疗数据的数据属性，对所述医疗数据进行分类，得到数据分类结果；基于医疗数据爬取工具，根据所述数据分类结果多线程爬取所述医疗数据，得到多组医疗数据。

在一些实施例中，所述处理器还用于：对每组所述医疗数据进行分词处理，得到每组所述医疗数据对应的分词结果；基于医疗词义预测模型对所述分词结果中每个分词进行词义预测，得到每个分词对应的词义预测结果；基于所述词义预测结果对所述分词结果进行筛选，得到标准医疗数据。

在一些实施例中，所述处理器还用于：确定所述医疗数据的数据类型；若确定所述医疗数据的数据类型为半结构化数据或非结构化数据，对所述医疗数据进行预处理，得到预处理后的医疗数据，所述预处理包括去噪处理、去冗处理和清洗处理；从所述预处理后的医疗数据中匹配得到符合预设正则化规则的数据，将所述符合预设正则化规则的数据作为结构化数据。

在一些实施例中，所述处理器还用于：基于医疗知识提取模型，对每组所述标准医疗数据进行实体识别与数据关系抽取，生成实体与数据关系的数据集；根据所述实体与数据关系的数据集生成对应的三元组数据。

在一些实施例中，所述处理器还用于：基于预设的医学词库，对所述病情信息进行分词和实体识别，得到多个关键词；确定每个所述关键词的特征信息；根据所述特征信息确定每个所述关键词对应的权重比例，根据所述权重比例为所述多个关键词进行权重分配，得到关键词信息。

在一些实施例中，所述处理器还用于：根据所述关键词信息在所述图形数据库中进行检索，得到包括所述关键词信息的医疗知识图谱，并将包括所述关键词信息的医疗知识图谱作为目标医疗知识图谱。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现本申请实施例提供的任一种医疗数据的处理方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种医疗数据的处理方法，其特征在于，所述方法包括：

获取医疗数据，并根据所述医疗数据的数据属性，对所述医疗数据进行分类，得到数据分类结果，所述数据分类结果用于表示所述医疗数据对应的疾病科室；

基于医疗数据爬取工具，根据所述数据分类结果多线程爬取所述医疗数据，得到多组医疗数据；

根据多组医疗数据对应的疾病科室，对所述多组医疗数据进行分词处理，得到多组标准医疗数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述多组医疗数据进行分词处理，得到多组标准医疗数据，包括：

对每组所述医疗数据进行分词处理，得到每组所述医疗数据对应的分词结果；

基于医疗词义预测模型对所述分词结果中每个分词进行词义预测，得到每个分词对应的词义预测结果；

基于所述词义预测结果对所述分词结果进行筛选，得到标准医疗数据。

3.根据权利要求1所述的方法，其特征在于，所述得到多组医疗数据之后，所述方法还包括：

确定所述医疗数据的数据类型；

若确定所述医疗数据的数据类型为半结构化数据或非结构化数据，对所述医疗数据进行预处理，得到预处理后的医疗数据，所述预处理包括去噪处理、去冗处理和清洗处理；

从所述预处理后的医疗数据中匹配得到符合预设正则化规则的数据，将所述符合预设正则化规则的数据作为结构化数据。

4.根据权利要求1所述的方法，其特征在于，所述根据每组所述标准医疗数据生成对应的三元组数据，包括：

基于医疗知识提取模型，对每组所述标准医疗数据进行实体识别与数据关系抽取，生成实体与数据关系的数据集；

根据所述实体与数据关系的数据集生成对应的三元组数据。

5.根据权利要求1所述的方法，其特征在于，所述确定所述病情信息对应的关键词信息，包括：

基于预设的医学词库，对所述病情信息进行分词和实体识别，得到多个关键词；

确定每个所述关键词的特征信息；

根据所述特征信息确定每个所述关键词对应的权重比例，根据所述权重比例为所述多个关键词进行权重分配，得到关键词信息。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述图形数据库中，根据所述关键词信息确定目标医疗知识图谱，包括：

根据所述关键词信息在所述图形数据库中进行检索，得到包括所述关键词信息的医疗知识图谱，并将包括所述关键词信息的医疗知识图谱作为目标医疗知识图谱。

7.一种医疗数据的处理装置，其特征在于，包括：

数据分类模块，用于获取医疗数据，并根据所述医疗数据的数据属性，对所述医疗数据进行分类，得到数据分类结果，所述数据分类结果用于表示所述医疗数据对应的疾病科室，基于医疗数据爬取工具，根据所述数据分类结果多线程爬取所述医疗数据，得到多组医疗数据；

数据分词模块，用于根据多组医疗数据对应的疾病科室，对所述多组医疗数据进行分词处理，得到多组标准医疗数据；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现：

如权利要求1-6任一项所述的医疗数据的处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的医疗数据的处理方法。