CN111914562B

CN111914562B - 电子信息分析方法、装置、设备及可读存储介质

Info

Publication number: CN111914562B
Application number: CN202010847670.2A
Authority: CN
Inventors: 于苗苗; 管冲; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-10-14
Anticipated expiration: 2040-08-21
Also published as: CN111914562A

Abstract

本申请公开了一种电子信息分析方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括：获取目标帐号的异常描述内容；获取异质图结构，其中，所述电子病历中包括生命体帐号、状态描述内容以及状态类型之间的关联关系；根据所述异质图结构对所述异常描述内容进行分析，得到所述目标帐号对应的状态类型分析结果。通过电子病历构建异质图模型，并通过异质图模型的异质图结构对异常描述内容进行分析，得到状态类型分析结果，由于异质图模型的结构具有较强的解释性，且异质图模型中能够包括多种类型的节点和多种类型的边，能够容纳较多语义信息，从而，通过异质图模型分析得到的状态类型分析结果，准确率较高。

Description

电子信息分析方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种电子信息分析方法、装置、设备及可读存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)的快速发展，机器学习模型能够应用于多种不同的领域中，如：语音识别、医疗诊断、应用程序的测试等，其中，在如应用程序测试领域或者医疗诊断领域等领域中，通常是通过异常描述信息进行结果的预测。

相关技术中，基于传统的机器学习方法，使用决策树、支持向量机(SupportVector Machine,SVM)等机器学习模型进行辅助获取预测结果，示意性的，通过构建异常类型与异常描述信息的特征，对出现的异常情况进行分析，预测得到的异常类型。

然而，通过上述方式进行异常描述信息的分析时，机器学习模型仅能对单一模式的信息进行处理，而异常描述信息涉及到异常主体、异常情况、异常类型等多种主体之间的关联关系，通过上述方式得到预测结果时，数据处理能力较差，预测结果的准确率较低。

发明内容

本申请实施例提供了一种电子信息分析方法、装置、设备及可读存储介质，能够提高状态类型分析结果的准确率。所述技术方案如下：

一方面，提供了一种电子信息分析方法，所述方法包括：

获取目标帐号的异常描述内容，所述异常描述内容为所述目标帐号对应生命体的异常生命状态的电子化描述信息；

获取异质图结构，所述异质图结构中包括第一节点、第二节点和第三节点，所述第一节点对应电子病历中的生命体帐号，所述第二节点对应所述电子病历中所述异常生命状态的状态描述信息，所述第三节点对应所述电子病历中所述异常生命状态的状态类型，所述异质图结构中节点之间的边对应所述生命体帐号、所述状态描述信息以及所述状态类型之间的关联关系；

将所述异常描述信息映射至所述异质图结构中的所述第二节点，根据所述第一节点、所述第二节点和所述第三节点之间的所述关联关系，得到所述目标帐号对应的电子化的状态类型分析结果。

另一方面，提供了一种电子信息分析装置，所述装置包括：

获取模块，用于获取目标帐号的异常描述内容，所述异常描述内容为所述目标帐号对应生命体的异常生命状态的电子化描述信息；

所述获取模块，还用于获取异质图结构，所述异质图结构中包括第一节点、第二节点和第三节点，所述第一节点对应电子病历中的生命体帐号，所述第二节点对应所述电子病历中所述异常生命状态的状态描述信息，所述第三节点对应所述电子病历中所述异常生命状态的状态类型，所述异质图结构中节点之间的边对应所述生命体帐号、所述状态描述信息以及所述状态类型之间的关联关系；

分析模块，用于将所述异常描述信息映射至所述异质图结构中的所述第二节点，根据所述第一节点、所述第二节点和所述第三节点之间的所述关联关系，得到所述目标帐号对应的电子化的状态类型分析结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述电子信息分析方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的电子信息分析方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的电子信息分析方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过根据电子病历构建异质图模型，并通过异质图模型的异质图结构对异常描述内容进行分析，得到状态类型分析结果，由于异质图模型的结构具有较强的解释性，且异质图模型中能够包括多种类型的节点和多种类型的边，能够容纳较多语义信息，从而，通过异质图模型分析得到的状态类型分析结果，准确率较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的电子信息分析方法的流程图；

图3是基于图2示出的实施例提供的异质图结构的示意图；

图4是基于图2示出的实施例提供的异质图结构的示意图；

图5是基于图2示出的实施例提供的原子描述信息表达原子描述信息组合的示意图；

图6是本申请另一个示例性实施例提供的电子信息分析方法的流程图；

图7是本申请另一个示例性实施例提供的电子信息分析方法的流程图；

图8是本申请一个示例性实施例提供的电子信息分析装置的结构框图；

图9是本申请另一个示例性实施例提供的电子信息分析装置的结构框图；

图10是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

异质图(Heterogeneous Graph)：又称为异质信息网络(HeterogeneousInformation Network)，是一种包含多种类型的节点，以及包含多种类型的边的图数据结构。示意性的，以推荐系统的应用场景为例，推荐系统中的实体包括用户帐号、用户发布的动态、广告主上传的推荐内容；实体间的关联关系包括用户帐号之间的好友关系、用户帐号与动态的互动情况(如：点赞、转发、动态提到帐号等)。则针对上述推荐系统，其中的实体通过异质图中的节点表达，而实体之间的关联关系通过异质图中节点之间的边表达。

本申请实施例中，以异质图为医疗系统对应的异质图为例进行说明，通过电子病历(Electronic Health Record，EHR)或(Electronic Medical Record，EMR)构成异质图结构，其中，电子病历中包括患者帐号、症状以及疾病之间的关系，也即包括异质图中包括实体(患者帐号、症状、疾病)及实体之间的交互关系，其中，异质图结构中包括患者帐号对应的节点、症状对应的节点以及疾病对应的节点，其中节点与节点之间的连接关系用于表示实体之间的交互，如：患者帐号对应出现的症状、患者帐号患有的疾病、疾病表现出的症状、症状之间的共现关系。可选地，症状由原子症状组成，如：症状为“轻微头疼”，该症状由原子症状“轻微”和原子症状“头疼”组成。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110和服务器120，其中，终端110和服务器120之间通过通信网络130连接；

终端110中安装有提供分析功能的应用程序，用户在对终端110中应用程序的应用过程中，生成异常描述内容，该异常描述内容包括：与生命状态相关的异常描述内容、与计算机硬件设备相关的异常描述内容、与应用程序相关的异常描述内容等内容中的至少一种。

终端110通过通信网络130向服务器120上传该异常描述内容。

服务器120中存储有图神经网络模型121，该图神经网络模型121是根据异质图结构122得到的神经网络模型，当服务器120接收到异常描述内容，将异常描述内容输入至图神经网络模型121中，由图神经网络模型121对异常描述内容进行分析，得到状态类型分析结果，并将状态类型分析结果反馈至终端110。

终端110接收服务器120反馈的状态类型分析结果，并在应用程序的程序界面中对状态类型分析结果进行展示。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

结合上述名词简介，对本申请实施例中涉及的应用场景进行举例说明：

第一，本申请实施例可以应用于用户的自诊断，也即，用户将自己出现的症状生成症状描述内容上传至服务器中，服务器中存储有电子病历对应的图神经网络模型(对应异质图)，根据图神经网络模型对症状描述内容进行分析后，向终端发送诊断结果，从而用户无需到医院进行诊断即可进行症状较轻的疾病诊断；

第二，本申请实施例可以应用于医生的辅助诊断，也即，医生将患者出现的症状生成症状描述内容上传至服务器中，服务器中存储有电子病历对应的图神经网络模型(对应异质图)，根据图神经网络模型对症状描述内容进行分析后，向医生发送诊断结果，医生根据服务器反馈的诊断结果进行辅助诊断，既能够提高诊断效率，也能结合医生的临床经验提高诊断的准确率；

第三，本申请实施例还可以应用于应用程序的漏洞(bug)检测中，也即，用户将应用程序在运行过程中的异常状态描述内容上传至服务器中，服务器中存储有异常情况对应的图神经网络模型(对应异质图)，根据图神经网络模型对异常状态描述内容进行分析后，向终端发送检测结果。

上述举例中，以应用于诊断和程序检测中为例进行说明，本申请提供的电子分析信息的生成方法还可以应用于其他结合异质图进行分析结果生成的场景中，本申请实施例对此不加以限定。

值得注意的是，上述应用场景中，以将症状描述内容发送至服务器中进行诊断结果生成为例进行说明，在一个可选的实施例中，用户终端或者医生终端中存储有图神经网络模型，对症状描述内容进行直接分析，本申请实施例对此不加以限定。

结合上述名词简介和应用场景，对本申请提供的电子信息分析方法进行说明，以该方法应用于服务器中为例，如图2所示，该方法包括：

步骤201，获取目标帐号的异常描述内容，异常描述内容为目标帐号对应生命体的异常生命状态的电子化描述信息。

针对电子信息分析方法应用场景不同，异常描述内容的上传方式也不同，示意性的，以应用于医疗辅助诊断领域中为例，主要包括如下情况中的任意一种：

1、当电子信息分析方法应用于患者的自诊断过程，则异常描述内容为患者登录目标帐号后，根据生命体出现的异常生命状态自主编辑并上传的内容；

2、当电子信息分析方法应用于医生的辅助诊断过程，则异常描述内容为生命体在就医前，登录目标帐号，自主编辑并上传的内容；或，异常描述内容为生命体就医后，由医生针对生命体口述的异常生命状态编辑并上传的内容，且内容与生命体的目标帐号对应。

异常描述内容的生成方式包括如下方式中的至少一种：

第一，在异常描述内容的生成界面中，包括症状输入框，接收在症状输入框内的输入操作，并将症状输入框内的输入内容作为异常描述内容；

第二，提供症状描述选项，其中包括修饰选项、症状表达选项以及时长选项，修饰选项包括修饰词“轻微”、“重度”、“普通”等；症状表达选项包括症状词“发烧”、“头痛”、“胃痛”、“咳嗽”等；时长选项包括时长词“3日”、“半个月”、“一个月”等。用户在各症状描述选项中进行选择，得到异常描述内容。

本实施例中，以异常描述内容为在症状输入框中输入得到的内容为例进行说明。

步骤202，获取异质图结构，异质图结构中包括第一节点、第二节点和第三节点。

第一节点对应电子病历中的生命体帐号，第二节点对应电子病历中异常生命状态的状态描述信息，第三节点对应电子病历中异常生命状态的状态类型，异质图结构中节点之间的边对应生命体帐号、状态描述信息以及状态类型之间的关联关系。

可选地，获取根据n个电子病历构建的异质图结构，n为正整数。

也即包括异质图中包括实体(第一节点-生命体帐号、第二节点-状态描述信息、第三节点-状态类型)及实体之间的交互关系，其中，节点与节点之间的连接关系用于表示实体之间的交互，如：生命体帐号对应出现的症状(生命体帐号节点与状态描述信息节点之间的连接关系)、生命体帐号患有的疾病(生命体帐号节点与疾病节点之间的连接关系)、疾病表现出的症状(状态类型节点与状态描述信息节点之间的连接关系)、症状之间的共现关系(状态描述信息节点与状态描述信息节点之间的连接关系)。

可选地，状态描述信息由原子描述信息组成，如：症状为“轻微头疼”，该症状由原子描述信息“轻微”和原子描述信息“头疼”组成。

示意性的，图3示出了本申请一个示例性实施例提供的异质图结构的示意图，在异质图300中包括帐号节点310、状态类型节点320、状态描述节点330，状态描述节点330由原子状态描述331组成，其中，异质图300中的关联关系包括：状态类型节点320表现为状态描述节点330、帐号节点310对应有状态类型节点320、状态描述节点330之间的共现关系以及帐号节点310所具有的状态描述节点330。

示意性的，图4示出了本申请另一个示例性实施例提供的异质图结构的示意图，其中异质图400中包括帐号节点411和帐号节点412、状态类型节点421、状态类型节点422和状态类型节点423，状态描述节点431、状态描述节点432、状态描述节点433和状态描述节点434，其中，帐号节点411患有状态类型节点421，帐号节点412患有状态类型节点423，帐号节点411具有状态描述节点431，帐号节点412具有状态描述节点434，状态描述节点431和状态描述节点432之间具有共现关系，状态描述节点432和状态描述节点433之间具有共现关系，状态描述节点433和状态描述节点434之间具有共现关系，状态类型节点421表现有状态描述节点431，状态类型节点422表现有状态描述节点432和状态描述节点433，状态类型节点423表现有状态描述节点432和状态描述节点434。

步骤203，将异常描述信息映射至异质图结构中的第二节点，根据第一节点、第二节点和第三节点之间的关联关系，得到目标帐号对应的状态类型分析结果。

首先，确定与异常描述内容对应的原子描述信息组合，该原子描述信息组合中包括用于组合表达异常描述内容的至少一个原子描述信息；将原子描述信息组合映射至异质图结构中的第二节点，得到与原子描述信息组合对应的状态类型分析结果。

其中，原子描述信息是由异常描述内容中的实体标准化得到的。也即，对异常描述内容进行实体识别，得到异常描述内容中的异常描述实体，异常描述实体为从异常描述内容中提取得到的与状态描述信息相关的实体，将异常描述实体用于预设标准化词典进行匹配，得到原子描述信息，并对原子描述信息进行组合，得到原子描述信息组合。

由于异常描述实体可能存在表述的不同，而在异质图中，含义相同而表述不同的实体应该被映射到相同的节点，否则将会降低模型的能力，因此，我们使用一个标准化的词典将异常描述实体映射到标准表示。示意性的，构建标准化词典，例如“轻微头痛”中的“轻微”、“较轻头疼”中的“较轻”会映射到标准单词“轻微”，而“头疼”和“头痛”映射到标准词语“头疼”。可选地，使用聚类的方式建立标准化映射词典。

在传统的疾病辅助诊断中，往往只会提取部分症状，例如“发热37.5度3天”和“发热40度半天”两者都会被提取出‘发热’。但是“发热37.5度3天”和“发热40度半天”所蕴含的含义是不同的，因此我们首先使用命名实体识别(Named Entity Recognition，NER)工具提取出异常描述实体“发热”、“37.5度”、“3天”和“发热”、“40度”、“半天”，而后使用标准化词典将“37.5度”标准化为“低热”，将“40度”标准化为“高热”。

对应标准化词典对异常描述实体进行匹配后，得到原子描述信息，并将原子描述信息进行组合，得到原子描述信息组合，其中，原子描述信息组合中包括上述症状标准化描述词，可选地，原子描述信息组合中还包括修饰词和/或时长描述词。

示意性的，请参考图5，原子描述信息组合510中包括原子描述信息511和原子描述信息512，其中，原子描述信息512表示实体“关节”，原子描述信息511表示实体“酸痛”，也即，原子描述信息组合510表示的症状为“关节酸痛”。

可选地，在根据异质图结构对异常描述内容进行分析时，根据第一节点、第二节点和第三节点之间的关联关系，得到与异常描述内容对应概率最高的m种状态类型，以及m种状态类型中每种状态类型中对应的状态描述信息与状态类型之间的权重关系，m为正整数。

示意性的，m种状态类型中包括支气管炎，则与支气管炎对应的状态描述信息中包括有痰(权重35％)，剧烈咳嗽(权重65％)。

可选地，以上述状态类型为疾病，状态描述信息为症状为例，在用户自诊断的应用场景下，服务器将m种预测得到的概率最高的疾病及其对应的症状权重关系发送至用户终端进行展示。

示意性的，预测得到概率最高的三种疾病，以及三种疾病中，每种疾病下每个症状对于该疾病的权重。

综上所述，本实施例提供的方法，通过根据电子病历构建异质图模型，并通过异质图模型的异质图结构对异常描述内容进行分析，得到状态类型分析结果，由于异质图模型的结构具有较强的解释性，且异质图模型中能够包括多种类型的节点和多种类型的边，能够容纳较多语义信息，从而，通过异质图模型分析得到的状态类型分析结果，准确率较高。

示意性的，整体而言，以本申请实施例中涉及的电子信息分析方法应用于医疗辅助诊断中，主要涉及如下过程：

1、对患者或者医生的主诉内容(异常描述内容)进行实体识别，得到异常描述实体；如：从主诉内容“我有点发烧”中提取异常描述实体“有点”和“发烧”；

2、对异常描述实体进行标准化；如：将异常描述实体“有点”标准化为“轻微”；

3、将标准化得到的实体通过一定规则进行组合，得到原子描述信息组合；

4、将原子描述信息组合输入到图神经网络模型中(与异质图结构对应)；

5、输出概率最高的三种疾病，以及每种疾病下每个症状对于该疾病的权重。

在一个可选的实施例中，异质图结构中嵌入有图神经网络模型，该图神经网络模型中包括电子信息概率表达式；在通过异质图结构对异常描述内容进行分析时，将原子描述信息组合输入至图神经网络模型，图6是本申请另一个示例性实施例提供的电子信息分析方法的流程图，以该方法应用于服务器中为例进行说明，如图6所示，该方法包括：

步骤601，获取目标帐号的异常描述内容，异常描述内容为目标帐号对应生命体的异常生命状态的电子化描述信息。

示意性的，以应用于医疗辅助诊断领域中为例，异常描述内容的生成方式包括如下方式中的至少一种：

第二，提供症状描述选项，其中包括修饰选项、症状表达选项以及时长选项，用于在各症状描述选项中进行选择，得到异常描述内容。

步骤602，获取异质图结构，异质图结构中包括第一节点、第二节点和第三节点。

步骤603，确定与异常描述内容对应的原子描述信息组合，原子描述信息组合中包括用于组合表达异常描述内容的至少一个原子描述信息。

步骤604，将原子描述信息组合作为与第二节点对应的输入内容，输入至图神经网络模型。

图神经网络模型为已通过电子病历中的样本数据训练得到的模型；或，图神经网络模型为待训练的模型。

图神经网络(Graph Neural Network，GNN)是一种基于深度学习的用于处理图结构信息的方法。其中，图结构对一组对象(节点)和关系(边)进行建模，由于图结构具有强大的表现力，在许多领域中都有所应用。本申请实施例中，图神经网络为根据电子病历构建的异质图对应的神经网络模型。

步骤605，通过图神经网络模型将原子描述信息组合映射至异质图结构中，得到与原子描述信息组合中的原子描述信息对应的状态类型分析结果。

可选地，异质图的图神经网络模型中，生命体由两部分组成，一部分是状态描述信息的表示，另一个部分是生命体帐号本身的人口统计学信息(如：性别、年龄等)。

首先，针对状态描述信息的表示部分，由于每个状态描述信息都是由原子描述信息构成的原子描述信息组合，因为，在确定每个状态描述信息的表示时，将原子描述信息组合中的原子描述信息进行聚合，聚合过程请参考如下公式一：

公式一：E_si＝g(e_oi1,…,e_oij,…,e_oiz)∈R^1×d

其中，e_oij∈R^1×d用于表示每个原子描述信息的特征向量，g用于表示聚合函数，其可以实现为长短期记忆人工神经网络(Long Short-Term Memory，LSTM)或者最大池化网络(maxpooling)等函数，E_si表示原子描述信息聚合后形成的症状，也即原子描述信息组合，对于状态描述信息表示，使用一个邻接矩阵引导的转化模型(Transformer)学习状态描述信息之间的关联关系，其中，邻接矩阵的引入，既能够引入先验信息，也可以通过Transformer自身的学习使状态描述信息之间的相互影响接近真实分布，示意性的，转化过程请参考如下公式二：

公式二：

表示转换后的状态描述信息表达，p^con表示条件概率矩阵，由数据集中的状态描述信息共现条件概率组成，

τ为一个阈值，用于在一些状态描述信息共现情况较少时，减少噪音。W^l是一个矩阵，在训练过程中，通过对W^l的更新，提高模型的预测准确率，A是由attention机制学习到的一个矩阵。LN是指归一化操作，h为包含了层归一化的前向网络操作。也即，对原子描述信息进行聚合处理，得到聚合表达式(公式一)，通过邻接矩阵对聚合表达式进行转化，得到聚合式(公式二)，邻接矩阵用于学习得到异质图结构中状态描述信息之间的影响情况。

将状态描述信息的表示和生命体的人口统计学信息结合，得到生命体的整体表示，请参考如下公式三：

公式三：

其中，

表示状态描述信息，

表示人口统计学信息，R^(Z+q)×d表示生命体的特征表示的维度。

也即，上述过程中，根据生命体帐号的人口统计学信息和原子描述信息组合，确定第一表达式。也即，确定原子描述信息组合中的原子描述信息的聚合式，将聚合式与人口统计学信息结合，得到第一表达式。

其次，利用异质图中包含的领域知识以及状态类型的典型状态描述信息，构造状态类型的表示。可选地，选择每种状态类型下出现次数最多的至少两种状态描述信息，并学习该至少两种状态描述信息对于状态类型的贡献程度，从而使用attention机制，学习状态描述信息对于状态类型的权重，过程如下公式四和公式五所示：

公式四：

公式五：

sim用于表示sim函数，e_si表示第i个状态描述信息特征，e_dj表示第j个状态类型特征，α_j,i表示第i个状态描述信息对应第j个状态描述信息的权重，R表示选取的状态描述信息总数，如：选取每种状态类型下出现次数最多的150中状态描述信息，则R为150，T用于表示训练过程中的样本数量。

根据上述权重，得到状态类型的状态描述信息表示部分，请参考如下公式六：

公式六：

H_N(j)用于表示第j中状态类型的状态描述信息表示。

为了保留状态类型本身的语义信息，将上述公式六与状态类型本身的语义信息进行组合，得到状态类型表示，请参考如下公式七：

公式七：H_dj＝W_D[H_N(j):e_dj]∈R^1×d

其中，H_dj为状态类型表示，W_D为模型参数矩阵。也即，根据权重(公式五)通过余弦公式确定状态类型的第一表达部分(公式六)，状态类型还对应有语义信息；将第一表达部分与状态类型的语义信息进行组合，得到第二表达式(公式七)。

即，上述过程中，根据异质图中状态描述信息和状态类型之间的关联关系，确定第二表达式。也即，根据每种状态类型下出现次数最多的至少两种状态描述信息，确定异质图结构中状态描述信息与状态类型之间的权重，并根据权重确定第二表达式。

在得到如上述公式三的第一表达式，和如上述公式七的第二表达式后，对第一表达式和第二表达式的组合进行分类计算，得到图神经网络模型中电子信息概率表达式。

示意性的，请参考如下公式八至公式十一：

公式八：

公式九：A_attn＝softmax(Sim)

公式十：H_p＝A_attnP^T∈R^k×d

公式十一：

其中，Sim(H_d,E_pi)表示对第一表达式和第二表达式进行sim运算，H_d表示上述公式七对应的第二表达式，

表示上述公式三对应的第一表达式，R^k×(Z+q)表示特征维度，softmax表示通过softmax层进行分类运算，A_attn表示分类结果，P^T表示辅助矩阵，b表示常数参数，W为模型参数矩阵，

表示预测得到的概率结果，该概率结果在0到1之间，H_p表示通过辅助矩阵调整后的分类结果。

可选地，将目标帐号的异常描述内容对应的原子描述信息组合输入电子信息概率表达式后，即可得到该原子描述信息组合对应状态类型的概率。

综上所述，本实施例提供的方法，通过电子病历构建异质图模型，并通过异质图模型的异质图结构对异常描述内容进行分析，得到状态类型分析结果，由于异质图模型的结构具有较强的解释性，且异质图模型中能够包括多种类型的节点和多种类型的边，能够容纳较多语义信息，从而，通过异质图模型分析得到的状态类型分析结果，准确率较高。

本实施例提供的方法，通过设计图神经网络模型，根据患者与症状之间的关联关系、疾病与症状之间的关联关系以及症状与症状之间的共现关系，对异常描述内容进行分析，进一步提高了状态类型分析结果的诊断准确率。

在一个可选的实施例中，在得到状态类型分析结果后，还可以根据状态类型分析结果对图神经网络模型进行训练，图7是本申请另一个示例性实施例提供的电子信息分析方法的流程图，以该方法应用于服务器中为例进行说明，如图7所示，该方法包括：

步骤701，获取目标帐号的异常描述内容，异常描述内容为目标帐号对应生命体的异常生命状态的电子化描述信息。

步骤702，获取异质图结构，异质图结构中包括第一节点、第二节点和第三节点。

步骤703，确定与异常描述内容对应的原子描述信息组合，原子描述信息组合中包括用于组合表达异常描述内容的至少一个原子描述信息。

步骤704，将原子描述信息组合作为与第二节点对应的输入内容，输入至图神经网络模型。

步骤705，通过图神经网络模型将原子描述信息组合映射至异质图结构中，得到与原子描述信息组合中的原子描述信息对应的状态类型分析结果。

可选地，根据生命体帐号的人口统计学信息和原子描述信息组合，确定第一表达式。也即，确定原子描述信息组合中的原子描述信息的聚合式，将聚合式与人口统计学信息结合，得到第一表达式；根据异质图中状态描述信息和状态类型之间的关联关系，确定第二表达式。也即，根据每种状态类型下出现次数最多的至少两种状态描述信息，确定异质图结构中状态描述信息与状态类型之间的权重，并根据权重确定第二表达式；对第一表达式和第二表达式的组合进行分类计算，得到图神经网络模型中电子信息概率表达式。

步骤706，将状态类型分析结果输入预设损失函数，输出得到损失值。

示意性的，该损失函数如下公式十二和公式十三所示：

公式十二：

公式十三：

其中，

表示第j个样本的疾病概率，y_j表示第j个样本的参考概率，L_j表示第j个样本的损失值，L表示T个训练样本的最终损失值。

步骤707，以减小损失值为训练目标，调整图神经网络模型中的模型参数。

示意性的，根据损失值对上述公式二中的W进行调整。

示意性的，结合上述本申请实施例提供的电子信息分析方法，能够提高状态类型分析结果的准确率，请参考如下表一，其中的数值以一分制表示。

表一

如上述表一所示，相关技术中提供了门函数循环单元(Gated Recurrent Unit，GRU)网络、转化(Transformer)网络、图卷积神经网络(Graph Convolutional Networks，GCN)，在精确率、召回率和归一化折损累计增益(normalized Discounted CumulativeGain，nDCG)上，本申请提供的图神经网络模型具有较好的表现。

除以此外，本申请提供的图神经网络模型能够提供症状级别的可解释性，示意性的，实际疾病为“急性支气管炎”，预测结果为“急性支气管炎”的例子中，异常描述内容包括“咳嗽一日”、“剧烈咳嗽”、“呼吸急促”、“未发烧”、“胃口正常”，其中“剧烈咳嗽”在疾病预测中的贡献度更高。而预测结果为“哮喘”的例子中，异常描述内容包括“咳嗽一日”、“剧烈咳嗽”、“呼吸急促”、“未发烧”、“胃口正常”，其中“呼吸急促”在疾病预测中的贡献度更高。

图8是本申请一个示例性实施例提供的电子信息分析装置的结构框图，如图8所示，该装置包括：

获取模块810，用于获取目标帐号的异常描述内容，所述异常描述内容为所述目标帐号对应生命体的异常生命状态的电子化描述信息；

所述获取模块810，还用于获取异质图结构，所述异质图结构中包括第一节点、第二节点和第三节点，所述第一节点对应电子病历中的生命体帐号，所述第二节点对应所述电子病历中所述异常生命状态的状态描述信息，所述第三节点对应所述电子病历中所述异常生命状态的状态类型，所述异质图结构中节点之间的边对应所述生命体帐号、所述状态描述信息以及所述状态类型之间的关联关系；

分析模块820，用于将所述异常描述信息映射至所述异质图结构中的所述第二节点，根据所述第一节点、所述第二节点和所述第三节点之间的所述关联关系，得到所述目标帐号对应的电子化的状态类型分析结果。

在一个可选的实施例中，如图9所示，所述分析模块820，包括：

确定单元821，用于确定与所述异常描述内容对应的原子描述信息组合，所述原子描述信息组合中包括用于组合表达所述异常描述内容的至少一个原子描述信息；

分析单元822，用于将所述原子描述信息组合映射至所述异质图结构中的所述第二节点，得到与所述原子描述信息组合对应的所述状态类型分析结果。

在一个可选的实施例中，所述确定单元821，还用于对所述异常描述内容进行实体识别，得到所述异常描述内容中的异常描述实体，所述异常描述实体为从所述异常描述内容中提取得到的与所述状态描述信息相关的实体；将所述异常描述实体与预设标准化词典进行匹配，得到所述原子描述信息；对所述原子描述信息进行组合，得到所述原子描述信息组合。

在一个可选的实施例中，所述异质图结构中嵌入有图神经网络模型，所述图神经网络模型中包括电子信息概率表达式，所述电子信息概率表达式为根据所述异质图结构中的所述关联关系推断得到的；

所述确定单元821，还用于将所述原子描述信息组合作为与所述第二节点对应的输入内容，输入至所述图神经网络模型；通过所述图神经网络模型将所述原子描述信息组合输入所述电子信息概率表达式，输出得到对应状态类型的概率。

在一个可选的实施例中，所述生命体帐号还对应有人口统计学信息；

所述确定单元821，还用于根据所述生命体帐号的人口统计学信息和所述原子描述信息组合，确定第一表达式；根据所述异质图中所述状态描述信息和所述状态类型之间的关联关系，确定第二表达式；对所述第一表达式和所述第二表达式的组合进行分类计算，得到所述图神经网络模型中的所述电子信息概率表达式。

在一个可选的实施例中，所述确定单元821，还用于确定所述原子描述信息组合中的所述原子描述信息的聚合式；将所述聚合式与所述人口统计学信息结合，得到所述第一表达式。

在一个可选的实施例中，所述确定单元821，还用于对所述原子描述信息进行聚合处理，得到聚合表达式；通过邻接矩阵对所述聚合表达式进行转化，得到所述聚合式，所述邻接矩阵用于学习得到所述异质图结构中所述状态描述信息之间的影响情况。

在一个可选的实施例中，所述确定单元821，还用于根据每种状态类型下出现次数最多的至少两种状态描述信息，确定所述异质图结构中所述状态描述信息与所述状态类型之间的权重；根据所述权重确定所述第二表达式。

在一个可选的实施例中，根据所述权重通过余弦公式确定所述状态类型的第一表达部分，所述状态类型还对应有语义信息；将所述第一表达部分与所述状态类型的所述语义信息进行组合，得到所述第二表达式。

在一个可选的实施例中，所述装置还包括：

计算模块830，用于将所述状态类型分析结果输入预设损失函数，输出得到损失值；

调整模块840，用于以减小所述损失值为训练目标，调整所述图神经网络模型中的模型参数。

在一个可选的实施例中，所述分析模块820，还用于根据所第一节点、所述第二节点和所述第三节点之间的所述关联关系，得到与所述异常描述内容对应概率最高的m种状态类型，以及每种状态类型中对应的状态描述信息与所述状态类型之间的权重关系，m为正整数。

综上所述，本实施例提供的装置，通过电子病历构建异质图模型，并通过异质图模型的异质图结构对异常描述内容进行分析，得到状态类型分析结果，由于异质图模型的结构具有较强的解释性，且异质图模型中能够包括多种类型的节点和多种类型的边，能够容纳较多语义信息，从而，通过异质图模型分析得到的状态类型分析结果，准确率较高。

需要说明的是：上述实施例提供的电子信息分析装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的电子信息分析装置与电子信息分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：

服务器1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。

大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的电子信息分析方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的电子信息分析方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的电子信息分析方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种电子信息分析方法，其特征在于，所述方法包括：

获取异质图结构，所述异质图结构中包括第一节点、第二节点和第三节点，所述第一节点对应电子病历中的生命体帐号，所述第二节点对应所述电子病历中所述异常生命状态的状态描述信息，所述第三节点对应所述电子病历中所述异常生命状态的状态类型，所述异质图结构中节点之间的边对应所述生命体帐号、所述状态描述信息以及所述状态类型之间的关联关系，所述异质图结构中嵌入有图神经网络模型，所述图神经网络模型中包括电子信息概率表达式，所述电子信息概率表达式为根据所述异质图结构中的所述关联关系推断得到的；

确定与所述异常描述内容对应的原子描述信息组合，所述原子描述信息组合中包括用于组合表达所述异常描述内容的至少一个原子描述信息；

将所述原子描述信息组合作为与所述第二节点对应的输入内容，输入至所述图神经网络模型；

通过所述图神经网络模型将所述原子描述信息组合输入所述电子信息概率表达式，输出得到对应状态类型的概率。

2.根据权利要求1所述的方法，其特征在于，所述确定与所述异常描述内容对应的原子描述信息组合，包括：

对所述异常描述内容进行实体识别，得到所述异常描述内容中的异常描述实体，所述异常描述实体为从所述异常描述内容中提取得到的与所述状态描述信息相关的实体；

将所述异常描述实体与预设标准化词典进行匹配，得到所述原子描述信息；

对所述原子描述信息进行组合，得到所述原子描述信息组合。

3.根据权利要求1所述的方法，其特征在于，所述生命体帐号还对应有人口统计学信息；

所述将所述原子描述信息组合作为与所述第二节点对应的输入内容，输入至所述图神经网络模型之前，还包括：

根据所述生命体帐号的人口统计学信息和所述原子描述信息组合，确定第一表达式；

根据所述异质图结构中所述状态描述信息和所述状态类型之间的关联关系，确定第二表达式；

对所述第一表达式和所述第二表达式的组合进行分类计算，得到所述图神经网络模型中的所述电子信息概率表达式。

4.根据权利要求3所述的方法，其特征在于，所述根据所述生命体帐号的人口统计学信息和所述原子描述信息组合，确定第一表达式，包括：

确定所述原子描述信息组合中的所述原子描述信息的聚合式；

将所述聚合式与所述人口统计学信息结合，得到所述第一表达式。

5.根据权利要求4所述的方法，其特征在于，所述确定所述原子描述信息组合中的所述原子描述信息的聚合式，包括：

对所述原子描述信息进行聚合处理，得到聚合表达式；

通过邻接矩阵对所述聚合表达式进行转化，得到所述聚合式，所述邻接矩阵用于学习得到所述异质图结构中所述状态描述信息之间的影响情况。

6.根据权利要求3所述的方法，其特征在于，所述根据所述异质图结构中所述状态描述信息和所述状态类型之间的关联关系，确定第二表达式，包括：

根据每种状态类型下出现次数最多的至少两种状态描述信息，确定所述异质图结构中所述状态描述信息与所述状态类型之间的权重；

根据所述权重确定所述第二表达式。

7.根据权利要求6所述的方法，其特征在于，所述根据所述权重确定所述第二表达式，包括：

根据所述权重通过余弦公式确定所述状态类型的第一表达部分，所述状态类型还对应有语义信息；

将所述第一表达部分与所述状态类型的所述语义信息进行组合，得到所述第二表达式。

8.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：

将所述状态类型分析结果输入预设损失函数，输出得到损失值；

以减小所述损失值为训练目标，调整所述图神经网络模型中的模型参数。

9.根据权利要求1至7任一所述的方法，其特征在于，所述根据所述第一节点、所述第二节点和所述第三节点之间的所述关联关系，得到所述目标帐号对应的电子化的状态类型分析结果，包括：

根据所述第一节点、所述第二节点和所述第三节点之间的所述关联关系，得到与所述异常描述内容对应概率最高的m种状态类型，以及每种状态类型中对应的状态描述信息与所述状态类型之间的权重关系，m为正整数。

10.一种电子信息分析装置，其特征在于，所述装置包括：

所述获取模块，还用于获取异质图结构，所述异质图结构中包括第一节点、第二节点和第三节点，所述第一节点对应电子病历中的生命体帐号，所述第二节点对应所述电子病历中所述异常生命状态的状态描述信息，所述第三节点对应所述电子病历中所述异常生命状态的状态类型，所述异质图结构中节点之间的边对应所述生命体帐号、所述状态描述信息以及所述状态类型之间的关联关系，所述异质图结构中嵌入有图神经网络模型，所述图神经网络模型中包括电子信息概率表达式，所述电子信息概率表达式为根据所述异质图结构中的所述关联关系推断得到的；

分析模块，用于确定与所述异常描述内容对应的原子描述信息组合，所述原子描述信息组合中包括用于组合表达所述异常描述内容的至少一个原子描述信息；

所述分析模块，还用于将所述原子描述信息组合作为与所述第二节点对应的输入内容，输入至所述图神经网络模型；

所述分析模块，还用于通过所述图神经网络模型将所述原子描述信息组合输入所述电子信息概率表达式，输出得到对应状态类型的概率。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的电子信息分析方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的电子信息分析方法。