CN110277165B - 基于图神经网络的辅助诊断方法、装置、设备及存储介质 - Google Patents

基于图神经网络的辅助诊断方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110277165B
CN110277165B CN201910567661.5A CN201910567661A CN110277165B CN 110277165 B CN110277165 B CN 110277165B CN 201910567661 A CN201910567661 A CN 201910567661A CN 110277165 B CN110277165 B CN 110277165B
Authority
CN
China
Prior art keywords
case
keywords
keyword
structure diagram
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910567661.5A
Other languages
English (en)
Other versions
CN110277165A (zh
Inventor
吴及
尤心心
刘喜恩
吕萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
iFlytek Co Ltd
Original Assignee
Tsinghua University
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, iFlytek Co Ltd filed Critical Tsinghua University
Priority to CN201910567661.5A priority Critical patent/CN110277165B/zh
Publication of CN110277165A publication Critical patent/CN110277165A/zh
Application granted granted Critical
Publication of CN110277165B publication Critical patent/CN110277165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种基于图神经网络的辅助诊断方法、装置、设备及存储介质,其中,该方法包括:从病例文档中提取得到病例关键词;至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,所述拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系;利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。该方法以病例文档为基础,借助图神经网络对患者疾病进行诊断,实现了自动化的辅助诊断,将该方案应用于临床可以显著减轻医生工作量,提高疾病诊断效率。

Description

基于图神经网络的辅助诊断方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于图神经网络的辅助诊断方法、装置、设备及存储介质。
背景技术
病例文档是用于记录患者病情及患者身体症状的文档文件,同时,病例文档是医生进行疾病诊断的重要参考依据。医生通过分析患者病例,可以了解患者身体状况,进而确定患者所患疾病。
随着医疗业务量的不断增长,以及人工智能技术的不断发展,人们越发希望研发出辅助诊断技术,能够自动对患者病例进行分析诊断患者疾病,从而减轻医生工作量以及提高疾病诊断效率。
发明内容
基于上述需求,本申请提出一种基于图神经网络的辅助诊断方法、装置、设备及存储介质,可以实现自动化的疾病诊断。
一种基于图神经网络的辅助诊断方法,包括:
从病例文档中提取得到病例关键词;
至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,所述拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系;
利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;
其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。
一种基于图神经网络的辅助诊断装置,包括:
关键词提取单元,用于从病例文档中提取得到病例关键词;
拓扑结构图构建单元,用于至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,所述拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系;
拓扑结构图分析单元,用于利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;
其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。
一种基于图神经网络的辅助诊断设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述的基于图神经网络的辅助诊断方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的基于图神经网络的辅助诊断方法。
本申请提出的技术方案从病例文档中提取得到病例关键词,并且至少根据提取得到的各个病例关键词以及病例文档,构建拓扑结构图,然后利用预先训练的图神经网络对构建的拓扑结构图进行处理,确定与病例文档对应的疾病诊断结果。上述处理过程以病例文档为基础,借助图神经网络对患者疾病进行诊断,实现了自动化的辅助诊断,将该方案应用于临床可以显著减轻医生工作量,提高疾病诊断效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种基于图神经网络的辅助诊断方法的流程示意图;
图2是本申请实施例提供的一种拓扑结构图的示意图;
图3是本申请实施例提供的图卷积神经网络的结构示意图;
图4是本申请实施例提供的另一种基于图神经网络的辅助诊断方法的流程示意图;
图5是本申请实施例提供的多源拓扑结构图融合示意图;
图6是本申请实施例提供的基于多源信息构图的图神经网络辅助诊断方案示意图;
图7是本申请实施例提供的基于图神经网络的辅助诊断实例示意图;
图8是本申请实施例提供的训练确定拓扑结构图权重值的处理流程示意图;
图9是本申请实施例提供的病例关键词共现关系权值的计算过程示意图;
图10是本申请实施例提供的窗口滑动示意图;
图11是本申请实施例提供的病例关键词语义关系权值的计算过程示意图;
图12是本申请实施例提供的病例关键词句法关系权值的计算过程示意图;
图13是本申请实施例提供的一种基于图神经网络的辅助诊断装置的结构示意图;
图14是本申请实施例提供的一种基于图神经网络的辅助诊断设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于通过对患者病例文档进行分析诊断患者疾病的应用场景。采用本申请实施例技术方案,通过对患者病例文档进行处理得到表示病例关键词与病例文档之间的关联关系的拓扑结构图,借助图神经网络对该拓扑结构图进行处理确定疾病诊断结果。
示例性的,本申请实施例技术方案可应用于硬件处理器等硬件设备,或包装成软件程序被运行,当硬件处理器执行本申请实施例技术方案的处理过程,或上述软件程序被运行时,可以实现对患者病例文档进行处理并借助图神经网络对患者疾病进行诊断。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍,并不对本申请技术方案的具体执行形式进行限定,任意形式的可以执行本申请技术方案处理过程的技术实现形式,都可以被本申请实施例所采用。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种基于图神经网络的辅助诊断方法,参见图1所示,该方法包括:
S101、从病例文档中提取得到病例关键词。
上述病例文档,是指记录患者的个人信息、身体症状、病情、治疗履历等信息的文档,首选的,该文档以电子文档形式存储。
上述的病例关键词,泛指能够表示患者身体症状的单字、单词或短语等。
在患者病例文档中,记录着关于患者的多种信息,按照字段划分,可以分为个人信息、患者主诉、现病史等。在这些信息中,对于患者病情诊断真正有价值的,主要是患者主诉及现病史这两种字段的内容。同时,在病例文档中,并不是所有的语句或词语都是与患者疾病直接相关的信息,只有与患者病情直接相关的语句或词语,对于患者疾病的诊断才有利用价值。
因此,本申请实施例设定,当基于患者病例文档对患者进行疾病诊断时,首先从病例文档中提取得到病例关键词,即从病例文档中提取出与患者病情直接相关的单字、单词或短语等。
作为一种可选的实现方式,本申请实施例在从病例文档中提取病例关键词时,首先从病例文档中提取设定的病例文档内容。其中,上述设定的病例文档内容,是指在患者病例文档中所记载的,与患者病情或身体症状直接相关的文档内容。示例性的,针对患者病例文档,从中提取出“患者主诉”和“现病史”两个字段的文档内容,其余内容则不再应用。
进一步的,为了保证提取得到的文档内容的连贯性,以及对不同患者的病例文档内容进行区分,还可以对提取出的病例文档内容进行合并,使得从同一病例文档中提取出的属于不同字段的文档内容处于同一行。例如,从json格式的病例文档中提取出“患者主诉”和“现病史”两个字段的文档内容后,将提取出的文档内容合并为一个json行的形式,当有多个患者的病例文档同时被处理时,就可以以一行一个json行的形式表示多个患者的病例文档内容。
然后,对提取得到的病例文档内容进行分词处理,并从分词结果中筛选出病例关键词。
示例性的,本申请实施例调用jieba等分词工具对提取得到的病例文档内容进行分词处理,并对分词结果进行去除停用词和低频词(出现次数低于5次的词语)处理,此时,剩余的分词即作为从分词结果中筛选出的病例关键词。
最后,对筛选出的病例关键词进行名称统一化和粒度统一化处理。
患者主诉用语以及病例文档对患者病症的记载可能并不严格符合规范,或者在记录病症时对于病症的划分粒度不同,例如对于“肺炎”病症,有可能被记载为“左下肺炎”、“右下肺炎”、“左肺炎”、“右肺炎”等,为了使病症记载统一,进而使后期对疾病的诊断标准一致,本申请实施例在从病例文档中提取出病例关键词后,对提取得到的病例关键词进行名称统一化和粒度统一化处理,使得对应同一病症的病例关键词的名称统一,并且对病症的命名粒度相同。
例如,将“左下肺炎”、“右下肺炎”、“左肺炎”、“右肺炎”统称为“肺炎”;再如:将“急性支气管炎”、“急性毛细支气管炎”、“急性细支气管炎”、“毛细支气管炎”、“慢性支气管炎”等统称为“支气管炎”。
经过上述处理,即从患者的病例文档中提取出了规范的病例关键词,基于提取出的病例关键词,执行后续的疾病诊断处理。
S102、至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图。
其中,上述的拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系。
例如图2所示,为上述的拓扑结构图的示意图。上述的拓扑结构图,以病例关键词和病例文档为节点,将病例关键词节点之间,以及病例关键词节点与病例文档节点之间的关联关系以节点之间的连接边表示。同时,上述拓扑结构图中的连接边具有权值属性,连接边的权值用于表示该连接边所连接的两个节点之间的关联关系的度量,也就是将两个节点之间的关联关系量化为数值表示的量化结果。
上述的病例关键词之间的关联关系,泛指病例关键词之间的相似性、关联性、因果性等相互关系。理论上,通过分析各病例关键词之间的关联关系,可以对患者病症进行归纳和剖析,例如可以确定哪些症状属于同一病因引发的连带症状,确定哪些症状之间具有因果关系等。上述的病例关键词与病例文档之间的关联关系,泛指病例关键词在病例文档中的重要性,也就是病例关键词对于对病例文档所记载的病症进行诊断的重要性。理论上,与病例文档的关联关系较强的病例关键词,在疾病诊断时应当被着重考虑;而与病例文档的关联关系较弱的病例关键词,则可以作为疾病诊断的辅助因素考虑。
可以理解,通过分析提取得到的各个病例关键词,以及分析各个病例关键词之间、各个病例关键词与病例文档之间的关联关系,可以对该病例文档所记录的患者病症进行全面了解及分析,进而可以对病例文档类别进行分类,即对患者病情进行诊断。因此,确定从患者病例文档中提取得到的各个病例关键词之间,以及病例关键词与病例文档之间的关联关系,是根据病例文档对患者病情进行诊断的重要依据。
而通过上述的拓扑结构图,可以简明、准确地将提取得到的各个病例关键词之间,以及提取得到的各个病例关键词与病例文档之间的关联关系表示出来。因此,本申请实施例在从患者的病例文档中提取得到各个病例关键词后,根据提取得到的各个病例关键词和病例文档,构建以各个病例关键词和病例文档为节点的拓扑结构图。
S103、利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;
其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。
上述的图神经网络,是本申请实施例预先训练得到的,用于对拓扑结构图进行处理,实现对病例文档的分类,进而实现疾病诊断的算法模型。示例性的,该图神经网络具体为图卷积神经网络(Graph Convolution Network,GCN)。
图卷积神经网络(Graph Convolution Network,GCN)是一个可以直接对图进行处理的多层卷积神经网络,且能够聚合节点的邻居节点(在拓扑结构图中与该节点有边相连的节点叫做该节点的邻居节点)的特征向量。
假设上述步骤S102构建得到的拓扑结构图表示为G=(V,E),其中V和E分别是节点和边的集合。每个节点被认为是和自己相连的,也就是说存在自边(self-edge)。令矩阵X∈Rn×m表示所有n个节点的特征,其中m是特征的维度,每一行xv∈Rm表示节点v的特征向量。
将上述拓扑结构图G=(V,E)用邻接矩阵A∈Rn×n来表示,矩阵的行和列分别表示拓扑结构图中各节点。若图中的两个节点之间有边,则表示两个节点之间有关联关系,两节点在邻接矩阵中交叉位置处的矩阵元素的值为边上权重;否则,若图中两个节点之间没有边,则两节点在邻接矩阵中交叉位置处的矩阵元素的值为0,即表示两节点之间没有关联关系。因为拓扑结构图中允许自边的存在,因此在邻接矩阵中对角线上的元素都被设为1。
本申请实施例设置度值矩阵D∈Rn×n用于对上述的邻接矩阵进行规范化,以便于图神经网络对邻接矩阵进行处理。度值矩阵表示图中每个节点连接的其他节点的总数,在构建度值矩阵时,以度值矩阵的每一行为单位,分别计算该行对应的节点所连接的节点总数,然后将结果复制到该行n个元素上,即度值矩阵每行所包含的各个元素的值相同。例如,计算Di,j=ΣjAi,j的值,其中i和j分别表示第i个和第j个节点,Di,j表示节点i连接的所有其他节点的总数。
利用上述度值矩阵对上述由拓扑结构图转换得到的邻接矩阵进行规范化处理后,输入预先训练完成的图卷积神经网络GCN,则GCN对邻接矩阵进行运算处理,捕捉、整合蕴含在邻接矩阵中的信息。
具体的,GCN的一个卷积层可以捕捉一阶邻居节点的信息,当多个GCN卷积层叠加的时候,高阶邻居节点包含的信息就可以被整合。对于一层GCN,一个新的K阶特征矩阵L(1)∈Rn×k可按照如下公式计算:
Figure BDA0002109963720000081
其中,
Figure BDA0002109963720000082
是利用度值矩阵D对邻接矩阵A规范化后得到的对称邻接矩阵,W0∈Rm×k是权重矩阵,该权重矩阵在确定矩阵维度后(其维度与邻接矩阵的维度相同),先随机初始化,然后通过训练更新确定最终的值;ρ是激活函数,例如ReLUρ(x)=max(0,x)。如上所示,通过叠加多个GCN层可以聚合得到高阶邻居信息:
Figure BDA0002109963720000083
其中j表示层数,L(0)=X。
在本申请实施例中,为图卷积神经网络设置两层GCN,即j=2,激活函数选择ReLU,该图卷积神经网络的结构如图3所示。
经过上述两层运算,图卷积神经网络捕捉及整合各个病例关键词之间,以及病例关键词与病例文档之间的信息,对各个病例关键词和该病例文档进行分类,确定病例文档所属的类别。本申请实施例将病例文档的类别设置为疾病类别,按照上述方案利用图卷积神经网络对病例文档进行分类后,病例文档的分类结果也就是对患者疾病的诊断结果。
作为一种可选的实现方式,在上述的图卷积神经网络GCN内部,需要将病例关键词、病例文档以及拓扑结构图特征化,转换成特征向量的形式进行向量维度的运算处理。为了便于对病例关键词和病例文档的特征进行应用,本申请实施例设置图神经网络的中间层在计算得到输入网络的病例关键词和病例文档的特征向量后,将病例关键词和病例文档的特征向量分别输出。
即,本申请实施例技术方案的处理结果,一方面是确定与病例文档对应的疾病诊断结果;另一方面是输出从病例文档中提取得到的各个病例关键词的特征向量、以及该病例文档的特征向量。
本申请实施例技术方案的精髓在于借助图神经网络对基于病例文档构建的拓扑结构图进行处理,对患者病情进行诊断,实现了基于人工智能算法的辅助诊断方案。
在应用图神经网络进行病情诊断时,需要预先对图神经网络进行训练,使其具备对拓扑结构图进行处理并且准确地对患者病情进行诊断的能力。因此,对于图神经网络的应用分为训练阶段和测试阶段两阶段。
作为一种可选的实现方式,为了提升对图神经网络的训练效果及训练效率,以及提升图神经网络对测试数据进行处理的效率及精度,本申请实施例在对图神经网络进行训练时,将训练样本与测试样本共同用于对图神经网络的训练,即,在构建拓扑结构图作为训练样本时,将从病例文档样本中提取出的病例关键词以及病例文档样本,以及从待处理的病例文档中提取出的病例关键词和待处理的病例文档,共同构建拓扑结构图,用于对图神经网络的训练。
另一方面,当利用训练好的图神经网络对待处理的病例文档进行病情诊断时,将从待处理的病例文档中提取出的病例关键词与待处理的病例文档,以及从病例文档样本中提取出的病例关键词与病例文档样本,共同用于构建拓扑结构图,利用训练好的图神经网络对该拓扑结构图进行处理,得到与待处理的病例文档对应的疾病诊断结果。
即,在执行上述步骤S102时,本申请实施例将通过执行步骤S101得到的各个病例关键词以及上述病例文档,与预先设置的病例文档样本中的各个病例关键词以及该病例文档样本相结合,共同用于构建拓扑结构图。
上述的病例文档样本,可以是来自病例语料库的病例文档。
通过上述设置,从待处理的病例文档中提取得到的病例关键词以及该待处理的病例文档,参与了图神经网络的训练过程;并且,对图神经网络进行训练的训练数据也参与了图神经网络的测试过程。将两种类型的数据结合应用,在实际测试中发现相对于单独应用具有更高的处理效率和精度,不仅可以使图神经网络的训练更快速地泛化至对待处理病例文档的病情诊断,而且可以提高病情诊断准确度。
为便于论述,在下文介绍中,默认在构建拓扑结构图时,都是同时对从待处理病例文档中提取得到病例关键词和待处理病例文档,以及从预设的病例文档样本中提取出的病例关键词和病例文档样本,进行拓扑结构图的构建,本申请实施例不再一一单独说明,而是着重说明对于从待处理病例文档中提取出的病例关键词和待处理病例文档进行拓扑结构图的构建过程,相应的,对于病例文档样本中的病例关键词和病例文档样本的拓扑结构图的构建,可以参照本申请实施例介绍实现。
通过上述介绍可见,本申请实施例提出的技术方案从病例文档中提取得到病例关键词,并且至少根据提取得到的各个病例关键词以及病例文档,构建拓扑结构图,然后利用预先训练的图神经网络对构建的拓扑结构图进行处理,确定与病例文档对应的疾病诊断结果。上述处理过程以病例文档为基础,借助图神经网络对患者疾病进行诊断,实现了自动化的辅助诊断,将该方案应用于临床可以显著减轻医生工作量,提高疾病诊断效率。
作为一种可选的实现方式,参见图4所示,本申请另一实施例中公开了,上述的至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,具体包括:
S402、通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值。
上述的关系权值,是指将病例关键词之间的关联关系量化为数值表示的表示结果。该关系权值,作为拓扑结构图中的有边连接的节点之间的边上的值。
当对关联关系的衡量角度不同时,提取得到的各个病例关键词之间的关联关系也不同。
作为可选的实现方式,为了更全面地解析各个病例关键词之间的关联关系,本申请实施例从多种角度衡量从病例文档中提取得到的各个病例关键词之间的关联关系,并分别确定在各角度下衡量确定的各个病例关键词之间的关系权值。
示例性的,本申请实施例从以下三方面解析各个病例关键词之间的关联关系:
第一方面,通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值。
其中,所述滑动窗口为按照设定步长从病例关键词序列的起始字符依次滑动到末尾字符的、设定大小的滑动窗口;所述病例关键词序列由提取得到的各个病例关键词按照其在所述病例文档中的位置排列构成。
具体的,将从病例文档中提取得到的各个病例关键词排列成病例关键词序列,然后利用设定大小的滑动窗口从病例关键词序列的起始字符依次滑动到末尾字符,每次滑动一个病例关键词(即步长为一个病例关键词)。在滑动过程中,记录同时出现在滑动窗口中的病例关键词对。然后通过统计各病例关键词对、以及各病例关键词对所包含的病例关键词在语料库中的病例关键词组中出现的频率,计算得到病例关键词对所包含的病例关键词之间的点互信息,作为这两个病例关键词之间的共现关系权值。
按照上述处理方案,只要是在滑动窗口滑动过程中同时出现在同一滑动窗口的病例关键词之间,都会计算确定共现关系权值;对于在窗口滑动过程中始终没有出现在同一滑动窗口中的病例关键词之间,则无法计算得到共现关系权值,此时将其共现关系权值设置为零,由此可确定任意两个病例关键词之间的共现关系权值。
第二方面,通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个病例关键词之间的语义关系权值。
上述的语义关联关系,是指病例关键词在语义方面的关联关系,例如是否存在语义关联、语义关联程度等。
本申请实施例提取各个病例关键词的包含上文语义信息的语义特征,然后通过计算各病例关键词的语义特征之间的相似度,确定具有语义关联关系的病例关键词对。如果病例关键词的语义特征之间的相似度足够高,则认为病例关键词之间具有语义关联关系。进一步统计在语料库中包含病例关键词对的病例文档的数量并进行归一化,最终的归一化结果作为病例关键词对所包含的病例关键词之间的语义关系权值。
示例性的,利用长短期记忆网络(Long Short-Term Memory,LSTM)可以提取得到病例关键词的语义特征,进而确定具有语义关联关系的病例关键词对,以及确定病例关键词对包含的病例关键词之间的语义关系权值。
按照上述处理方案,可以确定具有语义关联关系的病例关键词之间的语义关系权值,对于没有语义关联关系的病例关键词之间,可以将其语义关系权值设置为零。由此可确定任意两个病例关键词之间的语义关系权值。
第三方面,通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个病例关键词之间的句法关系权值。
上述句法关联关系,是指病例关键词之间在句法上的关联关系,例如主谓关系、并列关系、动宾关系等。
本申请实施例利用句法分析器对从病例文档中提取得到的各个病例关键词进行句法分析,确定具有句法关联关系的病例关键词对。其次,统计在语料库中包含具有句法关联关系的病例关键词对的病例文档的数量并进行归一化,最终的归一化结果作为该病例关键词对所包含的病例关键词之间的句法关系权值。
示例性的,利用句法分析器对病例关键词进行句法分析,构建由各病例关键词构成的依存树,可以简明地表示出从病历文档中提取得到的各个病例关键词之间的句法关联关系,进而可以确定具有句法关联关系的病例关键词之间的句法关系权值。
按照上述处理方案,可以分别识别到具有句法关联关系的病例关键词对,并且可以计算确定具有句法关联关系的病例关键词对所包含的病例关键词之间的句法关系权值。对于没有句法关联关系的病例关键词之间,可以将其句法关系权值设置为零。由此可确定任意两个病例关键词之间的句法关系权值。
S403、通过解析提取得到的各个病例关键词与所述病例文档之间的关联关系,确定各个病例关键词与所述病例文档之间的关系权值。
类似的,上述的关系权值,是指将病例关键词与病例文档之间的关联关系量化为数值表示的表示结果。
作为一种可选的实现方式,本申请实施例分别计算提取得到的各个病例关键词在上述病例文档中的重要程度,作为各个病例关键词与该病例文档之间的关系权值。
示例性的,上述的病例关键词在病例文档中的重要程度,用词频-逆文档频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)度量。TF-IDF综合考虑词频、逆文档频率两个指标来评判一个词语在一个文档中的重要程度。病例关键词的TF-IDF值越高,说明其在病例文档中越重要,对于病例文档的分类,也就是对于疾病诊断也就越重要;病例关键词的TF-IDF值越低,说明其在病例文档中的重要程度越低,对于疾病诊断的重要性也就越低。
本申请实施例按照如下处理方案确定各个病例关键词在病例文档中的重要程度:
首先,分别计算提取得到的各个病例关键词在所述病例文档中出现的频率,以及分别计算各个病例关键词在预设的语料库的病例文档中出现的逆文档频率;
具体的,本申请实施例按照如下计算公式,计算病例关键词在病例文档中出现的频率:
Figure BDA0002109963720000131
其中,ft,d表示病例关键词t出现在病例文档d中的次数;t′表示包含在病例文档d中的每一个病例关键词;ft′,d表示病例关键词t′出现在病例文档d中的次数;整体分母则表示病例文档d中所有病例关键词的出现次数之和。
对上述计算公式的计算结果进行归一化,即得到病例关键词在病例文档中出现的频率。对应每个病例关键词均进行上述计算,即可分别计算得到从病例文档中提取得到的各个病例关键词在该病例文档中出现的频率。
进一步的,本申请实施例按照如下公式计算得到病例关键词在预设的语料库的病例文档中出现的逆文档频率:
Figure BDA0002109963720000132
其中,idf可反映病例关键词t在病例文档中的特殊性,其中D表示所有病例文档的集合,即语料库;N表示语料库中的病例文档数量,nt表示语料库中包含病例关键词t的病例文档数量。
然后,根据各个病例关键词在所述病例文档中出现的频率,以及各个病例关键词在预设的语料库的病例文档中出现的逆文档频率,分别确定各个病例关键词在所述病例文档中的重要程度。
在分别计算得到病例关键词t在病例文档d中出现的频率tf(t,d),以及计算得到病例关键词t在预设的语料库中的病例文档中出现的逆文档频率idf(t,D)后,计算两者乘积,即得到该病例关键词的词频-逆文档频率指数TF-IDF值,也就是确定该病例关键词在该病例文档中的重要程度:
fidf(t,d,D)=tf(t,d)·idf(t,D)
针对从病例文档中提取出的各个病例关键词均进行上述计算,即可分别确定从该病历文档中提取得到的各个病例关键词在该病例文档中的重要程度。
S404、至少根据各个病例关键词之间的关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建拓扑结构图。
具体的,将从病例文档中提取出的病例关键词以及该病例文档作为拓扑结构图的节点;用病例关键词节点之间或病例关键词与病例文档之间的连接边,表示病例关键词节点之间或病例关键词节点与病例文档节点之间的关联关系;病例关键词之间,或病例关键词与病例文档之间的关系权值,作为病例关键词节点之间,或病例关键词节点与病例文档节点之间的连接边上的值。
可以理解,只要两个病例关键词之间的关系权值不为零,则说明这两个病例关键词之间存在关联关系,此时在拓扑结构图中,将这两个病例关键词节点用连接边连接,并且该连接边上的值为这两个病例关键词之间的关系权值。如果两个病例关键词之间的关系权值为零,则说明这两个病例关键词之间没有关联关系,因此在拓扑结构图中,不为这两个病例关键词节点之间构建连接边。
按照上述构图规则,在相互之间的关系权值不为零的节点之间构建连接边,并且将节点之间的关系权值作为连接边上的值,即可构建得到拓扑结构图。
由于本申请实施例从三个角度衡量了从病例文档中提取出的各个病例关键词之间的关联关系,但是在构建的拓扑结构图中,具有关联关系的病例关键词之间的连接边上只标记一个关系权值,因此,在构建拓扑结构图时,需要将三个角度衡量的病例关键词之间的关联关系进行融合应用。
作为一种可选的实现方式,通过执行步骤S402从三个角度衡量各个病例关键词之间的关系权值,以及通过执行步骤S403确定各个病例关键词与病例文档之间的关系权值后,当至少根据各个病例关键词之间的关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建拓扑结构图时,具体包括:
至少根据各个病例关键词之间的共现关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第一拓扑结构图。
即,此时构建的拓扑结构图中的节点为病例文档,以及从病例文档中提取出的各个病例关键词。并且,病例关键词节点之间的连接边上的值为病例关键词之间的共现关系权值;病例关键词与病例文档之间的连接边上的值为病例关键词与病例文档之间的关系权值。
至少根据各个病例关键词之间的语义关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第二拓扑结构图;
即,此时构建的拓扑结构图中的节点为病例文档,以及从病例文档中提取出的各个病例关键词。并且,病例关键词节点之间的连接边上的值为病例关键词之间的语义关系权值;病例关键词与病例文档之间的连接边上的值为病例关键词与病例文档之间的关系权值。
至少根据各个病例关键词之间的句法关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第三拓扑结构图;
即,此时构建的拓扑结构图中的节点为病例文档,以及从病例文档中提取出的各个病例关键词。并且,病例关键词节点之间的连接边上的值为病例关键词之间的句法关系权值;病例关键词与病例文档之间的连接边上的值为病例关键词与病例文档之间的关系权值。
按照上述处理过程,可以构建得到三个拓扑结构图,在三个拓扑结构图中的节点均相同,只是病例关键词节点之间的连接边上的值不同。
在此基础上,基于预先确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值,对所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图进行加权融合处理,得到融合的拓扑结构图。
即,对构建得到的三个拓扑结构图,按照预先确定的权重值进行加权融合,即得到融合的拓扑结构图,则该融合的拓扑结构图中,融合了病例关键词之间的三种角度的关联关系。
作为一种示例性的实现方式,如图5所示,本申请实施例设定上述的第一拓扑结构图权重值、所述第二拓扑结构图权重值以及所述第三拓扑结构图权重值分别以权重矩阵形式表示,具体表示为第一权重矩阵、第二权重矩阵和第三权重矩阵的形式。
则上述的基于预先确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值,对所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图进行加权融合处理,得到融合的拓扑结构图,具体包括:
首先,分别将所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图转换为邻接矩阵形式,得到第一邻接矩阵、第二邻接矩阵和第三邻接矩阵;其中,各邻接矩阵的维度与各权重矩阵的维度相同;
上述邻接矩阵的行和列相同,均为从病例文档中提取出的各个病例关键词以及该病例文档。行列交叉处的矩阵元素的值,为该矩阵元素对应的行和列位置处的病例关键词或病例文档之间的关系权值。
然后,对所述第一邻接矩阵与所述第一权重矩阵进行点积运算得到第一运算结果、对所述第二邻接矩阵与所述第二权重矩阵进行点积运算得到第二运算结果,以及对所述第三邻接矩阵与所述第三权重矩阵进行点积运算得到第三运算结果;
最后,对所述第一运算结果、所述第二运算结果及所述第三运算结果进行求和运算,得到以权重混合邻接矩阵形式表示的融合的拓扑结构图。
即,将由三个拓扑结构图转换得到的三个邻接矩阵分别与三个权重矩阵对应进行点积运算,然后再对运算结果进行求和,即实现对三个邻接矩阵的加权求和,求和得到的矩阵为权重混合邻接矩阵,该矩阵也就是将三个拓扑结构图进行加权融合得到的融合的拓扑结构图对应的邻接矩阵,如果将该矩阵转换为拓扑结构图表示,即为上述融合的拓扑结构图。
例如,假设A1、A2、A3分别表示从共现关系,语义关系,句法关系角度构建的三个拓扑结构图,Ai∈Rn×n,其中n表示网络中节点数,也就是病例关键词和病例文档的数量总和。设计三个和邻接矩阵具有同样维度的权重矩阵,将它们表示为W1、W2、W3,令它们分别与对应邻接矩阵进行点积运算,实现对于一个权值的放大或缩小功能,然后通过累加机制获取最终的权重混合邻接矩阵:
Figure BDA0002109963720000171
通过执行上述多角度的病例关键词关联关系衡量、多角度的拓扑结构图构建以及融合,本申请实施例技术方案实现了多源信息构图,即融合病例关键词的多源信息构建拓扑结构图。
按照上述处理,如图6所示,本申请实施例实现了基于多源信息构图的图神经网络辅助诊断方案,该方案从多种角度衡量病例关键词之间的关联关系并进行拓扑结构图的构建,然后将多角度构图进行融合,再利用图神经网络对融合的拓扑结构图进行运算处理,最后得出病例文档分类结果,也就是得到疾病诊断结果。
图4所示的方法实施例中的步骤S401、S405,分别对应图1所示的方法实施例中的步骤S101、S103,其具体内容请参见图1所示的方法实施例的内容,此处不再赘述。
需要说明的是,上述实施例介绍了本申请实施例从多角度衡量病例关键词之间的关联关系,并且分别构建基于各个角度的关联关系的拓扑结构图,将多角度构建的拓扑结构图进行融合用于病例文档的分类以及患者疾病的诊断。上述方案实施过程,是本申请实施例详细介绍的优选的方案实施过程。
在实际实施本申请实施例技术方案时,可以根据实际情况,从上述实施例介绍中,任选一种或两种角度进行病例关键词之间的关联关系的衡量,进而基于衡量结果构建拓扑结构图。
例如,可以只计算病例关键词之间的共现关系权值,以及计算病例关键词与病例文档之间的关系权值;然后基于计算得到的共现关系权值,以及病例关键词与病例文档之间的关系权值构建拓扑结构图;最后利用图神经网络对该拓扑结构图进行运算处理,确定疾病诊断结果。
或者,分别计算病例关键词之间的共现关系权值和语义关系权值,以及计算病例关键词与病例文档之间的关系权值;然后分别基于计算得到的共现关系权值和语义关系权值,以及病例关键词与病例文档之间的关系权值,构建两个拓扑结构图;其次,将两个拓扑结果图参照本申请上述实施例介绍进行融合,得到融合的拓扑结构图;最后利用图神经网络对该融合的拓扑结构图进行运算处理,确定疾病诊断结果。
再或者,还可以在本申请上述实施例介绍的基础上,从更多角度衡量病例关键词之间的关联关系,以及进行相应的拓扑结构图的构建,使最后得到的融合的拓扑结构图包含的信息更丰富。或者,也可以用从其它角度衡量的病例关键词之间的关联关系代替本申请上述实施例中对病例关键词之间的关联关系的衡量。
理论上,在构建拓扑结构图时,对病例关键词之间的关系考虑得越全面,拓扑结构图中包含的信息越丰富,则通过拓扑结构图对患者病症的分析越准确。
例如图7所示,从呼吸科某一患者的住院电子病例中,提取出病例关键词“咳痰、发热、腹泻、呕吐、咳嗽、单声咳、面色发红、喘憋”。如果只依赖于共现窗口捕捉各病例关键词间的共现关系,则可能会存在如下缺陷:1)错误地将“腹泻、呕吐”也作为症状;2)由于相距较远,忽略前后症状之间的联系。利用基于病例关键词之间的共现关系权值构建的拓扑结构图进行疾病诊断,很容易给出“感冒”或者“腹泻”的诊断结果,造成误诊。
如果加入基于语义角度抽取的病例关键词之间的关联关系,从共现关系和语义关系两方面构建拓扑结构图并融合,以及利用融合的拓扑结构图对患者疾病进行诊断,虽然可以弥补上述缺陷2),将前后症状联系起来,但还是无法解决情况1),很容易给出“肺部感染”的诊断结果,该结果依然不够准确。
如果再加入基于句法角度抽取的病例关键词之间的关联关系,从共现关系、语义关系和句法关系三方面构建拓扑结构图并融合,以及利用融合的拓扑结构图对患者疾病进行诊断,就可以将缺陷1)解决,区分出“腹泻、呕吐”是阴性症状,并不是患者的真实症状,从而给出“肺炎”这一正确诊断。
上述各种可选方案的具体执行过程,均没有脱离本申请技术思想,并且均可以参照本申请上述实施例的介绍而实现,本申请实施例不再一一穷举介绍,但是可以理解的是,基于本申请实施例介绍所演变或扩展出的技术方案,均在本申请实施例保护范围内。
作为一种可选的实现方式,参见图8所示,用于对上述的第一拓扑结构图、第二拓扑结构图、第三拓扑结构图进行加权融合处理的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值的确定过程,包括:
S801、基于预先设置的第一拓扑结构图权重值、第二拓扑结构图权重值及第三拓扑结构图权重值,对根据病例样本构建的第一拓扑结构图、第二拓扑结构图及第三拓扑结构图进行加权融合处理,得到与所述病例样本对应的融合的拓扑结构图;
S802、将所述融合的拓扑结构图输入预先设置的图神经网络,得到与所述病例样本对应的疾病诊断结果;
S803、计算所述疾病诊断结果与所述病例文档对应的真实疾病诊断结果的差异值;
S804、比对所述疾病诊断结果与所述病例文档对应的真实疾病诊断结果的差异值是否大于设定的差异阈值;
如果所述疾病诊断结果与所述病例样本对应的真实疾病诊断结果的差异值大于设定的差异阈值,则执行步骤S805、根据所述差异值对预先设置的所述第一拓扑结构图权重值、所述第二拓扑结构图权重值、所述第三拓扑结构图权重值以及所述图神经网络的运算参数进行校正;
本申请实例设定,对预先设置的第一拓扑结构图权重值、第二拓扑结构图权重值、第三拓扑结构图权重值以及图神经网络的运算参数同时进行校正,使图神经网络的输出更准确。
在进行上述调整后,预先设置的第一拓扑结构图权重值、第二拓扑结构图权重值、第三拓扑结构图权重值更新为校正后的第一拓扑结构图权重值、第二拓扑结构图权重值、第三拓扑结构图权重值。
然后,返回执行步骤S801~S804,如果图神经网络输出的疾病诊断结果与所述病例文档样本对应的真实疾病诊断结果的差异值大于设定的差异阈值,则执行步骤S805,并且再次返回执行步骤S801~S804,重复上述过程,直到在步骤S804中确定图神经网络输出的疾病诊断结果与病例文档样本对应的真实疾病诊断结果的差异值不大于设定的差异阈值时,执行步骤S806、退出权值训练过程。此时得到的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值,即为经过训练校正确定的权重值。
可以理解,本申请实施例将上述权重值的训练确定过程与对图神经网络的训练过程同时执行,在执行上述权重值的训练过程中,同时实现对图神经网络的训练。该训练过程可以使图神经网络的运算参数与上述权重值相匹配,利于提升模型训练效率,以及保证训练后的图神经网络对病例文档的分类、以及对患者疾病的诊断更准确。
作为一种可选的实现方式,参见图9所示,本申请实施例还公开了,上述的通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值,包括:
S901、将从病例文档中提取得到的各个病例关键词按照其在病例文档中的位置排列得到病例关键词序列;
如图10所示,假设从病例文档中提取得到的病例关键词分别为“患者”、“反复”、“咳嗽”、“咳痰”、“两年”、“秋冬”、“好发”、“每年”、“住院”、“一次”,共10个病例关键词,将这10个病例关键词按照其在病例文档中的位置进行排列,得到如图10所述的病例关键词序列。
S902、将设定大小的滑动窗口按照设定步长从病例关键词序列的起始字符依次滑动到末尾字符,并记录在滑动窗口中出现过的病例关键词对;
如图10所示,假设滑动窗口的大小为可以包含5个病例关键词的滑动窗口,即图中大括号所示。将该滑动窗口从病例关键词序列的起始字符开始,滑动到末尾字符,每次滑动时向后滑动一个病例关键词,即步长为一个病例关键词。在此滑动过程中,记录在滑动窗口每次滑动动作后,出现在滑动窗口中的病例关键词对。
以图10最左侧情况为例,此时出现在滑动窗口中的病例关键词为“患者”、“反复”、“咳嗽”、“咳痰”、“两年”,共5个病例关键词,则将这5个病例关键词两两组合,即可得到在滑动窗口中出现的病例关键词对,该病例关键词对即为在滑动窗口中共现的两个病例关键词所组成的病例关键词对。按照上述方式,分别统计在滑动窗口整个滑动过程中,在滑动窗口中同时出现的病例关键词,对同时出现在滑动窗口中的病例关键词两两组对,即可确定在滑动窗口中出现过的病例关键词对。
S903、分别计算各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率。
其中,所述病例关键词组由语料库中的病例关键词序列中的至少两个相邻的病例关键词组合构成。
示例性的,上述语料库中的病例关键词序列,是对语料库中的病例文档按照本申请上述技术方案提取病例关键词,并将病例关键词进行排列得到的病例关键词序列。
按照本申请上述实施例介绍的窗口滑动方法,从语料库中的关键词序列中选出上述的病例关键词组。设置规定大小的滑动窗口,例如设置可以包含5个病例关键词的滑动窗口,从病例关键词序列的起始字符滑动到末尾字符,每次滑动一个病例关键词,则每次滑动后该滑动窗口所包含的5个病例关键词,即构成病例关键词组。
按照如下公式,分别计算得到各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率:
Figure BDA0002109963720000211
Figure BDA0002109963720000212
Figure BDA0002109963720000213
其中,p(i,j)表示病例关键词i和病例关键词j构成的病例关键词对(i,j)在语料库中的病例关键词组中出现的频率;p(i)、p(j)分别表示病例关键词i和病例关键词j在语料库中的病例关键词组中出现的频率;#W(i)、#W(j)分别表示在语料库中,包含病例关键词对(i,j)中的病例关键词i和病例关键词j的病例关键词组的数量;#W(i,j)表示在语料库中,包含病例关键词对(i,j)的病例关键词组的数量;#W表示语料库中的病例关键词组的总数量。
S904、根据各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率,计算得到各个病例关键词对包含的病例关键词之间的点互信息,并将计算得到的点互信息作为病例关键词对包含的病例关键词之间的共现关系权值。
根据如下所示的点互信息计算公式,计算得到各个病例关键词对包含的病例关键词之间的点互信息:
Figure BDA0002109963720000221
点互信息是衡量两节点之间的相关性程度的信息,两节点之间的点互信息越大,则说明两者越相关;两节点之间的点互信息越小,则说明两者越不相关。在分别计算得到病例关键词对所包含的病例关键词之间的点互信息后,可以利用该点互信息表征两个病例关键词之间的关系权值,由于这两个病例关键词是共现在同一个滑动窗口中的病例关键词,因此本申请实施例将其命名为共现关系权值。
可以理解,按照上述处理方法,对于具有窗口共现关系的病例关键词之间,可以计算得到共现关系权值,而对于没有窗口共现关系的病例关键词之间,则将其共现关系权值设置为零。
作为一种可选的实现方式,参见图11所示,本申请实施例还公开了,所述通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个所述病例关键词之间的语义关系权值,包括:
S1101、利用预先训练的语义特征提取模型,分别提取各个病例关键词的包含上文语义信息的语义特征;
示例性的,上述的语义特征提取模型可以利用长短期记忆网络(Long Short-TermMemory,LSTM)来实现。LSTM使用预存储的词语特征向量作为特征初始化值,在每次训练过程中,网络都会更新每个病例关键词的结合上文特征的特征表征,依此进行分类并更新参数值。对应提取病例关键词的包含上文语义信息的语义特征的目标,只需将最后一次训练获取的病例关键词语义表征提取出来,即可作为包含上文语义信息的语义特征。该语义特征以特征向量的形式表示。
S1102、通过计算各个病例关键词的语义特征之间的相似度,确定各个病例关键词中具有语义关联关系的病例关键词对;
示例性的,计算各个病例关键词的语义特征向量之间的余弦相似度,作为各个病例关键词的语义特征之间的相似度度量。
即,按照如下公式计算病例关键词的语义特征之间的相似度:
Figure BDA0002109963720000231
其中,A和B表示病例关键词的语义特征向量,Ai和Bi表示向量A和B的各分量,θ代表语义特征向量之间的夹角。
按照上述计算,可以确定任意两个病例关键词之间的相似度。将语义特征向量之间的相似度大于设定阈值的病例关键词对,确定为具有语义关联关系的病例关键词对。
S1103、对应每个具有语义关联关系的病例关键词对,分别统计在预设的语料库中,包含该病例关键词对的病例文档的数量;其中,该病例关键词对在所述语料库中的、包含该病例关键词对的病例文档中也具有语义关联关系;
上述的语料库,是指包含大量的病例文档的语料库。本申请实施例设定,如果某一具有语义关联关系的病例关键词对出现在语料库中的某一病例文档中,并且该病例关键词对在该病例文档中也具有语义关联关系,则认为该病例文档包含该病例关键词对。如果病例关键词对没有出现在病例文档中,或者虽然出现在了病例文档中但是在所出现的病例文档中没有语义关联关系,则均认为病例文档不包含该病例关键词对。
按照上述规则,对应每个具有语义关联关系的病例关键词对,分别统计在语料库中,包含该病例关键词对的病例文档的数量,该数量也可以作为该病例关键词对在语料库中出现的次数。
S1104、对应每个具有语义关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的语义关系权值。
由于语料库中包含各个具有语义关联关系的病例关键词对的病例文档的数量差异较大,也就是具有语义关联关系的病例关键词对在语料库中出现的次数的差异值较大,不能直接作为病例关键词节点之间的连接边上的值,因此本申请实施例对其进行归一化处理。
具体可参照如下计算公式实现:
Figure BDA0002109963720000241
其中,max表示在语料库病例文档中出现的次数最多的病例关键词对,在语料库病例文档中出现的次数值;min表示在语料库病例文档中出现的次数最少的病例关键词对,在语料库病例文档中出现的次数值;x表示当前的具有语义关联关系的病例关键词对,在语料库病例文档中出现的次数值。
按照上述计算方式,对应每个具有语义关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的语义关系权值。
作为一种可选的实现方式,参见图12所示,本申请实施例还公开了,所述通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个所述病例关键词之间的句法关系权值,包括:
S1201、对提取得到的各个病例关键词进行句法分析处理,确定所述各个病例关键词中具有句法关联关系的病例关键词对;
示例性的,将从病例文档中提取得到的各个病例关键词同时输入句法分析器,使句法分析器对各个病例关键词进行句法分析处理,确定在各个病例关键词中具有句法关联关系的病例关键词对。
句法分析器可以对输入文本从句法角度进行分析,其首先对输入文本进行分词,然后对分词结果进行词性标注,最后确定各分词之间的语法关系。
通过上述分析,在各个病例关键词中,只要两个病例关键词之间具有任意一种语法关系,则认为两者之间具有句法关联关系,两者构成具有句法关联关系的病例关键词对。
S1202、对应每个具有句法关联关系的病例关键词对,分别统计在预设的语料库中,包含该病例关键词对的病例文档的数量;其中,该病例关键词对在所述语料库中的、包含该病例关键词对的病例文档中也具有句法关联关系;
上述的语料库,是指包含大量的病例文档的语料库。本申请实施例设定,如果某一具有句法关联关系的病例关键词对出现在语料库中的某一病例文档中,并且该病例关键词对在该病例文档中也具有句法关联关系,则认为该病例文档包含该病例关键词对。如果病例关键词对没有出现在病例文档中,或者虽然出现在了病例文档中但是在所出现的病例文档中没有句法关联关系,则均认为病例文档不包含该病例关键词对。
按照上述规则,对应每个具有句法关联关系的病例关键词对,分别统计在语料库中,包含该病例关键词对的病例文档的数量,该数量也可以作为该病例关键词对在语料库中出现的次数。
S1203、对应每个具有句法关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的句法关系权值。
由于语料库中包含具有句法关联关系的病例关键词对的病例文档的数量差异较大,也就是具有句法关联关系的病例关键词对在语料库中出现的次数的差异值较大,不能直接作为病例关键词节点之间的连接边上的值,因此本申请实施例对其进行归一化处理。
具体可参照如下计算公式实现:
Figure BDA0002109963720000251
其中,max表示在语料库病例文档中出现的次数最多的病例关键词对,在语料库病例文档中出现的次数值;min表示在语料库病例文档中出现的次数最少的病例关键词对,在语料库病例文档中出现的次数值;x表示当前的具有句法关联关系的病例关键词对,在语料库病例文档中出现的次数值。
按照上述计算方式,对应每个具有句法关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的句法关系权值。
与上述的基于图神经网络的辅助诊断装置相对应的,本申请实施例还公开了一种基于图神经网络的辅助诊断装置,参见图13所示,该装置包括:
关键词提取单元100,用于从病例文档中提取得到病例关键词;
拓扑结构图构建单元110,用于至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,所述拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系;
拓扑结构图分析单元120,用于利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;
其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。
本申请提出的基于图神经网络的辅助诊断装置,关键词提取单元100从病例文档中提取得到病例关键词,并且拓扑结构图构建单元110至少根据提取得到的各个病例关键词以及病例文档,构建拓扑结构图,然后拓扑结构图分析单元120利用预先训练的图神经网络对构建的拓扑结构图进行处理,确定与病例文档对应的疾病诊断结果。上述装置的处理过程以病例文档为基础,借助图神经网络对患者疾病进行诊断,实现了自动化的辅助诊断,将该装置应用于临床可以显著减轻医生工作量,提高疾病诊断效率。
作为一种可选的实现方式,所述拓扑结构图构建单元110,包括:
第一关系确定单元,用于通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值;
第二关系确定单元,用于通过解析提取得到的各个病例关键词与所述病例文档之间的关联关系,确定各个病例关键词与所述病例文档之间的关系权值;
构图单元,用于至少根据各个病例关键词之间的关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建拓扑结构图;
其中,所述关系权值是指将关联关系量化为数值表示的结果。
作为一种可选的实现方式,所述第一关系确定单元通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值时,具体用于:
通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值;
其中,所述滑动窗口为按照设定步长从病例关键词序列的起始字符依次滑动到末尾字符的、设定大小的滑动窗口;所述病例关键词序列由提取得到的各个病例关键词按照其在所述病例文档中的位置排列构成。
作为一种可选的实现方式,所述第一关系确定单元通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值时,具体用于:
通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个所述病例关键词之间的语义关系权值。
作为一种可选的实现方式,所述第一关系确定单元通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值时,具体用于:
通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个所述病例关键词之间的句法关系权值。
作为一种可选的实现方式,所述第一关系确定单元通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值时,具体用于:
通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值;其中,所述滑动窗口为按照设定步长从病例关键词序列的起始字符依次滑动到末尾字符的、设定大小的滑动窗口;所述病例关键词序列由提取得到的各个病例关键词按照其在所述病例文档中的位置排列构成;
通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个所述病例关键词之间的语义关系权值;
通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个所述病例关键词之间的句法关系权值。
作为一种可选的实现方式,所述构图单元,包括:
第一构图单元,用于至少根据各个病例关键词之间的共现关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第一拓扑结构图;
第二构图单元,用于至少根据各个病例关键词之间的语义关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第二拓扑结构图;
第三构图单元,用于至少根据各个病例关键词之间的句法关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第三拓扑结构图;
融合处理单元,用于基于预先确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值,对所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图进行加权融合处理,得到融合的拓扑结构图。
作为一种可选的实现方式,所述第一拓扑结构图权重值、所述第二拓扑结构图权重值以及所述第三拓扑结构图权重值分别以权重矩阵形式表示为第一权重矩阵、第二权重矩阵和第三权重矩阵;
所述融合处理单元基于预先确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值,对所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图进行加权融合处理,得到融合的拓扑结构图时,具体用于:
分别将所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图转换为邻接矩阵形式,得到第一邻接矩阵、第二邻接矩阵和第三邻接矩阵;其中,各邻接矩阵的维度与各权重矩阵的维度相同;
对所述第一邻接矩阵与所述第一权重矩阵进行点积运算得到第一运算结果、对所述第二邻接矩阵与所述第二权重矩阵进行点积运算得到第二运算结果,以及对所述第三邻接矩阵与所述第三权重矩阵进行点积运算得到第三运算结果;
对所述第一运算结果、所述第二运算结果及所述第三运算结果进行求和运算,得到以权重混合邻接矩阵形式表示的融合的拓扑结构图。
作为一种可选的实现方式,所述第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值的确定过程,包括:
基于预先设置的第一拓扑结构图权重值、第二拓扑结构图权重值及第三拓扑结构图权重值,对根据病例样本构建的第一拓扑结构图、第二拓扑结构图及第三拓扑结构图进行加权融合处理,得到与所述病例样本对应的融合的拓扑结构图;
将所述融合的拓扑结构图输入预先设置的图神经网络,得到与所述病例样本对应的疾病诊断结果;
当所述疾病诊断结果与所述病例样本对应的真实疾病诊断结果的差异值大于设定的差异阈值时,根据所述差异值对预先设置的所述第一拓扑结构图权重值、所述第二拓扑结构图权重值、所述第三拓扑结构图权重值以及所述图神经网络的运算参数进行校正;
重复以上处理,直到所述图神经网络输出的疾病诊断结果与病例样本对应的真实疾病诊断结果的差异值不大于设定的差异阈值时,得到确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值。
作为一种可选的实现方式,所述第二关系确定单元通过解析提取得到的各个病例关键词与所述病例文档之间的关联关系,确定各个病例关键词与所述病例文档之间的关系权值时,具体用于:
分别计算提取得到的各个病例关键词在所述病例文档中的重要程度,作为各个病例关键词与所述病例文档之间的关系权值。
作为一种可选的实现方式,所述第二关系确定单元分别计算提取得到的各个病例关键词在所述病例文档中的重要程度时,具体用于:
分别计算提取得到的各个病例关键词在所述病例文档中出现的频率,以及分别计算各个病例关键词在预设的语料库的病例文档中出现的逆文档频率;
根据各个病例关键词在所述病例文档中出现的频率,以及各个病例关键词在预设的语料库的病例文档中出现的逆文档频率,分别确定各个病例关键词在所述病例文档中的重要程度。
作为一种可选的实现方式,所述第一关系确定单元通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值时,具体用于:
将提取得到的各个病例关键词按照其在所述病例文档中的位置排列得到病例关键词序列;
将设定大小的滑动窗口按照设定步长从所述病例关键词序列的起始字符依次滑动到末尾字符,并记录在滑动窗口中出现过的病例关键词对;
分别计算各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率;其中,所述病例关键词组由语料库中的病例关键词序列中的至少两个相邻的病例关键词组合构成;
根据各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率,计算得到各个病例关键词对包含的病例关键词之间的点互信息,并将计算得到的点互信息作为病例关键词对包含的病例关键词之间的共现关系权值。
作为一种可选的实现方式,所述第一关系确定单元通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个所述病例关键词之间的语义关系权值,包括:
利用预先训练的语义特征提取模型,分别提取各个病例关键词的包含上文语义信息的语义特征;
通过计算各个病例关键词的语义特征之间的相似度,确定各个病例关键词中具有语义关联关系的病例关键词对;
对应每个具有语义关联关系的病例关键词对,分别统计在预设的语料库中,包含该病例关键词对的病例文档的数量;其中,该病例关键词对在所述语料库中的、包含该病例关键词对的病例文档中也具有语义关联关系;
对应每个具有语义关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的语义关系权值。
作为一种可选的实现方式,所述第一关系确定单元通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个所述病例关键词之间的句法关系权值,包括:
对提取得到的各个病例关键词进行句法分析处理,确定所述各个病例关键词中具有句法关联关系的病例关键词对;
对应每个具有句法关联关系的病例关键词对,分别统计在预设的语料库中,包含该病例关键词对的病例文档的数量;其中,该病例关键词对在所述语料库中的、包含该病例关键词对的病例文档中也具有句法关联关系;
对应每个具有句法关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的句法关系权值。
作为一种可选的实现方式,所述关键词提取单元从病例文档中提取得到病例关键词,包括:
从病例文档中提取设定的病例文档内容;
对提取得到的病例文档内容进行分词处理,并从分词结果中筛选出病例关键词;
对筛选出的病例关键词进行名称统一化和粒度统一化处理。
作为一种可选的实现方式,所述装置还包括:
向量输出单元,用于输出提取得到的各个病例关键词和所述病例文档的特征向量。
作为一种可选的实现方式,所述拓扑结构图构建单元至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图时,具体用于:
根据提取得到的各个病例关键词和所述病例文档,以及从预设的病例文档样本中提取出的病例关键词和所述病例文档样本,构建拓扑结构图。
本申请另一实施例还公开了一种基于图神经网络的辅助诊断设备,参见图14所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的基于图神经网络的辅助诊断方法。
具体的,上述基于图神经网络的辅助诊断设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的基于图神经网络的辅助诊断设方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例提供的基于图神经网络的辅助诊断方法的各个步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种基于图神经网络的辅助诊断方法,其特征在于,包括:
从病例文档中提取得到病例关键词;
至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,所述拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系;所述拓扑结构图以病例关键词和病例文档为节点,通过将病例关键词节点之间,以及病例关键词节点与病例文档节点之间的关联关系以节点之间的连接边表示而得到;其中,病例关键词之间的关联关系包括病例关键词之间的相似性关系、关联性关系和因果性关系;病例文档和病例关键词之间的关联关系是指病例关键词在病例文档中的重要性;
利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;
其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。
2.根据权利要求1所述的方法,其特征在于,所述至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,包括:
通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值;
通过解析提取得到的各个病例关键词与所述病例文档之间的关联关系,确定各个病例关键词与所述病例文档之间的关系权值;
至少根据各个病例关键词之间的关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建拓扑结构图;
其中,所述关系权值是指将关联关系量化为数值表示的结果。
3.根据权利要求2所述的方法,其特征在于,所述通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值,包括:
通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个所述病例关键词之间的句法关系权值。
4.根据权利要求3所述的方法,其特征在于,所述通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值,还包括:
通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个所述病例关键词之间的语义关系权值。
5.根据权利要求4所述的方法,其特征在于,所述通过解析提取得到的各个病例关键词之间的关联关系,确定各个病例关键词之间的关系权值,还包括:
通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值;
其中,所述滑动窗口为按照设定步长从病例关键词序列的起始字符依次滑动到末尾字符的、设定大小的滑动窗口;所述病例关键词序列由提取得到的各个病例关键词按照其在所述病例文档中的位置排列构成。
6.根据权利要求5所述的方法,其特征在于,所述至少根据各个病例关键词之间的关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建拓扑结构图,包括:
至少根据各个病例关键词之间的共现关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第一拓扑结构图;
至少根据各个病例关键词之间的语义关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第二拓扑结构图;
至少根据各个病例关键词之间的句法关系权值,以及各个病例关键词与所述病例文档之间的关系权值,构建第三拓扑结构图;
基于预先确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值,对所述第一拓扑结构图、所述第二拓扑结构图以及所述第三拓扑结构图进行加权融合处理,得到融合的拓扑结构图。
7.根据权利要求6所述的方法,其特征在于,所述第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值的确定过程,包括:
基于预先设置的第一拓扑结构图权重值、第二拓扑结构图权重值及第三拓扑结构图权重值,对根据病例样本构建的第一拓扑结构图、第二拓扑结构图及第三拓扑结构图进行加权融合处理,得到与所述病例样本对应的融合的拓扑结构图;
将所述融合的拓扑结构图输入预先设置的图神经网络,得到与所述病例样本对应的疾病诊断结果;
当所述疾病诊断结果与所述病例样本对应的真实疾病诊断结果的差异值大于设定的差异阈值时,根据所述差异值对预先设置的所述第一拓扑结构图权重值、所述第二拓扑结构图权重值、所述第三拓扑结构图权重值以及所述图神经网络的运算参数进行校正;
重复以上处理,直到所述图神经网络输出的疾病诊断结果与病例样本对应的真实疾病诊断结果的差异值不大于设定的差异阈值时,得到确定的第一拓扑结构图权重值、第二拓扑结构图权重值以及第三拓扑结构图权重值。
8.根据权利要求2至7中任意一项所述的方法,其特征在于,所述通过解析提取得到的各个病例关键词与所述病例文档之间的关联关系,确定各个病例关键词与所述病例文档之间的关系权值,包括:
分别计算提取得到的各个病例关键词在所述病例文档中的重要程度,作为各个病例关键词与所述病例文档之间的关系权值。
9.根据权利要求5所述的方法,其特征在于,所述通过计算提取得到的各个病例关键词中的、在同一滑动窗口中共现的病例关键词之间的点互信息,确定各个病例关键词之间的共现关系权值,包括:
将提取得到的各个病例关键词按照其在所述病例文档中的位置排列得到病例关键词序列;
将设定大小的滑动窗口按照设定步长从所述病例关键词序列的起始字符依次滑动到末尾字符,并记录在滑动窗口中出现过的病例关键词对;
分别计算各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率;其中,所述病例关键词组由语料库中的病例关键词序列中的至少两个相邻的病例关键词组合构成;
根据各个病例关键词对中的每个病例关键词在预设的语料库中的病例关键词组中出现的频率,以及各个病例关键词对在预设的语料库中的病例关键词组中出现的频率,计算得到各个病例关键词对包含的病例关键词之间的点互信息,并将计算得到的点互信息作为病例关键词对包含的病例关键词之间的共现关系权值。
10.根据权利要求4所述的方法,其特征在于,所述通过分析提取得到的各个病例关键词之间的语义关联关系,确定各个所述病例关键词之间的语义关系权值,包括:
利用预先训练的语义特征提取模型,分别提取各个病例关键词的包含上文语义信息的语义特征;
通过计算各个病例关键词的语义特征之间的相似度,确定各个病例关键词中具有语义关联关系的病例关键词对;
对应每个具有语义关联关系的病例关键词对,分别统计在预设的语料库中,包含该病例关键词对的病例文档的数量;其中,该病例关键词对在所述语料库中的、包含该病例关键词对的病例文档中也具有语义关联关系;
对应每个具有语义关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的语义关系权值。
11.根据权利要求3所述的方法,其特征在于,所述通过分析提取得到的各个病例关键词之间的句法关联关系,确定各个所述病例关键词之间的句法关系权值,包括:
对提取得到的各个病例关键词进行句法分析处理,确定所述各个病例关键词中具有句法关联关系的病例关键词对;
对应每个具有句法关联关系的病例关键词对,分别统计在预设的语料库中,包含该病例关键词对的病例文档的数量;其中,该病例关键词对在所述语料库中的、包含该病例关键词对的病例文档中也具有句法关联关系;
对应每个具有句法关联关系的病例关键词对,分别对包含该病例关键词对的病例文档的数量进行归一化处理,并将归一化处理结果作为该病例关键词对所包含的病例关键词之间的句法关系权值。
12.一种基于图神经网络的辅助诊断装置,其特征在于,包括:
关键词提取单元,用于从病例文档中提取得到病例关键词;
拓扑结构图构建单元,用于至少根据提取得到的各个病例关键词以及所述病例文档,构建拓扑结构图,所述拓扑结构图用于表示病例关键词之间,以及病例文档和病例关键词之间的关联关系;所述拓扑结构图以病例关键词和病例文档为节点,通过将病例关键词节点之间,以及病例关键词节点与病例文档节点之间的关联关系以节点之间的连接边表示而得到;其中,病例关键词之间的关联关系包括病例关键词之间的相似性关系、关联性关系和因果性关系;病例文档和病例关键词之间的关联关系是指病例关键词在病例文档中的重要性;
拓扑结构图分析单元,用于利用预先训练的图神经网络对所述拓扑结构图进行处理,确定与所述病例文档对应的疾病诊断结果;
其中,所述图神经网络至少通过对拓扑结构图进行处理确定疾病诊断结果训练得到。
13.一种基于图神经网络的辅助诊断设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至11中任意一项所述的基于图神经网络的辅助诊断方法。
14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至11中任意一项所述的基于图神经网络的辅助诊断方法。
CN201910567661.5A 2019-06-27 2019-06-27 基于图神经网络的辅助诊断方法、装置、设备及存储介质 Active CN110277165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567661.5A CN110277165B (zh) 2019-06-27 2019-06-27 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567661.5A CN110277165B (zh) 2019-06-27 2019-06-27 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110277165A CN110277165A (zh) 2019-09-24
CN110277165B true CN110277165B (zh) 2021-06-04

Family

ID=67963717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567661.5A Active CN110277165B (zh) 2019-06-27 2019-06-27 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110277165B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674301A (zh) * 2019-09-30 2020-01-10 出门问问信息科技有限公司 一种情感倾向预测方法、装置、系统及存储介质
CN110674317B (zh) * 2019-09-30 2022-04-12 北京邮电大学 一种基于图神经网络的实体链接方法及装置
CN110889282B (zh) * 2019-11-28 2023-03-21 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN111180024B (zh) * 2019-12-13 2023-03-21 深圳平安医疗健康科技服务有限公司 基于词频逆文档频率的数据处理方法、装置和计算机设备
CN111078884B (zh) * 2019-12-13 2023-08-15 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111160008B (zh) * 2019-12-18 2022-03-25 华南理工大学 一种实体关系联合抽取方法及系统
CN111145906B (zh) * 2019-12-31 2024-04-30 清华大学 项目判定方法、相关设备及可读存储介质
US11403488B2 (en) * 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout
CN111581969B (zh) * 2020-05-08 2023-03-31 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111599482A (zh) * 2020-05-14 2020-08-28 青岛海信医疗设备股份有限公司 电子病例推荐方法和服务器
CN111812507B (zh) * 2020-05-27 2023-05-02 浙江工业大学 一种基于图卷积的电机故障诊断方法
CN111681726B (zh) * 2020-05-29 2023-11-03 北京百度网讯科技有限公司 电子病历数据的处理方法、装置、设备和介质
CN111785369B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 诊断预测方法、相关设备及可读存储介质
CN111883251A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 医疗误诊检测方法、装置、电子设备及存储介质
CN112420192B (zh) * 2020-11-26 2023-12-15 清华大学 融合多维诊疗信息的疾病分型方法及相关设备
CN113095074A (zh) * 2021-03-22 2021-07-09 北京工业大学 中文电子病历的分词方法及系统
CN113362945A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 基于多步决策的全肺呼吸内科疾病医学辅助诊断系统
CN113488126A (zh) * 2021-07-27 2021-10-08 心医国际数字医疗系统(大连)有限公司 信息处理方法、装置、电子设备及存储介质
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN114842977B (zh) * 2022-06-30 2022-10-21 北京超数时代科技有限公司 一种基于医疗大数据及人工智能的医疗决策系统
CN116092672A (zh) * 2023-03-21 2023-05-09 四川大学华西医院 谵妄识别装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198621A (zh) * 2018-01-18 2018-06-22 中山大学 一种基于神经网络的数据库数据综合诊疗决策方法
CN108962393A (zh) * 2018-05-12 2018-12-07 鲁东大学 基于压缩图神经网络的自动心律失常分析方法
CN109598708A (zh) * 2018-11-28 2019-04-09 武汉大学人民医院(湖北省人民医院) 一种超声内镜下识别和定位胰腺癌的系统及方法
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565707B2 (en) * 2017-11-02 2020-02-18 Siemens Healthcare Gmbh 3D anisotropic hybrid network: transferring convolutional features from 2D images to 3D anisotropic volumes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198621A (zh) * 2018-01-18 2018-06-22 中山大学 一种基于神经网络的数据库数据综合诊疗决策方法
CN108962393A (zh) * 2018-05-12 2018-12-07 鲁东大学 基于压缩图神经网络的自动心律失常分析方法
CN109598708A (zh) * 2018-11-28 2019-04-09 武汉大学人民医院(湖北省人民医院) 一种超声内镜下识别和定位胰腺癌的系统及方法
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Graph Convolutional Networks for Text Classification";Liang Yao et al;《arXiv》;20181113;第1-9页 *
"Graph Neural Networks A Review of Methods and Applications";Jie Zhou et al;《arXiv》;20190131;第2-21页 *
"卷积神经网络模型在儿科疾病预测中的应用";李小整 等;《中国数字医学》;20181031(第10期);第11-13页 *
"基于机器学习的医疗健康分类方法研究";许杰;《中国优秀硕士学位论文全文数据库 医药卫生科技辑(月刊)》;20180115(第12期);第1-66页 *
"基于深度学习的中文病历病史智能分类研究";叶辉 等;《中国数字医学》;20190331(第03期);第41-43页 *

Also Published As

Publication number Publication date
CN110277165A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110277165B (zh) 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
Lund et al. Likelihood ratio as weight of forensic evidence: a closer look
JP7466058B2 (ja) グラフニューラルネットワークに基づく臨床オミックスデータ処理方法、装置、電子機器、及びコンピュータプログラム
Al-Khassaweneh et al. A signal processing approach for the diagnosis of asthma from cough sounds
Steorts et al. SMERED: A Bayesian approach to graphical record linkage and de-duplication
Farcomeni et al. Robust estimation for the Cox regression model based on trimming
WO2022179384A1 (zh) 一种社交群体的划分方法、划分系统及相关装置
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
Lin et al. Robust mixtures of factor analysis models using the restricted multivariate skew-t distribution
CN108346474A (zh) 基于单词的类内分布与类间分布的电子病历特征选择方法
US20210174968A1 (en) Visualization of Social Determinants of Health
CN112489740A (zh) 病历检测方法及相关模型的训练方法和相关设备、装置
Huang et al. Towards identifying and reducing the bias of disease information extracted from search engine data
CN112417314A (zh) 一种社交网络自杀意念检测方法及系统
Kang et al. Practice of causal inference with the propensity of being zero or one: assessing the effect of arbitrary cutoffs of propensity scores
Shrestha et al. Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection
Giorgi et al. Correcting sociodemographic selection biases for population prediction from social media
CN112820400B (zh) 基于医疗知识图谱知识推理的疾病诊断装置、设备
Gómez et al. Accuracy statistics for judging soft classification
Giorgi et al. Correcting sociodemographic selection biases for accurate population prediction from social media
Williamson Inductive influence
CN111145906B (zh) 项目判定方法、相关设备及可读存储介质
CN114429822A (zh) 病历质检方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant