CN112686306B - 基于图神经网络的icd手术分类自动匹配方法及系统 - Google Patents

基于图神经网络的icd手术分类自动匹配方法及系统 Download PDF

Info

Publication number
CN112686306B
CN112686306B CN202011599195.8A CN202011599195A CN112686306B CN 112686306 B CN112686306 B CN 112686306B CN 202011599195 A CN202011599195 A CN 202011599195A CN 112686306 B CN112686306 B CN 112686306B
Authority
CN
China
Prior art keywords
graph
icd
classification
value
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011599195.8A
Other languages
English (en)
Other versions
CN112686306A (zh
Inventor
樊昭磊
吴军
张述睿
张伯政
桑波
李福友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN202011599195.8A priority Critical patent/CN112686306B/zh
Publication of CN112686306A publication Critical patent/CN112686306A/zh
Application granted granted Critical
Publication of CN112686306B publication Critical patent/CN112686306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种基于图神经网络的ICD手术分类自动匹配方法及系统,获取病例中医生录入的手术描述数据,并将手术描述数据中每一个字用字向量来表示,得到字向量序列,进一步得到手术描述信息,获取所有ICD手术分类的标准编码描述,将建模后的手术描述信息融合到ICD手术分类的标准编码描述中,得到融入当前手术描述信息的所有编码描述的数学表达,结合所有编码描述的数学表达和预设图神经网络得到不同的图结构,利用图结构进行注意力计算,重构ICD手术分类标签图结构中的每一个节点,根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果;增加了模型在多标签预测任务中输出结果的合理性,避免输出不合理的分类组合。

Description

基于图神经网络的ICD手术分类自动匹配方法及系统
技术领域
本公开涉及数据处理技术领域,特别涉及一种基于图神经网络的ICD手术分类自动匹配方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
国际疾病分类中的手术与操作分类,以下简称为ICD手术分类。每一种ICD手术分类都对应着一条由数字和字母组成的编码,以下简称为ICD手术编码。ICD手术分类是医院病案信息加工、检索、汇总、统计的主要工具,在医疗、研究、教学等方面发挥重要作用。ICD手术分类是由专业编码员负责的,是一项非常繁琐的工作任务。编码员首先查阅医生录入的手术描述,然后人工查阅分类向导,将医生录入的手术描述匹配到一个或若干个最符合的ICD手术编码条目上。在临床中,医生录入的手术描述经常使用缩写和简称,这使手术描述的含义变得模糊,编码员经常因为这种情况犯一些主观错误。因此,开发针对ICD手术分类的自动匹配方法,对提高临床中病案信息的处理质量和效率有重要意义。
发明人发现,使用一般的统计机器学习模型或深度学习模型往往无法有效应对ICD手术分类这样的分类问题,一般的方法在这样庞大的分类空间容易产生过拟合或拟合能力欠佳;而且该分类问题属于多标签分类问题,也就是说一条医生录入的手术描述可能对应若干个ICD手术分类,这进一步增加了分类难度;而且因为病案工作的严谨性,一般的方法产生较多的分类错误问题是不可接受的。
发明内容
为了解决现有技术的不足,本公开提供了一种基于图神经网络的ICD手术分类自动匹配方法及系统,利用了ICD手术与操作与分类的层级结构,并以此构建出图神经网络模型,可让模型融入ICD手术与操作分类的上下级关系,给模型增加了分类的匹配线索;利用数据集中ICD手术与操作分类标签组合的条件概率依赖关系,进行图神经网络模型的节点分类,可进一步增加模型在多标签预测任务中输出结果的合理性,避免输出不合理的分类组合。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于图神经网络的ICD手术分类自动匹配方法。
一种基于图神经网络的ICD手术分类自动匹配方法,包括以下步骤:
获取病例中医生录入的手术描述数据,并将手术描述数据中每一个字用字向量来表示,得到字向量序列;
利用预设卷积神经网络对字向量序列进行建模,得到建模后的手术描述信息;
获取所有ICD手术分类的标准编码描述,将建模后的手术描述信息融合到ICD手术分类的标准编码描述中,得到融入当前手术描述信息的所有编码描述的数学表达;
结合所有编码描述的数学表达和预设图神经网络得到不同的图结构,利用图结构进行注意力计算,通过相邻节点线性加权求和,重构ICD手术分类标签图结构中的每一个节点;
根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果。
作为可能的一些实现方式,获取ICD手术分类的层级结构,层级结构中每一个节点都是由一串数字和字母组成的编码和与之对应的编码描述组成;
将每一条ICD手术编码描述作为节点,根据边的连接方向使ICD手术分类的标签空间形成有向图或无向图结构,利用预设图神经网络对标签空间建模,构建up图、down图和undirected图三种图结构。
作为进一步的限定,分别使用Up图、Down图和Undirected图三种图结构对标签空间建模,标签空间中的每个节点得到三种图结构的计算结果;
把注意力重构的过程重复若干次,在注意力机制重构的过程中,对每一个节点,都用与其相邻的节点重新表示,并且将多个头的计算结果进行级联,得到最终的所有编码描述的数学表达。
作为进一步的限定,图神经网络模型的训练,包括:
Y为所有节点对应的标签,为一个独热编码向量,且Y内的值为0或1,设Y中为1的值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的;
使用一个平滑函数对Y进行平滑,得到平滑结果Y′;
把节点之间的条件概率依赖关系通过Y′融入ICD手术编码描述的数学表达中;
对于第i条编码描述的数学表达v″i,得到
Figure BDA0002868484370000031
Figure BDA0002868484370000035
指的是从Y′去除第i个值得到的向量,
Figure BDA0002868484370000032
指的是从V″去除v″i后得到的矩阵;
求出所有的ICD标准编码描述的数学表达,
Figure BDA0002868484370000033
并将
Figure BDA0002868484370000034
映射为概率
Figure BDA0002868484370000041
使用交叉熵作为损失函数,并将损失最小化,从而得到模型的所有可训练参数。
作为更进一步的限定,根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果,包括:
首先从0到1之间随机选择数值,随机初始化一个向量
Figure BDA0002868484370000042
不断对
Figure BDA0002868484370000043
中的值进行更新,直到
Figure BDA0002868484370000044
中的值基本没有变化,得到更新后的
Figure BDA0002868484370000045
对原值
Figure BDA0002868484370000046
和更新的值
Figure BDA0002868484370000047
求平方差,当平方差小于预设阈值,判定
Figure BDA0002868484370000048
的值和
Figure BDA0002868484370000049
的值基本没有差异;
最终得到的
Figure BDA00028684843700000410
表示当前输入的手术描述和所有标准手术编码描述匹配的概率,当
Figure BDA00028684843700000411
中大于预设值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的。
作为更进一步的限定,令
Figure BDA00028684843700000412
Figure BDA00028684843700000413
指的是从
Figure BDA00028684843700000414
去除第i个值得到的向量;
求出所有ICD标准编码描述的数学表达,
Figure BDA00028684843700000415
Figure BDA00028684843700000416
σ是sigmoid非线性激活函数,W1和W2是两个可训练权重矩阵;
Figure BDA00028684843700000417
的值替换
Figure BDA00028684843700000418
的值并重复上述过程,直到
Figure BDA00028684843700000419
的值和
Figure BDA00028684843700000420
的值基本没有差异。
作为进一步的限定,up图,表示所有边由下级节点指向其上级节点,并包括每个节点自身形成的环边,形成的由亚目到大章节方向的有向图结构;
down图,表示所有边由上级节点指向其下级节点,并包括每个节点自身形成的环边,形成的由大章节到亚目方向的有向图结构;
undirected图,表示结合up图和down图形成的不区分方向的无向图结构。
本公开第二方面提供了一种基于图神经网络的ICD手术分类自动匹配系统。
一种基于图神经网络的ICD手术分类自动匹配系统,包括:
数据预处理模块,被配置为:获取病例中医生录入的手术描述数据,并将手术描述数据中每一个字用字向量来表示,得到字向量序列;
手术描述信息获取模块,被配置为:利用预设卷积神经网络对字向量序列进行建模,得到建模后的手术描述信息;
数据融合模块,被配置为:获取所有ICD手术分类的标准编码描述,将建模后的手术描述信息融合到ICD手术分类的标准编码描述中,得到融入当前手术描述信息的所有编码描述的数学表达;
节点重构模块,被配置为:结合所有编码描述的数学表达和预设图神经网络得到不同的图结构,利用图结构进行注意力计算,通过相邻节点线性加权求和,重构ICD手术分类标签图结构中的每一个节点;
分类匹配模块,被配置为:根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果。
本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于图神经网络的ICD手术分类自动匹配方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于图神经网络的ICD手术分类自动匹配方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质或电子设备,利用了ICD手术与操作与分类的层级结构,并以此构建出的图神经网络模型,可让模型融入ICD手术与操作分类的上下级关系,给模型增加了分类的匹配线索。
2、本公开所述的方法、系统、介质或电子设备,利用数据集中ICD手术与操作分类标签组合的条件概率依赖关系,进行图神经网络模型的节点分类,可进一步增加模型在多标签预测任务中输出结果的合理性,避免输出不合理的分类组合。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的基于图神经网络的ICD手术分类自动匹配方法的流程示意图。
图2为本公开实施例1提供的ICD手术分类的层级结构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种基于图神经网络的ICD手术分类自动匹配方法,首先使用一种图神经网络对ICD手术与操作分类的标签层级结构进行建模,图神经网络中每个节点代表一种手术与操作分类的标签,在建模过程中利用ICD手术与操作分类的层级结构构建出三种不同的图结构来发掘标签之间的关系并以此提升模型的分类性能;之后使用标签之间的条件概率依赖关系和注意力机制进行节点分类,利用分类标签组合的条件概率依赖关系,可进一步提升ICD手术与操作编码匹配的合理性。
具体的,包括以下内容:
S1:获取医学教科书文本语料,使用skip-gram模型得到字向量,字向量矩阵表示为Δ,
Figure BDA0002868484370000071
Figure BDA0002868484370000072
为实数空间,Nc为字库中字的总个数,d为字向量的维度,字向量可将文本中的一个字通过字典中的索引映射为一条向量,字向量在本实施例中是可训练参数。
S2:在病例中获取医生录入的手术描述,手术描述为一段文本,通过字典索引步骤S1中的字向量矩阵,将手术描述中每一个字用字向量来表示。
一段手术描述可表示为:
Figure BDA0002868484370000073
其中,X为一段手术描述的字向量表达,xj为手术描述中第j个字所对应的字向量,Nx为一段手术描述的总字数,
Figure BDA0002868484370000074
S3:使用卷积神经网络对手术描述的字向量序列进行建模,卷积神经网络对每一个字向量的操作可表示为:
hj=tanh(Wcnn∧xj:j+k-1+bcnn)
其中,hj表示经过卷积神经网络建模后的第j条字向量,k是卷积核的大小,Wcnn是卷积神经网络的可训练参数,维度为
Figure BDA0002868484370000081
bcnn是可训练的偏置参数,
Figure BDA0002868484370000082
“∧”表示卷积操作,tanh表示双曲正切函数。
经过卷积神经网络建模之后的一段手术描述表示为:
Figure BDA0002868484370000083
S4:获取所有ICD手术分类的标准编码描述,并通过以下方法将S2、S3步骤的手术描述信息融合到ICD手术分类的标准编码描述中,获取标准编码描述的数学表达。
首先通过字典索引步骤S1中的字向量矩阵,将标准编码描述的每一个字用字向量表示,并对每一条编码描述的字向量序列求平均,公式表达为:
Figure BDA0002868484370000084
其中,vi为第i条ICD手术分类的标准编码描述的数学表达,Nw是第i条标准编码描述的字数,
Figure BDA0002868484370000085
i为正整数,L是所有ICD手术分类标准编码描述的个数。
之后计算通过S3步骤获取的手术描述H与每条标准编码描述vi的注意力权重,并使用注意力权重对H进行重构,获取每一条融入当前手术描述信息的ICD手术分类标准编码描述的数学表达,计算步骤为:
αi=softmax(Hvi)
其中,softmax函数是
Figure BDA0002868484370000091
αi是一条向量,
Figure BDA0002868484370000092
αi表示手术描述H对于第i条标准编码描述的注意力权重,之后使用αi对H进行重构,计算步骤为:
Figure BDA0002868484370000093
其中,v′i为融入手术描述信息的第i条标准编码描述,
Figure BDA0002868484370000094
至此所有编码描述数学表达的集合可表示为V′={v′i=1,v′i=2,...,v′i=L}。
获取ICD手术分类的层级结构,图2所示的是ICD手术分类的层级结构,层级结构中每一个节点都是由一串数字和字母组成的编码和与之对应的编码描述组成的。ICD手术分类含有5个层级,分别是大章节(18个分类)、小章节(100个分类)、类目(890个分类)、亚目(3755个分类)、细目(9100个分类),共含有13863个分类。从大章节层级到细目层级,是一个不断细化分类的过程。
将每一条ICD手术编码描述叫做节点,即把每条编码描述的数学表达vi′称之为节点,上级节点和下级节点之间用边连接,如图2中,01.0(类目)颅穿刺的下级节点的编码是01.0200和01.0900,01.0200的上级节点编码是01.0。根据边的连接方向可使ICD手术分类的标签空间形成有向图或无向图结构,再使用一种图神经网络对标签空间建模。
本实施例提出在图神经网络建模中构建以下三种不同的图结构:
up图:所有边由下级节点指向其上级节点,并包括每个节点自身形成的环边,形成由亚目到大章节方向的有向图结构。
down图:所有边由上级节点指向其下级节点,并包括每个节点自身形成的环边,形成由大章节到亚目方向的有向图结构。
undirected图:结合up图和down图形成不区分方向的无向图结构。
在完成上述三种图结构的构建之后,使用图注意力网络进行建模,即通过3种图结构分别进行注意力计算,最后将计算的结果级联。
首先进行图注意力权重的计算,公式表达为:
Figure BDA0002868484370000101
其中βii′是一个标量,表示v′i节点与v′i′节点的注意力权重,a是一条由可训练参数组成的向量,
Figure BDA0002868484370000102
T表示向量或矩阵转置,
Figure BDA0002868484370000103
表示矩阵级联,N(i)表示与vi′节点相邻的且边的方向指向v′i的所有节点的集合,并包括v′i节点自身,ReLU是线性整流函数,
Figure BDA0002868484370000104
是一个可训练的权重矩阵,所有节点都使用权重矩阵W进行计算,用来获取更强的特征表达能力。
得到注意力权重后,通过相邻节点线性加权求和的方法,重构ICD手术分类标签图结构中的每一个节点,为了使模型在高维度语义空间内捕捉到更丰富的特征,把注意力重构的过程重复若干次,之后把所有的结果进行级联,公式表达为:
Figure BDA0002868484370000105
其中,M表示注意力机制头的数量,
Figure BDA0002868484370000106
表示第m个头的注意力权重,Wm是第m个头的可训练权重矩阵,维度为
Figure BDA0002868484370000107
||表示矩阵级联,在注意力机制重构的过程中,对每一个节点,都用与其相邻的节点重新表示,并且将M个头的计算结果进行级联,则最终
Figure BDA0002868484370000108
分别使用Up图、Down图和Undirected图三种图结构对标签空间建模,标签空间中的每个节点得到三种图结构的计算结果。如从编码描述v′i得到的是
Figure BDA0002868484370000109
Figure BDA00028684843700001010
Figure BDA00028684843700001011
他们的维度都是Md。
将它们级联得到最终的节点数学表达,之后将维度映射回d并使用ReLU函数进行激活,
Figure BDA0002868484370000111
W0为一个可训练权重矩阵,维度为
Figure BDA0002868484370000112
v″i是一条ICD手术编码描述叫的数学表达,也是图结构中的一个节点的数学表达,所有ICD手术编码描述的数学表达可表示为V″={v″i=1,v″i=2,...,v″i=L}。
S5:使用节点之间的条件概率依赖关系和注意力机制进行模型的训练和预测匹配结果。
本步骤在模型训练和预测的过程中使用了不同的方法:
S5.1:当模型训练时:
模型训练时,Y为所有节点对应的标签,Y为一个独热编码向量,Y内的值非0即1,Y的维度为
Figure BDA0002868484370000113
设Y中为1的值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的。
首先使用一个平滑函数对Y进行平滑:
Y′=softmax(Y*(1-γ)+0.5*γ)
其中,γ为一个超参数,在本实施例中γ=0.05,softmax是激活函数;
之后把节点之间的条件概率依赖关系通过Y′融入ICD手术编码描述的数学表达中,对于第i条编码描述的数学表达v″i进行以下计算:
Figure BDA0002868484370000114
其中,
Figure BDA0002868484370000115
指的是从Y′去除第i个值得到的向量,
Figure BDA0002868484370000116
Figure BDA0002868484370000117
指的是从V″去除v″i后得到的矩阵,
Figure BDA0002868484370000118
表示在索引的维度求和,之后对
Figure BDA0002868484370000119
和vi进行级联,最终得到
Figure BDA00028684843700001110
Figure BDA00028684843700001111
的维度为
Figure BDA00028684843700001112
之后求出所有的ICD标准编码描述的数学表达,
Figure BDA00028684843700001113
并将
Figure BDA00028684843700001114
映射为概率,公式表示为:
Figure BDA00028684843700001115
Figure BDA0002868484370000121
表示当前输入的手术描述和所有L条标准手术编码描述匹配的概率,
Figure BDA0002868484370000122
的取值范围介于0到1之间,
Figure BDA0002868484370000123
的维度为
Figure BDA0002868484370000124
σ是sigmoid非线性激活函数,W1和W2是两个可训练权重矩阵,维度为
Figure BDA0002868484370000125
之后使用交叉熵作为损失函数,并将损失最小化,从而得到上述模型的所有可训练参数,公式表达为:
Figure BDA0002868484370000126
其中,Loss为定义的损失,之后使用梯度下降法将Loss最小化即可得到模型的所有可训练参数。
S5.1:当模型预测时
首先从0到1之间随机选择数值,随机初始化一个向量
Figure BDA0002868484370000127
之后使用以下方法不断对
Figure BDA0002868484370000128
中的值进行更新,直到
Figure BDA0002868484370000129
中的值基本没有变化:
(1)
Figure BDA00028684843700001210
(2)
Figure BDA00028684843700001211
Figure BDA00028684843700001212
指的是从
Figure BDA00028684843700001213
去除第i个值得到的向量;
(3)通过(2)求出所有的ICD标准编码描述的数学表达:
Figure BDA00028684843700001214
(4)
Figure BDA00028684843700001215
Figure BDA00028684843700001216
的值替换
Figure BDA00028684843700001217
的值并重复(1)、(2)、(3)、(4),直到
Figure BDA00028684843700001218
的值和
Figure BDA00028684843700001219
的值基本没有差异。
为了判断是否属于基本没有差异,需要对原值
Figure BDA00028684843700001220
和更新的值
Figure BDA00028684843700001221
求平方差:
Figure BDA00028684843700001222
然后设一个极小值作为阈值,在本实施例中,阈值被设为1e-10,如求出的平方差小于这个阈值,则判定
Figure BDA00028684843700001223
的值和
Figure BDA00028684843700001224
的值基本没有差异。
最终
Figure BDA0002868484370000131
表示当前输入的手术描述和所有L条标准手术编码描述匹配的概率,设
Figure BDA0002868484370000132
中大于0.5的值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的。
实施例2:
本公开实施例2提供了一种基于图神经网络的ICD手术分类自动匹配系统,包括:
数据预处理模块,被配置为:获取病例中医生录入的手术描述数据,并将手术描述数据中每一个字用字向量来表示,得到字向量序列;
手术描述信息获取模块,被配置为:利用预设卷积神经网络对字向量序列进行建模,得到建模后的手术描述信息;
数据融合模块,被配置为:获取所有ICD手术分类的标准编码描述,将建模后的手术描述信息融合到ICD手术分类的标准编码描述中,得到融入当前手术描述信息的所有编码描述的数学表达;
节点重构模块,被配置为:结合所有编码描述的数学表达和预设图神经网络得到不同的图结构,利用图结构进行注意力计算,通过相邻节点线性加权求和,重构ICD手术分类标签图结构中的每一个节点;
分类匹配模块,被配置为:根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果。
所述系统的工作方法与实施例1提供的基于图神经网络的ICD手术分类自动匹配方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的基于图神经网络的ICD手术分类自动匹配方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于图神经网络的ICD手术分类自动匹配方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种基于图神经网络的ICD手术分类自动匹配方法,其特征在于:包括以下步骤:
获取病例中医生录入的手术描述数据,并将手术描述数据中每一个字用字向量来表示,得到字向量序列;
利用预设卷积神经网络对字向量序列进行建模,得到建模后的手术描述信息;
获取所有ICD手术分类的标准编码描述,将建模后的手术描述信息融合到ICD手术分类的标准编码描述中,得到融入当前手术描述信息的所有编码描述的数学表达;
结合所有编码描述的数学表达和预设图神经网络得到不同的图结构,利用图结构进行注意力计算,通过相邻节点线性加权求和,重构ICD手术分类标签图结构中的每一个节点;
根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果;
所述根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果,包括:
首先从0到1之间随机选择数值,随机初始化一个向量
Figure FDA0003949856190000011
之后使用以下方法不断对
Figure FDA0003949856190000012
中的值进行更新:
(1)
Figure FDA0003949856190000013
(2)
Figure FDA0003949856190000014
Figure FDA0003949856190000015
指的是从
Figure FDA0003949856190000016
去除第i个值得到的向量;
(3)通过(2)求出所有的ICD标准编码描述的数学表达:
Figure FDA0003949856190000017
(4)
Figure FDA0003949856190000018
σ是sigmoid非线性激活函数,W1和W2是两个可训练权重矩阵;
Figure FDA0003949856190000021
的值替换
Figure FDA0003949856190000022
的值并重复(1)、(2)、(3)、(4),直到
Figure FDA0003949856190000023
的值和
Figure FDA0003949856190000024
的值的平方差小于预设阈值,停止替换;
对原值
Figure FDA0003949856190000025
和更新的值
Figure FDA0003949856190000026
求平方差:
Figure FDA0003949856190000027
然后设一个极小值作为阈值,阈值被设为1e-10,如求出的平方差小于这个阈值,则停止替换;
最终得到的
Figure FDA0003949856190000028
表示当前输入的手术描述和所有L条标准手术编码描述匹配的概率,设
Figure FDA0003949856190000029
中大于0.5的值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的。
2.如权利要求1所述的基于图神经网络的ICD手术分类自动匹配方法,其特征在于:
获取ICD手术分类的层级结构,层级结构中每一个节点都是由一串数字和字母组成的编码和与之对应的编码描述组成;
将每一条ICD手术编码描述作为节点,根据边的连接方向使ICD手术分类的标签空间形成有向图或无向图结构,利用预设图神经网络对标签空间建模,构建up图、down图和undirected图三种图结构。
3.如权利要求2所述的基于图神经网络的ICD手术分类自动匹配方法,其特征在于:
分别使用Up图、Down图和Undirected图三种图结构对标签空间建模,标签空间中的每个节点得到三种图结构的计算结果;
把注意力重构的过程重复若干次,在注意力机制重构的过程中,对每一个节点,都用与其相邻的节点重新表示,并且将多个头的计算结果进行级联,得到最终的所有编码描述的数学表达。
4.如权利要求2所述的基于图神经网络的ICD手术分类自动匹配方法,其特征在于:
图神经网络模型的训练,包括:
Y为所有节点对应的标签,为一个独热编码向量,且Y内的值为0或1,设Y中为1的值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的;
使用一个平滑函数对Y进行平滑,得到平滑结果Y′;
把节点之间的条件概率依赖关系通过Y′融入ICD手术编码描述的数学表达中;
对于第i条编码描述的数学表达v″i,得到
Figure FDA0003949856190000031
Y′-i指的是从Y′去除第i个值得到的向量,V″i指的是从V″去除v″i后得到的矩阵;
求出所有的ICD标准编码描述的数学表达,
Figure FDA0003949856190000032
并将
Figure FDA0003949856190000033
映射为概率
Figure FDA0003949856190000034
1≤i≤L,i为正整数,L是所有ICD手术分类标准编码描述的个数;
使用交叉熵作为损失函数,并将损失最小化,从而得到模型的所有可训练参数。
5.如权利要求2所述的基于图神经网络的ICD手术分类自动匹配方法,其特征在于:
up图,表示所有边由下级节点指向其上级节点,并包括每个节点自身形成的环边,形成的由亚目到大章节方向的有向图结构;
down图,表示所有边由上级节点指向其下级节点,并包括每个节点自身形成的环边,形成的由大章节到亚目方向的有向图结构;
undirected图,表示结合up图和down图形成的不区分方向的无向图结构。
6.一种基于图神经网络的ICD手术分类自动匹配系统,其特征在于:包括:
数据预处理模块,被配置为:获取病例中医生录入的手术描述数据,并将手术描述数据中每一个字用字向量来表示,得到字向量序列;
手术描述信息获取模块,被配置为:利用预设卷积神经网络对字向量序列进行建模,得到建模后的手术描述信息;
数据融合模块,被配置为:获取所有ICD手术分类的标准编码描述,将建模后的手术描述信息融合到ICD手术分类的标准编码描述中,得到融入当前手术描述信息的所有编码描述的数学表达;
节点重构模块,被配置为:结合所有编码描述的数学表达和预设图神经网络得到不同的图结构,利用图结构进行注意力计算,通过相邻节点线性加权求和,重构ICD手术分类标签图结构中的每一个节点;
分类匹配模块,被配置为:根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果;
所述根据重构的节点间的条件概率依赖关系,得到手术描述的分类匹配结果,包括:
首先从0到1之间随机选择数值,随机初始化一个向量
Figure FDA0003949856190000041
之后使用以下方法不断对
Figure FDA0003949856190000042
中的值进行更新:
(1)
Figure FDA0003949856190000043
(2)
Figure FDA0003949856190000044
Figure FDA0003949856190000045
指的是从
Figure FDA0003949856190000046
去除第i个值得到的向量;
(3)通过(2)求出所有的ICD标准编码描述的数学表达:
Figure FDA0003949856190000051
(4)
Figure FDA0003949856190000052
σ是sigmoid非线性激活函数,W1和W2是两个可训练权重矩阵;
Figure FDA0003949856190000053
的值替换
Figure FDA0003949856190000054
的值并重复(1)、(2)、(3)、(4),直到
Figure FDA0003949856190000055
的值和
Figure FDA0003949856190000056
的值的平方差小于预设阈值,停止替换;
对原值
Figure FDA0003949856190000057
和更新的值
Figure FDA0003949856190000058
求平方差:
Figure FDA0003949856190000059
然后设一个极小值作为阈值,阈值被设为1e-10,如求出的平方差小于这个阈值,则停止替换;
最终得到的
Figure FDA00039498561900000510
表示当前输入的手术描述和所有L条标准手术编码描述匹配的概率,设
Figure FDA00039498561900000511
中大于0.5的值所对应的索引为i,则i表示当前输入手术描述和第i条编码描述是相匹配的。
7.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的基于图神经网络的ICD手术分类自动匹配方法中的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于图神经网络的ICD手术分类自动匹配方法中的步骤。
CN202011599195.8A 2020-12-29 2020-12-29 基于图神经网络的icd手术分类自动匹配方法及系统 Active CN112686306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011599195.8A CN112686306B (zh) 2020-12-29 2020-12-29 基于图神经网络的icd手术分类自动匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011599195.8A CN112686306B (zh) 2020-12-29 2020-12-29 基于图神经网络的icd手术分类自动匹配方法及系统

Publications (2)

Publication Number Publication Date
CN112686306A CN112686306A (zh) 2021-04-20
CN112686306B true CN112686306B (zh) 2023-03-24

Family

ID=75454278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011599195.8A Active CN112686306B (zh) 2020-12-29 2020-12-29 基于图神经网络的icd手术分类自动匹配方法及系统

Country Status (1)

Country Link
CN (1) CN112686306B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988013A (zh) * 2021-10-25 2022-01-28 清华大学 基于多任务学习和图注意力网络的icd编码方法及装置
CN115270718B (zh) * 2022-07-26 2023-10-10 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质
CN110895580A (zh) * 2019-12-12 2020-03-20 山东众阳健康科技集团有限公司 一种基于深度学习的icd手术与操作编码自动匹配方法
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111402974A (zh) * 2020-03-06 2020-07-10 西南交通大学 一种基于深度学习的电子病历icd自动编码方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质
CN110895580A (zh) * 2019-12-12 2020-03-20 山东众阳健康科技集团有限公司 一种基于深度学习的icd手术与操作编码自动匹配方法
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN111402974A (zh) * 2020-03-06 2020-07-10 西南交通大学 一种基于深度学习的电子病历icd自动编码方法
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A Label Attention Model for ICD Coding Clinical Text";Thanh Vu et al.;《arXiv》;20200713;全文 *
"一种基于深度神经网络的临床记录ICD自动编码方法";杜逸超 等;《万方数据知识服务平台》;20201203;全文 *
"基于融合条目词嵌入和注意力机制的自动ICD编码";张虹科 等;《北京大学学报(自然科学版)》;20200131;第56卷(第1期);全文 *
"面向ICD疾病分类的深度学习方法研究";张述睿 等;《计算机工程与应用》;20201021;全文 *

Also Published As

Publication number Publication date
CN112686306A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
US11900225B2 (en) Generating information regarding chemical compound based on latent representation
CN109992783B (zh) 中文词向量建模方法
US11645541B2 (en) Machine learning model interpretation
US20210034813A1 (en) Neural network model with evidence extraction
Nyathi et al. Comparison of a genetic algorithm to grammatical evolution for automated design of genetic programming classification algorithms
CN113420163B (zh) 基于矩阵融合的异构信息网知识图谱补全方法和装置
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
US11334791B2 (en) Learning to search deep network architectures
CN112686306B (zh) 基于图神经网络的icd手术分类自动匹配方法及系统
JP6172317B2 (ja) 混合モデル選択の方法及び装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
CN115270718B (zh) 一种疾病编码的自动编目方法及系统
CN112380835A (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
CN117688974B (zh) 基于知识图谱的生成式大模型建模方法、系统及设备
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN112836506A (zh) 一种基于上下文语义的信源编译码方法和装置
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
WO2014130287A1 (en) Method and system for propagating labels to patient encounter data
JP3896868B2 (ja) パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
CN116992942B (zh) 自然语言模型优化方法、装置、自然语言模型、设备和介质
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN114003684A (zh) 一种基于开放世界假设的医疗信息关系预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee after: Zhongyang Health Technology Group Co.,Ltd.

Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd.

CP01 Change in the name or title of a patent holder