CN114580354B - 基于同义词的信息编码方法、装置、设备和存储介质 - Google Patents
基于同义词的信息编码方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114580354B CN114580354B CN202210478341.4A CN202210478341A CN114580354B CN 114580354 B CN114580354 B CN 114580354B CN 202210478341 A CN202210478341 A CN 202210478341A CN 114580354 B CN114580354 B CN 114580354B
- Authority
- CN
- China
- Prior art keywords
- semantic
- semantic representation
- descriptions
- medical record
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 201000010099 disease Diseases 0.000 claims abstract description 153
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 153
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 86
- 238000011176 pooling Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 208000037386 Typhoid Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000012015 potatoes Nutrition 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 201000008297 typhoid fever Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供一种基于同义词的信息编码方法、装置、设备和存储介质,该方法包括:对病历文本中的词语进行编码,以得到病历文本对应的第一语义表示;获取预设的疾病编码标识所对应的多种描述,多种描述中包括与疾病编码标识对应的标准描述以及同义词描述。根据所述多种描述确定疾病编码标识对应的第二语义表示,根据所述多种描述和第一语义表示,确定病历文本对应于疾病编码标识的第三语义表示。根据第三语义表示与第二语义表示的相似度,确定病历文本是否标记上所述疾病编码标识。在上述病历文本的自动编码过程中,充分利用了疾病名称的同义词描述,从而可以实现病历文本的自动、准确编码处理。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于同义词的信息编码方法、装置、设备和存储介质。
背景技术
各家医疗机构在管理病历文本时,需要请编码人员将病历文本编码映射到国际疾病分类(international Classification of diseases ,简称ICD)等标准编码标识上,诸如ICD9或者ICD10等标准编码标识。编码的过程容易出错,且消耗大量人力。
发明内容
本发明实施例提供一种基于同义词的信息编码方法、装置、设备和存储介质,用以提高信息编码结果的准确性。
第一方面,本发明实施例提供一种基于同义词的信息编码方法,所述方法包括:
对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;
根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
第二方面,本发明实施例提供一种基于同义词的信息编码装置,所述装置包括:
病历编码模块,用于对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
描述获取模块,用于获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
语义处理模块,用于根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的基于同义词的信息编码方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的基于同义词的信息编码方法。
第五方面,本发明实施例提供一种基于同义词的信息编码方法,所述方法包括:
对目标文本中的词语进行编码,以得到所述目标文本对应的第一语义表示;
获取预设的类别标识所对应的多种类别描述,所述多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述;
根据所述多种类别描述,确定所述类别标识对应的第二语义表示;
根据所述多种类别描述和所述第一语义表示,确定所述目标文本对应于所述类别标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述目标文本中是否标记上所述类别标识。
本发明实施例可以实现对病历文本)进行按照所包含的疾病进行疾病编码标识的自动编码。具体地,针对病历文本中包含的各个词语,可以先进行语义编码处理,以得到病历文本对应的第一语义表示。针对已知的各疾病编码标识(比如ICD9中包含的各编码标识),一方面获取每个疾病编码标识所对应的标准描述,即标准的疾病名称,另一方面获得该标准描述对应的同义词描述,从而得到由同一疾病编码标识对应的标准描述和各种同义词描述构成的多种描述,继而针对同一疾病编码标识对应的每种描述进行语义编码,结合每种描述的语义编码结果得到这种疾病编码标识所对应的第二语义表示。之后,根据任一疾病编码标识对应的多种描述以及所述第一语义表示,确定病历文本对应于该疾病编码标识的第三语义表示,即病历文本基于这个疾病编码标识标签的语义表示。根据第三语义表示与第二语义表示的相似度,确定病历文本是否应该标记上这个疾病编码标识。
在上述病历文本的自动编码过程中,充分利用了疾病名称的同义词描述,从而可以实现病历文本的自动、准确编码处理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于同义词的信息编码方法的流程图;
图2为本发明实施例提供的一种病历编码过程的示意图;
图3为本发明实施例提供的一种基于同义词的信息编码方法的流程图;
图4为本发明实施例提供的一种基于同义词的信息编码方法的流程图;
图5为本发明实施例提供的一种基于同义词的信息编码方法的应用示意图;
图6为本发明实施例提供的一种基于同义词的信息编码装置的结构示意图;
图7为与图6所示实施例提供的基于同义词的信息编码装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的基于同义词的信息编码方法可以由一电子设备来执行,该电子设备可以是服务器,也可以是用户终端,该服务器可以是云端的物理服务器或虚拟服务器(虚拟机)。
图1为本发明实施例提供的一种基于同义词的信息编码方法的流程图,如图1所示,该方法包括如下步骤:
101、对病历文本中的词语进行编码,以得到病历文本对应的第一语义表示。
102、获取预设的疾病编码标识所对应的多种描述,多种描述中包括与疾病编码标识对应的标准描述以及同义词描述。
103、根据所述多种描述,确定所述疾病编码标识对应的第二语义表示。
104、根据所述多种描述和第一语义表示,确定病历文本对应于所述疾病编码标识的第三语义表示。
105、根据第三语义表示与第二语义表示的相似度,确定病历文本是否标记上所述疾病编码标识。
本发明实施例提供的方案可以应用于对病历文本进行疾病编码的应用场景中。对病历文本进行疾病编码,就是按照病历文本中包含的疾病名称等描述内容,确定出应该为该病历文本标记上的通用的疾病编码标识,比如其中包含“B型副伤寒”,则对应的疾病编码标识为A10.2。基于对病历文本的疾病编码标识的自动确定,可以为病历文本分类归档、查询以及医生了解病人既往病史等提供便利。
实际应用中,该病历文本可以是门诊病历,也可以是住院病历。该病历文本可以是对手写病历进行扫描而得到,也可以是直接在电脑等终端上填写病历文本表单而自动生成。由于本发明实施例提供的方案主要是针对病历文本中的文字内容进行处理,因此,本发明实施例中也将病历文本统称为病历文本。
为了实现对病历文本的疾病编码,首先,需要对一个病历文本进行编码处理,以得到病历文本对应的语义表示,称为第一语义表示。
具体地,病历文本中会描写有关病症、疾病名称等信息,对这些描述内容进行分词处理,可以得到多个词语(或者称为单词),可以先对每个词语进行词向量编码(比如word2vec等),以映射为计算机能够处理的数学向量形式。之后,可以采用某种神经网络模型,将得到的多个词语各自对应的词向量输入到该神经网络模型中,以得到该神经网络模型针对这多个词语分别输出的隐层状态,作为相应词语对应的语义向量,最终,多个词语各自对应的语义向量构成了该病历文本对应的第一语义表示。
在实际应用中,上述分词处理也可以是逐个文字的拆分,即单词。上述神经网络模型可以采用双向长短期记忆网络(Bi-directional Long-Short Term Memory,简称Bi-LSTM)模型、LSTM模型、循环神经网络(Recurrent Neural Network,简称RNN)模型,等等。
为便于理解,举例来说,对于一份病历文本,假设其输入由若干词语(或称为单词)
组成,这些词语表示为集合:,其中,表示词语总数,表示其中一个词语。进而假设
针对其中每个词语进行词向量编码后得到对应的词向量集合为:,其中,表示词
语对应的词向量。
之后,比如通过Bi-LSTM模型对上述词向量集合中的各个词向量进行语义编码,得
到如下编码结果:。其中,表示的是语义编码计算,表示
词向量对应的语义向量,即将词向量输入到模型后模型输出的隐藏状态向量。表示
个语义向量构成的矩阵,即第一语义表示。
由于对病历文本进行疾病编码处理,实际上是从已知的若干疾病编码标识中确定当前的病历文本所对应的疾病编码标识,即当前的病历文本中所应该包含的疾病编码标识。所以,通过查询通用的疾病编码标识数据库,便可以得知每种疾病编码标识以及其对应的标准的疾病描述内容,通常为一种标准的疾病名称。之后,针对每种疾病编码标识所对应的描述内容进行语义编码处理。
本发明实施例中,为了提高病历文本的疾病编码结果的准确性,针对任一个疾病编码标识来说,不仅考虑了其在上述数据库中对应的标准描述,还考虑了同义词描述。举例来说,假设在上述数据库中,某疾病编码标识对应的标准描述为“伤寒”,那么可以通过查询已知的医学知识图谱等方式,确定与其对应的同义词描述,比如包括“感冒”、“风寒”等等。知识图谱的创建不属于本发明实施例的重点,不详细阐述。
也就是说,本发明实施例中,对病历文本进行自动编码时,因为同种疾病可能以形式差异很大的名词出现,因此可以充分利用疾病名称的同义词信息,以完成自动、准确地病历文本编码。
由于针对当前的病历文本来说,在对其进行疾病编码时并不可知其中会包含哪些疾病,因此,需要针对上述数据库中已知的各个疾病编码标识都进行对应的语义表示的确定处理,最终基于每种疾病编码标识所对应的语义表示,确定病历文本所包含的疾病编码标识。
假设通过上述数据库可知该疾病编码标识对应的标准描述为,查询到的其同义
词描述分别为:。从而,由这种描述构成了疾病编码标识对应的描述集合。为预
设值,可以根据需求而设定,需要说明的是,如果对于某个疾病编码标识来说,并不能找到
其对应的种描述,则可以通过复制多个其标准描述的方式补齐。
其中,可选地,分别对种描述进行编码,以得到种描述对应的个第四语义表
示,可以实现为:针对任一种描述,对所述任一种描述中的各词语进行编码,得到所述各词
语对应的语义表示;对所述各词语对应的语义表示进行最大池化处理,以得到所述任一种
描述对应的第四语义表示。
上述针对每种描述的处理过程可以表示为:
其中,以种描述中的任一种描述为例,上述表示描述中包含的
个词语各自对应的词向量,可以将这个词向量依次输入到上述对病历文本进行语义编码
的神经网络模型,比如上述Bi-LSTM模型,以对其进行编码,得到各个词向量对应的语义编
码结果,即会得到个词语对应的个语义表示。
之后,根据疾病编码标识对应的多种描述和病历文本所对应的第一语义表示,确
定病历文本对应于疾病编码标识的第三语义表示。由于此前对病历文本进行语义编码处
理时,并为考虑其与各个疾病编码标识之间的关系,这里所说的“定病历文本对应于疾病编
码标识的第三语义表示”实际上可以理解为是确定病历文本基于标签(将疾病编码标识
视为一种分类标签)的语义表示,在该语义表示确定过程中,建立了病历文本分别与各个疾
病编码标识之间的关联关系。该关联关系可以通过注意力(Attention)机制来实现。
根据多种描述对应的多个第四语义表示和所述第一语义表示,确定病历文本中的
词语对应于每个第四语义表示的注意力系数向量;根据所述注意力系数向量和所述第一语
义表示,确定病历文本对应于疾病编码标识的第三语义表示。
其中,以疾病编码标识对应的种描述中的任一种描述为例,由上文举例可知,
该描述对应的第四语义表示为,上述第一语义表示为,确定病历文本中的词语对应于
第四语义表示的注意力系数向量,基于注意力机制的原理,实际上就是以作为查询
(Query),计算与病历文本的第一语义表示的注意力系数,该注意力系数的计算实际上就
是计算病历文本中包含的个词语各自对应的注意力系数取值,亦即构成的上述个语
义向量各自对应的注意力系数。由这个注意力系数值构成了病历文本中的词语
对应于第四语义表示的注意力系数向量。
实际上,上述病历文本中的词语对应于第四语义表示的注意力系数向量是一个
维数为的向量,将其中个向量元素对应地与上述个语义向量一一相乘后进行向量加
和计算,最终会得到一个维数为的向量,即为上述第三语义表示。
在上述病历文本的自动编码过程中,充分利用了疾病名称的同义词描述,从而可以实现病历文本的自动、准确编码处理。
为便于理解上述自动编码过程,结合图2来示意性说明。
如图2中所示,为了实现病历文本的疾病编码,可以使用包括图中示意的多个功能模块构成的编码系统来实现,这个编码系统实际上可以构成一个编码模型,其中包括图中示意的语义编码模块、最大池化处理模块、注意力计算模块、相似度输出模块。
其中,语义编码模块可以是上文中介绍的Bi-LSTM模型,最大池化处理模块用于实
现上文中所述的最大池化()处理,相似度输出模块实际上是编码模型的输出层,在
训练阶段,用于计算损失函数,只是该损失函数通过上述第三语义表示与第二语义表示的
相似度来定义。
如图2中所示,针对上文中所说的病历文本来说,其中包含的各个词语所对应的词
向量输入到语义编码模块后,输出上述第一语义表示。任一疾病编码标识所对应的每种
描述中各自包含的词向量输入该语义编码模块,将语义编码输出的一种描述中每个词语的
语义向量输入到最大池化处理模块中,得到这种描述对应的第四语义表示,如上文所述,疾
病编码标识对应的种描述各自对应的第四语义表示为:。这些第四语义表示
进一步在经过最大池化处理模块的处理,得到疾病编码标识对应的第二语义表示:。
针对每一个第四语义表示,结合第一语义表示,通过注意力计算模块计算出病历
文本中各词语对应的注意力系数,得到对应于每个第四语义表示的注意力系数向量:。之后,基于计算出的每个注意力系数向量,分别对第一语义表示中包含的多个
语义向量进行加权求和,得到多个加权后的语义表示:。最后,对这些加权后的
语义表示进行最大池化处理,得到病历文本对应于疾病编码标识的第三语义表示。
在编码模型训练阶段,上述病历文本作为训练样本时,其中包含的疾病编码标识
被预先进行标注,作为监督信息。而上述通过上述对数概率定义的相似度,实际上反映的是
该病历文本与任一疾病编码标识的相似度值,遍历疾病编码标识数据库中包含的各个疾
病编码标识,可以得到该病历文本与每个疾病编码标识的相似度值,可以设定一个相似度
阈值,若该病历文本与某个疾病编码标识的相似度值大于该阈值,则认为该病历文本蕴含
该疾病编码标识。从而,将实际确定出的该病历文本所蕴含的疾病编码标识,与预先标注的
监督信息进行对比,即可以根据损失函数值调整编码模型参数,在模型训练至收敛时,便可
以得到适用于各种疾病的双仿射变换矩阵。基于对该矩阵的训练,可以使得编码模型克
服对长尾数据的依赖,即克服样本不均衡的影响,样本不均衡主要体现为能够收集到的有
些疾病编码标识所对应的描述数量比较少。
对于上文中提到的:在分别对某疾病编码标识对应的多种描述进行编码,以得到多种描述对应的多个第四语义表示后,根据多个第四语义表示和病历文本对应的第一语义表示,确定病历文本中的词语对应于每个第四语义表示的注意力系数向量。本发明实施例提供了一种可选的注意力系数向量的确定方式,如图3中所示。
图3为本发明实施例提供的一种基于同义词的信息编码方法的流程图,如图3所示,可以包括如下步骤:
301、对病历文本中的多个词语进行编码,以得到病历文本对应的第一语义表示,第一语义表示由所述多个词语对应的多个语义向量构成。
302、获取预设的疾病编码标识所对应的标准描述以及同义词描述构成的多种描述,分别对多种描述进行编码,以得到多种描述对应的多个第四语义表示,根据多个第四语义表示确定所述疾病编码标识对应的第二语义表示。
上述步骤的执行过程可以参考前述实施例中的相关说明,在此不赘述。
303、将第一语义表示切分为多个语义块,其中,每个语义块中包括所述多个词语对应的多个子语义向量,每个子语义向量由对应语义向量中的部分维度构成,语义块的数量与所述多种描述的数量相等。
其中,切分方式为:假设构成第一语义表示的上述个语义向量形成一个行K
列的矩阵,其中,假设每个语义向量是K维的。将这K列均等地划分为组,那么每一组将构
成一个语义块。比如,K=100,,则每10列为一组,这样将得到10个语义块,其中,每个
语义块中都包括行语义向量中的部分维度,称为个子语义向量。
304、确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量,其中,目标第四语义表示与目标语义块的序号相同,目标第四语义表示是多个第四语义表示中的任一个。
承接于上文中的举例,对于任一第四语义表示,计算目标语义块对应于该第
四语义表示的注意力系数向量,即以作为查询(Query),计算目标语义块中个子语义
向量各自对应的注意力系数。其中,该目标语义块的编号与第四语义表示的编号是
相同的。概括来说也就是:针对种描述各自对应的第四语义表示,以及个语义块,一一
对应地对第四语义表示与语义块进行注意力计算。这样的计算方式,使得训练出的编码模
型在注意力计算时,能够更好地聚焦于对预测疾病编码标识更为重要的语义信息上,即为
对准确预测疾病编码标识更为重要的语义信息分配更大的注意力系数。
305、以确定出的对应于多个第四语义表示的多个注意力系数向量,分别对第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示,对多个加权后的语义表示进行最大池化处理,以得到病历文本对应于所述疾病编码标识的第三语义表示。
306、根据第三语义表示与第二语义表示的相似度,确定病历文本是否标记上所述疾病编码标识。
可选地,可以根据第三语义表示、第二语义表示以及训练出的双仿射变换矩阵,
确定第三语义表示与第二语义表示的相似度:。如果该相似度大于设定阈
值,则认为病历文本包括疾病编码标识所对应的疾病,为该病历文本标记上该疾病编码标
识。
以上实施例中介绍了对病历文本进行疾病编码的方案。实际上,在很对其他应用场景中,也会存在类似的应用需求。这种应用需求可以概括为:在预先设置了多种类别标识,以及每种类别标识对应的标准类别(名称)描述的情况下,针对当前输入的文本,需求确定该文本所对应的类别标识。由于预先仅建立了类别标识与其对应的标注类别描述的对应关系,仅基于该对应关系来进行文本所关联的类别标识的标记,准确性有限,因为只有在文本中包括了某种类别标识对应的标注类别描述的情形下,才会为该文本标记上该类别标识。
为了提高文本所关联的类别标识标记结果的准确性,基于上述实施例提供的方案,本发明实施例提供了通用的解决方法,如图4所示,该方法包括如下步骤:
401、对目标文本中的词语进行编码,以得到目标文本对应的第一语义表示。
402、获取预设的类别标识所对应的多种类别描述,多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述。
403、根据所述多种类别描述,确定所述类别标识对应的第二语义表示。
404、根据所述多种类别描述和第一语义表示,确定目标文本对应于所述类别标识的第三语义表示。
405、根据第三语义表示与第二语义表示的相似度,确定目标文本中是否标记上所述类别标识。
上述目标文本比如可以是前述实施例中的病历文本,相应地,类别标识为各种疾病编码标识。目标文本比如还可以是商品描述文本,类别标识可以是商品的类目名称,比如,土豆这个类别标识下可以对应有多种描述:土豆、马铃薯、洋芋、山药蛋,等等。
本实施例的执行可以参考前述其他实施例中的相关说明,在此不展开赘述。
如前文所述,本发明提供的基于同义词的信息编码方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(Application Programming Interface,简称API)等形式。
针对本发明实施例提供的方案,云端可以提供有信息编码服务的服务接口,用户通过用户设备调用该服务接口,以向云端触发调用请求,所述请求中包括病历文本。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:
对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;
根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
另外,前述实施例中介绍的模型训练任务也可以由云端的该计算节点来完成。
为便于理解,结合图5来示例性说明。用户可以通过图5中示意的用户设备E1调用信息编码服务接口(图中的API接口),通过该接口上传包含病历文本的服务请求。在云端,如图中所示,除部署有若干计算节点外,还部署有运行有管控服务的管理节点E2,管理节点E2在接收到用户设备E1发送的服务请求后,确定响应该服务请求的计算节点E3,计算节点E3在接收到病历文本后,执行上述步骤,最终输出该病历文本所关联的各个疾病编码标识,发送给用户设备E1,用户设备E1显示该最终检测结果。详细执行过程参考前述实施例中的介绍,在此不赘述。
以下将详细描述本发明的一个或多个实施例的基于同义词的信息编码装置。本领域技术人员可以理解,这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图6为本发明实施例提供的一种基于同义词的信息编码装置的结构示意图,如图6所示,该装置包括:病历编码模块11、描述获取模块12、语义处理模块13。
病历编码模块11,用于对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示。
描述获取模块12,用于获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述。
语义处理模块13,用于根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
可选地,确定所述疾病编码标识对应的第二语义表示的过程中,所述语义处理模块13具体用于:分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示;根据所述多个第四语义表示,确定所述疾病编码标识对应的所述第二语义表示。
其中,可选地,所述语义处理模块13具体用于:针对任一种描述,对所述任一种描述中的各词语进行编码,得到所述各词语对应的语义表示;对所述各词语对应的语义表示进行最大池化处理,以得到所述任一种描述对应的第四语义表示;对所述多个第四语义表示进行最大池化处理,以得到所述疾病编码标识对应的所述第二语义表示。
可选地,根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示的过程中,所述语义处理模块13具体用于:根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量;根据所述注意力系数向量和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示。
可选地,所述病历文本中包括多个词语,所述第一语义表示由所述多个词语对应的多个语义向量构成。基于此,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量的过程中,所述语义处理模块13具体用于:将所述第一语义表示切分为多个语义块,其中,每个语义块中包括所述多个词语对应的多个子语义向量,每个子语义向量由对应语义向量中的部分维度构成,所述语义块的数量与所述多种描述的数量相等;确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量,其中,所述目标第四语义表示与所述目标语义块的序号相同,所述目标第四语义表示是所述多个第四语义表示中的任一个。
可选地,确定所述病历文本对应于所述疾病编码标识的第三语义表示的过程中,所述语义处理模块13具体用于:以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述病历文本对应于所述疾病编码标识的第三语义表示。
可选地,所述语义处理模块13具体用于:根据所述第三语义表示、所述第二语义表示以及训练出的双仿射变换矩阵,确定所述第三语义表示与所述第二语义表示的相似度。
图6所示装置可以执行前述实施例中提供的步骤,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图6所示基于同义词的信息编码装置的结构可实现为一电子设备。如图7所示,该电子设备可以包括:处理器21、存储器22、通信接口23。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述实施例中提供的基于同义词的信息编码方法。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述实施例中提供的基于同义词的信息编码方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的网元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于同义词的信息编码方法,其特征在于,包括:
对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;
根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识;
其中,所述第三语义表示的确定,包括:
分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示;
根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量;
以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述病历文本对应于所述疾病编码标识的第三语义表示。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多种描述,确定所述疾病编码标识对应的第二语义表示,包括:
根据所述多个第四语义表示,确定所述疾病编码标识对应的所述第二语义表示。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示,包括:
针对任一种描述,对所述任一种描述中的各词语进行编码,得到所述各词语对应的语义表示;
对所述各词语对应的语义表示进行最大池化处理,以得到所述任一种描述对应的第四语义表示。
4.根据权利要求2所述的方法,其特征在于,所述根据所述多个第四语义表示,确定所述疾病编码标识对应的所述第二语义表示,包括:
对所述多个第四语义表示进行最大池化处理,以得到所述疾病编码标识对应的所述第二语义表示。
5.根据权利要求1所述的方法,其特征在于,所述病历文本中包括多个词语,所述第一语义表示由所述多个词语对应的多个语义向量构成;
所述根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量,包括:
将所述第一语义表示切分为多个语义块,其中,每个语义块中包括所述多个词语对应的多个子语义向量,每个子语义向量由对应语义向量中的部分维度构成,所述语义块的数量与所述多种描述的数量相等;
确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量,其中,所述目标第四语义表示与所述目标语义块的序号相同,所述目标第四语义表示是所述多个第四语义表示中的任一个。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第三语义表示、所述第二语义表示以及训练出的双仿射变换矩阵,确定所述第三语义表示与所述第二语义表示的相似度。
7.一种基于同义词的信息编码装置,其特征在于,包括:
病历编码模块,用于对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
描述获取模块,用于获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
语义处理模块,用于根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识;
其中,在确定所述第三语义表示的过程中,所述语义处理模块具体用于:分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示;根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量;以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述病历文本对应于所述疾病编码标识的第三语义表示。
8.一种电子设备,其特征在于,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的基于同义词的信息编码方法。
9.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的基于同义词的信息编码方法。
10.一种基于同义词的信息编码方法,其特征在于,包括:
对目标文本中的词语进行编码,以得到所述目标文本对应的第一语义表示;
获取预设的类别标识所对应的多种类别描述,所述多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述;
根据所述多种类别描述,确定所述类别标识对应的第二语义表示;
根据所述多种类别描述和所述第一语义表示,确定所述目标文本对应于所述类别标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述目标文本中是否标记上所述类别标识;
其中,所述第三语义表示的确定,包括:
分别对所述多种类别描述进行编码,以得到所述多种类别描述对应的多个第四语义表示;
根据所述多个第四语义表示和所述第一语义表示,确定所述目标文本中的词语对应于每个第四语义表示的注意力系数向量;
以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述目标文本对应于所述类别标识的第三语义表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210478341.4A CN114580354B (zh) | 2022-05-05 | 2022-05-05 | 基于同义词的信息编码方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210478341.4A CN114580354B (zh) | 2022-05-05 | 2022-05-05 | 基于同义词的信息编码方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114580354A CN114580354A (zh) | 2022-06-03 |
CN114580354B true CN114580354B (zh) | 2022-10-28 |
Family
ID=81778842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210478341.4A Active CN114580354B (zh) | 2022-05-05 | 2022-05-05 | 基于同义词的信息编码方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580354B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116305285B (zh) * | 2023-03-30 | 2024-04-05 | 肇庆学院 | 结合人工智能的病患信息脱敏处理方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239166A (zh) * | 2021-05-24 | 2021-08-10 | 清华大学深圳国际研究生院 | 一种基于语义知识增强的自动化人机互动方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818169B (zh) * | 2017-11-13 | 2021-09-07 | 医渡云(北京)技术有限公司 | 电子病历检索、存储方法及装置、存储介质、电子终端 |
CN109785959A (zh) * | 2018-12-14 | 2019-05-21 | 平安医疗健康管理股份有限公司 | 一种疾病编码方法和装置 |
CN111563209B (zh) * | 2019-01-29 | 2023-06-30 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
US20200301953A1 (en) * | 2019-03-20 | 2020-09-24 | Microstrategy Incorporated | Indicating synonym relationships using semantic graph data |
CN111506673A (zh) * | 2020-03-27 | 2020-08-07 | 泰康保险集团股份有限公司 | 一种病案的分类码确定方法和装置 |
CN112148871B (zh) * | 2020-09-21 | 2024-04-12 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN112183026B (zh) * | 2020-11-27 | 2021-11-23 | 北京惠及智医科技有限公司 | Icd编码方法、装置、电子设备和存储介质 |
CN112489740B (zh) * | 2020-12-17 | 2024-08-20 | 北京惠及智医科技有限公司 | 病历检测方法及相关模型的训练方法和相关设备、装置 |
CN112632910A (zh) * | 2020-12-21 | 2021-04-09 | 北京惠及智医科技有限公司 | 手术编码方法以及电子设备、存储装置 |
-
2022
- 2022-05-05 CN CN202210478341.4A patent/CN114580354B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239166A (zh) * | 2021-05-24 | 2021-08-10 | 清华大学深圳国际研究生院 | 一种基于语义知识增强的自动化人机互动方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114580354A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695033B (zh) | 企业舆情分析方法、装置、电子设备及介质 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN112241626A (zh) | 一种语义匹配、语义相似度模型训练方法及装置 | |
CN110032641A (zh) | 计算机执行的、利用神经网络进行事件抽取的方法及装置 | |
CN112232024A (zh) | 一种基于多标注数据的依存句法分析模型训练方法及装置 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN113761219A (zh) | 基于知识图谱的检索方法、装置、电子设备及存储介质 | |
CN113297351A (zh) | 文本数据标注方法及装置、电子设备及存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN114580354B (zh) | 基于同义词的信息编码方法、装置、设备和存储介质 | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
CN116629423A (zh) | 用户行为预测方法、装置、设备及存储介质 | |
CN113032534A (zh) | 对话文本的分类方法和电子设备 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN113705692B (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN114547313A (zh) | 资源类型识别方法以及装置 | |
CN110442767B (zh) | 一种确定内容互动平台标签的方法、装置及可读存储介质 | |
CN113886547A (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |