CN114580354B - 基于同义词的信息编码方法、装置、设备和存储介质 - Google Patents

基于同义词的信息编码方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114580354B
CN114580354B CN202210478341.4A CN202210478341A CN114580354B CN 114580354 B CN114580354 B CN 114580354B CN 202210478341 A CN202210478341 A CN 202210478341A CN 114580354 B CN114580354 B CN 114580354B
Authority
CN
China
Prior art keywords
semantic
semantic representation
descriptions
medical record
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210478341.4A
Other languages
English (en)
Other versions
CN114580354A (zh
Inventor
袁正
谭传奇
黄松芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202210478341.4A priority Critical patent/CN114580354B/zh
Publication of CN114580354A publication Critical patent/CN114580354A/zh
Application granted granted Critical
Publication of CN114580354B publication Critical patent/CN114580354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供一种基于同义词的信息编码方法、装置、设备和存储介质,该方法包括:对病历文本中的词语进行编码,以得到病历文本对应的第一语义表示;获取预设的疾病编码标识所对应的多种描述,多种描述中包括与疾病编码标识对应的标准描述以及同义词描述。根据所述多种描述确定疾病编码标识对应的第二语义表示,根据所述多种描述和第一语义表示,确定病历文本对应于疾病编码标识的第三语义表示。根据第三语义表示与第二语义表示的相似度,确定病历文本是否标记上所述疾病编码标识。在上述病历文本的自动编码过程中,充分利用了疾病名称的同义词描述,从而可以实现病历文本的自动、准确编码处理。

Description

基于同义词的信息编码方法、装置、设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于同义词的信息编码方法、装置、设备和存储介质。
背景技术
各家医疗机构在管理病历文本时,需要请编码人员将病历文本编码映射到国际疾病分类(international Classification of diseases ,简称ICD)等标准编码标识上,诸如ICD9或者ICD10等标准编码标识。编码的过程容易出错,且消耗大量人力。
发明内容
本发明实施例提供一种基于同义词的信息编码方法、装置、设备和存储介质,用以提高信息编码结果的准确性。
第一方面,本发明实施例提供一种基于同义词的信息编码方法,所述方法包括:
对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;
根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
第二方面,本发明实施例提供一种基于同义词的信息编码装置,所述装置包括:
病历编码模块,用于对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
描述获取模块,用于获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
语义处理模块,用于根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的基于同义词的信息编码方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的基于同义词的信息编码方法。
第五方面,本发明实施例提供一种基于同义词的信息编码方法,所述方法包括:
对目标文本中的词语进行编码,以得到所述目标文本对应的第一语义表示;
获取预设的类别标识所对应的多种类别描述,所述多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述;
根据所述多种类别描述,确定所述类别标识对应的第二语义表示;
根据所述多种类别描述和所述第一语义表示,确定所述目标文本对应于所述类别标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述目标文本中是否标记上所述类别标识。
本发明实施例可以实现对病历文本)进行按照所包含的疾病进行疾病编码标识的自动编码。具体地,针对病历文本中包含的各个词语,可以先进行语义编码处理,以得到病历文本对应的第一语义表示。针对已知的各疾病编码标识(比如ICD9中包含的各编码标识),一方面获取每个疾病编码标识所对应的标准描述,即标准的疾病名称,另一方面获得该标准描述对应的同义词描述,从而得到由同一疾病编码标识对应的标准描述和各种同义词描述构成的多种描述,继而针对同一疾病编码标识对应的每种描述进行语义编码,结合每种描述的语义编码结果得到这种疾病编码标识所对应的第二语义表示。之后,根据任一疾病编码标识对应的多种描述以及所述第一语义表示,确定病历文本对应于该疾病编码标识的第三语义表示,即病历文本基于这个疾病编码标识标签的语义表示。根据第三语义表示与第二语义表示的相似度,确定病历文本是否应该标记上这个疾病编码标识。
在上述病历文本的自动编码过程中,充分利用了疾病名称的同义词描述,从而可以实现病历文本的自动、准确编码处理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于同义词的信息编码方法的流程图;
图2为本发明实施例提供的一种病历编码过程的示意图;
图3为本发明实施例提供的一种基于同义词的信息编码方法的流程图;
图4为本发明实施例提供的一种基于同义词的信息编码方法的流程图;
图5为本发明实施例提供的一种基于同义词的信息编码方法的应用示意图;
图6为本发明实施例提供的一种基于同义词的信息编码装置的结构示意图;
图7为与图6所示实施例提供的基于同义词的信息编码装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的基于同义词的信息编码方法可以由一电子设备来执行,该电子设备可以是服务器,也可以是用户终端,该服务器可以是云端的物理服务器或虚拟服务器(虚拟机)。
图1为本发明实施例提供的一种基于同义词的信息编码方法的流程图,如图1所示,该方法包括如下步骤:
101、对病历文本中的词语进行编码,以得到病历文本对应的第一语义表示。
102、获取预设的疾病编码标识所对应的多种描述,多种描述中包括与疾病编码标识对应的标准描述以及同义词描述。
103、根据所述多种描述,确定所述疾病编码标识对应的第二语义表示。
104、根据所述多种描述和第一语义表示,确定病历文本对应于所述疾病编码标识的第三语义表示。
105、根据第三语义表示与第二语义表示的相似度,确定病历文本是否标记上所述疾病编码标识。
本发明实施例提供的方案可以应用于对病历文本进行疾病编码的应用场景中。对病历文本进行疾病编码,就是按照病历文本中包含的疾病名称等描述内容,确定出应该为该病历文本标记上的通用的疾病编码标识,比如其中包含“B型副伤寒”,则对应的疾病编码标识为A10.2。基于对病历文本的疾病编码标识的自动确定,可以为病历文本分类归档、查询以及医生了解病人既往病史等提供便利。
实际应用中,该病历文本可以是门诊病历,也可以是住院病历。该病历文本可以是对手写病历进行扫描而得到,也可以是直接在电脑等终端上填写病历文本表单而自动生成。由于本发明实施例提供的方案主要是针对病历文本中的文字内容进行处理,因此,本发明实施例中也将病历文本统称为病历文本。
为了实现对病历文本的疾病编码,首先,需要对一个病历文本进行编码处理,以得到病历文本对应的语义表示,称为第一语义表示。
具体地,病历文本中会描写有关病症、疾病名称等信息,对这些描述内容进行分词处理,可以得到多个词语(或者称为单词),可以先对每个词语进行词向量编码(比如word2vec等),以映射为计算机能够处理的数学向量形式。之后,可以采用某种神经网络模型,将得到的多个词语各自对应的词向量输入到该神经网络模型中,以得到该神经网络模型针对这多个词语分别输出的隐层状态,作为相应词语对应的语义向量,最终,多个词语各自对应的语义向量构成了该病历文本对应的第一语义表示。
在实际应用中,上述分词处理也可以是逐个文字的拆分,即单词。上述神经网络模型可以采用双向长短期记忆网络(Bi-directional Long-Short Term Memory,简称Bi-LSTM)模型、LSTM模型、循环神经网络(Recurrent Neural Network,简称RNN)模型,等等。
为便于理解,举例来说,对于一份病历文本,假设其输入由若干词语(或称为单词) 组成,这些词语表示为集合:
Figure DEST_PATH_IMAGE001
,其中,
Figure 267522DEST_PATH_IMAGE002
表示词语总数,
Figure DEST_PATH_IMAGE003
表示其中一个词语。进而假设 针对其中每个词语进行词向量编码后得到对应的词向量集合为:
Figure 253933DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE005
表示词 语
Figure 950493DEST_PATH_IMAGE003
对应的词向量。
之后,比如通过Bi-LSTM模型对上述词向量集合中的各个词向量进行语义编码,得 到如下编码结果:
Figure 782183DEST_PATH_IMAGE006
。其中,
Figure DEST_PATH_IMAGE007
表示的是语义编码计算,
Figure 615010DEST_PATH_IMAGE008
表示 词向量
Figure 772322DEST_PATH_IMAGE005
对应的语义向量,即将词向量
Figure 425020DEST_PATH_IMAGE005
输入到模型后模型输出的隐藏状态向量。
Figure DEST_PATH_IMAGE009
表示
Figure 60401DEST_PATH_IMAGE002
个语义向量构成的矩阵,即第一语义表示。
由于对病历文本进行疾病编码处理,实际上是从已知的若干疾病编码标识中确定当前的病历文本所对应的疾病编码标识,即当前的病历文本中所应该包含的疾病编码标识。所以,通过查询通用的疾病编码标识数据库,便可以得知每种疾病编码标识以及其对应的标准的疾病描述内容,通常为一种标准的疾病名称。之后,针对每种疾病编码标识所对应的描述内容进行语义编码处理。
本发明实施例中,为了提高病历文本的疾病编码结果的准确性,针对任一个疾病编码标识来说,不仅考虑了其在上述数据库中对应的标准描述,还考虑了同义词描述。举例来说,假设在上述数据库中,某疾病编码标识对应的标准描述为“伤寒”,那么可以通过查询已知的医学知识图谱等方式,确定与其对应的同义词描述,比如包括“感冒”、“风寒”等等。知识图谱的创建不属于本发明实施例的重点,不详细阐述。
也就是说,本发明实施例中,对病历文本进行自动编码时,因为同种疾病可能以形式差异很大的名词出现,因此可以充分利用疾病名称的同义词信息,以完成自动、准确地病历文本编码。
由于针对当前的病历文本来说,在对其进行疾病编码时并不可知其中会包含哪些疾病,因此,需要针对上述数据库中已知的各个疾病编码标识都进行对应的语义表示的确定处理,最终基于每种疾病编码标识所对应的语义表示,确定病历文本所包含的疾病编码标识。
由于针对每个疾病编码标识的处理过程都是一样的,因此为便于描述,仅以其中 任一个疾病编码标识
Figure DEST_PATH_IMAGE011
为例进行说明。
假设通过上述数据库可知该疾病编码标识
Figure 278892DEST_PATH_IMAGE011
对应的标准描述为
Figure 341526DEST_PATH_IMAGE012
,查询到的其同义 词描述分别为:
Figure DEST_PATH_IMAGE013
。从而,由这
Figure 747100DEST_PATH_IMAGE014
种描述构成了疾病编码标识
Figure 186172DEST_PATH_IMAGE011
对应的描述集合。
Figure 728011DEST_PATH_IMAGE014
为预 设值,可以根据需求而设定,需要说明的是,如果对于某个疾病编码标识来说,并不能找到 其对应的
Figure DEST_PATH_IMAGE015
种描述,则可以通过复制多个其标准描述的方式补齐。
对于其中的每种描述
Figure 232985DEST_PATH_IMAGE016
,假设其由
Figure DEST_PATH_IMAGE017
个单词(或者说词语)构成,表示为:
Figure 391434DEST_PATH_IMAGE018
之后,根据疾病编码标识
Figure 103038DEST_PATH_IMAGE011
对应的
Figure 499384DEST_PATH_IMAGE014
种描述,确定疾病编码标识
Figure 903821DEST_PATH_IMAGE011
对应的第二语义表 示,可选地,可以实现为:
分别对
Figure DEST_PATH_IMAGE019
种描述进行编码,以得到
Figure 549566DEST_PATH_IMAGE019
种描述对应的
Figure 64861DEST_PATH_IMAGE019
个第四语义表示;
根据
Figure 315714DEST_PATH_IMAGE019
个第四语义表示,确定疾病编码标识
Figure DEST_PATH_IMAGE021
对应的第二语义表示。
其中,可选地,分别对
Figure 422210DEST_PATH_IMAGE019
种描述进行编码,以得到
Figure 758513DEST_PATH_IMAGE019
种描述对应的
Figure 343078DEST_PATH_IMAGE019
个第四语义表 示,可以实现为:针对任一种描述,对所述任一种描述中的各词语进行编码,得到所述各词 语对应的语义表示;对所述各词语对应的语义表示进行最大池化处理,以得到所述任一种 描述对应的第四语义表示。
其中,可选地,根据
Figure 448438DEST_PATH_IMAGE019
个第四语义表示,确定疾病编码标识
Figure 194677DEST_PATH_IMAGE021
对应的第二语义表示, 可以实现为:对
Figure 752697DEST_PATH_IMAGE019
个第四语义表示进行最大池化处理,以得到疾病编码标识
Figure 140953DEST_PATH_IMAGE021
对应的第二语 义表示。
上述针对每种描述的处理过程可以表示为:
Figure DEST_PATH_IMAGE023
其中,以
Figure 631977DEST_PATH_IMAGE019
种描述中的任一种描述
Figure 549118DEST_PATH_IMAGE024
为例,上述
Figure DEST_PATH_IMAGE025
表示描述
Figure 391172DEST_PATH_IMAGE024
中包含的
Figure 51960DEST_PATH_IMAGE026
个词语各自对应的词向量,可以将这
Figure DEST_PATH_IMAGE027
个词向量依次输入到上述对病历文本进行语义编码 的神经网络模型,比如上述Bi-LSTM模型,以对其进行编码,得到各个词向量对应的语义编 码结果,即会得到
Figure 397491DEST_PATH_IMAGE027
个词语对应的
Figure 16691DEST_PATH_IMAGE027
个语义表示。
之后,对这
Figure 549304DEST_PATH_IMAGE027
个语义表示进行最大池化(即上述
Figure 748204DEST_PATH_IMAGE028
)处理,便可以得到描述
Figure 948241DEST_PATH_IMAGE024
对应的第四语义表示
Figure DEST_PATH_IMAGE029
之后,针对疾病编码标识
Figure 738342DEST_PATH_IMAGE021
对应的
Figure 758251DEST_PATH_IMAGE019
种描述各自对应的第四语义表示,进行最大池 化处理,以得到疾病编码标识
Figure 26421DEST_PATH_IMAGE021
对应的第二语义表示
Figure 815386DEST_PATH_IMAGE030
,处理过程可以表示为:
Figure 510809DEST_PATH_IMAGE032
通过上述针对疾病编码标识
Figure 18014DEST_PATH_IMAGE021
对应的多种描述的语义编码处理可知,最终得到的 疾病编码标识
Figure 89875DEST_PATH_IMAGE021
所对应的第二语义表示中会包含其中每种描述的语义信息,不仅仅会包含 标准描述的语义信息。
之后,根据疾病编码标识
Figure 733346DEST_PATH_IMAGE021
对应的多种描述和病历文本所对应的第一语义表示,确 定病历文本对应于疾病编码标识
Figure 599671DEST_PATH_IMAGE021
的第三语义表示。由于此前对病历文本进行语义编码处 理时,并为考虑其与各个疾病编码标识之间的关系,这里所说的“定病历文本对应于疾病编 码标识
Figure 328593DEST_PATH_IMAGE021
的第三语义表示”实际上可以理解为是确定病历文本基于标签
Figure 204145DEST_PATH_IMAGE021
(将疾病编码标识 视为一种分类标签)的语义表示,在该语义表示确定过程中,建立了病历文本分别与各个疾 病编码标识之间的关联关系。该关联关系可以通过注意力(Attention)机制来实现。
概括来说,根据疾病编码标识
Figure 967701DEST_PATH_IMAGE021
对应的多种描述和病历文本对应的第一语义表示, 确定病历文本对应于疾病编码标识
Figure 739348DEST_PATH_IMAGE021
的第三语义表示,可以实现为:
根据多种描述对应的多个第四语义表示和所述第一语义表示,确定病历文本中的 词语对应于每个第四语义表示的注意力系数向量;根据所述注意力系数向量和所述第一语 义表示,确定病历文本对应于疾病编码标识
Figure 221145DEST_PATH_IMAGE021
的第三语义表示。
其中,以疾病编码标识
Figure 369230DEST_PATH_IMAGE021
对应的
Figure 270450DEST_PATH_IMAGE019
种描述中的任一种描述
Figure 212999DEST_PATH_IMAGE024
为例,由上文举例可知, 该描述对应的第四语义表示为
Figure 916512DEST_PATH_IMAGE029
,上述第一语义表示为
Figure DEST_PATH_IMAGE033
,确定病历文本中的词语对应于 第四语义表示
Figure 399446DEST_PATH_IMAGE034
的注意力系数向量,基于注意力机制的原理,实际上就是以
Figure 872016DEST_PATH_IMAGE034
作为查询 (Query),计算与病历文本的第一语义表示
Figure DEST_PATH_IMAGE035
的注意力系数,该注意力系数的计算实际上就 是计算病历文本中包含的
Figure 516624DEST_PATH_IMAGE036
个词语各自对应的注意力系数取值,亦即构成
Figure 973013DEST_PATH_IMAGE035
的上述
Figure 462900DEST_PATH_IMAGE036
个语 义向量
Figure DEST_PATH_IMAGE037
各自对应的注意力系数。由这
Figure 586714DEST_PATH_IMAGE036
个注意力系数值构成了病历文本中的词语 对应于第四语义表示
Figure 136644DEST_PATH_IMAGE029
的注意力系数向量。
上述病历文本中的词语对应于第四语义表示
Figure 549171DEST_PATH_IMAGE029
的注意力系数向量,其物理含义可 以理解为:病历文本中包含的各词语对于判断出病历文本中包含描述
Figure 842749DEST_PATH_IMAGE024
各自对应的贡献程 度,该贡献程度通过注意力系数来反映。
在得到病历文本中的词语对应于第四语义表示
Figure 289911DEST_PATH_IMAGE034
的注意力系数向量后,通过使用 该注意力系数向量对第一语义表示
Figure 276321DEST_PATH_IMAGE035
中包含的
Figure 441723DEST_PATH_IMAGE036
个语义向量
Figure 273413DEST_PATH_IMAGE038
进行加权求和处理, 便可以得到病历文本对应于疾病编码标识
Figure 575082DEST_PATH_IMAGE021
的第三语义表示。
实际上,上述病历文本中的词语对应于第四语义表示
Figure 732393DEST_PATH_IMAGE034
的注意力系数向量是一个 维数为
Figure DEST_PATH_IMAGE039
的向量,将其中
Figure 385092DEST_PATH_IMAGE039
个向量元素对应地与上述
Figure 286052DEST_PATH_IMAGE039
个语义向量一一相乘后进行向量加 和计算,最终会得到一个维数为
Figure 707806DEST_PATH_IMAGE039
的向量,即为上述第三语义表示。
最后,计算病历文本对应于疾病编码标识
Figure 770440DEST_PATH_IMAGE040
的第三语义表示与疾病编码标识
Figure 910434DEST_PATH_IMAGE040
对应 的第二语义表示的相似度,以在该相似度符合设定条件时,确定病历文本应该标记上疾病 编码标识
Figure 83926DEST_PATH_IMAGE021
在上述病历文本的自动编码过程中,充分利用了疾病名称的同义词描述,从而可以实现病历文本的自动、准确编码处理。
为便于理解上述自动编码过程,结合图2来示意性说明。
如图2中所示,为了实现病历文本的疾病编码,可以使用包括图中示意的多个功能模块构成的编码系统来实现,这个编码系统实际上可以构成一个编码模型,其中包括图中示意的语义编码模块、最大池化处理模块、注意力计算模块、相似度输出模块。
其中,语义编码模块可以是上文中介绍的Bi-LSTM模型,最大池化处理模块用于实 现上文中所述的最大池化(
Figure DEST_PATH_IMAGE041
)处理,相似度输出模块实际上是编码模型的输出层,在 训练阶段,用于计算损失函数,只是该损失函数通过上述第三语义表示与第二语义表示的 相似度来定义。
如图2中所示,针对上文中所说的病历文本来说,其中包含的各个词语所对应的词 向量输入到语义编码模块后,输出上述第一语义表示
Figure 891345DEST_PATH_IMAGE033
。任一疾病编码标识所对应的每种 描述中各自包含的词向量输入该语义编码模块,将语义编码输出的一种描述中每个词语的 语义向量输入到最大池化处理模块中,得到这种描述对应的第四语义表示,如上文所述,疾 病编码标识
Figure 124880DEST_PATH_IMAGE021
对应的
Figure 486592DEST_PATH_IMAGE042
种描述各自对应的第四语义表示为:
Figure DEST_PATH_IMAGE043
。这些第四语义表示 进一步在经过最大池化处理模块的处理,得到疾病编码标识
Figure 994933DEST_PATH_IMAGE021
对应的第二语义表示:
Figure 391280DEST_PATH_IMAGE044
针对每一个第四语义表示,结合第一语义表示,通过注意力计算模块计算出病历 文本中各词语对应的注意力系数,得到对应于每个第四语义表示的注意力系数向量:
Figure DEST_PATH_IMAGE045
。之后,基于计算出的每个注意力系数向量,分别对第一语义表示
Figure 592454DEST_PATH_IMAGE033
中包含的多个 语义向量进行加权求和,得到多个加权后的语义表示:
Figure 175882DEST_PATH_IMAGE046
。最后,对这些加权后的 语义表示进行最大池化处理,得到病历文本对应于疾病编码标识
Figure 222335DEST_PATH_IMAGE021
的第三语义表示
Figure DEST_PATH_IMAGE047
之后,计算第三语义表示
Figure 738767DEST_PATH_IMAGE047
与第二语义表示
Figure 579684DEST_PATH_IMAGE044
的相似度。
其中,如图2中所示,该相似度的计算可以定义为:计算病历文本蕴含了标签
Figure 650409DEST_PATH_IMAGE021
(即 疾病编码标识
Figure 969394DEST_PATH_IMAGE021
)的对数概率:
Figure 74754DEST_PATH_IMAGE048
。其中,
Figure DEST_PATH_IMAGE049
表示的是Sigmoid函 数,
Figure 352151DEST_PATH_IMAGE050
表示转置,
Figure DEST_PATH_IMAGE051
表示双仿射变换矩阵。
在编码模型训练阶段,上述病历文本作为训练样本时,其中包含的疾病编码标识 被预先进行标注,作为监督信息。而上述通过上述对数概率定义的相似度,实际上反映的是 该病历文本与任一疾病编码标识
Figure 706909DEST_PATH_IMAGE021
的相似度值,遍历疾病编码标识数据库中包含的各个疾 病编码标识,可以得到该病历文本与每个疾病编码标识的相似度值,可以设定一个相似度 阈值,若该病历文本与某个疾病编码标识的相似度值大于该阈值,则认为该病历文本蕴含 该疾病编码标识。从而,将实际确定出的该病历文本所蕴含的疾病编码标识,与预先标注的 监督信息进行对比,即可以根据损失函数值调整编码模型参数,在模型训练至收敛时,便可 以得到适用于各种疾病的双仿射变换矩阵
Figure 569866DEST_PATH_IMAGE051
。基于对该矩阵的训练,可以使得编码模型克 服对长尾数据的依赖,即克服样本不均衡的影响,样本不均衡主要体现为能够收集到的有 些疾病编码标识所对应的描述数量比较少。
对于上文中提到的:在分别对某疾病编码标识对应的多种描述进行编码,以得到多种描述对应的多个第四语义表示后,根据多个第四语义表示和病历文本对应的第一语义表示,确定病历文本中的词语对应于每个第四语义表示的注意力系数向量。本发明实施例提供了一种可选的注意力系数向量的确定方式,如图3中所示。
图3为本发明实施例提供的一种基于同义词的信息编码方法的流程图,如图3所示,可以包括如下步骤:
301、对病历文本中的多个词语进行编码,以得到病历文本对应的第一语义表示,第一语义表示由所述多个词语对应的多个语义向量构成。
302、获取预设的疾病编码标识所对应的标准描述以及同义词描述构成的多种描述,分别对多种描述进行编码,以得到多种描述对应的多个第四语义表示,根据多个第四语义表示确定所述疾病编码标识对应的第二语义表示。
上述步骤的执行过程可以参考前述实施例中的相关说明,在此不赘述。
303、将第一语义表示切分为多个语义块,其中,每个语义块中包括所述多个词语对应的多个子语义向量,每个子语义向量由对应语义向量中的部分维度构成,语义块的数量与所述多种描述的数量相等。
承接于前述第一语义表示
Figure 795311DEST_PATH_IMAGE052
以及任一个疾病编码标 识
Figure 978031DEST_PATH_IMAGE021
对应有
Figure 23347DEST_PATH_IMAGE042
种描述:
Figure DEST_PATH_IMAGE053
Figure 215294DEST_PATH_IMAGE054
的举例,这里将第一语义表示
Figure 295246DEST_PATH_IMAGE035
切成
Figure 648867DEST_PATH_IMAGE019
个大小相同的语义 块。其中,病历文本中包含的
Figure 181479DEST_PATH_IMAGE036
个词语各自对应的语义向量为:
Figure 645958DEST_PATH_IMAGE037
其中,切分方式为:假设构成第一语义表示
Figure 580416DEST_PATH_IMAGE035
的上述
Figure 104939DEST_PATH_IMAGE036
个语义向量形成一个
Figure 124847DEST_PATH_IMAGE036
行K 列的矩阵,其中,假设每个语义向量是K维的。将这K列均等地划分为
Figure 393018DEST_PATH_IMAGE019
组,那么每一组将构 成一个语义块。比如,K=100,
Figure DEST_PATH_IMAGE055
,则每10列为一组,这样将得到10个语义块,其中,每个 语义块中都包括
Figure 713140DEST_PATH_IMAGE036
行语义向量中的部分维度,称为
Figure 142985DEST_PATH_IMAGE036
个子语义向量。
为便于描述,将
Figure 650189DEST_PATH_IMAGE035
的划分结果表示为:
Figure 456471DEST_PATH_IMAGE056
304、确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量,其中,目标第四语义表示与目标语义块的序号相同,目标第四语义表示是多个第四语义表示中的任一个。
承接于上文中的举例,对于任一第四语义表示
Figure 365522DEST_PATH_IMAGE029
,计算目标语义块
Figure DEST_PATH_IMAGE057
对应于该第 四语义表示的注意力系数向量,即以
Figure 497426DEST_PATH_IMAGE034
作为查询(Query),计算目标语义块
Figure 491926DEST_PATH_IMAGE057
Figure 101899DEST_PATH_IMAGE036
个子语义 向量各自对应的注意力系数。其中,该目标语义块
Figure 599877DEST_PATH_IMAGE057
的编号
Figure 902682DEST_PATH_IMAGE058
与第四语义表示
Figure 118900DEST_PATH_IMAGE034
的编号
Figure 266984DEST_PATH_IMAGE058
是 相同的。概括来说也就是:针对
Figure 885048DEST_PATH_IMAGE019
种描述各自对应的第四语义表示,以及
Figure 93175DEST_PATH_IMAGE019
个语义块,一一 对应地对第四语义表示与语义块进行注意力计算。这样的计算方式,使得训练出的编码模 型在注意力计算时,能够更好地聚焦于对预测疾病编码标识更为重要的语义信息上,即为 对准确预测疾病编码标识更为重要的语义信息分配更大的注意力系数。
以第四语义表示
Figure 796689DEST_PATH_IMAGE034
为例,与目标语义块
Figure 14044DEST_PATH_IMAGE057
的注意力计算结果可以表示为:
Figure 486613DEST_PATH_IMAGE060
其中,tanh是反正切函数,可以替换为relu函数等,
Figure DEST_PATH_IMAGE061
为求解出的注意力系数向 量。
Figure 396800DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
为权重系数矩阵。
305、以确定出的对应于多个第四语义表示的多个注意力系数向量,分别对第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示,对多个加权后的语义表示进行最大池化处理,以得到病历文本对应于所述疾病编码标识的第三语义表示。
上述第三语义表示
Figure 118769DEST_PATH_IMAGE064
的计算过程可以表示为:
Figure DEST_PATH_IMAGE065
,其中, 对应于多个第四语义表示的注意力系数向量分别为:
Figure 139814DEST_PATH_IMAGE045
。多个加权后的语义表示分 别为:
Figure 732470DEST_PATH_IMAGE046
306、根据第三语义表示与第二语义表示的相似度,确定病历文本是否标记上所述疾病编码标识。
可选地,可以根据第三语义表示、第二语义表示以及训练出的双仿射变换矩阵
Figure 16821DEST_PATH_IMAGE051
, 确定第三语义表示与第二语义表示的相似度:
Figure 694927DEST_PATH_IMAGE066
。如果该相似度大于设定阈 值,则认为病历文本包括疾病编码标识
Figure 254084DEST_PATH_IMAGE021
所对应的疾病,为该病历文本标记上该疾病编码标 识
Figure 701246DEST_PATH_IMAGE021
以上实施例中介绍了对病历文本进行疾病编码的方案。实际上,在很对其他应用场景中,也会存在类似的应用需求。这种应用需求可以概括为:在预先设置了多种类别标识,以及每种类别标识对应的标准类别(名称)描述的情况下,针对当前输入的文本,需求确定该文本所对应的类别标识。由于预先仅建立了类别标识与其对应的标注类别描述的对应关系,仅基于该对应关系来进行文本所关联的类别标识的标记,准确性有限,因为只有在文本中包括了某种类别标识对应的标注类别描述的情形下,才会为该文本标记上该类别标识。
为了提高文本所关联的类别标识标记结果的准确性,基于上述实施例提供的方案,本发明实施例提供了通用的解决方法,如图4所示,该方法包括如下步骤:
401、对目标文本中的词语进行编码,以得到目标文本对应的第一语义表示。
402、获取预设的类别标识所对应的多种类别描述,多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述。
403、根据所述多种类别描述,确定所述类别标识对应的第二语义表示。
404、根据所述多种类别描述和第一语义表示,确定目标文本对应于所述类别标识的第三语义表示。
405、根据第三语义表示与第二语义表示的相似度,确定目标文本中是否标记上所述类别标识。
上述目标文本比如可以是前述实施例中的病历文本,相应地,类别标识为各种疾病编码标识。目标文本比如还可以是商品描述文本,类别标识可以是商品的类目名称,比如,土豆这个类别标识下可以对应有多种描述:土豆、马铃薯、洋芋、山药蛋,等等。
本实施例的执行可以参考前述其他实施例中的相关说明,在此不展开赘述。
如前文所述,本发明提供的基于同义词的信息编码方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(Application Programming Interface,简称API)等形式。
针对本发明实施例提供的方案,云端可以提供有信息编码服务的服务接口,用户通过用户设备调用该服务接口,以向云端触发调用请求,所述请求中包括病历文本。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:
对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;
根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
另外,前述实施例中介绍的模型训练任务也可以由云端的该计算节点来完成。
为便于理解,结合图5来示例性说明。用户可以通过图5中示意的用户设备E1调用信息编码服务接口(图中的API接口),通过该接口上传包含病历文本的服务请求。在云端,如图中所示,除部署有若干计算节点外,还部署有运行有管控服务的管理节点E2,管理节点E2在接收到用户设备E1发送的服务请求后,确定响应该服务请求的计算节点E3,计算节点E3在接收到病历文本后,执行上述步骤,最终输出该病历文本所关联的各个疾病编码标识,发送给用户设备E1,用户设备E1显示该最终检测结果。详细执行过程参考前述实施例中的介绍,在此不赘述。
以下将详细描述本发明的一个或多个实施例的基于同义词的信息编码装置。本领域技术人员可以理解,这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图6为本发明实施例提供的一种基于同义词的信息编码装置的结构示意图,如图6所示,该装置包括:病历编码模块11、描述获取模块12、语义处理模块13。
病历编码模块11,用于对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示。
描述获取模块12,用于获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述。
语义处理模块13,用于根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识。
可选地,确定所述疾病编码标识对应的第二语义表示的过程中,所述语义处理模块13具体用于:分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示;根据所述多个第四语义表示,确定所述疾病编码标识对应的所述第二语义表示。
其中,可选地,所述语义处理模块13具体用于:针对任一种描述,对所述任一种描述中的各词语进行编码,得到所述各词语对应的语义表示;对所述各词语对应的语义表示进行最大池化处理,以得到所述任一种描述对应的第四语义表示;对所述多个第四语义表示进行最大池化处理,以得到所述疾病编码标识对应的所述第二语义表示。
可选地,根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示的过程中,所述语义处理模块13具体用于:根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量;根据所述注意力系数向量和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示。
可选地,所述病历文本中包括多个词语,所述第一语义表示由所述多个词语对应的多个语义向量构成。基于此,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量的过程中,所述语义处理模块13具体用于:将所述第一语义表示切分为多个语义块,其中,每个语义块中包括所述多个词语对应的多个子语义向量,每个子语义向量由对应语义向量中的部分维度构成,所述语义块的数量与所述多种描述的数量相等;确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量,其中,所述目标第四语义表示与所述目标语义块的序号相同,所述目标第四语义表示是所述多个第四语义表示中的任一个。
可选地,确定所述病历文本对应于所述疾病编码标识的第三语义表示的过程中,所述语义处理模块13具体用于:以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述病历文本对应于所述疾病编码标识的第三语义表示。
可选地,所述语义处理模块13具体用于:根据所述第三语义表示、所述第二语义表示以及训练出的双仿射变换矩阵,确定所述第三语义表示与所述第二语义表示的相似度。
图6所示装置可以执行前述实施例中提供的步骤,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图6所示基于同义词的信息编码装置的结构可实现为一电子设备。如图7所示,该电子设备可以包括:处理器21、存储器22、通信接口23。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述实施例中提供的基于同义词的信息编码方法。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述实施例中提供的基于同义词的信息编码方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的网元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于同义词的信息编码方法,其特征在于,包括:
对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;
根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识;
其中,所述第三语义表示的确定,包括:
分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示;
根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量;
以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述病历文本对应于所述疾病编码标识的第三语义表示。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多种描述,确定所述疾病编码标识对应的第二语义表示,包括:
根据所述多个第四语义表示,确定所述疾病编码标识对应的所述第二语义表示。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示,包括:
针对任一种描述,对所述任一种描述中的各词语进行编码,得到所述各词语对应的语义表示;
对所述各词语对应的语义表示进行最大池化处理,以得到所述任一种描述对应的第四语义表示。
4.根据权利要求2所述的方法,其特征在于,所述根据所述多个第四语义表示,确定所述疾病编码标识对应的所述第二语义表示,包括:
对所述多个第四语义表示进行最大池化处理,以得到所述疾病编码标识对应的所述第二语义表示。
5.根据权利要求1所述的方法,其特征在于,所述病历文本中包括多个词语,所述第一语义表示由所述多个词语对应的多个语义向量构成;
所述根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量,包括:
将所述第一语义表示切分为多个语义块,其中,每个语义块中包括所述多个词语对应的多个子语义向量,每个子语义向量由对应语义向量中的部分维度构成,所述语义块的数量与所述多种描述的数量相等;
确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量,其中,所述目标第四语义表示与所述目标语义块的序号相同,所述目标第四语义表示是所述多个第四语义表示中的任一个。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第三语义表示、所述第二语义表示以及训练出的双仿射变换矩阵,确定所述第三语义表示与所述第二语义表示的相似度。
7.一种基于同义词的信息编码装置,其特征在于,包括:
病历编码模块,用于对病历文本中的词语进行编码,以得到所述病历文本对应的第一语义表示;
描述获取模块,用于获取预设的疾病编码标识所对应的多种描述,所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述;
语义处理模块,用于根据所述多种描述,确定所述疾病编码标识对应的第二语义表示;根据所述多种描述和所述第一语义表示,确定所述病历文本对应于所述疾病编码标识的第三语义表示;根据所述第三语义表示与所述第二语义表示的相似度,确定所述病历文本是否标记上所述疾病编码标识;
其中,在确定所述第三语义表示的过程中,所述语义处理模块具体用于:分别对所述多种描述进行编码,以得到所述多种描述对应的多个第四语义表示;根据所述多个第四语义表示和所述第一语义表示,确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量;以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述病历文本对应于所述疾病编码标识的第三语义表示。
8.一种电子设备,其特征在于,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的基于同义词的信息编码方法。
9.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的基于同义词的信息编码方法。
10.一种基于同义词的信息编码方法,其特征在于,包括:
对目标文本中的词语进行编码,以得到所述目标文本对应的第一语义表示;
获取预设的类别标识所对应的多种类别描述,所述多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述;
根据所述多种类别描述,确定所述类别标识对应的第二语义表示;
根据所述多种类别描述和所述第一语义表示,确定所述目标文本对应于所述类别标识的第三语义表示;
根据所述第三语义表示与所述第二语义表示的相似度,确定所述目标文本中是否标记上所述类别标识;
其中,所述第三语义表示的确定,包括:
分别对所述多种类别描述进行编码,以得到所述多种类别描述对应的多个第四语义表示;
根据所述多个第四语义表示和所述第一语义表示,确定所述目标文本中的词语对应于每个第四语义表示的注意力系数向量;
以确定出的对应于所述多个第四语义表示的多个注意力系数向量,分别对所述第一语义表示中包含的多个语义向量进行加权求和,得到多个加权后的语义表示;对所述多个加权后的语义表示进行最大池化处理,以得到所述目标文本对应于所述类别标识的第三语义表示。
CN202210478341.4A 2022-05-05 2022-05-05 基于同义词的信息编码方法、装置、设备和存储介质 Active CN114580354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210478341.4A CN114580354B (zh) 2022-05-05 2022-05-05 基于同义词的信息编码方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210478341.4A CN114580354B (zh) 2022-05-05 2022-05-05 基于同义词的信息编码方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN114580354A CN114580354A (zh) 2022-06-03
CN114580354B true CN114580354B (zh) 2022-10-28

Family

ID=81778842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210478341.4A Active CN114580354B (zh) 2022-05-05 2022-05-05 基于同义词的信息编码方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114580354B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116305285B (zh) * 2023-03-30 2024-04-05 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239166A (zh) * 2021-05-24 2021-08-10 清华大学深圳国际研究生院 一种基于语义知识增强的自动化人机互动方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818169B (zh) * 2017-11-13 2021-09-07 医渡云(北京)技术有限公司 电子病历检索、存储方法及装置、存储介质、电子终端
CN109785959A (zh) * 2018-12-14 2019-05-21 平安医疗健康管理股份有限公司 一种疾病编码方法和装置
CN111563209B (zh) * 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
US20200301953A1 (en) * 2019-03-20 2020-09-24 Microstrategy Incorporated Indicating synonym relationships using semantic graph data
CN111506673A (zh) * 2020-03-27 2020-08-07 泰康保险集团股份有限公司 一种病案的分类码确定方法和装置
CN112148871B (zh) * 2020-09-21 2024-04-12 北京百度网讯科技有限公司 摘要生成方法、装置、电子设备及存储介质
CN112183026B (zh) * 2020-11-27 2021-11-23 北京惠及智医科技有限公司 Icd编码方法、装置、电子设备和存储介质
CN112489740B (zh) * 2020-12-17 2024-08-20 北京惠及智医科技有限公司 病历检测方法及相关模型的训练方法和相关设备、装置
CN112632910A (zh) * 2020-12-21 2021-04-09 北京惠及智医科技有限公司 手术编码方法以及电子设备、存储装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239166A (zh) * 2021-05-24 2021-08-10 清华大学深圳国际研究生院 一种基于语义知识增强的自动化人机互动方法

Also Published As

Publication number Publication date
CN114580354A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111695033B (zh) 企业舆情分析方法、装置、电子设备及介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN111222305B (zh) 一种信息结构化方法和装置
CN112241626A (zh) 一种语义匹配、语义相似度模型训练方法及装置
CN110032641A (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN112232024A (zh) 一种基于多标注数据的依存句法分析模型训练方法及装置
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN113032534A (zh) 对话文本的分类方法和电子设备
CN114595329B (zh) 一种原型网络的少样本事件抽取系统及方法
CN113705692B (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN114547313A (zh) 资源类型识别方法以及装置
CN110442767B (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant