CN109284491A - 医学文本识别方法、语句识别模型训练方法 - Google Patents

医学文本识别方法、语句识别模型训练方法 Download PDF

Info

Publication number
CN109284491A
CN109284491A CN201811281771.7A CN201811281771A CN109284491A CN 109284491 A CN109284491 A CN 109284491A CN 201811281771 A CN201811281771 A CN 201811281771A CN 109284491 A CN109284491 A CN 109284491A
Authority
CN
China
Prior art keywords
sentence
identified
training
coding
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811281771.7A
Other languages
English (en)
Other versions
CN109284491B (zh
Inventor
张奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huimeiyun Technology Co Ltd
Original Assignee
Beijing Huimeiyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huimeiyun Technology Co Ltd filed Critical Beijing Huimeiyun Technology Co Ltd
Priority to CN201811281771.7A priority Critical patent/CN109284491B/zh
Publication of CN109284491A publication Critical patent/CN109284491A/zh
Application granted granted Critical
Publication of CN109284491B publication Critical patent/CN109284491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了医学文本识别方法、语句识别模型训练方法,涉及医学领域。本发明提供的医学文本识别方法,首先获取到医学文本中的待识别语句所对应的待识别特征编码,而后,将待识别特征编码和多个参考结果均作为输入量输入到训练完成的语句识别模型中,以确定待识别特征编码与每个参考结果的相似度,最后将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出,由于同时采用待识别语句和多个参考结果的树形层次从属关系作为输入,使得整体的识别效率和准确度得到了提升。

Description

医学文本识别方法、语句识别模型训练方法
技术领域
本发明涉及医学领域,具体而言,涉及医学文本识别方法、语句识别模型训练方法。
背景技术
通过对已有的医疗数据进行分析和研究,能够对医疗技术的提高起到正面帮助。但近年来,随着电子信息技术的快速发展,医疗领域所产生的电子医疗数据的数据量越来越大,从电子医疗数据中提取有效信息的难度也随之增加,进而,人们开始探讨和学习如何利用大数据技术来提高医疗行业的改进效率。
相关技术中,通常会采用文字识别的方式来从医学文本中提取出有效的文字,但这种提取文字的方式并不理想。
发明内容
本发明的目的在于提供医学文本识别方法、语句识别模型训练方法。
第一方面,本发明实施例提供了一种医学文本识别方法,包括:
获取医学文本中的待识别语句所对应的待识别特征编码;
将待识别特征编码和多个参考结果均作为输入量,输入到训练完成的语句识别模型中,以确定待识别特征编码与每个参考结果的相似度;所述语句识别模型是将训练特征编码和对应的参考结果作为输入量,进行训练后的得到的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,步骤获取医学文本中的待识别语句所对应的待识别特征编码,包括:
分别按照不同的提取单位,从医学文本的待识别语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;待识别特征编码包括至少两组参考特征。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,
所述输入到训练完成的语句识别模型中的待识别特征编码和多个参考结果均为向量化形式的数据。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。
第二方面,本发明实施例还提供了一种语句识别模型训练方法,包括:
获取多个训练样本组,每个训练样本组均是由一个医学文本中的训练语句所对应的训练特征编码和一个对应的参考结果组成的;
分别将每个训练样本组中的一个训练特征编码和一个对应的参考结果同时作为输入量,输入到待训练完成的语句识别模型中,以对待训练完成的语句识别模型进行训练。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,步骤获取多个训练样本组包括:
分别按照不同的提取单位,从医学文本的训练语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;
将训练语句所对应的训练特征编码和一个对应的参考结果组成一个训练样本组;训练语句所对应的训练特征编码是由所述至少两组参考特征组成的。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,
所述训练样本组中的训练特征编码和多个参考结果均为向量化形式的数据。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。
第三方面,本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面任一所述方法。
第四方面,本发明实施例还提供了一种计算装置包括:处理器、存储器和总线,存储器存储有执行指令,当计算设备运行时,处理器与存储器之间通过总线通信,处理器执行存储器中存储的如第一方面任一所述方法。
本发明实施例提供的医学文本识别方法,首先获取到医学文本中的待识别语句所对应的待识别特征编码,而后,将待识别特征编码和多个参考结果均作为输入量输入到训练完成的语句识别模型中,以确定待识别特征编码与每个参考结果的相似度,最后将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出,由于采用了训练好的语句识别模型来完成待识别特征编码和参考结果的匹配,使得整体的识别效率和准确度得到了提升。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的医学文本识别方法的基本流程图;
图2示出了本发明实施例所提供的SNOMED-CT词典中节点的部分分布示意图;
图3示出了本发明实施例所提供的第一计算设备的示意图;
图4示出了本发明实施例所提供的第二计算设备的示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高医学文本的处理效率,相关技术中出现了文字识别软件,这些文字识别软件对于标准的语言文字通常能够进行有效识别,但对于非常规的语言文字则识别的准确度大大降低。
比如,针对医生记录的医学文本中的文字(更具体来说,是医生录入的简写文字),传统的软件就无法进行有效的识别了。这主要是医生自己记录的文字具有一定的技术领域的特殊性,单纯的凭借一般性的软件无法进行有效的识别。
针对这种情况,本申请提供了一种医学文本识别方法,如图1所示,包括:
S101,获取医学文本中的待识别语句所对应的待识别特征编码;
S102,将待识别特征编码和多个参考结果均作为输入量,输入到训练完成的语句识别模型中,以确定待识别特征编码与每个参考结果的相似度;语句识别模型是将训练特征编码和对应的参考结果作为输入量,进行训练后的得到的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
S103,将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出。
步骤S101中,医学文本通常是医生在临床医疗过程中进行人工记录所形成的文本,待识别语句是医学文本中的一句话,待识别语句的待识别特征编码有三种理解方式,分别如下:第一种,可以理解为,待识别特征编码是将待识别语句转化为计算机能够读取的字符的形式(如向量的形式);第二种,也可以理解为,待识别特征编码就是文字形式的待识别语句(自然语句,如“我”、“是”);第三种,还可以理解为,待识别特征编码是从待识别语句中提炼出来的特征字符(如某种二进制编码),该特征字符能够表达待识别语句的实际含义。
进而,步骤S102中,可以将待识别特征编码和多个参考结果同时作为输入量输入到语句识别模型中,其中,参考结果是预先设定好的,或者是说参考结果的内容是固定下来的,通过设置固定内容的参考结果,可以做到步骤S103所输出的内容是符合统一化要求的。通常来说,每次使用本申请所提供的方法时,参考结果的内容都可以是从同一个参考结果的集合中获取到的(此处,一个参考结果通常是根据SNOMED-CT词典中指定的一个节点的名称确定的,并且,参考结果的集合中,每个参考结果均是根据SNOMED-CT词典中指定的一个节点的名称确定的)。比如参考结果的集合中共有100的参考结果,则每次执行步骤S102的时候,就需要将这100个参考结果同时输入到语句识别模型中,以使得每次识别的过程都是从全部的可能结果中来选择对应的结果。通常情况下,参考结果是由医学专家标注/提供的。
步骤S102在执行完成之后,语句识别模型所输出的结果能够表征待识别特征编码与每个参考结果的相似度,进而,在步骤103中,可以将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出。
步骤S102中的语句识别模型是将训练特征编码和对应的参考结果作为输入量,进行训练后的得到的,指的是,在训练语句识别模型的时候,需要采用人为标注的方式来标注出训练特征编码(医学文本中的训练语句所对应的训练特征编码)所对应的参考结果,也就是一个训练特征编码通常只对应唯一的一个参考结果。进而,在训练阶段,将一个训练特征编码和对应的唯一一个参考结果同时作为输入量,输入到语句识别模型中进行训练,也就是在训练的过程,语句识别模型能够学习出参考结果与对应的特征编码之间的规律了,进而,在使用了大量的训练样本进行训练后(每个训练样本中可以均由一个训练特征编码和对应的唯一的一个参考结果组成),语句识别模型就能够充分的到每个参考结果所对应的特征编码的规律了,进而,使用进行充分训练的语句识别模型来执行步骤S102,能够保证步骤S102的输出更加准确。
在使用训练样本训练语句识别模型之后,还可以使用验证样本来验证训练的结果,比如,训练样本中包含医学文本中的验证语句所对应的验证识别特征编码,将验证识别特征编码和多个参考结果作为输入量同时输入到语句识别模型中,如果语句识别模型所输出的与验证识别特征编码的相似度最高的参考结果和人工标注出来的验证识别特征编码所对应的参考结果是相同的,则说明该训练样本的识别是准确的,如果语句识别模型能够对大量的训练样本均保持足够的识别准确率,则该语句识别模型可以认为是训练完成的了。
步骤S103中,输出的可以是具体的参考结果,也可以是参考结果所对应的编码/识别码。
如前文中的说明,待识别特征编码有三种具体的理解方式,这三种理解方式都可以保证本方案能够实现,但这三种理解方式所对应的方案的实现效果有一定的差别。具体的,待识别语句所对应的待识别特征编码优选是从待识别语句中提炼出来的特征字符,这些特征字符的提炼方式可以是结构化提取,也可以是其他的提取方式,但考虑到任一种提取方式都有其局限性,因此,可以考虑同时使用两种不同的特征来表达待识别语句。
进而,本申请所提供的方法中,步骤获取医学文本中的待识别语句所对应的待识别特征编码,包括:
步骤201,分别按照不同的提取单位,从医学文本的待识别语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;待识别特征编码包括至少两组参考特征。
步骤201中,指的是使用一种提取单位,从待识别语句中提取一组参考特征,再使用另一种提取单位,从待识别语句中提取一组参考特征。通常情况下,使用任一种提取单位从待识别语句中提取参考特征的时候,均是从待识别语句的整句话中提取特征,而不是从一部分话中提取特征。之后将两组参考特征组成待识别特征编码即可。当然,组成待识别特征编码的步骤可以省略。
提取单位包括字、词和由指定数量的字所组成的短语,指的是从待识别语句中提取参考特征的方式可以是将每个字作为参考特征,将每个词作为参考特惠总能,也可以是将指定数量的字组成的短语作为参考特征。
下面以一个具体的实例来说明步骤201的实现过程。
如待识别语句为“发热咳嗽3天”。
按照字为单位来提取,可以提取到如下几个字作为参考特征“发,热,咳,嗽,3,天”,也就是这句话中的每个字都是参考特征的组成部分。
按照词为单位来提取,可以提取到如下几个词作为参考特征“发热、咳嗽、3天”,通常情况下,按照词来提取参考特征需要使用相应的识别模型或软件来完成,将一些医学领域常用的词汇提取出来。
按照指定数量的字所组成的短语为单位来提取,则自由度比较高,比如,按照两个字多组成的短语来提取,则可以提取到如下参考特征“发热,热咳,咳嗽,嗽3,3天”,也就是,任意相邻的两个字所组成的短语都可以作为参考特征。又比如,按照两个字多组成的短语来提取,则可以提取到如下参考特征“发热咳,热咳嗽,咳嗽3,嗽3天”,也就是,任意相邻的三个字所组成的短语都可以作为参考特征。当然,还可以将任意相邻的四、五或更多个字所组成的短语作为参考特征。
进而,由至少两组参考特征所组成的待识别特征编码也就是可以是如下的形式:“参考特征1,参考特征2…”,具体的,以上述待识别语句为“发热咳嗽3天”为例,形成的待识别特征编码可以是“发,热,咳,嗽,3,天,发热,热咳,咳嗽,咳3,3天,发热咳,热咳嗽,咳嗽3,嗽3天”,也就是,待识别特征编码中是由按照字为单位来提取所得到的参考特征,按照两个字所组成的短语为单位来提取所得到的参考特征,以及按照三个字所组成的短语为单位来提取所得到的参考特征。
采用这种确定待识别特征编码的方式,能够使得待识别特征编码从不同的角度来反应待识别语句的特征,使得后续识别的步骤,可以识别的更加准确。
在这基础上,为了简化语句识别模型的识别难度,可以按照如下方式来设定:所述输入到训练完成的语句识别模型中的待识别特征编码和多个参考结果均为向量化形式的数据。具体向量化的方式很多,通常来说,每个字所对应的向量应当是不相同的,比如,可以建立如下表1:
0 1 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0
0 0 0 0 1 0 0 0 0
3 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 1 0 0
表1中,每个字都有对应的向量,比如“发”所对应的向量是“010000000”,“热”所对应的向量是“001000000”。当然,还可以采用更加复杂的方式来进行向量化,但应当保证的是不同的单位(字、词或短语)所对应的向量应当是不同的。
承接上文的说明,本申请所提供的方法中,参考结果是根据SNOMED-CT词典(Systematized Nomenclature of Medicine--Clinical Terms)中指定节点的名称确定的,或参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。此处,首先要对SNOMED-CT词典进行介绍。
SNOMED CT(Systematized Nomenclature of Medicine--Clinical Terms)医学系统命名法——临床术语,是当前国际上广为使用的一种临床医学术语标准。
SNOMED CT这套术语集,提供了一套全面统一的医学术语系统,涵盖大多数方面的临床信息,如疾病、所见、操作、微生物、药物等,可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合,便于计算机处理。同时,它还有助于组织病历内容,减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。对于临床医学信息的标准化和电子化起着十分重要的作用。目的在指称同一事物的时候,不同的临床医生和医疗卫生机构往往会采用不同的临床术语。例如,对于心脏病学专科医师来说,心脏病发作、心肌梗死以及MI可能指的是同一含义,而对于计算机来说,三者之间则全然不同。因此,不同的医疗保健服务提供者、医疗服务设施、研究人员以及其他相关方之间需要协调一致地交换临床信息(语义互操作性);而且,不同的地方对于医学信息的记录方式也各不相同(如采用纸质记录或者采用电子记录),因而需要一种广泛全面而又协调统一的医学术语系统(medical terminology system),作为信息基础结构(informationinfrastructure)的组成部分。
本申请所提供的方案中,参考结果可以是根据SNOMED-CT中指定节点的名称确定的,指的是,参考结果可以是SNOMED-CT中的某一个节点的节点名。也就是,参考结果可以就是SNOMED-CT中某一个节点的名称。通常情况下,一个参考结果是由一个SNOMED-CT中指定节点的名称组成的。SNOMED-CT中节点的名称如:躯干结构疼痛、腹部一般发现、腹部有感觉。
本申请所提供的方案中,参考结果优选是根据SNOMED-CT中指定节点的名称和指定节点的父节点的名称确定的,指的是参考结果可以是根据SNOMED-CT中指定节点的名称和指定节点的父节点的名称组成的。即,SNOMED-CT是分为多级标题的,在确定参考结果的时候可以同时使用某个节点的名称和该节点的上级节点(父节点)的名称共同为该参考结果进行命名,通常情况下,一个参考结果是由一个SNOMED-CT中指定节点的名称和该指定节点的父节点的名称组成。如图2所示,示出了SNOMED-CT中的部分节点,这些节点可以分为三级,第一级节点是临床发现;第二级节点是躯干结构疼痛、腹部一般发现、腹部、腹部有感觉、腹痛;第三级节点是腹股沟疼痛、局部腹痛、泛发性腹痛、中央腹痛。其中,第一级节点临床发现是所有第二级节点(躯干结构疼痛、腹部一般发现、腹部、腹部有感觉、腹痛)的父节点;第三级节点(腹股沟疼痛、局部腹痛、泛发性腹痛、中央腹痛)均属于第二级节点腹痛的直接子节点。进而,图2中的第三级节点局部腹痛所对应的参考结果就应当是:局部腹痛#腹痛#临床表现。临床发现和腹痛均为每个第三级节点(腹股沟疼痛、局部腹痛、泛发性腹痛、中央腹痛)的父节点。
脱离开图2中的内容,如节点“左腹痛”所对应的参考结果为:左腹痛#腹痛#临床发现,其中,腹痛为左腹痛的直接父节点;临床发现为腹痛的直接父节点。腹痛和临床发现均可以作为左腹痛的父节点。
本申请所提供的方案中,之所以采用根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定参考结果的方式,主要是考虑到,某些节点的名称较为相近,比如“胸部痛”和“左腹痛”这两个节点,语句识别模型在识别的时候难以清楚的区分这两个节点的名称,但由于这两个节点的父节点的名称是有差别的,因此加上父结点的名称来进行说明,就可以达到区分不同节点的作用了。
与上述方法相对应的,本申请还提供了一种语句识别模型训练方法,包括:
获取多个训练样本组,每个训练样本组均是由一个医学文本中的训练语句所对应的训练特征编码和一个对应的参考结果组成的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
分别将每个训练样本组中的一个训练特征编码和一个对应的参考结果同时作为输入量,输入到待训练完成的语句识别模型中,以对待训练完成的语句识别模型进行训练。
优选的,步骤获取多个训练样本组包括:
分别按照不同的提取单位,从医学文本的训练语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;
将训练语句所对应的训练特征编码和一个对应的参考结果组成一个训练样本组;训练语句所对应的训练特征编码是由所述至少两组参考特征组成的。
优选的,所述训练样本组中的训练特征编码和多个参考结果均为向量化形式的数据。
优选的,所述参考结果是根据SNOMED-CT中词典指定节点的名称和指定节点的父节点的名称确定的。
需要说明的是,本方案中所提供的医学文本识别方法和语句识别模型训练方法是可以结合使用的。
与上述装置相对应的,本申请还提供了一种医学文本识别装置,包括:
第一获取模块,用于获取医学文本中的待识别语句所对应的待识别特征编码;
第一输入模块,用于将待识别特征编码和多个参考结果均作为输入量,输入到训练完成的语句识别模型中,以确定待识别特征编码与每个参考结果的相似度;所述语句识别模型是将训练特征编码和对应的参考结果作为输入量,进行训练后的得到的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
第一选择模块,用于将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出。
优选的,第一获取模块,进一步用于分别按照不同的提取单位,从医学文本的待识别语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;待识别特征编码包括至少两组参考特征。
优选的,所述输入到训练完成的语句识别模型中的待识别特征编码和多个参考结果均为向量化形式的数据。
优选的,所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
或,所述参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。
与上述方法相对应的,本申请还提供了一种语句识别模型训练装置,包括:
第二获取模块,用于获取多个训练样本组,每个训练样本组均是由一个医学文本中的训练语句所对应的训练特征编码和一个对应的参考结果组成的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
第二输入模块,用于分别将每个训练样本组中的一个训练特征编码和一个对应的参考结果同时作为输入量,输入到待训练完成的语句识别模型中,以对待训练完成的语句识别模型进行训练。
优选的,第二获取模块包括:
提取单元,用于分别按照不同的提取单位,从医学文本的训练语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;
组合单元,用于将训练语句所对应的训练特征编码和一个对应的参考结果组成一个训练样本组;训练语句所对应的训练特征编码是由所述至少两组参考特征组成的。
优选的,所述训练样本组中的训练特征编码和多个参考结果均为向量化形式的数据。
优选的,所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
或,所述参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。
与上述方法相对应的,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行医学文本识别方法。
与上述方法相对应的,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行语句识别模型训练方法。
如图3所示,为本申请实施例所提供的第一计算设备示意图,该第一计算设备1000包括:处理器1001、存储器1002和总线1003,存储器1002存储有执行指令,当第一计算设备运行时,处理器1001与存储器1002之间通过总线1003通信,处理器1001执行存储器1002中存储的如医学文本识别方法的步骤。
如图4所示,为本申请实施例所提供的第二计算设备示意图,该第二计算设备2000包括:处理器2001、存储器2002和总线2003,存储器2002存储有执行指令,当第二计算设备运行时,处理器2001与存储器2002之间通过总线2003通信,处理器2001执行存储器2002中存储的如语句识别模型训练方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种医学文本识别方法,其特征在于,包括:
获取医学文本中的待识别语句所对应的待识别特征编码;
将待识别特征编码和多个参考结果均作为输入量,输入到训练完成的语句识别模型中,以确定待识别特征编码与每个参考结果的相似度;所述语句识别模型是将训练特征编码和对应的参考结果作为输入量,进行训练后的得到的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
将与待识别特征编码的相似度最高的参考结果作为待识别语句的识别结果输出。
2.根据权利要求1所述的方法,其特征在于,步骤获取医学文本中的待识别语句所对应的待识别特征编码,包括:
分别按照不同的提取单位,从医学文本的待识别语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;待识别特征编码包括至少两组参考特征。
3.根据权利要求2所述的方法,其特征在于,
所述输入到训练完成的语句识别模型中的待识别特征编码和多个参考结果均为向量化形式的数据。
4.根据权利要求1所述的方法,其特征在于,所述参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。
5.一种语句识别模型训练方法,其特征在于,包括:
获取多个训练样本组,每个训练样本组均是由一个医学文本中的训练语句所对应的训练特征编码和一个对应的参考结果组成的;所述参考结果是根据SNOMED-CT词典中指定节点的名称确定的;
分别将每个训练样本组中的一个训练特征编码和一个对应的参考结果同时作为输入量,输入到待训练完成的语句识别模型中,以对待训练完成的语句识别模型进行训练。
6.根据权利要求5所述的方法,其特征在于,步骤获取多个训练样本组包括:
分别按照不同的提取单位,从医学文本的训练语句中提取出至少两组参考特征;提取单位包括:字、词和由指定数量的字所组成的短语;
将训练语句所对应的训练特征编码和一个对应的参考结果组成一个训练样本组;训练语句所对应的训练特征编码是由所述至少两组参考特征组成的。
7.根据权利要求6所述的方法,其特征在于,
所述训练样本组中的训练特征编码和多个参考结果均为向量化形式的数据。
8.根据权利要求5所述的方法,其特征在于,所述参考结果是根据SNOMED-CT词典中指定节点的名称和指定节点的父节点的名称确定的。
9.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-4任一所述方法。
10.一种计算装置包括:处理器、存储器和总线,存储器存储有执行指令,当计算设备运行时,处理器与存储器之间通过总线通信,处理器执行存储器中存储的如权利要求1-4任一所述方法。
CN201811281771.7A 2018-10-23 2018-10-23 医学文本识别方法、语句识别模型训练方法 Active CN109284491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811281771.7A CN109284491B (zh) 2018-10-23 2018-10-23 医学文本识别方法、语句识别模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811281771.7A CN109284491B (zh) 2018-10-23 2018-10-23 医学文本识别方法、语句识别模型训练方法

Publications (2)

Publication Number Publication Date
CN109284491A true CN109284491A (zh) 2019-01-29
CN109284491B CN109284491B (zh) 2023-08-22

Family

ID=65174683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811281771.7A Active CN109284491B (zh) 2018-10-23 2018-10-23 医学文本识别方法、语句识别模型训练方法

Country Status (1)

Country Link
CN (1) CN109284491B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378318A (zh) * 2019-07-30 2019-10-25 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质
CN111353302A (zh) * 2020-03-03 2020-06-30 平安医疗健康管理股份有限公司 医学词义识别方法、装置、计算机设备和存储介质
CN113975617A (zh) * 2021-11-05 2022-01-28 深圳市福妍堂中医药创新发展有限公司 一种调节女性月经失调的药械方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114598A1 (en) * 2007-03-29 2010-05-06 Oez Mehmet M Method and system for generating a medical report and computer program product therefor
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN105190628A (zh) * 2013-03-01 2015-12-23 纽昂斯通讯公司 确定临床医生的预订项目的意图的方法和设备
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106845147A (zh) * 2017-04-13 2017-06-13 北京大数医达科技有限公司 医学经验总结模型的建立方法、装置及数据评估方法
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN108563626A (zh) * 2018-01-22 2018-09-21 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114598A1 (en) * 2007-03-29 2010-05-06 Oez Mehmet M Method and system for generating a medical report and computer program product therefor
CN105190628A (zh) * 2013-03-01 2015-12-23 纽昂斯通讯公司 确定临床医生的预订项目的意图的方法和设备
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN106845147A (zh) * 2017-04-13 2017-06-13 北京大数医达科技有限公司 医学经验总结模型的建立方法、装置及数据评估方法
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN108563626A (zh) * 2018-01-22 2018-09-21 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨娅: "生物医学文本中的疾病实体识别和标准化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378318A (zh) * 2019-07-30 2019-10-25 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质
CN111353302A (zh) * 2020-03-03 2020-06-30 平安医疗健康管理股份有限公司 医学词义识别方法、装置、计算机设备和存储介质
CN113975617A (zh) * 2021-11-05 2022-01-28 深圳市福妍堂中医药创新发展有限公司 一种调节女性月经失调的药械方法及系统

Also Published As

Publication number Publication date
CN109284491B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN110442869B (zh) 一种医疗文本处理方法及其装置、设备和存储介质
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
Roy et al. Solving general arithmetic word problems
Berman Principles of big data: preparing, sharing, and analyzing complex information
CN107341264B (zh) 一种支持自定义实体的电子病历检索系统及方法
CN109564589B (zh) 使用手动用户反馈进行实体识别和链接系统和方法
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN109739964A (zh) 知识数据提供方法、装置、电子设备和存储介质
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
CN111696635A (zh) 疾病名称标准化方法及装置
CN110931128B (zh) 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN109284491A (zh) 医学文本识别方法、语句识别模型训练方法
KR102424085B1 (ko) 기계-보조 대화 시스템 및 의학적 상태 문의 장치 및 방법
CN112599213B (zh) 一种分类编码确定方法、装置、设备及存储介质
CN113282762B (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN109299467A (zh) 医学文本识别方法及装置、语句识别模型训练方法及装置
CN114676233A (zh) 基于骨骼肌知识图谱的医疗自动问答方法
Adduru et al. Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification.
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant