CN111971678B - 识别解剖学短语 - Google Patents

识别解剖学短语 Download PDF

Info

Publication number
CN111971678B
CN111971678B CN201980025787.8A CN201980025787A CN111971678B CN 111971678 B CN111971678 B CN 111971678B CN 201980025787 A CN201980025787 A CN 201980025787A CN 111971678 B CN111971678 B CN 111971678B
Authority
CN
China
Prior art keywords
anatomical
list
general
identifying
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980025787.8A
Other languages
English (en)
Other versions
CN111971678A (zh
Inventor
P·普林森
R·C·范奥明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN111971678A publication Critical patent/CN111971678A/zh
Application granted granted Critical
Publication of CN111971678B publication Critical patent/CN111971678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于识别医学文本中的解剖学短语的方法和系统。本文中所描述的方法和系统使用句法方法来生成相关术语的列表并根据这些术语来定义语法。然后,所描述的方法和系统然后在文本中搜索符合语法的短语。

Description

识别解剖学短语
技术领域
本文描述的实施例总体上涉及用于识别文本中的解剖学短语的系统和方法,并且更具体地但非排他地涉及用于使用句法方法来识别文本中的解剖学短语的系统和方法。
背景技术
为了自动地从医学文档(例如,放射学报告、肿瘤学临床记录等)中提取信息和数据,算法通常需要识别文档中描述临床概念的所有短语。识别这些短语的一种方法是通过使用医学本体(如
Figure BDA0002723507270000011
Figure BDA0002723507270000012
)来执行词汇匹配技术。
这些词汇匹配技术通常具有良好的精度。即,如果识别出匹配,则通常是正确的匹配。但是,由于若干原因,查全率通常较低。
例如,本体在其同义词列表中通常不完整。一个示例是“CAT扫描”概念。此概念的同义词包括“计算机化,计算机的,以及计算”与“轴向,跨轴,断层摄影和断层扫描”的所有组合。但是,例如SNOMED-CT仅列出了可能的12种组合中的9种。
词法匹配可能不起作用的另一个原因是,本体永远都不会完整。对于更复杂的概念尤其如此。例如,在医学报告中,一个人可能会遇到相当复杂的结构,例如“右侧心室前角”或“右前上乳”。这些类型的完整短语通常不存在于本体中。另外,如果部分术语与上下文结合提供足够的信息,则临床医师通常不会写完整的短语。
因此,需要一种克服现有系统和方法的缺点的、用于识别文本中的解剖学短语的系统和方法。
发明内容
提供本发明内容以用简化形式介绍一些概念,这些概念将在下面的具体实施例部分进一步描述。本发明内容并非旨在识别或排除要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定要求保护的主题的范围。
在一个方面中,实施例涉及一种用于识别医学文本中的解剖学短语的方法。所述方法包括以下步骤:使用接口访问包括医学信息的一个或多个数据源;使用配置的处理器来执行存储在存储器中的指令,从所述数据源中的至少一个数据源的子集中提取一组概念;使用所述配置的处理器,识别与所述概念中的每个概念相关联的多个术语;使用所述配置的处理器,将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表,使用所述配置的处理器,将至少一个语法规则应用于来自解剖列表中的至少一个术语和来自一般列表的至少一个术语,以生成至少一个复合术语;使用所述配置的处理器,在使用所述接口访问的医学文本中识别所述至少一个复合术语。
在一些实施例中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表。并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。在一些实施例中,基于词性标注或字典查找的一部分的结果来对识别出的术语进行分类。在一些实施例中,基于加权多数投票来对识别出的术语进行排序。
在一些实施例中,识别出的术语包括至少两个单词。
在一些实施例中,识别与每个概念相关联的多个术语包括识别每个概念的同义词。
根据另一方面,实施例涉及一种用于识别医学文本中的解剖学短语的系统。所述系统包括:接口,其用于至少访问包括医学信息的一个或多个数据源并且用于接收医学文本;以及至少一个配置的处理器,其执行存储在存储器中的指令以:从所述数据源中的至少一个数据源的子集中提取一组概念;识别与所述概念中的每个概念相关联的多个术语;将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表;将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且在由所述接口接收的医学文本中识别所述至少一个复合术语。
在一些实施例中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表,并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。在一些实施例中,基于词性标注或字典查找的一部分的结果来对识别出的术语进行分类。在一些实施例中,基于加权多数投票来对识别出的术语进行排序。
在一些实施例中,识别出的术语包括至少两个单词。
在一些实施例中,所述至少一个配置的处理器通过识别所述概念中的每个概念的同义词来识别与所述概念中的每个概念相关联的多个术语。
根据另一方面,实施例涉及一种包含计算机可执行指令的计算机可读介质,所述计算机可执行指令用于识别医学文本中的解剖学短语。所述介质包括:用于使用接口来访问包括医学信息的一个或多个数据源的计算机可执行指令;用于使用所述配置的处理器来执行存储在存储器中的指令以从所述数据源中的至少一个数据源的子集中提取一组概念的计算机可执行指令;用于使用所述配置的处理器来识别与所述概念中的每个概念相关联的多个术语的计算机可执行指令;用于使用所述配置的处理器将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中的计算机可执行指令;用于使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语的计算机可执行指令;以及用于使用所述配置的处理器来在使用所述接口访问的医学文本中识别至少一个复合术语的计算机可执行指令。
在一些实施例中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表,并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。
在一些实施例中,用于使用所述配置的处理器来识别与所述概念中的每个概念相关联的多个术语的计算机可执行指令包括用于识别每个概念的同义词的计算机可执行指令。
附图说明
参考以下附图描述本文中的实施例的非限制性和非穷举性实施例,其中,除非另有说明,否则相同的附图标记在各个视图中指代相同的部件:
图1示出了根据一个实施例的用于识别医学文本中的解剖学短语的系统;
图2描绘了根据一个实施例的SNOMED-CT本体的一部分的视觉图示;并且
图3描绘了根据一个实施例的用于识别医学文本中的解剖学短语的方法的流程图。
具体实施方式
以下参考附图更详细地描述了各种实施例,附图形成实施例的一部分,并且示出了具体的示例性实施例。然而,本公开的概念可以以许多不同的形式实现,并且不应该被解释为限于本文中阐述的实施例;相反,这些实施例是作为全面和完整公开的一部分提供的,以向本领域技术人员充分传达本公开的概念、技术和实现的范围。各实施例可以被实践为方法、系统或设备。因此,实施例可以采取硬件实现方式、完全软件实现方式或组合了软件和硬件方面的实现方式的形式。因此,以下详细描述不应被认为是限制性的。
说明书中对“一个实施例”或“实施例”的引用意味着结合所述实施例描述的特定特征、结构或特性被包括在根据本公开的至少一个范例实现方式中。在说明书中的各位置,短语“在一个实施例中”的出现不一定都指代相同的实施例。在说明书中的各位置,短语“在一些实施例中”的出现不一定都指代相同的实施例。
以下说明的一些部关于存储在计算机存储器中的非瞬态信号的操作的符号表示来呈现。这些描述和表示是数据处理领域的技术人员用来最有效地将其工作的本质传达给本领域其他技术人员。这样的操作通常需要对物理量的物理操作。通常,但是不一定,这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电、磁或光学信号的形式。有时,主要是出于通常使用的原因,将这些信号称为比特、值、元素、符号、字符、术语、数字等。此外,有时方便起见,也将需要对物理量的物理操纵的步骤的特定布置称为模块或代码设备,而不失一般性。
然而,所有这些和类似的术语都将与适当的物理量相关联,并且仅仅是应用于这些量的便利标签。除非根据以下讨论显而易见另行专门陈述,应该理解,在贯穿本说明,使用诸如“处理”或“运算”或“计算”或“确定”或“显示”等术语的讨论是指计算机系统或类似电子计算设备的动作和过程,其对表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内的物理(电子)量的数据进行操纵和变换。本公开的部分包括可以以软件、固件或硬件实现的过程和指令,并且当以软件实现时,可以将其下载以驻留在各种操作系统所使用的不同平台上并由其操作。
本公开还涉及一种用于执行本文中的操作的装置。该装置可以针对期望的目的而特别构造,或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中,例如但不限于任何类型的磁盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)或适合于存储电子指令的任何类型的介质,并且每个介质都可以耦合到计算机系统总线。此外,说明书中提到的计算机可以包括单个处理器,或者可以是采用多个处理器设计以提高计算能力的架构。
本文提出的过程和显示并不固有地与任何特定的计算机或其他装置相关。各种通用系统也可以根据本文的教导的程序一起使用,或者构造更专用的装置来执行一个或多个方法步骤可以证明是方便的。在下面的描述中讨论了针对各种这样的系统的结构。另外,可以使用足以实现本公开的技术和实现方式的任何特定编程语言。可以使用各种编程语言来实现如本文中所讨论的本公开。
此外,说明书中使用的语言主要是为了可读性和指导性目的而选择的,并且可能没有被选择来描绘或限定本公开的主题。因此,本公开旨在说明而非限制本文中所讨论的概念的范围。
本文所描述的各种实施例的特征通过实施生成术语列表并在这些列表上定义语法的句法方法来解决与现有技术相关的查全率低的问题。所生成的列表可以是简单术语的列表,例如包含来自医学本体的一个或两个单词的简单术语的列表。
语法的基本规则可以描述一般形容词和特殊形容词以及名词的可能组合。例如,语法可以包括识别多个名词可以在彼此之后出现并且形容词通常在名词之前的规则。
作为另一示例,诸如“结构”的一般名词可以跟随特定名词(如在“肝脏结构”中)。扩展的语法规则可以描述名词(例如“肝和肾”)和形容词(例如“左腿和右腿”)的概念组合。它们还可能描述介词短语以及这些短语的组合,例如“在左肺动脉前的前纵隔”。
训练阶段可能涉及手动注释一组报告中的所有相关临床短语。此基本事实可用于微调单词列表和语法。然后,评估阶段可以包括在另一组报告中手动注释所有相关的临床短语,并在其上测试语法。
本文描述的各种实施例的特征可以用于各种应用中,特别是在使用NLP流程的应用中。例如,本文描述的各种实施例的特征可以自动将书面病理报告转换成结构化表示(例如,肿瘤学面板)。作为另一示例,本文是描述的各种实施例的特征可以自动检测放射线报告中的推荐语句以及相应的,得到的研究和处置流程的结果。该检测可以例如基于解剖结构、模态和时间范围中的任何一个或多个。类似地,本文中所述的系统和方法可以通过将研究的原因与报告中提及的发现相关联来自动检测放射学报告的价值。作为另一个示例,本文描述的系统和方法可以自动将书面的肿瘤学临床笔记转换为结构化表示,例如图形时间线。
图1图示了根据一个实施例的用于识别医学文本中的解剖学短语的系统。系统100可以包括经由一个或多个系统总线110互连的处理器120、存储器130、用户接口140、网络接口150和存储设备160。应该理解,在一些方面中,图1构成抽象,并且系统100的实际组织及其部件可以与所示的不同。
处理器120可以是能够执行存储在存储器130、存储设备160上或者是能够处理数据的指令的任何硬件设备。这样,处理器120可以包括微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他类似设备。
存储器130可以包括各种暂态存储器,例如L1、L2或L3高速缓存或系统存储器。这样,存储器130可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或其他类似的存储器设备和配置。
用户接口140可以包括用于实现与健康护理人员的通信的一个或多个设备。例如,用户接口140可以包括用于接收用户命令的显示器、鼠标和键盘。在一些实施例中,用户接口140可以包括命令行接口或图形用户接口,其可以经由网络接口150呈现给远程终端。用户接口140可以在诸如PC、膝上型计算机、平板电脑、移动设备等的用户设备上执行,并且可以使用户能够输入例如与感兴趣术语有关的参数。
网络接口150可以包括一个或多个设备,用于使得能够与其他远程设备进行通信以访问包括医学信息的一个或多个数据源。例如,网络接口150可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。另外,网络接口150可以根据TCP/IP协议实现用于通信的TCP/IP栈。用于网络接口150的各种替代或附加硬件或配置将是显而易见的。
存储设备160可以包括一个或多个机器可读存储介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备或类似的存储介质。在各种实施例中,存储设备160可以存储用于由处理器120执行的指令或者处理器120可以操作的数据。
例如,存储设备160可以包括提取模块161、识别模块162、列表生成模块163和语法模块164。提取模块161可以被配置为执行存储在存储器130上的指令以从包括医学信息的本体或其他数据源的子集中提取概念的集合。
在本申请的上下文中,术语“本体”可以指其中已经注释了解剖位置的医学文献的集合。作为另一个示例,疾病本体可以是用于描述人类疾病的良好结构化的本体。尽管几种医学相关的本体用于保险和计费目的,但是它们也可以用于实现本文中描述的实施例的各种特征。
有许多本体可以与本文描述的系统和方法结合使用。这些可以包括,但不限于,解剖学基础模型(FMA)、Radlex、SNOMED-CT或其某种组合。
提取模块161可以从诸如SNOMED-CT的本体中提取表示身体结构的一组概念。这些概念可以作为从节点“主体结构”开始的节点树找到。类别“修饰词值”还可以包含所需的词,例如,特定形容词(例如“结肠的”)。
例如,图2描绘了SNOMED-CT本体200的一部分的视觉图示。具体而言,图2图示了“主体结构”节点202以及多个子节点204。每个子节点204可以进一步分解成单独的子树。并非所有子节点,子子节点等都需要考虑(例如,“针对肿瘤分期的解剖部位”206可以被排除)。
识别模块162然后可以识别与所提取的概念相关联的多个词。例如,识别模块162可以识别找到的所有概念的同义词。
列表生成模块163然后可以将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表。例如,下面的表1列出了四个术语列表。这些列表包括解剖学专用名词的列表,一般名词的列表(即,可用于描述解剖结构但本身不表示任何解剖结构的名词),解剖学专用形容词的列表以及普通形容词的列表(即,可用于描述解剖结构但本身并不表示任何解剖结构的形容词)。
Figure BDA0002723507270000081
表1示范术语列表
为了生成诸如上面的表1的列表,列表生成模块163可以利用由识别模块162识别的解剖学概念的同义词集。列表生成模块163可以另外考虑解剖学概念的下位词和/或上位词。
在一些实施例中,列表生成模块163可以以四个空列表开始。列表生成模块163然后可以采用例如由一个单词组成的同义词,并将这些单词添加到解剖学专用名词或形容词的列表中。是否将同义词添加到形容词列表或名词列表,可能取决于该概念是基本的身体结构还是例如特定部位描述符。
随后,列表生成模块163或操作者可以取由两个单词组成的同义词,并检查单词中的任何一个是否已经在解剖学专用名词或形容词列表中。如果单词中的一个在列表中,而另一个不在列表中,则可以对未识别的单词进行两个假设。第一个假设是未识别的单词是名词还是形容词,并且第二个假设是未识别的单词是特定单词还是普通单词。
未识别的单词在两个单词的同义词中的位置有助于确定它是名词还是形容词。一般单词列表(例如从NLP资源(如WordNet)导出的单词)中的单词的出现可以确定它是专用单词还是一般单词。
列表生成模块163然后可以对三词同义词、四词同义词等等重复该过程。尽管表1示出了四个列表,但是列表生成模块161可以合并名词列表和形容词列表,并且仅使用两个术语列表(即,解剖学专用的和一般的)。
名词和形容词的分离可以基于词性标注或字典查找的结果,而不是例如基于新词在同义词中的位置。额外地或替代地,可以使用多种分离方法,并且最终分类可以基于多数表决。在一些实施例中,这可以是加权多数表决。
可以定义语法,以便描述列表中术语的可能组合以及诸如“中”和“所述”的辅助词。然后,本文描述的各种实施例的系统和方法可以搜索特定文本中符合语法的短语。
本文所述的系统和方法可以故意使语法相对不受限制。也就是说,所述系统和方法所允许的短语在语法上可以描述临床概念,但仅基于语义是没有意义的。
一个示例就是“左心脏”。本文所述的系统和方法可以将其检测为临床概念,因为它知道“心脏”是临床概念,“左”是修饰语(即使这种特定的单词组合在临床上没有意义)。解析临床文本时这不是问题,因为在实践中可能不会出现这些无意义的组合。
除了或代替列表生成模块163自动在例如一般列表和解剖学专用列表之间分配术语,可以通过让操作者对每个单词进行分类,或者通过使用训练集并将单词从解剖学专用列表一般列表或者反之(或将其完全删除)来手动完成此分配。根据各种实施例,自动分配和手动校正的组合也是可能的。
额外地或可替代地,这些手动注释可以通过注意到正确识别了哪些注释,错过了哪些注释和/或哪些短语被错误地识别为解剖位置来对列表进行微调。这可以手动地和/或通过某种自动算法来完成。
例如,一种算法可以计算带注释文档的一个或多个分析得分。这些(一个或多个)得分可以包括查全率得分,所述查全率得分是通过搜索检索到的相关术语的数量除以现有相关术语的总数。所述(一个或多个)得分可以包括精确度得分,所述精确度得分是相关术语的数量除以通过搜索接收的总术语的数量。所述(一个或多个)得分也可以包括F得分,所述F得分为精确度得分和查全率得分的乘积除以精确度得分和查全率得分的和,乘以2。
然后,所述算法可以在列表中添加/删除/移动单词,以查看添加/删除/移动如何影响所述(一个或多个)得分。该算法然后可以基于所计算的(一个或多个)得分来搜索列表中单词的最佳分布。
注意,一些用于临床概念的术语不包含解剖学专用的词。一个示例是“亚当的苹果”。“亚当”和“苹果”都不是解剖学专用的词。可以通过认识到“亚当的苹果”是一个两单词术语来解决此示例。
尽管表1中的术语称为解剖名词,但这些名词不必全部描述解剖结构。例如,术语“adamkiewicz”是指以病理学家Albert Adamkiewicz命名的动脉。该术语通常仅在医学报告中与短语“Adamkiewicz动脉”一起使用。因此,术语“adamkiewicz”本身并不描述解剖结构。但是,如果医护人员仅使用术语“adamkiewicz”来表示“Adamkiewicz动脉”,则将其包括在列表中可能是有益的。这很常见,因为如果很清楚根据上下文的含义,许多医学报告包含不完整的术语。
一些形容词也可能出现在解剖学短语以及其他非解剖学短语中。例如,在短语“小肝脏肿瘤”中,单词“小”是指“肿瘤”。但是,在短语“小肠”中,“小”一词与“肠”一起描述了特定的解剖结构。为了解决这个问题,单词“小”未被添加到列表中,而是将术语“小肠”识别为两词术语。
一些短语,例如“主动脉肺窗”,包含专用的解剖术语(即“主动脉肺”),但不被视为解剖学短语。本文描述的各种实施例的系统和方法可以将这些类型的术语识别为被忽略的两个单词的术语。
语法可能包含不在生成列表中的其他词,例如冠词、介词和连词。例如,语法规则可能是类似“x AnW y AnW”的内容,其中,
·“x”是冠词、所有冠词的子集中的单词、来自冠词和名词的并集中的单词,等等。
·“AnW”可以是解剖词或解剖名词,并且
·“y”可以是连词或来自连词的子集中的单词。
因此,这种语法规则可以捕获像“肝和脾”的短语。
也可以在每当需要解析文本时保存并加载单词列表。这样,不需要本文中所描述的系统和方法来重复处理一个或多个数据源。
图3描绘了根据一个实施例的用于识别医学文本中的解剖学短语的方法300的流程图。步骤302涉及使用接口访问包括医学信息的一个或多个数据源。如前所述,这些数据源可以包括本体,例如FMA、Radlex、SNOMED-CT或它们的一些组合。
步骤304涉及使用所述配置的处理器执行存储在存储器中的指令以从所述数据源中的至少一个数据源的子集中提取一组概念。例如,步骤304可以包括如图2所示地从SNOMED-CT本体提取代表身体结构的一组概念。步骤304可以由图1的提取模块161执行。
步骤306涉及使用所述配置的处理器来识别与每个概念相关联的多个术语。该步骤可以由图1的识别模块162执行。步骤306可以涉及例如识别所提取概念的同义词。
步骤308涉及使用所述配置的处理器将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表。这些列表可能类似于上面的表1的列表。如前所述,可以仅使用两个列表,或者可以使用两个以上的列表。步骤308可以由图2的列表生成模块163执行。
步骤310涉及使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语。所应用的语法规则可以类似于以上描述的语法规则中的任何一个或多个。
步骤312涉及使用所述配置的处理器来在使用接口访问的医学文本中识别所述至少一个复合术语。该步骤可以由图1的识别模块162执行。因此,与使用常规的基于词法的技术相比,可以在医学文本中识别出更多的复合术语。
上面讨论的方法、系统和设备是示例。各种配置可以适当地省略、替换或添加各种过程或部件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,并且可以添加、省略或组合各种步骤。而且,关于某些配置描述的特征可以以各种其他配置组合。可以以类似的方式组合配置的不同方面和元素。此外,技术在发展,因此,许多元素是示例,并且不限制本公开或权利要求的范围。
上面参照根据本公开的实施例的方法、系统和计算机程序产品的框图和/或操作说明来描述了本公开的实施例。方框中记载的功能/动作可能按照不同于任何流程图中所示的顺序发生。例如,取决于所涉及的功能/动作,相继地示出的两个块实际上可以基本上同时执行,或者块有时可以以相反的顺序执行。额外地或者替代地,并不是任何流程图中示出的所有块都需要执行和/或运行。例如,如果给定的流程图具有包含功能/动作的五个块,则可能的情况是,仅执行和/或运行五个块中的三个块。在该范例中,可以执行和/运执行五个块中的任意三个。
值超过(或大于)第一阈值的陈述等同于该值满足或超过略大于第一阈值的第二阈值的陈述,例如,第二阈值是一个值高于相关系统分辨率中的第一个阈值。值小于第一阈值(或在其之内)的陈述等同于该值小于或等于略低于第一阈值的第二阈值的陈述,例如,第二阈值是相关系统分辨率中低于第一阈值的一个值。
在说明书中提出了具体细节以提供对示例配置(包括实现方式)的透彻理解。然而,可以在没有这些具体细节的情况下实践配置。例如,已经示出了众所周知的电路、过程、算法、结构和技术而没有不必要的细节,以避免使配置模糊。本说明仅提供示例配置,并且不限制权利要求的范围、适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的实现的描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
已经描述了若干示例配置,可以使用各种修改、替代构造和等同物而不脱离本公开的精神。例如,上述元素可以是更大系统的部件,其中,其他规则可以优先于或以其他方式修改本公开的各种实现或技术的应用。而且,可以在考虑上述元素之前、期间或之后进行许多步骤。
已经提供了本申请的描述和说明,本领域技术人员可以设想到落入本申请中所讨论的总体发明概念中的变型、修改和替代实施例,其不脱离权利要求的范围。

Claims (15)

1.一种用于识别医学文本中的解剖学短语的方法,所述方法包括:
使用接口来访问包括医学信息的一个或多个数据源;
使用配置的处理器来执行存储在存储器中的指令,从所述数据源中的至少一个数据源的子集中提取一组概念;
使用所述配置的处理器,识别与所述概念中的每个概念相关联的多个术语;
使用所述配置的处理器来将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中;
使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且
使用所述配置的处理器来在使用所述接口访问的医学文本中识别所述至少一个复合术语。
2.根据权利要求1所述的方法,其中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表;并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。
3.根据权利要求2所述的方法,其中,所述识别出的术语是基于词性标注或字典查找的部分的结果而被分类的。
4.根据权利要求2所述的方法,其中,所述识别出的术语是基于加权多数投票而被分类的。
5.根据权利要求1所述的方法,其中,识别出的术语包括至少两个词。
6.根据权利要求1所述的方法,其中,识别与每个概念相关联的多个术语包括识别每个概念的同义词。
7.一种用于识别医学文本中的解剖学短语的系统,所述系统包括:
接口,其用于至少访问包括医学信息的一个或多个数据源并且用于接收医学文本;以及
至少一个配置的处理器,其执行存储在存储器中的指令以:
从所述数据源中的至少一个数据源的子集中提取一组概念;
识别与所述概念中的每个概念相关联的多个术语;
将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中;
将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且
在由所述接口接收的医学文本中识别所述至少一个复合术语。
8.根据权利要求7所述的系统,其中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表,并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。
9.根据权利要求8所述的系统,其中,所述识别出的术语是基于词性标注或字典查找的部分的结果而被分类的。
10.根据权利要求8所述的系统,其中,所述识别出的术语是基于加权多数投票而被分类的。
11.根据权利要求7所述的系统,其中,识别出的术语包括至少两个词。
12.根据权利要求7所述的系统,其中,所述至少一个配置的处理器通过识别所述概念中的每个概念的同义词来识别与所述概念中的每个概念相关联的所述多个术语。
13.一种包含计算机可执行指令的计算机可读介质,所述计算机可执行指令用于识别医学文本中的解剖学短语,所述介质包括:
用于使用接口来访问包括医学信息的一个或多个数据源的计算机可执行指令;
用于使用配置的处理器来执行存储在存储器中的指令以从所述数据源中的至少一个数据源的子集中提取一组概念的计算机可执行指令;
用于使用所述配置的处理器来识别与所述概念中的每个概念相关联的多个术语的计算机可执行指令;
用于使用所述配置的处理器将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中的计算机可执行指令;
用于使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语的计算机可执行指令;以及
用于使用所述配置的处理器来在使用所述接口访问的医学文本中识别至少一个复合术语的计算机可执行指令。
14.根据权利要求13所述的介质,其中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表,并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。
15.根据权利要求13所述的介质,其中,用于使用所述配置的处理器来识别与所述概念中的每个概念相关联的多个术语的计算机可执行指令包括用于识别每个概念的同义词的计算机可执行指令。
CN201980025787.8A 2018-03-14 2019-03-11 识别解剖学短语 Active CN111971678B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862642933P 2018-03-14 2018-03-14
US62/642,933 2018-03-14
PCT/EP2019/055954 WO2019175075A1 (en) 2018-03-14 2019-03-11 Identifying anatomical phrases

Publications (2)

Publication Number Publication Date
CN111971678A CN111971678A (zh) 2020-11-20
CN111971678B true CN111971678B (zh) 2023-02-28

Family

ID=66218037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980025787.8A Active CN111971678B (zh) 2018-03-14 2019-03-11 识别解剖学短语

Country Status (4)

Country Link
US (1) US11941359B2 (zh)
EP (1) EP3765978A1 (zh)
CN (1) CN111971678B (zh)
WO (1) WO2019175075A1 (zh)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610192B1 (en) 2006-03-22 2009-10-27 Patrick William Jamieson Process and system for high precision coding of free text documents against a standard lexicon
US20080228769A1 (en) * 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
US20090313243A1 (en) * 2008-06-13 2009-12-17 Siemens Aktiengesellschaft Method and apparatus for processing semantic data resources
US20110004588A1 (en) * 2009-05-11 2011-01-06 iMedix Inc. Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
EP2487602A3 (en) * 2011-02-11 2013-01-16 Siemens Aktiengesellschaft Assignment of measurement data to information data
AU2012225661A1 (en) 2011-03-07 2013-09-19 Health Fidelity, Inc. Systems and methods for processing patient history data
US20120278102A1 (en) 2011-03-25 2012-11-01 Clinithink Limited Real-Time Automated Interpretation of Clinical Narratives
US20130011027A1 (en) * 2011-07-05 2013-01-10 Sonja Zillner System and method for composing a medical image analysis
US10198499B1 (en) * 2011-08-08 2019-02-05 Cerner Innovation, Inc. Synonym discovery
US9075796B2 (en) 2012-05-24 2015-07-07 International Business Machines Corporation Text mining for large medical text datasets and corresponding medical text classification using informative feature selection
WO2014035138A1 (ko) * 2012-08-31 2014-03-06 부산대학교 산학협력단 의료 정보 처리 시스템
WO2014134026A1 (en) 2013-03-01 2014-09-04 3M Innovative Properties Company Identification of clinical concepts from medical records
US10204026B2 (en) * 2013-03-15 2019-02-12 Uda, Llc Realtime data stream cluster summarization and labeling system
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US9524289B2 (en) * 2014-02-24 2016-12-20 Nuance Communications, Inc. Automated text annotation for construction of natural language understanding grammars
US10102274B2 (en) * 2014-03-17 2018-10-16 NLPCore LLC Corpus search systems and methods
CN105468580A (zh) 2014-09-28 2016-04-06 北京三星通信技术研究有限公司 基于关注点信息提供服务的方法和装置
US11630874B2 (en) 2015-02-25 2023-04-18 Koninklijke Philips N.V. Method and system for context-sensitive assessment of clinical findings
BR112017019015A2 (pt) * 2015-03-09 2018-04-17 Koninklijke Philips N.V. sistema que facilita o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados, e método para facilitar o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados

Also Published As

Publication number Publication date
CN111971678A (zh) 2020-11-20
EP3765978A1 (en) 2021-01-20
WO2019175075A1 (en) 2019-09-19
US20210004533A1 (en) 2021-01-07
US11941359B2 (en) 2024-03-26

Similar Documents

Publication Publication Date Title
CN109522551B (zh) 实体链接方法、装置、存储介质及电子设备
US8374844B2 (en) Hybrid system for named entity resolution
US10642928B2 (en) Annotation collision detection in a question and answer system
US20150278197A1 (en) Constructing Comparable Corpora with Universal Similarity Measure
US20160078016A1 (en) Intelligent ontology update tool
Fürstenau et al. Semi-supervised semantic role labeling
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
US11170169B2 (en) System and method for language-independent contextual embedding
US10223349B2 (en) Inducing and applying a subject-targeted context free grammar
CN108427702B (zh) 目标文档获取方法及应用服务器
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
CN105138829A (zh) 一种中文诊疗信息的自然语言处理方法及系统
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
Kübler et al. Part of speech tagging for Arabic
Patrick et al. Automated proof reading of clinical notes
CN112148862A (zh) 一种问题意图识别方法、装置、存储介质及电子设备
Wong et al. isentenizer-: Multilingual sentence boundary detection model
Ou et al. Automatic negation detection in narrative pathology reports
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN111971678B (zh) 识别解剖学短语
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
CN113963804A (zh) 医学数据关系挖掘方法及装置
CN115146025A (zh) 一种问答语句分类方法、终端设备及存储介质
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN113408296A (zh) 一种文本信息提取方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant