CN110998741B - 编码医学词汇的映射 - Google Patents

编码医学词汇的映射 Download PDF

Info

Publication number
CN110998741B
CN110998741B CN201880053270.5A CN201880053270A CN110998741B CN 110998741 B CN110998741 B CN 110998741B CN 201880053270 A CN201880053270 A CN 201880053270A CN 110998741 B CN110998741 B CN 110998741B
Authority
CN
China
Prior art keywords
vocabulary
sentence
mapping
source
discovery code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880053270.5A
Other languages
English (en)
Other versions
CN110998741A (zh
Inventor
M·塞芬斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN110998741A publication Critical patent/CN110998741A/zh
Application granted granted Critical
Publication of CN110998741B publication Critical patent/CN110998741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

一种系统(100)包括:特征提取引擎(130)、发现代码比较引擎(140)以及映射接口(160)。所述特征提取引擎(130)提取源词汇(110)中的发现代码的语句的特征以及目标词汇(112)中的第二发现代码的第二语句的特征。所述发现代码比较引擎(140)通过基于包括所提取的特征的至少一个识别概念比较所提取的特征来确定所述源词汇的所述语句与所述目标词汇的所述第二语句之间的映射。所述映射接口(160)在显示设备(162)上呈现所确定的映射。

Description

编码医学词汇的映射
技术领域
下文总体上涉及医学信息学,并且更具体地涉及源词汇与目标词汇之间的编码医学语句的词汇映射。
背景技术
医学机构开发了编码医学词汇,以促进创建患者医学报告和/或研究。发现代码是与观察或诊断语句相对应的编码医学词汇的独特的字母数字字符串。例如,在一个机构的词汇中,发现代码“373”对应于以下文本:“心包看起来正常”。医护人员通过输入一个或多个发现代码来为患者创建医学报告。输入发现代码而不是语句本身能够比口述或编写语句更有效,并且能够提供更一致的报告。输入的发现代码的对应语句将被添加到最终报告中或者替换最终报告中的发现代码。具有发现代码的患者医学报告的中间版本通常被存储在数据库中,该数据库能够提供对跨患者群体的医学报告的发现代码的查询访问。
机构的词汇包括控制在报告中如何包括发现代码的规则。规则能够规定某些发现代码是互斥的,例如,词汇的发现代码A1、A2和A3是互斥的。也就是说,A1不能与A2或A3一起被包括在患者医学报告中。规则能够包括条件逻辑、布尔逻辑及其组合。词汇是本地创作的和/或本地修改的。也就是说,本地系统通常允许输入和编辑发现代码和对应语句,并且本地词汇反映了本地专长、本地特色和/或本地历史。结果,组织之间的词汇可能会有很大差异。
发明内容
本文描述的各个方面解决了上述问题和其他问题。
下面描述了用于映射编码医学词汇的系统和方法的实施例。医学词汇包括独特的发现代码和对应语句。医学词汇能够包括控制在编码医学报告中对发现代码的使用的规则。医学词汇能够包括关于对发现代码的先前使用的统计信息。从源词汇和目标词汇中的对应语句中提取特征。比较所提取的特征。基于所比较的特征来确定发现代码与源词汇和目标词汇的对应语句之间的映射。计算的相似性得分指示个体映射的相对强度。在一些实施例中,根据所确定的映射将规则从源词汇翻译为目标词汇。在一些实施例中,用户接口提供对映射的审阅和确认。能够将所确认的映射应用于目标词汇。
在一个方面中,一种系统包括:特征提取引擎、发现代码比较引擎以及映射接口。所述特征提取引擎提取源词汇中的发现代码的语句的特征以及目标词汇中的第二发现代码的第二语句的特征。所述发现代码比较引擎通过基于包括所提取的特征的至少一个识别概念比较所提取的特征来确定所述源词汇的所述语句与所述目标词汇的所述第二语句之间的映射。所述映射接口在显示设备上呈现所确定的映射。
在另一方面中,一种方法包括:提取源词汇中的发现代码的语句的特征以及目标词汇中的第二发现代码的第二语句的特征;通过基于包括所提取的特征的至少一个识别概念比较所提取的特征来确定所述源词汇的所述语句与所述目标词汇的所述第二语句之间的映射;并且在显示设备上呈现所确定的映射。
在另一方面中,一种非瞬态计算机可读存储介质承载指令,所述指令控制一个或多个处理器以执行以下操作:提取源词汇中的发现代码的语句的特征以及目标词汇中的第二发现代码的第二语句的特征;通过基于包括所提取的特征的至少一个识别概念比较所提取的特征来确定所述源词汇的所述语句与所述目标词汇的所述第二语句之间的映射;并且在显示设备上呈现所确定的映射。
参考下文描述的(一个或多个)实施例,本发明的这些方面和其他方面将是明显的并且得到阐明。
附图说明
本发明可以采用各种部件和各种部件的布置,以及各个步骤和各个步骤的安排的形式。附图仅出于图示优选实施例的目的,并且不应被解释为对本发明的限制。
图1示意性地图示了用于将源词汇映射到目标词汇的系统的实施例。
图2图示了从语句中提取的概念的示例。
图3图示了用于确认源词汇与目标词汇之间的映射的映射接口的显示示例。
图4图示了根据本文的(一个或多个)实施例的流程图。
具体实施方式
参考图1,示意性地图示了用于将源词汇110映射到目标词汇112的系统100的实施例。词汇110、112中的每个都包括独特的发现代码和对应语句。词汇110、112中的每个都能够包括控制对发现代码的使用以用于准备电子患者医学报告的规则。词汇110、112中的每个都能够包括关于在先前的电子患者医学报告和/或其他医学文档中对发现代码的使用的统计信息。
例如,数据库存储“中间”报告,该“中间”报告是包括发现代码的患者医学报告。能够对这些报告进行抽样以获取统计信息。在一种情况下,针对每个发现代码的统计信息包括每个发现代码的出现频率或相对频率、根据报告数据使用的发现代码的时间戳分布和/或其他统计信息。发现代码的统计信息能够被添加到词汇中存储的发现代码的记录中。
词汇选择引擎120检索源词汇110和目标词汇112。在一些实施例中,词汇选择引擎120从多个源词汇或源词汇110的子集中选择源词汇110。在一些实施例中,词汇选择引擎120从多个目标词汇或目标词汇112的子集中选择目标词汇112。例如,一些词汇能够包括针对研究项目的子集或特定群体的词汇(例如,成人特定的词汇或儿科特定的词汇)。词汇选择引擎120能够根据预定标准来选择性地检索源词汇110和/或目标词汇112。例如,针对研究项目的词汇能够使用特定范围的发现代码或具有特定识别符的发现代码。词汇选择引擎120能够选择特定范围内的发现代码,排除特定范围内的发现代码,选择具有特定识别符的发现代码,或者排除具有特定识别符的发现代码。
在一些实施例中,词汇选择引擎120根据统计信息来过滤源词汇110和/或目标词汇112。例如,在一种情况下,对源词汇进行过滤以排除低于预定阈值的发现代码。也就是说,能够从词汇中排除尚未使用的或使用得很少的发现代码。在另一示例中,时间戳用于确定当前词汇,并且发现代码的频率用于确定当前词汇内的活跃的发现代码。
在一些实施例中,词汇选择引擎120为每个发现代码识别对应规则。词汇选择引擎120能够根据规则来过滤发现代码。过滤能够排除和/或包括基于规则的发现代码。例如,能够包括不受源词汇中的规则约束的发现代码,例如,受互斥约束的发现代码。在一些情况下,这能够简化映射的处理,下面将对此进行详细讨论。在另一示例中,只有那些受规则约束的发现代码才被包括在词汇中。在一些情况下,这能够减少用于另一审阅的更复杂映射的量。
特征提取引擎130使用自然语言处理(NLP)技术从源词汇110和目标词汇112中的每个发现代码的对应语句中提取特征。NLP技术包括单词标记和词干分析、短语识别以及停用单词消除。从提取的单词或短语中识别概念。例如,在语句“晃动表明主动脉假体裂开”中,单词“建议”是中等确定性的概念,单词“主动脉”是主动脉的概念,并且单词“假体”是假体的概念等。
使用诸如系统化医学命名法(SNOMED)、本地开发的本体,其组合等的本体论来概括所识别的概念。所概括的概念包括异物、解剖结构、发现、严重性指标、病理学、图像质量指标、极性、确定性指标和/或其组合。从上面的示例继续,确定性的概括概念包括中等确定性概念,其包括单词“建议”的实例。解剖结构的概括概念包括主动脉的解剖结构,其包括单词“主动脉”的实例。异物的概括概念包括假体的概念,其包括单词“假体”的实例。
发现代码比较引擎140比较所提取的特征以确定源词汇110中的语句与目标词汇112中的语句之间的映射。发现代码比较引擎140使用所概括的概念来匹配提取的特征。该比较能够包括对两者都存在且匹配,两者都存在且不匹配,两者都不存在,以及恰好一个存在的个体确定。
两者都存在且匹配指示提取的特征的实例与同一概念相匹配。例如,考虑来自源词汇的语句“晃动表明主动脉假体裂开”以及来自目标词汇的语句“假体主动脉瓣的异常晃动表明裂开”。两者中都存在确定性的概括概念,并且相同的中等确定性概念与单词“建议”的实例相匹配。两者中都存在解剖结构的概括概念,并且主动脉的相同解剖结构与“主动脉”的实例相匹配。两者中都存在异物的概括概念,并且假体的概念与同一词干中的“假体的”和“假体”的实例相匹配。
匹配能够包括在所比较的提取特征的单词或短语之间计算的单词重叠率。能够在停用单词消除和/或词干分析之后执行匹配。能够将单词重叠率计算为两个语句的提取特征之间共有的独特单词或短语的数量除以任一提取特征中的独特单词或短语的数量。在一些实施例中,匹配能够包括逆频文档频率技术、语言模型、word2vec模型及其组合。在一些实施例中,匹配能够包括针对发现代码的统计信息的比较。例如,一组患者医学报告中的相对频率能够指示匹配。
两者都存在且不匹配指示源语句和目标语句都包括相同的概括概念,但是这些概念不同。例如,考虑来自源词汇的包括“三尖瓣”的语句和来自目标词汇的包括“二尖瓣”的语句。在这两个语句中都存在解剖结构,但是这些解剖结构不匹配。也就是说,“三尖瓣”和“二尖瓣”是心脏的在解剖上不同的瓣膜,并且“三尖瓣”在解剖上与“二尖瓣”不匹配。
两者都不存在指示在所比较的语句中的任一语句中都不存在概括概念。例如,语句可以不包括任何异物。恰好存在一个指示在所比较的语句中只有一个语句出现概括概念中的一个的单个概念。例如,考虑第一语句“图像质量足以用于诊断解读”和第二语句“没有二尖瓣反流的证据”。图像质量的概念存在于第一语句中,而不存在于第二语句中。解剖结构的概念存在于第二语句中,而不存在于第一语句中。
发现代码比较引擎140基于该比较来计算相似性得分。能够使用规则和用于个体确定的积分制来计算相似性得分。积分制能够从映射的相似性得分中添加或减去积分。例如,如果规则比较了解剖学的一般概念并确定在两个语句中都存在解剖结构的一般概念并且这些解剖结构相匹配,则将5个积分添加到相似性得分中。在另一示例中,如果规则比较了解剖学的一般概念并确定在任一语句中不存在解剖结构,则将3个积分添加到相似性得分中。规则能够包括语句的一般比较。例如,能够为语句中的所有单词的重叠添加积分。示例规则将单词重叠率乘以预定权重。
在一些实施例中,能够使用统计模型或机器学习模型来计算相似性得分。能够根据已知映射的样本数据来构建统计模型。已知映射是源词汇的一个语句与目标词汇的一个语句之间的关系,该关系已被审阅并确认。能够使用已知映射的训练数据来训练机器学习模型。在一些实施例中,能够计算多个相似性得分。在一些实施例中,概括概念中的一个或多个能够被排除出计算出的相似性得分、针对概括概念的不同组合而计算出的单独相似性得分及其组合。在一些实施例中,对于低于预定阈值的相似性得分,能够省去映射。
在一些实施例中,发现代码比较引擎140能够使用其他词汇的先前映射。例如,如果将源词汇A的发现代码A432映射到目标词汇B的B174,则在将词汇X映射到词汇B并且对应于词汇X的发现代码X662的语句与A432的发现代码相同时,A432到B174的先前映射能够用于识别从X662到B174的相同映射。能够扩展对其他词汇的先前映射的使用,以包括额外的源词汇和/或目标词汇这两者。例如,如果发现代码A1从词汇A映射到词汇B的发现代码B1,词汇X的X1与A1相同,并且词汇Y的Y1与B1相同,则从X1到Y1的映射与从A1到B1的映射相同。
映射能够被表示为来自源词汇110的语句与来自目标词汇112的语句之间的链接。该链接能够被存储在源目标映射142的数据库中。该映射能够包括一个或多个计算出的相似性得分。
机器智能引擎150输入一组控制源词汇110的规则或源规则。机器智能引擎150识别源规则中的发现代码并验证所识别的发现代码到目标词汇112的映射。
对于所有经验证的发现代码,机器智能引擎150将源规则转换为目标词汇112的规则或目标规则。源规则和/或目标规则能够包括条件用法。例如,源规则规定是否包括发现代码A1并且然后是否额外地包括发现代码A15或发现代码A17。规则能够包括布尔运算符。例如,规则控制使用发现代码A1或使用发现代码A2,但不能同时使用这两个发现代码。利用布尔运算符,表示排他性的或(XOR)关系。例如,能够利用布尔运算符将A1 XOR A2表示为(不是A1而是A2)或(是A1而不是A2)。规则能够包括条件用法与布尔运算符的组合。
例如,在源规则包括A1 XOR A2 XOR A3的情况下,机器智能引擎150识别出A1映射到目标词汇的B1,A2映射到B2,并且A3映射到(B3或B4),并且生成指出B1 XOR B2 XOR(B3OR B4)的经转换的规则。经转换的规则指示B3和B4能够一起出现或单独出现,但是不能与B1一起出现,也不能与B2一起出现。B1和B2不能同时出现。
映射接口160控制显示设备162和一个或多个输入设备164的操作,以提供对源词汇110与目标词汇之间的映射语句的审阅和确认。确认的映射语句能够被存储在确认的映射数据库166中。在一些实施例中,确认的映射的指示符被添加到源目标映射142的数据库。所确认的映射能够被应用于目标词汇112。在一些情况下,所应用的确认的映射支持对目标词汇112中的发现代码进行有效的更改控制。
源词汇110、目标词汇112、源目标映射表142的数据库和所确认的映射数据库166由经配置的电子存储介质(例如,本地磁盘、云存储设备、服务器存储设备、远程存储设备等)来适当实施,由处理单元170的经配置的处理器来访问。经配置的电子存储介质能够包括系统文件结构,关系和/或面向对象的数据库系统结构等。
处理单元170、显示设备162和(一个或多个)输入设备能够包括计算设备180,例如,膝上型计算机、台式计算机、平板计算机、智能电话、身体穿戴式计算设备、服务器、计算设备的分布式或协作布置等。显示设备162由计算机显示器、智能电话显示器、投影仪、身体穿戴式显示器、电视(TV)及其组合等来适当实施。输入设备164由键盘、鼠标、轨迹球、麦克风及其组合等来适当实施。
词汇选择引擎120、特征提取引擎130、发现代码比较引擎140、机器智能引擎150以及映射接口160由经配置的计算机处理器(例如,数字处理器、微处理器、电子处理器、光学处理器、多处理器、包括对等或协作操作处理器的处理器分布、处理器的客户端-服务器布置等)来适当实施,并且被配置为选择源词汇110和目标词汇112,从词汇的语句中提取特征,识别语句中存在的概念,比较特征和概念,确定映射,计算相似性得分,将源规则转换为目标规则,审阅和确认映射,应用映射以及操作输入设备164和显示设备162。
经配置的计算机处理器运行至少一个被存储在计算机可读存储介质中的计算机可读指令,所述计算机可读存储介质例如是光盘、磁盘、具有经配置的处理器的计算设备的半导体存储器,该计算机可读指令不包括瞬态介质并且包括物理存储器和/或其他非瞬态介质以执行所公开的技术。经配置的处理器还可以运行由载波、信号或其他瞬时介质承载的一个或多个计算机可读指令。图中表示的部件之间的线表示通信路径。
在一些实施例中,词汇选择引擎120、特征提取引擎130、发现代码比较引擎140、机器智能转换引擎150以及映射接口160被适当实施为计算机程序产品。
参考图2,图示了具有提取特征204、识别概念206和概括概念208的第一示例性发现代码200和对应语句202。第一示例性语句202语句“多普勒指示没有二尖瓣反流的证据”。单词“二尖瓣”被包括在二尖瓣的识别概念206中,二尖瓣被包括在解剖结构的概括概念208中。单词“反流”被包括在反流的识别概念206中,反流被包括在发现的概括概念208中。
第一示例性语句202另外还包括“没有证据”的提取特征,这是极性210的概念。极性210的概念是应用于其他概念的否定或范围限制。极性210的概念由诸如“否”、“不是”,“无”等某些关键词来指示。极性210的概念将由“-”号表示的负极性应用于反流。
极性210的概念能够通过阻止关键词(例如,“但是”)来限制。例如,考虑语句“没有三尖瓣反流的证据,但是患者患有风湿热。”负极性将应用于阻止关键词之前的单词,而不应用于阻止关键词之后的单词。极性的范围能够包括固定数量的单词。
图示了第二示例性发现代码220和对应语句222。第二示例性语句220陈述“多普勒表明轻度的假体三尖瓣反流。”第二语句222的提取的文本或特征204包括“假体”、“三尖瓣”、“反流”和“轻度”。单词“假体”被包括在假体的识别概念206的含义内,假体的识别概念206被包括在异物的概括概念208中。单词“三尖瓣”被包括在三尖瓣的识别概念206的含义内,三尖瓣的识别概念206被包括在解剖结构的概括概念208中。单词“反流”被包括在反流的识别概念206的含义内,反流的识别概念206包括在发现的概括概念208中。单词“轻度”被包括在轻度的识别概念206的含义内,轻度的识别概念206被包括在严重性指标的概括概念208中。在没有否定词的情况下,极性210的概念能够默认为正极性,在示例中用“+”号表示。
轻度的识别概念能够包括诸如轻微、极小、标称等特征。在一些情况下,包括识别概念的特征包括同义词。严重性指示符的其他识别概念的其他示例能够包括中度、严重、广泛等。图像质量的概括概念208的示例能够包括图像质量概念的各个方面,例如,伪影、噪声、分辨率或相对质量(例如,质量差)等。确定性指标的概括概念208的示例能够包括低、中、高等。
参考图3,图示了用于确认源词汇110与目标词汇112之间的映射的映射接口160的显示器300的示例。第一区域302列出了源词汇110的语句。例如,一个可滚动列表包括来自源词汇的映射语句。映射接口160指示从源词汇110中选择的语句304。在所图示的示例中,所选择的语句304被指示为由虚线框选择。在一些实施例中,所选择的语句304能够包括颜色变化、亮度变化等以指示选择。在一些实施例中,能够响应于所选择的语句304来进一步指示根据规则的相关语句。例如,通过指示A1 XOR A2的规则,语句A1与语句A2相关。选择语句A1,并且作为响应,语句A2也被突出显示或以其他方式指示。
响应于从源词汇中选择所选择的语句304,第二区域306列出来自目标词汇112的、从所选择的语句304映射的映射语句。在一些实施例中,按相似性得分308对第二区域306中列出的语句进行排序。从映射语句的列表中选择第二语句310。诸如按钮之类的确认指示符312指示所选择的语句304和第二语句310被确认为是映射的。消息314确认映射被添加到所确认的映射数据库166。
显示器300上的布尔运算符316的指示符提供创建或修改控制对第二语句310的使用的规则的能力。例如,A1映射到B1,并且A2映射到B2。布尔运算符316的指示符能够用于指示B1和B2是互斥的。在一些实施例中,布尔运算符316的指示符能够被省去。
映射接口160能够用于交互地操作系统100。能够指示所选择的一般概念来确定映射。能够指示所选择的特征或关键词来确定映射。所选择的一般概念和/或所选择的特征用作确定源词汇110中的所选择的语句304与来自目标词汇112的映射语句的列表之间的匹配或映射的基础。能够根据所选择的(一个或多个)概括概念和/或(一个或多个)特征来计算所计算的相似性得分308。
在所图示的示例中,选择或打开用于解剖结构318的概括概念的指示符和用于异物320的概括概念的指示符。响应于所选择的解剖结构指示符318,在所选择的语句304中用下划线标出所提取的特征或单词“三尖瓣”。响应于所选择的异物指示符320,在所选择的语句304中用下划线标出所提取的特征或单词“假体”。基于解剖结构与异物之间的匹配来确定映射语句310的列表。基于解剖结构与异物的相似性来计算相似性得分308。在来自目标词汇112的映射语句310中的每个映射语句中,用下划线标出了“三尖瓣”的匹配的识别概念和/或“假体”的匹配的识别概念的提取特征。
在一些情况下,选择性打开和关闭所选择的一般概念的能力为灵活的映射环境提供了一种机制。在一些情况下,医护人员能够根据所选择的所有概括概念中的最严格的标准来操作接口,从而以更少的选择的概括概念来更开放地考虑映射中的意图。在一些情况下,这能够帮助医护人员处理大量发现代码的映射。
图4图示了根据本文的(一个或多个)实施例的流程图。
在400处,选择源词汇110和目标词汇112。词汇110、112中的每个包括独特的发现代码和对应语句。词汇110、112中的每个能够包括控制在准备患者的医学报告中对发现代码的使用的规则。词汇110、112中的每个能够包括关于对先前医学文档中的发现代码的使用的统计信息。
在410处,使用NLP技术来提取每个词汇110、112的对应语句的特征。NLP技术包括单词标记和词干分析、短语识别和停用单词消除。从提取的单词或短语中识别概念。使用本体论来概括所识别的概念。概括概念包括异物、解剖结构、发现、严重性指标、病理学、图像质量指标、极性、确定性指标及其组合。
在420处,使用概括概念和识别概念来比较源词汇110中的语句与目标词汇112中的语句之间的提取特征并且确定映射。比较能够包括概括概念的不同组合。能够利用源词汇110中的一个语句与目标词汇112中的一个语句之间的联系来表示映射。该映射包括一个或多个相似性得分的计算。相似性得分的计算能够包括所比较的语句之间的总体比较,例如,单词重叠、统计信息等。
在430处,能够根据所确定的映射将控制对源词汇110的使用的规则转换为控制对目标词汇112的使用的规则。规则能够包括条件用法,例如,If-Then逻辑。规则能够包括布尔运算符。在一些实施例中,动作430能够被省去。
在440处,在视觉上呈现所确定的映射。所确定的映射能够被呈现在显示设备162上。所呈现的映射能够包括针对目标词汇112中的每个映射语句的一个或多个相似性得分。能够将所确定的映射表示为源词汇110中的所选择的语句以及目标词汇112中的映射语句的列表。能够通过相似性得分对目标词汇112中的映射语句的列表进行排序。
在450处,响应于来自输入设备164的输入而指示确认的映射。能够将确认的映射存储在确认的映射166的数据库中。
在460处,将确认的映射应用于目标词汇112。也就是说,根据所确认的映射在目标词汇112中添加或修改语句。
以上内容可以以计算机可读指令的方式来实施,所述计算机可读指令被编码或嵌入在计算机可读存储介质上,所述计算机可读指令当由(一个或多个)计算机处理器运行时,令(一个或多个)处理器执行所描述的动作。额外地或替代地,计算机可读指令中的至少一个由信号、载波或其他瞬态介质来承载。
能够以不同顺序执行以上步骤并且/或者能够省去一些步骤。
虽然已经在附图和前面的描述中详细图示和描述了本发明,但是这样的图示和描述应当被认为是图示性或示例性的,而非限制性的;本发明不限于所公开的实施例。本领域技术人员通过研究附图、公开内容以及权利要求,在实践请求保护的发明时能够理解并实现对所公开的实施例的其他变型。
在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。虽然某些措施被记载在互不相同的从属权利要求中,但是这并不指示不能有利地使用这些措施的组合。
计算机程序可以被存储/分布在合适的介质上,例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质,但是也可以被以其他形式分布,例如经由互联网或其他有线或无线的电信系统进行分布。权利要求中的任何附图标记都不应被解释为对范围的限制。

Claims (15)

1.一种用于映射的系统(100),包括:
特征提取引擎(130),其包括处理器,所述特征提取引擎被配置为提取源词汇(110)中的发现代码的语句的特征以及目标词汇(112)中的第二发现代码的第二语句的特征;
发现代码比较引擎(140),其包括所述处理器,所述发现代码比较引擎还被配置为通过基于包括所提取的特征的至少一个识别概念比较所提取的特征来确定所述源词汇的所述语句与所述目标词汇的所述第二语句之间的映射;以及
映射接口(160),其被配置为在显示设备(162)上呈现所确定的映射。
2.根据权利要求1所述的系统,其中,所述发现代码比较引擎还被配置为使用一组规则来计算所述源词汇的所述语句与所述目标词汇的所述第二语句之间的相似性得分。
3.根据权利要求1所述的系统,还包括:
机器智能转换引擎(150),其包括所述处理器,所述机器智能转换引擎还被配置为根据所确定的映射将用于在所述源词汇中的所述发现代码的一组规则转换为包括在所述目标词汇中的所述第二发现代码的一组规则。
4.根据权利要求1所述的系统,还包括:
词汇选择引擎(120),其包括所述处理器,所述词汇选择引擎还被配置为从多个源词汇中选择所述源词汇。
5.根据权利要求1所述的系统,其中,所述至少一个识别概念包括至少一个概括概念,其中,所述概括概念包括从包括以下各项的组中选择的至少一项:异物、解剖结构、发现、严重性指标、病理学、图像质量指标、极性,以及确定性指标。
6.根据权利要求1所述的系统,其中,所述源词汇的所述语句和所述目标词汇的所述第二语句包括编码医学语句。
7.根据权利要求1所述的系统,其中,所述映射接口还被配置为响应于来自输入设备(164)的输入而确认所述源词汇的所述语句与所述目标词汇的所述第二语句之间的所确定的映射。
8.一种用于映射的方法,包括:
提取源词汇(110)中的发现代码的语句的特征以及目标词汇(112)中的第二发现代码的第二语句的特征;
通过基于包括所提取的特征的至少一个识别概念比较所提取的特征来确定所述源词汇的所述语句与所述目标词汇的所述第二语句之间的映射;并且
在显示设备(162)上呈现所确定的映射。
9.根据权利要求8所述的方法,其中,确定所述映射包括:
使用一组规则来计算所述源词汇的所述语句与所述目标词汇的所述第二语句之间的相似性得分。
10.根据权利要求8所述的方法,还包括:
根据所确定的映射将包括所述源词汇中的所述发现代码的一组规则转换为包括所述目标词汇中的所述第二发现代码的一组规则。
11.根据权利要求8所述的方法,还包括:
从多个源词汇中选择所述源词汇。
12.根据权利要求8所述的方法,其中,所述至少一个识别概念包括至少一个概括概念,其中,所述概括概念包括从包括以下各项的组中选择的至少一项:异物、解剖结构、发现、严重性指标、病理学、图像质量指标、极性,以及确定性指标。
13.根据权利要求8所述的方法,其中,所述源词汇的所述语句和所述目标词汇的所述第二语句包括编码医学语句。
14.根据权利要求8所述的方法,还包括:
响应于来自输入设备(164)的输入而确认所述源词汇的所述语句与所述目标词汇的所述第二语句之间的所确定的映射。
15.根据权利要求14所述的方法,还包括:
将所确认的映射应用于修改所述第二语句的所述目标词汇。
CN201880053270.5A 2017-07-18 2018-07-12 编码医学词汇的映射 Active CN110998741B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762533726P 2017-07-18 2017-07-18
US62/533,726 2017-07-18
PCT/EP2018/068868 WO2019016054A1 (en) 2017-07-18 2018-07-12 CODED MEDICAL VOCABULARY MATCHING

Publications (2)

Publication Number Publication Date
CN110998741A CN110998741A (zh) 2020-04-10
CN110998741B true CN110998741B (zh) 2024-04-09

Family

ID=62952064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880053270.5A Active CN110998741B (zh) 2017-07-18 2018-07-12 编码医学词汇的映射

Country Status (5)

Country Link
US (1) US11562141B2 (zh)
EP (1) EP3655964A1 (zh)
JP (1) JP2020527804A (zh)
CN (1) CN110998741B (zh)
WO (1) WO2019016054A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349639B (zh) * 2019-07-12 2022-01-04 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
US11687733B2 (en) * 2020-06-25 2023-06-27 Sap Se Contrastive self-supervised machine learning for commonsense reasoning
US20220067306A1 (en) * 2020-09-03 2022-03-03 Ment Software Ltd. System and method for objectively determining similarities in electronic communications
CN112347262B (zh) * 2021-01-11 2021-04-13 北京江融信科技有限公司 一种文本分类方法及系统、意图分类系统和机器人

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763342A (zh) * 2009-12-31 2010-06-30 中兴通讯股份有限公司 生成计算机代码的方法及自然语言解释中心和应用控制端
CN102456100A (zh) * 2010-11-03 2012-05-16 通用电气公司 计算机辅助完整医学编码方案到编码方案映射的系统、方法和设备
CN104508658A (zh) * 2012-07-13 2015-04-08 微软公司 基于短语的词典提取和翻译质量评估
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050107672A1 (en) * 2000-11-22 2005-05-19 Recare, Inc. System and method for external input of disease management algorithm
JP2007172260A (ja) 2005-12-21 2007-07-05 Mitsubishi Electric Corp 文書ルール作成支援装置および文書ルール作成支援方法並びに文書ルール作成支援プログラム
JP5023554B2 (ja) 2006-05-30 2012-09-12 富士ゼロックス株式会社 専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラム
US8452767B2 (en) * 2006-09-15 2013-05-28 Battelle Memorial Institute Text analysis devices, articles of manufacture, and text analysis methods
US7877389B2 (en) * 2007-12-14 2011-01-25 Yahoo, Inc. Segmentation of search topics in query logs
EP2075003B1 (en) * 2007-12-28 2010-09-01 Deutsches Krebsforschungszentrum, Stiftung des öffentlichen Rechts Parvovirus having a CpG-enriched genome useful for cancer therapy
JP5209340B2 (ja) 2008-02-22 2013-06-12 株式会社東芝 レポート作成システム及びレポート作成装置
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US8930386B2 (en) * 2009-06-16 2015-01-06 Oracle International Corporation Querying by semantically equivalent concepts in an electronic data record system
US8260779B2 (en) 2009-09-17 2012-09-04 General Electric Company Systems, methods, and apparatus for automated mapping and integrated workflow of a controlled medical vocabulary
US20110288877A1 (en) * 2009-11-09 2011-11-24 dbMotion Ltd. Health Information Exchange and Integration System and Methods Useful in Conjunction Therewith
AU2010336005A1 (en) * 2009-12-22 2012-08-09 Health Ewords Pty Ltd Method and system for classification of clinical information
US10664862B1 (en) * 2011-06-21 2020-05-26 Contextlogic, Inc. Topic inference based contextual content
US8620931B2 (en) * 2011-06-24 2013-12-31 Siemens Aktiengesellschaft Method of composing an ontology alignment
US20130144651A1 (en) * 2011-12-05 2013-06-06 Infosys Limited Determining one or more probable medical codes using medical claims
US8589424B1 (en) * 2012-05-16 2013-11-19 Edifecs, Inc. Method and system for accurate medical-code translation
US9070090B2 (en) * 2012-08-28 2015-06-30 Oracle International Corporation Scalable string matching as a component for unsupervised learning in semantic meta-model development
US10318635B2 (en) * 2012-09-28 2019-06-11 Cerner Innovation, Inc. Automated mapping of service codes in healthcare systems
US9594872B2 (en) * 2012-10-25 2017-03-14 Intelligent Medical Objects, Inc. Method and system for concept-based terminology management
US9747563B2 (en) * 2013-11-27 2017-08-29 University-Industry Cooperation Group Of Kyung Hee University Apparatus and method for matching large-scale biomedical ontologies
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US10741272B2 (en) * 2014-10-23 2020-08-11 Cerner Innovation, Inc. Term classification based on combined crossmap
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text
US20160342746A1 (en) * 2015-05-21 2016-11-24 Naveen Sarabu Cloud-Based Medical-Terminology Manager and Translator
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
US20170235887A1 (en) * 2016-02-17 2017-08-17 International Business Machines Corporation Cognitive Mapping and Validation of Medical Codes Across Medical Systems
US20170372442A1 (en) * 2016-06-23 2017-12-28 Radicalogic Technologies, Inc. Healthcare workflow system
US20180357381A1 (en) * 2017-06-09 2018-12-13 Intelligent Medical Objects, Inc. Method and System for Generating Persistent Local Instances of Ontological Mappings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763342A (zh) * 2009-12-31 2010-06-30 中兴通讯股份有限公司 生成计算机代码的方法及自然语言解释中心和应用控制端
CN102456100A (zh) * 2010-11-03 2012-05-16 通用电气公司 计算机辅助完整医学编码方案到编码方案映射的系统、方法和设备
CN104508658A (zh) * 2012-07-13 2015-04-08 微软公司 基于短语的词典提取和翻译质量评估
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统

Also Published As

Publication number Publication date
JP2020527804A (ja) 2020-09-10
US11562141B2 (en) 2023-01-24
US20210097234A1 (en) 2021-04-01
CN110998741A (zh) 2020-04-10
WO2019016054A1 (en) 2019-01-24
EP3655964A1 (en) 2020-05-27

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US11907672B2 (en) Machine-learning natural language processing classifier for content classification
CN110998741B (zh) 编码医学词汇的映射
US10558746B2 (en) Automated cognitive processing of source agnostic data
US9678949B2 (en) Vital text analytics system for the enhancement of requirements engineering documents and other documents
US9805081B2 (en) Record linkage algorithm for multi-structured data
US20240211783A1 (en) Adaptable systems for discovering intent from enterprise data
US10706045B1 (en) Natural language querying of a data lake using contextualized knowledge bases
US20210027889A1 (en) System and Methods for Predicting Identifiers Using Machine-Learned Techniques
Lage et al. Learning interpretable concept-based models with human feedback
Das et al. Context-sensitive gender inference of named entities in text
US20210326713A1 (en) Word polarity a model for inferring logic from sentences
Doucette et al. A comparative evaluation of an ontological medical decision support system (omed) for critical environments
US11488107B2 (en) Predicting missing items
Arumugham et al. An explainable deep learning model for prediction of early‐stage chronic kidney disease
Hettiarachchi et al. Next generation data classification and linkage: Role of probabilistic models and artificial intelligence
Nelson et al. Modeling Microtext with higher order learning
US20240185039A1 (en) System and method for machine learning-based identification of a condition defined in a rules-based system
US11544460B1 (en) Adversarial anonymization and preservation of content
US20240126995A1 (en) Systems and methods for identifying and removing bias from communications
Khademi et al. Data augmentation to improve syndromic detection from emergency department notes
Gubelmann et al. On What it Means to Pay Your Fair Share: Towards Automatically Mapping Different Conceptions of Tax Justice in Legal Research Literature
Zazum et al. An Implementation of ICD Coding for Bi-Lingual Medical Records Using Deep Learning
Barai et al. Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare
Kassaie et al. Computer-Assisted Cohort Identification in Practice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant