CN101351794B - 用于评估医学术语模糊性的系统、方法和软件 - Google Patents

用于评估医学术语模糊性的系统、方法和软件 Download PDF

Info

Publication number
CN101351794B
CN101351794B CN200680037240.2A CN200680037240A CN101351794B CN 101351794 B CN101351794 B CN 101351794B CN 200680037240 A CN200680037240 A CN 200680037240A CN 101351794 B CN101351794 B CN 101351794B
Authority
CN
China
Prior art keywords
term
medical
file
hyperlink
ambiguity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200680037240.2A
Other languages
English (en)
Other versions
CN101351794A (zh
Inventor
克里斯多佛·C·多齐尔
马克·乔达里
拉维·孔达达迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Enterprise Centre GmbH
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN101351794A publication Critical patent/CN101351794A/zh
Application granted granted Critical
Publication of CN101351794B publication Critical patent/CN101351794B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一些已知的医学术语可根据其特定上下文关系用作非医学术语。因此,本发明人设计了便于确定当在一个医学集中发现的术语在另一个集中发现时是否可能是医学术语的系统、方法和软件。示例性实施例接收术语并且根据用于医学和非医学集的语言模型计算模糊性分数。

Description

用于评估医学术语模糊性的系统、方法和软件
版权声明和许可
本专利文件的一部分包括受到版权保护的材料。当专利文件或专利公开物出现在专利和商标局的专利文件或记录中时,版权所有人不反对任何人复制所述专利文件或专利公开物,但是保留其他任何版权。下面的公告适用于该文件:Copyright2005-2006,ThomsonGlobalResources。
有关申请的交叉引用
本申请要求2005年10月4日递交的美国临时申请60/723,483的优先权。该临时申请通过引用并入本文。
技术领域
本发明的各个实施例涉及用于识别文件中的医学内容并且将那些文件根据所述医学内容链接到其他文件的系统、方法和软件。
背景技术
互联网和其他计算机网络的显著发展已经促进通过这些网络可获得的数据同样显著增长。与所述数据相互作用的一种基本模式是通过在电子文件中使用超链接。
超链接是用户可选择的组元,例如突出显示的文字或图标,所述文字或图标将电子文件的一部分链接到相同文件的另一部分或者将之链接到数据库或计算机网络中的其他文件。通过合适的计算机设备和网络访问,用户可选择或调用链接,并且几乎同时地浏览事实上位于全世界任何计算机上的其他文件。
虽然很多超链接通过手动形成且插入文件中,但是近年来已经发现用于识别特定类型文件文字并且将所识别的文字使用超链接链接到其他相关文件的自动技术的开发。例如,为了便于法律研究,Westlaw法律研究系统自动识别文字中的法律引用和律师名称,并且将所述引用链接到数据库中相对应的法律文件,并且将律师名称链接到在线通讯录中介绍人物生平的词条。更详细的内容参见美国专利7,003,719和美国公开的专利申请US2003/0135826A1,这两个专利文件都通过引用并入本文。
虽然Westlaw系统中的自动链接技术对于法律引用和名称非常有效,但是本发明人认为,该技术对于例如医学术语等其他类型的内容不是很适合。例如,本发明人意识到,识别文字中的法律引用和单位名称通常比识别医学术语更简单,因为术语在一个上下文中可能用作医学术语,而在另一个上下文中可能用作非医学术语。另一方面,法律引用和人物名称通常用作法律引用和人物名称而与上下文无关。
因此,本发明人认为需要识别术语为医学术语还是非医学术语的自动方法。
发明内容
为了解决这个和/或其他需要,本发明人设计了便于确定术语为医学术语还是非医学术语的系统、方法和软件等。
附图说明
图1是对应于本发明一个或多个实施方式的示例性系统100的方框图。
图2是对应于本发明一个或多个实施方式的操作系统100的示例性方法的流程图。
具体事实方式
下面参照并结合图1和2的详细的说明书描述并说明了本发明的一个或多个示例性实施方式。对这些不是试图限制,而仅为例证并教导本发明而提供的实施方式足够详细地进行了展示和描述,已使本领域的技术人员能够制造并且使用本发明。因而,在适于避免使本发明不清楚之处,可能会省略某些本领域技术人员公知的信息。
[13]体现发明的示例性计算机系统
图1显示了结合用于评估例如医学术语等术语模糊性的系统、方法和软件的示例性计算机系统100的示意图。虽然该示例性系统显示为互相连接的单独部件的集合,但是一些其他实施方式可使用更多或更少的部件来实现其功能。而且,一些实施方式通过有线或无线的局域或宽区网络将一个或多个部件互相连接。一些实施方式使用一个或多个大型计算机或服务器实现系统100的一个或多个部分。因而,本发明不限于任何具体的功能划分。
通常,系统100包括输入术语110、术语模糊性计算器120和模糊性分数(score)输出130。
输入术语110包括一个或多个术语,例如来自医学数据库的一组术语。在示例性实施方式中,输入术语110包括来自一体化医学语言系统(UnifiedMedicalLanguageSystem,UMLS)的术语。下面的表格显示出,UMLS包括很多疾病、损伤、药物处理(medicalprocedure)、身体部分和药物类别中的术语。
类别 术语 概念
疾病 189,712 69,948
损伤 42,141 28,997
药物处理 134,179 72,918
身体部分 38,041 22,260
药物 244,752 129,959
在一些实施方式中,输入术语110是从一个或多个输入文件中摘录的术语,所述术语例如电子司法意见或其他类型的法律文件等。
术语模糊性计算器120连接到数据库110。计算器120包括一个或多个传统的处理器121、显示装置122、接口装置123、网络通讯装置124和存储器125。存储器125可以采用各种形式,例如电、磁和/或光学载体介质上的编码指令或数据,所述存储器125包括术语模糊性软件126。术语模糊性软件126包括用于确定或计算每一个输入术语t和模糊性分数的各种软件和数据组件,Score(term)(分数(术语))定义为:
Score ( term ) = λ 1 log ( P ( t | News _ lang ) ) log ( P ( t | UMLS _ lang ) ) + λ 2 log ( P ( t | Legal _ lang ) ) log ( P ( t | UMLS _ lang ) )
其中
log ( P ( t | lang ) ) = Σ i = 1 n log ( P ( ngram | lang ) )
并且lamda1和lamda2是常数,其在一些实施方式中用于标准化或光滑处理计分函数。在一些实施方式中,lamda1和lamda2设置为0.5。该示例性实施方式使用断词法语言模型(ngrambackoff),通过WittenBell平滑处理补偿来使语言模型平滑化。
示例性计分函数基于某种直觉,即例如“hepatic(肝的)”等医学断词法(ngrams)在UMLS中出现得比在新闻或法律中更频繁并且例如“drinki酒”等断词在新闻或法律中比在UMLS中出现得更频繁。具有某种断词的术语倾向于产生更高的分数,所述断词在UMLS中比在新闻或法律中更可能被预知,因而表明,给定术语当在新闻或法律文件中被发现时,所述给定术语是医学术语的可能性比不是医学术语的可能性更大。
术语模糊性计算器120根据输入术语而输出一组一个或多个的模糊性分数130。(图1显示出,输入术语110和输出分数130也保留在存储器130中。)在示例性实施方式中,分数作为有序列表而被输出,每一个分数与对应的术语相关。(注意术语可包括一个或多个词)。
模糊性分数可用于各种目的,包括例如确定是否合适在包括给定术语的文件中插入回到与所述术语相关的UMLS文件的链接。例如,在所显示的输出术语中,模糊性分数大于1.5的术语可认为明显是医学术语,并且因而有把握地链接回到相关的UMLS文件。另一方面,在没有上下文关系确证的情况下,具有低分数的例如“文字沙拉”或“预期性呕吐”等术语通常不应链接回到相关的UMLS文件。
系统100的示例性操作
图2显示了示出操作系统100的示例性方法的流程图200。流程图200包括方框210-230。虽然这些方框(及该文件中其他流程图的方框)在示例性实施方式中连续布置,但是其他实施方式可将方框重新排序、省略一个或多个方框和/或使用多处理器或构成两个或多个虚拟机或子处理器的单个处理器执行并联的两个或多个方框。而且,其他实施方式可将所述方框实现为一个或多个特定的相互连接的硬件或具有相关控制和数据信号模块的集成电路,所述相关的控制和数据信号在所述模块之间并且通过所述模块通讯。因而,该文件中的这个和其他示例性步骤流程适用于软件、韧件、硬件及其他类型的实现方式。
方框210需要接收一组术语。在该示例性实施方式中,这种需要从UMLS或输入到术语模糊性计算器120的存储器126中的新闻或法律文件接收一组术语。在方框220处继续执行。
方框220需要为一个或多个输入术语确定一个或多个模糊性分数。在示例性实施方式中,这需要根据在上述方程中的用于Score(term)的以上提出的定义来计算模糊性分数,所述定义提供了两种条件概率的比率之和。每一个条件概率基于一组文件或文件集语言模型。在一些实施方式中,一个条件概率比率由计分函数忽略。而且,在一些实施例中,条件概率比率颠倒。
方框230需要输出一个或多个确定的模糊性分数。在示例性实施方式中,这需要以打印或其他人类可读形式输出;但是,在其他实施方式中,输出也可由另一个机器、部件或软件模块使用,或仅保留在存储器中。
结论
上面描述的实施例仅出于示例并且教导一种或多种实现或应用本发明的方式目的,而不是为了限制其宽度或范围。本发明的包括所有实现或应用本发明教导的实际范围仅由下面的权利要求及其等同物限定。

Claims (6)

1.一种计算机实现的方法,用于在文件中插入与该文件中的医学术语相关联的至少一个其他文件的超链接,所述方法包括:
接收包括在文件中的术语;
对所述术语确定模糊性分数,其中,所述模糊性分数基于分别用于医学文件集和非医学文件集的第一和第二语言模型,以及在所述语言模型中使用断词法语言模型;
基于所述模糊性分数确定是否在所述文件中插入与所述术语相关联的至少一个其他文件的超链接;以及
如果插入超链接的确定是肯定的,则在所述文件中插入所述超链接。
2.根据权利要求1所述的计算机实现的方法,其中,所述第二语言模型基于法律或普通新闻文件集。
3.根据权利要求1所述的计算机实现的方法,其中,所述模糊性分数基于给定非医学集的术语的概率对给定医学集的术语的概率的比率。
4.一种计算机化的系统,用于在文件中插入与该文件中的医学术语相关联的至少一个其他文件的超链接,所述系统包括:
用于接收包括在文件中的术语的装置;
用于对所述术语确定模糊性分数的装置,其中,所述模糊性分数基于分别用于医学文件集和非医学文件集的第一和第二语言模型,以及在所述语言模型中使用断词法语言模型;
用于基于所述模糊性分数确定是否在第一文件中插入与所述术语相关联的至少一个其他文件的超链接的装置;以及
用于如果插入超链接的确定是肯定的,则在所述第一文件中插入所述超链接的装置。
5.根据权利要求4所述的系统,其中,所述第二语言模型基于法律或普通新闻文件集。
6.根据权利要求4所述的系统,其中,每一个模糊性分数基于给定非医学集术语的概率对给定医学集术语的概率的比率。
CN200680037240.2A 2005-10-04 2006-10-04 用于评估医学术语模糊性的系统、方法和软件 Expired - Fee Related CN101351794B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US72348305P 2005-10-04 2005-10-04
US60/723,483 2005-10-04
PCT/US2006/038671 WO2007044350A2 (en) 2005-10-04 2006-10-04 Systems, methods, and software for assessing ambiguity of medical terms

Publications (2)

Publication Number Publication Date
CN101351794A CN101351794A (zh) 2009-01-21
CN101351794B true CN101351794B (zh) 2016-02-10

Family

ID=37831729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680037240.2A Expired - Fee Related CN101351794B (zh) 2005-10-04 2006-10-04 用于评估医学术语模糊性的系统、方法和软件

Country Status (9)

Country Link
US (1) US9317601B2 (zh)
EP (1) EP1934843A2 (zh)
JP (2) JP2009510639A (zh)
CN (1) CN101351794B (zh)
AR (1) AR056123A1 (zh)
AU (2) AU2006302523A1 (zh)
BR (1) BRPI0616809B1 (zh)
CA (1) CA2624816C (zh)
WO (1) WO2007044350A2 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009510639A (ja) 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
US9501467B2 (en) 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
WO2009097558A2 (en) 2008-01-30 2009-08-06 Thomson Reuters Global Resources Financial event and relationship extraction
JP5128328B2 (ja) * 2008-03-13 2013-01-23 日本放送協会 曖昧性評価装置およびプログラム
WO2013142852A1 (en) * 2012-03-23 2013-09-26 Sententia, LLC Method and systems for text enhancement
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
JP6332035B2 (ja) * 2012-11-27 2018-05-30 日本電気株式会社 文書分析装置、文書分析方法及び文書分析プログラム
US11152084B2 (en) * 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
JP3347088B2 (ja) * 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US7124031B1 (en) * 2000-05-11 2006-10-17 Medco Health Solutions, Inc. System for monitoring regulation of pharmaceuticals from data structure of medical and labortory records
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
US20030154208A1 (en) * 2002-02-14 2003-08-14 Meddak Ltd Medical data storage system and method
US20040210443A1 (en) * 2003-04-17 2004-10-21 Roland Kuhn Interactive mechanism for retrieving information from audio and multimedia files containing speech
CA2536265C (en) * 2003-08-21 2012-11-13 Idilia Inc. System and method for processing a query
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US8024128B2 (en) * 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
US7630947B2 (en) * 2005-08-25 2009-12-08 Siemens Medical Solutions Usa, Inc. Medical ontologies for computer assisted clinical decision support
JP2009510639A (ja) 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア

Also Published As

Publication number Publication date
CN101351794A (zh) 2009-01-21
WO2007044350A3 (en) 2007-06-21
AU2006302523A1 (en) 2007-04-19
JP5399450B2 (ja) 2014-01-29
US20070156674A1 (en) 2007-07-05
US9317601B2 (en) 2016-04-19
JP2009510639A (ja) 2009-03-12
AU2011202308A1 (en) 2011-06-09
BRPI0616809B1 (pt) 2018-10-23
CA2624816C (en) 2016-01-26
EP1934843A2 (en) 2008-06-25
BRPI0616809A2 (pt) 2011-07-05
AR056123A1 (es) 2007-09-19
JP2011233162A (ja) 2011-11-17
CA2624816A1 (en) 2007-04-19
WO2007044350A2 (en) 2007-04-19

Similar Documents

Publication Publication Date Title
CN101351794B (zh) 用于评估医学术语模糊性的系统、方法和软件
EP2257896B1 (en) Financial event and relationship extraction
Duan et al. An empirical study on learning to rank of tweets
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
AU2005203238B2 (en) Phrase-based searching in an information retrieval system
US20110087656A1 (en) Apparatus for question answering based on answer trustworthiness and method thereof
US20030046277A1 (en) System, method, and software for identifying historically related legal opinions
CN103294781B (zh) 一种用于处理页面数据的方法与设备
Wang et al. Detecting tables in html documents
US20090319449A1 (en) Providing context for web articles
WO1999005623A1 (en) Systems and methods for retrieving tabular data from textual sources
Kanaris et al. Learning to recognize webpage genres
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
CN115238217A (zh) 一种公告文本中抽取数值信息的方法及终端机
CN116719997A (zh) 政策信息推送方法、装置及电子设备
Sorrentino et al. Schema normalization for improving schema matching
Zhang et al. TOB: Timely Ontologies for Business Relations.
Popović et al. Extraction of temporal networks from term co-occurrences in online textual sources
Berendt et al. Finding Your Way through Blogspace: Using Semantics for Cross-Domain Blog Analysis.
CN113221031B (zh) 一种自动识别网站目录页的方法
Thelwall Text characteristics of English language university web sites
Ciesielski et al. Wikipedia-based document categorization
Urbansky et al. Webknox: Web knowledge extraction
Hirczy de Mino Bluebook Fail: Data Mining of Texas Appellate Briefs Reveals a Non-Uniform System of Case Law Citation
Felknor et al. Bladder cancer screening program for a petrochemical cohort with potential exposure to beta-napthylamine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Switzerland Zug

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Swiss Swiss

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200414

Address after: Chug, Switzerland

Patentee after: Thomson Reuters Enterprise Center Co.,Ltd.

Address before: Bahr, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210