CN103034628B - 用于将语言项目规范化的功能装置 - Google Patents

用于将语言项目规范化的功能装置 Download PDF

Info

Publication number
CN103034628B
CN103034628B CN201210418794.4A CN201210418794A CN103034628B CN 103034628 B CN103034628 B CN 103034628B CN 201210418794 A CN201210418794 A CN 201210418794A CN 103034628 B CN103034628 B CN 103034628B
Authority
CN
China
Prior art keywords
project
illness
participle
normalized
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210418794.4A
Other languages
English (en)
Other versions
CN103034628A (zh
Inventor
朱莉·梅德罗
米夏埃尔·加蒙
柳克丽霞·范德温德
丹尼尔·莫里斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/313,034 external-priority patent/US8909516B2/en
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN103034628A publication Critical patent/CN103034628A/zh
Application granted granted Critical
Publication of CN103034628B publication Critical patent/CN103034628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

公开了一种将语言项目规范化的功能装置。本文中描述了用于将输入语言项目转换为规范化的语言项目的功能装置,规范化的语言项目表示输入语言项目的规范化的对应方。在一个环境中,输入语言项目对应于接收医疗护理的人的病症,而规范化的语言项目对应于该病症的明确的和无错误的版本。在操作中,功能装置使用多个参考资源来扩展输入语言项目,从而创建扩展的语言项目。然后,功能装置根据扩展的语言项目中出现的候选分词来形成图,然后发现通过图的最短路径;该路径对应于规范化的语言项目。功能装置可使用统计语言模型将权重分配给图中的边,并且确定规范化的语言项目是否合并有两个或更多个组成语言项目。

Description

用于将语言项目规范化的功能装置
本申请要求2011年10月27提交的第61/551,938号美国临时申请(’938号申请)的权益。’938号申请的全部内容通过引用合并于此。
技术领域
背景技术
护理者通常做出有关患者的护理的各种笔记。例如,护理者可记录关于患者状况的由患者标识的主要病症,被称为“首要病症(chiefcomplaint)”。为了提高效率,护理者可以以缩写形式记录首要病症,例如对于“shortnessofbreath(呼吸急促)”的首要病症,书写“s/o/b”或者“sob”。护理者可使用任何技术或技术的组合来输入该信息,例如通过使用小键盘输入机构、手写捕获机构、语音识别输入机构等。医院或诊所可以以各种方式使用由患者传达的首要病症。例如,医院可使用该信息向患者提供及时的护理,尤其是在紧急情况下。
然而,以上述方式输入的首要病症容易出现模糊性和错误。例如,输入首要病症的护理者可能输入错误的信息,例如拼错单词。例如,护理者可能输入首要病症“chestpainshortnessofbreth(胸痛呼吸急促)”,而不是正确的拼写文本“chestpainshortnessofbreath(胸痛呼吸急促)”。附加地或可替代地,护理者可能使用不一致的缩写以缩短首要病症。例如,护理者可能通过输入“cpsob”、“c/psob”、“sob/cp”、“sobcp”、“chesppainsob”、“sob/chestpain/”、“cpdifficultybreathing”等,来表达上述首要病症(“chestpainshortnessofbreath(胸痛呼吸急促)”)。更一般地,首要病症中的模糊性可能源于多个因素,包括以下的任意组合:多个不一致的书写缩写方式的使用;拼写错误;以特殊方式将词语重新排序;用于表示标点符号的多个不一致惯例的使用;将多个病症包括在单个条目中;以及任何自然语言中固有的一般模糊性(例如,如通过使用“difficultybreathing(呼吸困难)”和“shortnessofbreath(呼吸急促)”表示相同的病症所展示的)。在护理者以语音形式和/或以手写形式提供其笔记的那些环境中,这些模糊性可能会加剧;在这种情形下,自动或手动誊写服务可能难以解析和理解护理者已说出的病症或已书写的病症。
由首要病症的模糊性会产生各种负面结果。例如,模糊性可导致对首要病症进行分类的低效率。在极端情况下,模糊性可导致无法以及时的方式向患者提供适当的护理。
上述问题不限于医疗(例如健康相关)环境,而是延伸到如下的任意环境:该环境涉及有关特定主题领域的潜在模糊语言信息的捕获。
发明内容
本文中描述了一种用于将输入语言项目转换为规范化的语言项目的系统。在一个环境中,输入语言项目对应于由接受医疗护理的人传达的病症,并且在本文中被称为输入病症项目。规范化的语言项目对应于输入语言项目的规范化(例如,明确的且无错误的)的对应方,并且在本文中被称为规范化的病症项目。
在一个实现方式中,系统通过接收输入病症项目然后将其划分为一个或更多个分词(token)(例如词语)来进行操作。然后,系统将输入病症项目中的输入分词中的每个扩展为一个或更多个候选分词的列表,以提供扩展的语言项目。为了执行该任务,系统可依靠多个参考源,包括多个拼写校正器。然后,系统根据扩展的语言项目创建图。系统可根据多个考虑因素将权重分配给图中的边。例如,系统可部分地根据由统计语言模型表示的可能性,将权重分配给边。然后,系统识别通过图的最短路径。该最短路径对应于规范化的病症项目。
根据另一个说明性的特征,系统还可以使用语言模型来确定规范化的病症项目(以上述方式识别的)是否包括分割点,该分割点对规范化的病症项目内的两个组成病症项目进行划界。然后,系统可将规范化的病症项目分离为其组成部分。
以上方法可以以各种类型的系统、部件、方法、计算机可读介质、数据结构、产品等来显现。
提供本发明内容,从而以简单的方式介绍构思的节选;以下在具体实施方式中进一步描述了这些构思。该发明内容不是意在标识请求保护的主题的关键特征或必不可少的特征,也不是意在用来限制请求保护的主题的范围。
附图说明
图1示出用于将输入病症项目转换为对应的规范化的病症项目的说明性的病症项目规范化(CIN)系统的概述。
图2和图3示出图1的CIN系统的一个实现方式。
图4示出用于生成语言模型的训练系统;而该训练系统被图1的CIN系统使用。
图5和图6示出图1的CIN系统的两个相应的技术实现方式。
图7示出描述将图1的CIN系统初始化的一个方式的过程。
图8示出说明图4的训练系统的操作的一个方式的过程。
图9和图10一起示出这样的一个说明性的方式,通过该说明性的方式,图1的CIN系统可将新的病症项目转换为对应的规范化的病症项目。
图11是可使用图1的CIN系统扩展新的病症项目中的分词以产生扩展的病症项目的一个方式的示例。
图12是这样的图的表示,CIN系统可使用该图来表示扩展的病症项目。
图13示出说明性的计算功能装置,该计算功能装置可被用来实现前述附图中所示的特征的任意方面。
在整个公开内容和附图中使用相同的附图标记来表示相同的部件和特征。序列100的附图标记表示图1中原始存在的特征,序列200的附图标记表示图2中最初存在的特征,序列300的附图标记表示图3中最初存在的特征,等等。
具体实施方式
如下地组织本公开内容。A部分描述用于将输入语言项目转换为对应的规范化的语言项目的说明性的功能装置。B部分描述用于说明A部分的功能装置的操作的说明性方法。C部分描述说明性的计算功能装置,该计算功能装置可用来实现A部分和B部分中描述的特征的任意方面。
作为预备内容,附图中的一些在一个或更多个结构部件的上下文中描述了构思,一个或更多个结构部件被不同地称为功能装置、模块、特征、元件等。可通过任何物理的和有形的机构以任何方式来实现附图中所示的各种部件,例如,通过软件、硬件(例如芯片实现的逻辑功能装置)、固件等、和/或其任意组合。在一种情况下,说明性地将附图中的各个部件分离为不同单元可反映对应的不同物理的和有形的部件在实际实现中的使用。可替选地或附加地,附图中图示的任意单个部件可由多个实际的物理部件来实现。可替选地或附加地,附图中的任意两个或更多个分离部件的图示可反映由单个实际物理部件执行的不同功能。而要说明的图13提供了关于附图中所示的功能的一个说明性的物理实现方式的附加细节。
其它附图以流程图的形式描述了构思。以这种形式,将特定操作描述为构成以特定顺序执行的不同块。这样的实现方式是说明性的并且是非限制性的。本文中描述的某些块可被分组在一起并且在单个操作中被执行,特定块可被分拆为多个组成块,并且可以以与本文中描述的顺序不同的顺序(包括并行执行块的方式)来执行某些块。可以通过任意物理的和有形的机构,以任意方式来实现流程图中所示的块,例如通过软件、硬件(例如芯片实现的逻辑功能装置)、固件等、和/或其任意组合。
关于术语,短语“被配置为”包括可以为执行所述操作而构建任意类型的物理的和有形的功能装置的任意方式。例如,功能装置可被配置为使用软件、硬件(例如芯片实现的逻辑功能装置)、固件等、和/或其任意组合来执行操作。
术语“逻辑”包括用于执行任务的任意的物理的和有形的功能装置。例如,流程图中图示的每个操作对应于用于执行该操作的逻辑部件。例如,可使用软件、硬件(例如芯片实现的逻辑功能装置)、固件等、和/或其任意组合来执行功能。无论如何实现,当由计算系统来实现时,逻辑部件表示作为计算系统的物理部分的电气部件。
如果使用的话,权利要求中的短语“用于…的装置”意在援引U.S.C§112第35条第六段。除了该特定短语之外,没有其它语言意在援引法令的该部分的条款。
下面的说明可将一个或更多个特征标识为“可选的”。这种表述不应被解释为可被认为是可选的特征的穷举性的指示;即,尽管没有在文本中明确地标识,其它特征也可被认为是可选的。最后,术语“例示性的”或“说明性的”表示潜在的许多实现方式中的一个实现方式。
A.说明性的系统
图1示出用于将输入语言项目转换为其规范化的对应方(被称为规范化的语言项目)的说明性的系统100。如本文中所使用的,语言项目可对应于一个或更多个分词的序列。而每个分词(即词语)可包括一个或更多个字符。为了提供一个非限制性的示例,语言项目可对应于可以以下述方式被划分的一个或更多个词和/或缩写。输入语言项目的规范化版本可表示用于表示由输入语言项目传达的语义内容的明确的和无错误的方式。例如,在一个实现方式中,输入语言项目可包含错误拼写、特殊的词顺序、和各种特别的缩写等。该输入语言项目的规范化的对应方可以以扩展的、拼写正确的、和顺序正确的方式来表示输入语言项目中的分词。
系统100可应用于这样的任意环境,在这样的环境中,用户或其他实体输入有关任意主题领域的语言项目,其中,这些项目可潜在地包含模糊性。然而,为了方便说明,下面的说明将主要阐述医疗环境中的系统100的结构和操作。在该上下文中,护理者或其他用户(或系统)输入与任意的医疗实践领域有关的、表示患者的医疗相关(例如健康相关)病症的输入病症项目。例如,患者可陈述他或她正经历呼吸急促和头昏眼花。如上所述,由于一个或更多个因素,输入病症项目可能是模糊的。系统100通过生成输入病症项目的规范化的对应方,即规范化的病症项目来解决该问题。在该上下文中,系统100本身被称为病症项目规范化(CIN)系统100。
然而,为了强调,其它环境可以使用系统100。例如,各种科学、工程、学术、执法和商业环境可使用系统100。例如,科学家或工程师可在进行关于任何对象的科学观察的过程中,使用系统100将科学笔记规范化。在另一情况下,商人可使用系统100将关于产品的评论规范化。在另一情况下,政府或私营部门的检察员可使用系统100将有关他或她正检查的对象(例如,房屋、汽车、大片土地)的笔记规范化,等等。
本部分提供了可用来实现CIN系统100的说明性的部件的概述。更具体地,图1示出CIN系统100的宽泛的概述,而图2-图4提供有关可在CIN系统100中使用或与CIN系统100一起使用的单独部件的附加细节。B部分还提供了CIN系统100的操作方式的更详细的描述。
从图1开始,CIN系统包括用于将新的输入病症项目转换为规范化的病症项目的逻辑102。图2和图3中更完整地图示了该逻辑102。作为宽泛的概述,当逻辑102接收到输入语言项目时,逻辑102首先参考数据存储器104中设置的映射表。映射表将先前遇到的语言项目映射到其相应的规范化的对应方。如果逻辑102通过参考映射表没有识别规范化的语言项目,则逻辑102通过多阶段的处理导出规范化的语言项目。
更具体地,为了导出规范化的语言项目,逻辑102依靠参考资源106和语言模型108的集合。如以下将描述的,逻辑102使用参考资源106将输入病症项目中的每个分词t扩展为一个或更多个候选分词的列表。每个候选分词表示输入病症项目中的分词t的可能解释。该处理根据本文中使用的术语产生扩展的病症项目。然后,逻辑102根据扩展的病症项目构建图。
逻辑102使用语言模型108将权重分配给图中的边。然后,逻辑102使用最短路径算法来识别通过图的最短路径。该最短路径表示结合在一起的分词的序列,其对应于初始提出的规范化的病症项目。逻辑102还使用语言模型108来确定如此识别的规范化的病症项目是否合并有两个或更多个不同的病症项目。
以图4的上下文中更完整地(以及图8的上下文中更完整地)阐述的方式,训练系统110根据训练语料生成语言模型108。
不同的环境可以对CIN系统100生成的规范化的病症项目进行不同的使用。在一种情况下,环境可使用规范化的病症项目对患者传达的信息准确地进行索引。而这允许自动报警系统识别需要立即注意的患者状况。自动报警系统也可使用规范化的病症项目来标记正对患者施行的有问题的治疗。例如,通过正确地识别患者正在诉说呼吸限制,护理者可以更快地识别正导致患者的过敏反应并且因此限制他或她的呼吸的药物治疗方案。在另一情况下,账单系统或其它管理系统可使用规范化的病症项目来促进所讨论的患者的适当记录的生成。在另一情况下,环境可将规范化的病症项目呈现给患者。这允许患者快速地验证他或她的病症是否被护理者正确地理解。在另一情况下,研究团体可使用规范化的病症项目的语料,对大量的患者执行任意分析,例如识别新出现的与疾病有关的趋势或护理模式等。通过说明,而不是限制来引用这些应用;其它环境可对规范化的病症项目进行其它使用。
图2和图3一起提供了有关图1中介绍的CIN系统100的附加细节。首先,查找模块202可从一个或更多个源接收新的病症项目。在一个情况下,例如,查找模块202可在患者传达病症项目并且护理者输入病症项目之后,立即接收由护理者或其他实体以实时方式输入的病症项目。护理者可使用任意机构来输入病症项目,例如通过使用小键盘机构、触摸屏机构、鼠标装置和/或操纵杆机构、语音识别机构、手写输入机构等等。可替选地或附加地,查找模块202可从数据存储器204中设置的先前存储的项目的集合中接收新的病症项目。在该上下文中,查找模块202可以处理一批这样的新病症项目,例如串行地和/或并行地处理这些项目。
如以上结合图1所描述的,查找模块202参考映射表(设置在数据存储器104中)来确定输入病症项目的规范化的对应方是否已经存在(例如,因为其先前已经被生成并且被存储了)。如果映射表不包含规范化的病症项目,则查找模块202将输入病症项目转发到一系列模块,这一系列模块一起生成规范化的病症项目。
首先,词语切分(tokenization)模块206将输入病症项目拆分为一个或更多个组成部分。如上所述,分词对应于通过一个或更多个空格和/或其它划界字符与至少一个相邻分词隔离的一个或更多个字符的集合。这些类型的分词表示输入病症项目中最小层次的分词。如以下将详细说明的,词语切分模块206也可识别聚合分词。每个聚合分词表示一个或更多个较小分词的组合。例如,词语切分模块206可根据从输入病症项目“s/o/b”中提取的较小分词“s”、“o”和“b”来识别聚合分词“sob”。换言之,词语切分模块206在识别输入语言项目中的分词时,可以考虑可替选的解析策略。例如关于图9的块908,B部分提供了关于可以执行词语切分的一个方式的附加细节。
扩展模块208使用参考资源106将输入病症项目中识别的每个分词扩展为一个或更多个候选分词的列表。这产生扩展的病症项目。更具体地,在一些情况下,扩展模块208可对参考资源106进行有条件的使用。例如,扩展模块208可将分词t供给到特定的参考资源中。如果参考资源没有提供与分词t的精确匹配,则扩展模块208可参考其它参考资源。B部分提供了有关这样的一个方式的更详细的信息,其中,扩展模块208可以以该方式对参考资源106进行交错和有条件的使用。
参考资源106本身可以表示有关可能存在于输入病症项目中的词语的任何信息。参考资源106中的每个可由任意实体或实体的组合来准备和维护。
在一个实施方式中,参考资源106包括首字母缩写字典210,该首字母缩写字典210用于存储所接受的首字母缩写及其相应的扩展形式的列表。参考资源106还包括拼写校正器的集合。每个拼写校正器接受可能错误拼写的输入分词,并且返回可表示输入分词的正确拼写的候选分词的排名列表。在一些情况下,拼写校正器可识别这样的候选分词,该候选分词是输入分词的精确匹配。即,拼写校正器在其字典中识别与输入词语精确匹配的词语。附加地或可替选地,拼写校正器可识别一个或更多个候选分词,其具有与输入分词匹配的某个概率,然而却不能被认为精确匹配。即,拼写校正器在其字典中识别一个或更多个词语,其不是输入词语的精确匹配,然而却类似于输入词语。
拼写校正器可使用任何技术来生成候选分词。在一些情况下,每个拼写校正器可识别在输入分词的规定编辑距离阈值以内的候选分词的集合。编辑距离一般将这样的变化量化,该变化是为了从原始输入分词转变到提出的候选分词而进行的,例如删除一个或更多个字符、增加一个或更多个字符、替换一个或更多个字符等。编辑距离阈值对应于最大编辑距离,针对该最大编辑距离,候选分词可被认为是输入分词的可行的变型。在一个实施方式中,每个拼写校正器可以以上述方式使用特里(trie)数据结构来识别候选分词。
更具体地,参考资源106可包括通用拼写校正器212,其涉及存在于整个自然语言(例如英语)中的领域无关词语。参考资源106还可包括通用医疗拼写校正器214,其涉及医疗词语的大量语料。参考资源106还可包括高频医疗拼写校正器216,其涉及病症项目中以高频存在的医疗词语。参考资源106还可包括缩写调整拼写校正器218,例如,该缩写调整拼写校正器218被特定地调整为通过将高优先级给予与字典中的词的开头匹配的分词来处理缩写。
作为示例,而不是限制来引述参考资源106的上述列表。其它环境可以采用其它类型的参考资源,和/或可以省略上述类型的参考资源中的一个或更多个。
另外,取代上述医疗参考资源,其它领域(除了医疗领域以外)可以使用其它领域特定参考资源。例如,考虑在检查建筑的同时作笔记的建筑检查员。取代通用医疗拼写校正器214和高频医疗拼写校正器216,该环境中的参考资源106可以包括通用建筑相关拼写校正器和高频建筑相关拼写校正器。例如,人可能输入“fndck”以指示他或她已在墙脚中观察到基础裂纹,而CIN系统100可以使用上述参考资源106将“fnd”和“ck”中的每个扩展为多个候选分词。
一般,多个参考资源的使用允许CIN系统100生成相关的候选分词,而不会以太多的潜在不相关的候选分词淹没CIN系统100。另外,可以通过适当地选择由每个拼写校正器使用的编辑距离阈值来调整该特性。例如,通用拼写校正器212可被分配相对小的编辑距离阈值,这表示该拼写校正器不识别与输入分词的大的偏离。而该设定防止通用拼写校正器212以潜在不相关的候选分词“充满”CIN系统100,其中潜在不相关的候选分词将发生作用以使其分析停顿(特别是关于以下将描述的最短路径分析)。相反,通用医疗拼写校正器214和高频医疗拼写校正器216可被分配较大的编辑距离阈值。CIN系统100可以经受得起为这些参考资源设定较大的阈值,因为这些参考资源更窄地适应于医疗领域,因此不太可能将不相关的候选分词引入到分析流中(与通用拼写校正器212相比)。
接下来,图生成模块220可以根据由扩展模块208生成的扩展的病症项目来生成原始图。一般,原始图包括与由扩展模块208识别的候选分词关联的节点的集合。原始图还包括将分词连接在一起的边的集合。从高层次的角度来看,原始图定义了路径的集合。每条路径包括由边连接在一起的一系列节点(以及关联的分词)。每条路径表示输入病症项目的潜在可行的解释。B部分阐述了有关构建原始图的一种可能方式的附加细节。
图扩展模块222通过添加重复节点和重复边来修订原始图,由此生成最终扩展图。例如,图扩展模块222可添加重复节点,使得到达原始图中的特定节点的各个方式将在分别的相应节点中终止。例如,到达图中的节点c的一种方式可涉及穿过节点a1和b,而到达图中的节点c的另一种方式可涉及穿过节点a2和b。针对这种该情况,图扩展模块222可以添加至少一个重复的节点c,使得上述不同路径现在将终止在分别的c型节点中。最终,该节点重复操作使得CIN系统100能够将确定的单个权重分配给图中的每条边。而该能力使得CIN系统100能够使用最短路径算法来发现通过最终扩展图的最短路径。
另外,图扩展模块222可以向图添加一个或更多个病症结束标记节点、以及通向和离开这些节点的关联的边。图扩展模块222执行该操作以在形式上表示病症项目可以在原始图中的任意中间(非终止)节点之后终止的概率。如果该情形应用于特定的规范化的病症项目,则这表示规范化的病症项目包含两个或更多个组成病症项目。B部分提供了有关图扩展模块222的操作的附加细节。
前进到图3,权重生成模块302可以将权重分配给最终扩展图(由图扩展模块222生成的)中的每条边。每条边指向特定的节点,并且该特定的节点与特定的候选分词相关联。为了执行该任务,权重生成模块302可以为所讨论的边生成多个组成权重;然后,权重生成模块302根据组成权重用公式表述边的最终权重。为了生成一个这样的组成权重,权重生成模块302可以依靠有关用来生成特定分词(由所讨论的边所指向的)的参考资源的信息。为了生成组成权重中的另一个,权重生成模块302可以依靠语言模型108来识别与特定分词相关联的可能性。B部分描述了有关这样的方式的附加细节,其中权重生成模块302可以以该方式将权重应用于图中的边。
一旦已分配了边权重,路径确定模块304发现通过图的最短路径。路径确定模块304可以使用任何技术来执行该任务,例如,而不是限制,Djikstra算法。最短路径对应于规范化的病症项目的初始估计。
接下来,分割预测器模块306可以检查由路径确定模块304提供的规范化的病症项目,以确定其是否包含两个或更多个嵌入的病症项目。更正式地表述,分割预测器模块306使用语言模型108来确定在规范化的病症项目中的每个分词之后的下一分词与病症结束标记节点相关联的概率。如果该概率超过了特定于环境的阈值,则分割预测器模块306将规范化的病症项目中的当前位置识别为分割点(其表示一个组成病症项目的结束和另一个组成病症项目的开始)。该处理产生修订的规范化的病症项目。B部分提供了有关分割预测器模块306的操作的附加细节。
可选的后处理模块308还可通过参考病症项目的知识库310来修订规范化的病症项目。例如,知识库310可对应于确定的病症项目的本地和/或远程(例如在线)知识库。例如,知识库310可以以UMLS形式和/或一些其它标准形式来表示确定的病症项目。后处理模块308可以将规范化的病症项目用作查找键,以确定规范化的病症条目是否存在于知识库310中。如果是,则后处理模块308可以提取由知识库310揭示的任何元数据。例如,知识库310可以揭示所识别的规范化的病症项目在语义上表示与一个或更多个其它病症项目相同的医疗病症。在一种情况下,后处理模块308可以使用该启示来识别与病症项目的语义等同族相关联的单个的规范化的病症项目。
在最后阶段,CIN系统100可以将最终的规范化的病症项目存储在映射表中(与由后处理模块308提供的任何追加的元数据一起)。如果后续遇到相同的输入病症项目,则查找模块202可以从映射表中检索其规范化的对应方,而不必再次导出它。
关于CIN系统100可应用的其它领域,CIN系统100以与上述方式相同的方式进行操作。例如,在执法的设定下,CIN系统100可用来使用与该设定有关的一套参考资源,将警方报告中的符号扩展为标准化的格式。于是,CIN系统100可以获得标准化的报告。
图4示出训练系统110的一个说明性的实现方式,训练系统110产生语言模型,例如N元(N-gram)语言模型。训练系统110使用训练集合生成模块402将病症项目的初始集合转换为病症项目的训练集合。数据存储器404存储病症项目的初始集合,而数据存储器406存储病症项目的训练集合。例如,在医疗环境中,病症项目的初始集合可以源自于由医院、诊所和/或其它护理环境中的护理者输入的实际病症项目。
在图8的说明上下文中,B部分提供了关于训练集合生成模块402的一种操作方式的细节。作为概述,训练集合生成模块402可以使用任何手动和/或自动技术将病症项目的初始集合映射到规范化的对应方。训练集合生成模块402还可以过滤掉被认为异常或模糊的任何病症项目。
语言模型训练模块408根据病症项目的训练集合生成至少一个语言模型108。一般,语言模型训练模块408可以使用任何统计技术来确定所识别的分词将出现在未来遇到的输入病症项目中的条件可能性。根据由病症项目的训练集合表示的历史信息来导出这些可能性。例如,三元语言模型可以表示这样的概率:假设未来病症项目中的前两个分词为a和b,则将在未来病症项目中遇到分词c的概率。
前进到图5,该图示出图1的CIN系统100的一个实现方式。在该情况下,本地计算功能装置502例如将CIN系统100实现为由本地计算功能装置502本地存储的应用模块。本地计算功能装置502可以表示任何类型的计算装置,例如个人计算机、计算机工作站、膝上型或笔记本型计算机、游戏控制台装置、机顶盒装置、个人数字助理(PDA)装置、移动电话、平板型计算机、电子书阅读器装置、可穿戴的计算装置等等。在该实现方式中,本地计算功能装置502可以与存储在一个或更多个本地数据存储器504中的与病症项目和/或模型和/或参考资源相关联的数据进行交互。
图6示出CIN系统100的另一实现方式。在该情况下,CIN系统100和伴随的数据可以以任意方式分布在本地计算功能装置602与远程计算功能装置604之间。例如,在一个场景中,本地计算功能装置602可以提供CIN系统功能装置100A,该CIN系统功能装置100A访问本地数据存储器606A和/或远程数据存储器606B。在另一场景中,远程计算功能装置604可以提供CIN系统功能装置100B,CIN系统功能装置100B访问数据存储器606A和/或数据存储器606B。在另一场景中,可在访问数据存储器606A和/或606B中的任一个的情况下,通过本地实现的CIN系统功能装置100A和远程实现的CIN系统功能装置100B的组合来实现CIN系统100。其它实现方式也是可能的。
在以上参考图6描述的场景中的任一个中,用户可以经由本地计算功能装置602与CIN系统功能装置(100A和/或100B)进行交互。本地计算功能装置602可以表示上述任意类型的计算装置(关于图5)。远程计算功能装置604可以表示设置在中央位置或分布在多个位置的一个或更多个服务器计算机和相关联的数据存储器等。通信管道608连接本地计算功能装置602和远程计算功能装置604。通信管道608表示任意类型的局域网、任意类型的广域网(例如因特网)、任意类型的点对点连接等、或其任意组合。
B.说明性的处理
图7-图10示出用于说明图1-图3的CIN系统100的一个操作方式的过程。由于A部分中已经描述了CIN系统100的操作的底层原理,该部分中将以概述的方式讲述某些操作。
从图7开始,该图示出了过程700,通过该过程700,CIN系统100将本身初始化以进行操作。在块702中,CIN系统100的训练系统110生成语言模型108,例如至少三元语言模型。图8(以下进行说明)提供有关可用来实现块702的一个说明性训练过程的附加细节。
在块704中,CIN系统100将首字母缩写字典210初始化。在块706中,CIN系统100将拼写校正器的集合初始化。在块708中,CIN系统100将映射表初始化。如A部分中所述的,映射表将新的病症项目映射到相应的规范化的病症项目。映射表初始为空。
图8示出了过程800,通过该过程800,训练系统110可以生成语言模型108。在块802中,训练系统110从任意源(或源的组合)中采集病症项目的初始集合。例如,在医疗环境中,训练系统110可以从一个或更多个医院数据库中收集病症项目的初始集合。这些数据库存储有已经由护理者在患者的实际护理过程中输入的病症项目。
在块804中,训练系统110将病症项目的初始集合中的每个拆分为一个或更多个分词。每个分词可对应于通过任意类型的非字母数字字符(例如空格)、任意类型的标点符号标记等与先前分词和/或后续分词隔离的一个或更多个字符。块804还可以涉及对出现在病症项目的初始集合中的分词的数量进行计数。例如,训练系统110可以确定在病症项目的初始集合内分词“cp”出现了m次。
在块806中,训练系统110识别病症项目的初始集合中的k个最频繁出现的病症项目。
在块808中,训练系统110将k个最频繁出现的病症项目中的每个映射到其规范化的对应方的病症项目。更具体地,训练系统110可以将每个初始病症项目中的每个分词与其规范化的对应方的病症项目中的对应方的分词相关联。例如,考虑病症项目“eightwksprgntabdpain”(其可由用户以手动方式指定)。该病症项目的规范化的对应方为“eightweekspregnantabdominalpain(八周身孕腹痛)”。因此,CIN系统(1)将“eight”映射到“eight”;(2)将“wks”映射到“weeks”;(3)将“prgnt”映射到“pregnant”;(4)将“abd”映射到“abdominal”;以及(5)将“pain”映射到“pain”。如所指示的,该处理可以将初始病症项目中拼写正确的词映射到规范化的病症项目中相同的拼写正确的词。该处理还将初始病症项目中的缩写映射到规范化的病症项目中对应的扩展词语。该处理还将初始病症项目中错误拼写的词映射到规范化的病症项目中拼写正确的词。在本文中,这些分词级别的对应被称为分词映射。
在块810中,训练系统110使用块808中建立的分词映射,来扩展初始集合中的所有初始病症项目(不仅仅是k个病症项目)。例如,考虑原始病症项目“lowerback&abdpain”,其不在k个最频繁出现的初始病症项目的列表中。根据块808中建立的abd-至-abdominal分词映射,训练系统110将该病症项目扩展为其规范化的对应方“lowerback&abdominalpain(腰背部和腹部痛)”。一般,块810的处理产生病症项目的扩展集合。
在块812中,训练系统110过滤掉病症项目的扩展集合中不满足环境特定保留准则的病症项目。例如,在一个环境中,训练系统100移除具有这样的一个或更多个分词的任何病症项目,这样的一个或更多个分词不存在相应的分词映射。另外,训练系统110移除具有这样的一个或更多个分词的任意病症项目,这样的一个或更多个分词具有模糊的映射。例如,在一些情况下,出现在初始病症项目中的词可以根据两个相应的分词映射而映射到两个不同的对应方的分词。这构成了模糊映射的示例。一般,块812的处理建立病症项目的过滤集合。
最后,在块814中,训练系统110根据病症项目的过滤集合生成语言模型108。例如,训练模型110可以生成上述类型的三元语言模型。更具体地,训练系统110可以根据病症项目的过滤集合生成一个或更多个基于统计的N元语言模型。然后,训练系统110可以将语言模型存储在训练系统110能够访问的适当的数据存储器中。
前进到图9和图10,这些图一起示出用于根据已接收到的输入病症项目生成规范化的病症项目的过程900。该过程900部分地使用语言模型108,该语言模型108是已使用图8的过程800而生成的。
在块902中,CIN系统100从任何源接收新的输入病症项目。例如,医生或其他护理者可以在向患者提供护理的过程中将输入病症项目输入。
在块904中,CIN系统100参考映射表以确定针对已接收到的输入病症项目是否已存在规范化的病症项目。在块906中,如果实际上已存在规范化的病症项目,则CIN系统100输出规范化的病症项目。然后,该处理终止。
在块908中假设映射表中并不存在规范化的病症项目,则CIN系统100前进到生成规范化的病症项目。更具体地,在块908中,CIN系统100将新的病症项目拆分为分词。CIN系统100可以通过在出现非字母数字字符(例如空格、标点符号标记等)的那些接合点处分割新的病症项目来执行该任务。CIN系统100也可以在任何数字序列之前创建拆分,以及在任何数字序列(如果不是已经存在)之后创建拆分,例如将“6weekspregnant”分离为三个分词“6”、“weeks”和“pregnant”。CIN系统100也可以将由一个或更多个数字组成的分词转换为文本,例如用词“six”代替数字“6”。最后,CIN系统100也可以识别聚合分词,该聚合分词表示至少两个较小的基本分词的组合。
在块910中,CIN系统100将输入病症项目中的每个分词扩展为一个或更多个候选分词的扩展列表。总体来说,该处理产生扩展的病症项目。CIN系统100可以使用不同的环境特定规则来执行该扩展。在一个说明性的和非限制性的环境中,CIN系统100可以应用下面的规则来扩展输入病症项目中出现的每个分词t。
(规则1)CIN系统100将分词t输入到首字母缩写字典210。如果该分词t的条目存在于首字母缩写字典210中,则首字母缩写被认为是已知的。然后,CIN系统100前进到将首字母缩写(由首字母缩写字典210所识别的)的扩展形式添加到输入分词t的候选分词的列表。
(规则2)接着,CIN系统100将分词t输入到高频医疗校正器216。如果该校正器216产生精确匹配(或多个精确匹配),则CIN系统100将精确匹配添加到输入分词t的候选分词的列表。
(规则3)如果使用首字母缩写字典210和高频医疗拼写校正器216执行的查找没有产生任何精确匹配,则CIN系统100接着将分词t输入到通用医疗拼写校正器214。然后,CIN系统100将由通用医疗拼写校正器214识别的所有建议(不仅是精确匹配)添加到输入分词t的候选分词的列表。
(规则4)如果已使用高频医疗拼写校正器216和通用医疗拼写校正器214执行的查找未能产生任何精确匹配,则CIN系统100接着将分词t输入到缩写调整拼写校正器218。然后,CIN系统100将由缩写调整拼写校正器218识别的所有建议(不仅是精确匹配)添加到输入分词t的候选分词的列表。
(规则5)如果迄今为止考虑的所有拼写校正器都没有产生任何精确匹配,则CIN系统100将由高频医疗拼写校正器216识别的所有建议(不仅是精确匹配)添加到输入分词t的候选分词的列表。
(规则6)在该接合点处,如果CIN系统100仍未识别任何精确匹配,则CIN系统100将分词t输入到通用拼写校正器212。然后,CIN系统100将由该校正器212识别的所有建议(不仅是精确匹配)添加到输入分词t的候选分词的列表。
在一些实现方式中,CIN系统可以应用上述规则的某些例外。例如,假设CIN系统100将数字转换为文本(在块908中),例如用“six”代替数字“6”。CIN系统将针对该分词“six”仅创建一个自相同的映射,即单个候选分词“six”。相反,假设原始病症项目包含词“six”(而不是数字6)。CIN系统可以将该输入分词潜在地转换为多个候选分词。该策略基于如下假设:数字6中没有模糊性,而词“six”中存在潜在的模糊性。
在块912中,CIN系统100根据块910中识别的扩展病症项目来生成原始图。一般,原始图包括与候选分词(上述扩展操作中识别的)关联的节点的集合、以及将候选分词连接在一起的边的集合。更具体地,原始图中任意给定的分词包括将其连接到原始图中的任意合法的先前分词的一条或更多条边。另外,图中的任意给定分词包括将其连接到原始图中的任意合法的后续分词的一条或更多条边。在一些情况下,分词的先前分词将对应于“Start”分词,该“Start”分词指示图中的起始点。在一些情况下,分词的后续分词将对应于“End”分词,该“End”分词指示图中的终止点。不太正式地表述,原始图中的节点和边识别用于从Start分词到End分词进行解析的不同的合法路径。对于每条路径,沿着路径分配给节点的分词识别可能的规范化的病症项目中的词语。
例如,考虑这样的简单情况,在该简单情况中,输入病症项目具有两个分词,一般地被称为分词x和分词y(以该顺序呈现)。CIN系统100可以(在块910中)将分词x扩展为候选分词x1、x2和x3,以及将分词y扩展为候选分词y1、y2和y3。因此,分词x1将具有将分词x1连接到分词y1、y2和y3的边。关于分词x2和x3同样如此。
在一些情况下,单个分词将映射到包括两个组成部分的候选分词。例如,分词“cp”可映射到“cp”的候选分词的列表中的分词“chestpain”。针对这种情形,CIN系统100可以添加这样的边,该边链接与“chest”和“pain”相关联的节点。一条或更多条其它边将节点“chest”链接到其合法的先前节点中的任一个,并且一条或更多条其它边将节点“node”链接到其合法的后续节点中的任一个。然而,因为这两个节点源自于相同的分词(“cp”),所以CIN系统100将不添加从节点“chest”发出的边。作为另一可行的扩展,CIN系统100也可将分词“cp”映射到单个节点,例如对应于候选分词“cap”的节点。
在另一情况下,输入病症项目中的多个分词可映射到单个节点。例如,考虑包括文本“pregnant”的输入病症项目,CIN系统100将其初始地拆分为“p”和“regnant”的分词。作为一种可能性,CIN系统100可将这两个分词映射到与候选分词“pregnant”相关联的单个节点。作为另一可行的扩展,CIN系统100可将这两个分词分别映射到例如对应于候选分词“pain”和“pregnant”的两个不同的节点。
一般,针对以上情形,CIN系统100可以记录这样的方式,以该方式,节点(以及节点的组合)与输入病症项目中的原始分词相关。例如,CIN系统100可以记录这样的事实:两个节点“chest”和“pain”源自于输入病症项目中的单个分词“cp”。
在块914中,CIN系统100接着通过将重复节点添加到在块914中生成的原始图来扩展该原始图,从而产生节点扩展图。更具体地,考虑图中与特定分词关联的特定节点。不同路径可通向该特定节点。所以,可能出现这样的情形,在该情形下,根据通向该特定节点的路径,通向特定节点的单个边可具有不同的权重(如部分地由语言模型108分配的)。CIN系统100可通过适当地复制节点消除多重加权的边,从而以单个和明确的方式对通向节点的每条不同路径进行加权。最终,节点的重复配合最短路径算法的使用,以确定通过图的最短路径。
再次考虑新的病症项目对应于“eightwksabdpain”的示例。另外,假设分词“eight”映射到单个候选分词“eight”。分词“wks”映射到包括“weeks”和“works”的候选分词的列表。分词“prgnt”映射到包括“pregnant”和“print”的候选分词的列表。分词“abd”映射到单个候选分词“abdominal”。以及分词“pain”映射到单个候选分词“pain”。在该情况下,CIN系统100将针对“eight”、“weeks”、“works”、“pregnant”、“print”、“abdominal”和“pain”创建原始节点。
然而,原始图包括反映多个历史的单个边。例如,到达节点“abdominal”的一种方式是经由节点“weeks”和“pregnant”。到达节点“abdominal”的另一方式是经由节点“works”和“pregnant”。因此,根据通过原始图到达节点“abdominal”所采取的路径,连接“pregnant”和“abdominal”的单个边可具有两个不同的权重(如部分地由语言模型108分配的)。
针对该情形,CIN系统100可如下地将节点添加到原始图。
1.由于针对节点“eight”仅存在一个上下文(“Start”节点),所以CIN系统仅生成一个“eight”节点。即,CIN系统100在该场景中不生成重复节点。
2.由于针对节点“weeks”仅存在一个上下文(“Start”、“eight”),所以CIN系统仅生成一个“weeks”节点。
3.由于针对节点“works”仅存在一个上下文(“Start”、“eight”),所以CIN系统仅生成一个“works”节点。
4.由于针对节点“pregnant”存在两个上下文(“eightweeks”和“eightworks”),所以CIN系统100生成两个“pregnant”节点。即,CIN系统100针对历史(“pregnant”|“eightweeks”)生成第一“pregnant”节点,以及针对历史(“pregnant”|“eightworks”)生成第二“pregnant”节点。
5.由于针对“print”节点存在两个上下文(“eightweeks”和“eightworks”),所以CIN系统100生成两个“print”节点。即,CIN系统100针对历史(“print”|“eightweeks”)生成第一“print”节点,以及针对历史(“print”|“eightworks”)生成第二“print”节点。
6.针对节点“abdominal”,存在四个上下文(“weekspregnant”、“workspregnant”、“weeksprint”和“worksprint”)。因此,CIN系统100针对该场景生成这样的四个节点,例如这四个节点对应于相应的历史:(“abdominal”|“weekspregnant”);(“abdominal”|“weeksprint”);(“abdominal”|“workspregnant”);以及(“abdominal”|“worksprint”)。
7.针对节点“node”,存在两个上下文(“pregnantabdominal”和“printabdominal”)。因此,CIN系统100针对与下面历史相关联的“pain”生成两个节点:(“pain”|“pregnantabdominal”);和(“pain”|“printabdominal”)。
在块914中,CIN系统100将其它节点和边添加到节点扩展图,以导致在规范化的病症项目中的每个分词之后可能终止规范化的病症项目。更具体地,如上所述,单个规范化的病症项目可包括封装在一起的两个不同的子病症项目。针对该情形,CIN系统100考虑规范化的病症项目中的每个分词可表示一个子病症项目的结束和另一个子病症项目的开始。CIN系统100通过向节点扩展图添加一个或更多个病症结束标记节点以及链接到这些标记节点的适当的边,来在形式上表示该概率。该处理产生最终扩展图。图12中示出的图(以下将描述)还详细说明了病症结束标记节点的使用。
前进到图10,在块1002中,CIN系统100现在将权重添加到最终扩展图(通过图9的过程900产生的)中的每条边。CIN系统100可使用不同的环境特定规则将权重分配给相应的边。在一个说明性和非限制性的情况下,CIN系统100又根据多个组成权重,将权重分配给所导出的每条边。以及可使用不同的考虑来导出每个组成权重。在一种实现方式中,CIN系统100可如下地生成三个说明性的组成权重。
(1)CIN系统100识别由所讨论的边指向的特定节点。然后,CIN系统100识别这样的参考资源(例如首字母缩写字典210、特定的拼写校正器等),其中与该节点关联的候选分词源自于该参考资源。然后,CIN系统100将组成权重分配给这样的边,该边取决于所使用的参考源。可根据经验确定或者学习每个资源的组成权重;一般而言,根据不同参考资源的推荐的评估准确度,比其它参考资源更有利地对参考资源进行加权。
(2)CIN系统100可以计算特定输入分词与关联于特定节点的候选分词之间的编辑距离。然后,CIN系统100可以根据编辑距离将组成权重分配给通向特定节点的边。在一种实现方式中,CIN系统100可以将编辑距离计算为exp(-distance/maxDistance),其中,distance是输入分词与所讨论的特定候选分词之间的编辑距离,而maxDistance是被所有拼写校正器考虑的最大编辑距离,例如对应于最大编辑距离阈值。
(3)CIN系统100可以使用语言模型108来确定与正考虑的边所指向的节点(及其对应的候选分词)相关联的可能性。例如,考虑节点“abdominal”,其中通过节点“weeks”和“pregnant”到达该节点“abdominal”。CIN系统100可以使用三元语言模型108来计算在两个先前节点为“weeks”和“pregnant”的条件下的“abdominal”的可能性。然后,CIN系统100可以将组成权重分配给正考虑的边,其中该组成权重取决于由语言模型108提供的可能性。
在情形(3)的变型中,CIN系统100可确定这样的组成权重,该组成权重表示由不同类型的语言模型提供的可能性的组合。例如,为了确定以上情况中的“abdominal”的可能性,CIN系统100可以将以下各项的可能性组合在一起:(“abdominal”|“weekspregnant”)(如由三元语言模型提供的),(“abdominal”|“pregnant”)(如由二元语言模型提供的),以及没有参考任何先前节点的(“abdominal”)(如由一元语言模型提供的)。
一旦生成了所有的组成权重,CIN系统100就可以生成最终权重,该最终权重是组成权重的某个函数。例如,在一种实现方式中,CIN系统100可以根据如下等式生成边的最终权重:最终权重=-(sum(以上(1)、(2)和(3)中识别的所有组成权重的对数))。
在块1004中,CIN系统100于是可以找到通过以上块1002中提供的图的最短路径,其开始于“Start”节点并且结束于“End”节点。CIN系统100可以使用任何类型的算法来执行该任务,例如Djikstra算法。在该方法中,分配给边的权重隐含地表示由边连接的相应节点对之间的距离。通过图的可能最短路径对应于规范化的病症项目(对应于在图9的块902中接收到的输入病症项目)的初始评估。
在块1006中,CIN系统100确定其是否适于将块1004中识别的规范化的病症项目分割为两个(或更多个)部分。更具体地,如上所述,新的病症项目实际上可包括两个或更多个子病症项目。在该情况下,规范化的病症项目包括两个可分离的部分。为了进行该确定,CIN系统100可以使用语言模型来评估在规范化的病症项目中的每个分词之后的分割点的可能性。例如,在三元模型中,CIN系统100可针对任意两个先前分词x和y来确定下一分词为病症结束标记节点的概率有多大。每当该概率超过特定于环境的阈值时,CIN系统100就可以指定可能的分割点。
每当CIN系统100识别了任何这样的分割时,CIN系统100可以在分割的接合点处将规范化的病症项目分离为两个部分。CIN系统100也可以根据规范化的病症项目中的直接的连接词(如在“rightfootandlegpain”中)和隐含的连接词(如在“rightfootlegpain”中),来分割规范化的病症项目。在以上示例中,CIN系统100考虑了任何规范化的病症项目可包含两个组成病症项目的概率;但是CIN系统100可以将相同的考虑应用于把规范化的病症项目解析为任意数量的部分。
在块1008中,CIN系统100可以可选地对以上识别的规范化的病症项目进行后处理。例如,CIN系统可将以上识别的规范化的病症项目用作查找键,以确定对应的条目是否存在于知识库310中。然后,CIN系统100可以针对有关所讨论的规范化的病症项目的其它信息,对该知识库310进行挖掘。如A部分中所描述的,CIN系统100可以使用该处理中获得的启示,将具有相同含义的不同的规范化的病症项目链接在一起,即使其使用不同的词语。
在块1010中,CIN系统100存储以上导出的规范化的病症项目、以及块1008中提供的任何补充的元数据。
在块1012中,CIN系统100可响应于导出规范化的病症项目而采取任何动作。A部分中标识了说明性的动作。
最后一点,在这样的处理的上下文中描述了图9和图10,该处理是对由用户或其他实体输入的单个新的病症项目执行的处理。但是,CIN系统100也可使用图9和图10的过程将一批新的病症项目规范化,例如串行地和/或并行地作用于这些新的病症项目。
图11是这样的一种方式的示例,其中可以以该方式使用图1的CIN系统100来扩展新的病症项目中的分词,以产生扩展的病症项目。在该示例中,用户输入病症项目“cp-s/o/b”,其表示规范化的形式的“chestpainshortnessofbreath”。CIN系统100首先将输入病症项目拆分为其最小的分词组成部分,例如“cp”、“s”、“o”和“b”。然后,CIN系统100将病症项目中的每个分词t映射到一个或更多个候选分词的列表。例如,CIN系统100将分词“cp”映射到下面的候选分词的列表:“chestpain”、“co”和“cat”。
还注意,CIN系统100还可以识别通过将上述最小级别的分词(例如“cp”、“s”、“o”和“b”)进行各种组合而形成的聚合分词。这些聚合分词对应于“cps”、“cpsob”、“so”、“sob”和“ob”。CIN系统100还可以识别每个聚合分词的候选分词的列表。例如,CIN系统100可以将分词“sob”映射到“sob”和“shortnessofbreath”。
图12是CIN系统可用来表示扩展病症项目的图的表示。在该情况下,用户已再次输入了原始病症项目“cp-s/o/b”,其表示规范化的形式的“chestpainshortnessofbreath”。为了简化说明,图12中所示的图没有示出包含重复节点(尽管其在实践中实际上包含重复节点)。还注意,图12示出图11中没有图示的一些更多的候选分词(例如,“set”、“stop”等)。
关于图12的图,可以进行一些观察。首先,该图建立了从最上面的“开始”节点通向最下面的“结束”节点的多条路径。每条路径表示输入病症项目的潜在可行的解释。例如,一个解释为“Start”→“cat”→“sob”→“End”,另一个为“Start”→“chestpain”→“set”→“obstetrician”→“End”,等等。通过图的最短路径表示序列“Start”→“chestpain”→“shortnessofbreath”→“End”。该序列表示规范化的病症项目的初始提议(该上下文中的“最短”是在分配给边的权重的上下文中测量的,而不是空间距离)。
第二,注意,候选分词“chestpain”映射到原始病症项目中出现的单个分词“cp”。CIN系统100绘制从“chest”到“pain”的边,以指示这些词语之间的关系。另外,CIN系统100保持这样的薄记,该薄记指示双词分词“chestpain”源自于输入分词“cp”。作为其它观察,注意,没有边从“chest”发出,因为该聚合候选分词的“结束”是“pain”,而不是“chest”。
第三,注意,图中的一些候选分词是根据病症项目中的两个或更多个较小分词的聚合而形成的。例如,候选分词“shortnessofbreath”是从较小的分词“s”、“o”和“b”的聚合导出的。
第四,注意,初始提议的规范化的病症项目(“Start”→“chestpain”→“shortnessofbreath”→“End”)包含两个组成病症项目,即“chestpain”和“shortnessofbreath”。CIN系统100可以通过使用语言模型108在形式上建立该事实,以确定“chestpain”将继之以病症结束标记节点t1的概率。如果该概率超过特定于环境的阈值,则CIN系统在该接合点处建立分割点。
C.代表性的计算功能装置
图13阐述了可用来实现上述功能的任意方面的说明性的计算功能装置1300。例如,计算功能装置1300可用来实现图1的CIN系统的任意方面,例如,如由图5或图6的设备所实现的。在另一情况下,计算功能装置1300可用来实现图4的训练系统110。在一个情况下,计算功能装置1300可对应于包括一个或更多个处理装置的任意类型的计算装置。在所有情况下,计算功能装置1300表示一个或更多个物理的和有形的处理机构。
计算功能装置1300可包括易失性存储器和非易失性存储器,例如RAM1302和ROM1304,以及一个或更多个处理装置1306(例如,一个或更多个CPU,和/或一个或更多个GPU等)。计算功能装置1300还可选地包括各种介质装置1308,例如硬盘模块、光盘模块等。当处理装置1306执行由存储器(例如,RAM1302、ROM1304等)保持的指令时,计算功能装置1300可以执行上述各种操作。
更一般地,指令和其它信息可存储在任意的计算机可读介质1310上,包括但不限于静态存储器存储装置、磁存储装置、光存储装置、等等。术语计算机可读介质还包括多个存储装置。在所有情况下,计算机可读介质1310表示某种形式的物理的和有形的实体。
计算功能装置1300还包括用于接收各种输入(经由输入模块1314)以及用于提供各种输出(经由输出模块)的输入/输出模块1312。一个特定的输出机构可包括呈现模块1316和相关联的图形用户界面(GUI)1318。计算功能装置1300还可包括用于经由一个或更多个通信管道1322与其它装置交换数据的一个或更多个网络接口1320。一个或更多个通信管道1324将上述组件通信地耦合在一起。
通信管道1322可以以各种方式来实现,例如通过局域网、广域网(例如因特网)等、或其任意组合。通信管道1322可包括由任意协议或协议组合控制的硬连线链接、无线链接、路由器、网关功能装置、名称服务器等的任意组合。
可替代地或附加地,可以至少部分地由一个或更多个硬件逻辑部件来执行A部分和B部分中描述的任意功能。例如,而不是限制,可以使用的说明性的类型的硬件逻辑部件包括现场可编程门阵列(FPGA)、专用集成电路(ASCI)、专用标准产品(ASSP)、片上系统的系统(SOC)、复杂可编程逻辑器件(CPLD)。
最后,本文中描述的功能装置可以采用各种机构来确保由该功能装置保持的用户数据的隐私。例如,该功能装置可以允许用户明确地决定参加(然后明确地决定退出)功能装置的提供。功能装置也可提供合适的安全机构来确保用户数据的隐私(例如数据清理机构、加密机构、密码保护机构等)。
另外,说明书可能已经在说明性的挑战或问题的上下文中描述了各种构思。这种说明方式不构成这样的承认:其他人已经以本文中指定的方式想到和/或阐述了这些挑战或问题。
尽管已经以特定于结构特征和/或方法动作的语言描述了本主题,但是应当理解所附权利要求中限定的主题不必限于上述特定特征或动作。相反,上述特定特征和动作被公开为实现权利要求的示例形式。
另外,也可如下地配置本发明:
(1)一种由计算功能装置执行的方法,用于将输入语言项目转换为规范化的语言项目,该方法包括:
接收所述输入语言项目;
将所述语言项目划分为一个或更多个分词;
将所述输入语言项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的语言项目;
基于扩展的语言项目来创建图;
至少部分地使用统计语言模型将权重分配给所述图中的边;以及
识别通过所述图的最短路径,由此识别规范化的语言项目,所述规范化的语言项目表示所述输入语言项目的规范化的对应方。
(2)如(1)所述的方法,其中,语言项目表示医疗相关的病症。
(3)如(1)所述的方法,其中,所述扩展包括使用多个参考源扩展所述输入语言项目。
(4)如(3)所述的方法,其中,所述多个参考源包括以下各项中的任意两个或更多个:
首字母缩写字典,包括已知首字母缩写的列表;
通用拼写校正器,用于提供涉及自然语言中所使用的领域无关词语的拼写检查服务;
通用领域特定拼写校正器,用于提供涉及特定领域中的词语的拼写检查服务;
高频拼写校正器,用于提供涉及所述特定领域中的语言项目中以高频存在的词语的拼写检查服务;以及
缩写调整拼写校正器,用于提供涉及缩写的拼写检查服务。
(5)如(4)所述的方法,其中,所述特定领域对应于医疗相关的领域。
(6)如(1)所述的方法,其中,所创建的所述图构成原始图,所述方法还包括:
将重复节点添加到所述原始图,其中,所述重复节点是所述原始图中的现有节点的重复,
所述添加被执行以考虑通向所述现有节点的两条不同路径,
所述添加被执行一次或更多次以生成节点扩展图。
(7)如(6)所述的方法,还包括:
添加从所述节点扩展图中的非终止节点延伸到病症结束标志节点的边,从而表示如下概率:所述概率是所述非终止节点表示所述规范化的病症项目内的组成病症项目的结束的概率,
所述边的所述添加被执行一次或更多次以创建最终扩展图。
(8)如(1)所述的方法,其中,权重的所述分配包括:
针对指向特定节点的每条边,生成多个组成权重;以及
根据所述多个组成权重的组合将最终权重分配给所述边。
(9)如(8)所述的方法,其中,所述多个组成权重包括:
第一组成权重,其基于用来生成与所述特定节点相关联的候选分词的参考资源的类型;
第二组成权重,其基于与所述特定节点相关联的分词和所述输入语言项目中的对应的原始分词之间的编辑距离;以及
第三组成权重,其基于由所述统计语言模型提供的、与所述特定节点相关联的所述特定分词的可能性。
(10)如(1)所述的方法,其中,所述统计语言模型是三元语言模型。
(11)如(1)所述的方法,还包括:使用所述统计语言模型来确定所述规范化的语言项目是否包括分割点,所述分割点对所述规范化的语言项目内的两个组成语言项目进行划界。
(12)一种用于存储计算机可读指令的计算机可读存储介质,所述计算机可读指令当被一个或更多个处理装置执行时提供语言项目规范化系统,所述计算机可读指令包括:
被配置为接收输入语言项目的逻辑;
被配置为使用统计语言模型生成规范化的语言项目的逻辑,所述规范化的语言项目表示所述输入语言项目的规范化的对应方;以及
被配置为还使用所述统计语言模型确定所述规范化的语言项目是否包括分割点的逻辑,所述分割点对所述规范化的语言项目内的两个组成语言项目进行划界。
(13)如(12)所述的计算机可读介质,其中,所述语言项目表示健康相关的病症。
(14)如(12)所述的计算机可读存储介质,其中,所述被配置为生成规范化的语言项目的逻辑包括:
被配置为将所述语言项目划分为一个或更多个分词的逻辑;
被配置为将所述输入语言项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的语言项目的逻辑;
被配置为基于扩展的语言项目来创建图的逻辑;
被配置为至少部分地使用所述统计语言模型将权重分配给所述图中的边的逻辑;以及
被配置为识别通过所述图的最短路径,由此识别规范化的语言项目的逻辑。
(15)如(14)所述的计算机可读存储介质,其中,所述被配置为扩展的逻辑包括被配置为使用多个参考源扩展所述语言项目的逻辑。
(16)一种由计算功能装置实现的病症项目规范化系统,用于将输入病症项目转换为规范化的病症项目,所述系统包括:
词语切分模块,被配置为将所述输入病症项目划分为一个或更多个分词;
扩展模块,被配置为根据多个参考源将所述输入病症项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的病症项目;
图生成模块,被配置为基于扩展的病症项目来创建图;以及
路径确定模块,被配置为根据所述图生成规范化的病症项目,所述规范化的病症项目表示所述输入病症项目的规范化的对应方。
(17)如(16)所述的病症项目规范化系统,其中,所述多个参考源包括:
首字母缩写字典,包括已知首字母缩写的列表;
通用拼写校正器,用于提供涉及自然语言中所使用的领域无关词语的拼写检查服务;
通用医疗拼写校正器,用于提供涉及医疗相关领域中的词语的拼写检查服务;
高频拼写校正器,用于提供涉及所述医疗相关领域中的语言项目中以高频存在的词语的拼写检查服务;以及
缩写调整拼写校正器,用于提供涉及缩写的拼写检查服务。
(18)如(17)所述的病症项目规范化系统,其中,拼写校正器中的至少两个使用不同的相应的编辑距离阈值来识别候选分词。
(19)如(16)所述的病症项目规范化系统,还包括:权重生成模块,被配置为至少部分地使用统计语言模型将权重分配给所述图中的边。
(20)如(16)所述的病症项目规范化系统,还包括:分割预测器模块,被配置为使用统计语言模型来确定所述规范化的病症项目是否包括至少两个组成病症项目。

Claims (8)

1.一种由计算功能装置(1300)执行的方法(900),用于将输入语言项目转换为规范化的语言项目,该方法包括:
接收所述输入语言项目(902);
将所述语言项目划分为一个或更多个分词(908);
将所述输入语言项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的语言项目(910);
基于扩展的语言项目来创建图(912);
至少部分地使用统计语言模型将权重分配给所述图中的边(1002);以及
识别通过所述图的最短路径,由此识别规范化的语言项目(1004),所述规范化的语言项目表示所述输入语言项目的规范化的对应方,
其中,所述方法还包括:使用所述统计语言模型来确定所述规范化的语言项目是否包括分割点,所述分割点对所述规范化的语言项目内的两个组成语言项目进行划界。
2.如权利要求1所述的方法,其中,所述扩展包括使用多个参考源扩展所述输入语言项目。
3.如权利要求2所述的方法,其中,所述多个参考源包括以下各项中的任意两个或更多个:
首字母缩写字典,包括已知首字母缩写的列表;
通用拼写校正器,用于提供涉及自然语言中所使用的领域无关词语的拼写检查服务;
通用领域特定拼写校正器,用于提供涉及特定领域中的词语的拼写检查服务;
高频拼写校正器,用于提供涉及所述特定领域中的语言项目中以高频存在的词语的拼写检查服务;以及
缩写调整拼写校正器,用于提供涉及缩写的拼写检查服务。
4.如权利要求1所述的方法,其中,所创建的所述图构成原始图,所述方法还包括:
将重复节点添加到所述原始图,其中,所述重复节点是所述原始图中的现有节点的重复,
所述添加被执行以考虑通向所述现有节点的两条不同路径,
所述添加被执行一次或更多次以生成节点扩展图。
5.如权利要求4所述的方法,还包括:
添加从所述节点扩展图中的非终止节点延伸到病症结束标志节点的边,从而表示如下概率:所述概率是所述非终止节点表示所述规范化的病症项目内的组成病症项目的结束的概率,
所述边的所述添加被执行一次或更多次以创建最终扩展图。
6.如权利要求1所述的方法,其中,权重的所述分配包括:
针对指向特定节点的每条边,生成多个组成权重;以及
根据所述多个组成权重的组合将最终权重分配给所述边。
7.如权利要求6所述的方法,其中,所述多个组成权重包括:
第一组成权重,其基于用来生成与所述特定节点相关联的候选分词的参考资源的类型;
第二组成权重,其基于与所述特定节点相关联的候选分词和所述输入语言项目中的对应的原始分词之间的编辑距离;以及
第三组成权重,其基于由所述统计语言模型提供的、与所述特定节点相关联的候选分词的可能性。
8.一种由计算功能装置(1300)实现的病症项目规范化系统(100),用于将输入病症项目转换为规范化的病症项目,所述系统(100)包括:
词语切分模块(206),被配置为将所述输入病症项目划分为一个或更多个分词;
扩展模块(208),被配置为根据多个参考源将所述输入病症项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的病症项目;
图生成模块(220),被配置为基于扩展的病症项目来创建图;以及
路径确定模块(304),被配置为根据所述图生成规范化的病症项目,所述规范化的病症项目表示所述输入病症项目的规范化的对应方,
其中,所述系统还包括:分割预测器模块(306),被配置为使用统计语言模型来确定所述规范化的病症项目是否包括分割点,所述分割点对所述规范化的病症项目内的两个组成病症项目进行划界。
CN201210418794.4A 2011-10-27 2012-10-26 用于将语言项目规范化的功能装置 Active CN103034628B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161551938P 2011-10-27 2011-10-27
US61/551,938 2011-10-27
US13/313,034 2011-12-07
US13/313,034 US8909516B2 (en) 2011-10-27 2011-12-07 Functionality for normalizing linguistic items

Publications (2)

Publication Number Publication Date
CN103034628A CN103034628A (zh) 2013-04-10
CN103034628B true CN103034628B (zh) 2015-12-02

Family

ID=48021532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210418794.4A Active CN103034628B (zh) 2011-10-27 2012-10-26 用于将语言项目规范化的功能装置

Country Status (1)

Country Link
CN (1) CN103034628B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387651A (zh) * 1999-11-05 2002-12-25 微软公司 词典、分段和语言模型联合优化的系统和迭代方法
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
CN101369285A (zh) * 2008-10-17 2009-02-18 清华大学 一种中文搜索引擎中查询词的拼写校正方法
CN102089805A (zh) * 2008-08-05 2011-06-08 益焦.com有限公司 用于概念映射的系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
JP2010044637A (ja) * 2008-08-14 2010-02-25 Just Syst Corp データ処理装置、方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387651A (zh) * 1999-11-05 2002-12-25 微软公司 词典、分段和语言模型联合优化的系统和迭代方法
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
CN102089805A (zh) * 2008-08-05 2011-06-08 益焦.com有限公司 用于概念映射的系统和方法
CN101369285A (zh) * 2008-10-17 2009-02-18 清华大学 一种中文搜索引擎中查询词的拼写校正方法

Also Published As

Publication number Publication date
CN103034628A (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
He et al. Classifying medical relations in clinical text via convolutional neural networks
Vijaymeena et al. A survey on similarity measures in text mining
CN110121705A (zh) 将语用学原理应用于与可视分析交互的系统和方法
Gong et al. Predicting clinical outcomes across changing electronic health record systems
Ball et al. TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
Fei et al. A tree-based neural network model for biomedical event trigger detection
Dynomant et al. Word embedding for the French natural language in health care: comparative study
CN115017893A (zh) 校正通过深度学习生成的内容
Liu et al. Chatgpt-powered conversational drug editing using retrieval and domain feedback
Karami Fuzzy topic modeling for medical corpora
CN114360711A (zh) 通过句法-语义对准和话语分析进行的基于多案例的推理
Lin et al. Utilizing different word representation methods for twitter data in adverse drug reactions extraction
Gu et al. Towards sentence level inference attack against pre-trained language models
Mujjiga et al. Identifying semantics in clinical reports using neural machine translation
Ghiasvand Disease name extraction from clinical text using conditional random fields
Ponthongmak et al. Development and external validation of automated ICD-10 coding from discharge summaries using deep learning approaches
CN103034628B (zh) 用于将语言项目规范化的功能装置
Ling Coronavirus public sentiment analysis with BERT deep learning
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
Gehrmann Human-AI collaboration for natural language generation with interpretable neural networks
Xiang et al. From One-hot Encoding to Privacy-preserving Synthetic Electronic Health Records Embedding
US20210034676A1 (en) Semantic relationship search against corpus
Dernoncourt Sequential short-text classification with neural networks
FADHLALLAH A Deep Learning-based approach for Chatbot: medical assistance a case study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150610

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150610

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant