CN108140044A

CN108140044A - 用于确定与临床医生相关的信息的设备、系统和方法

Info

Publication number: CN108140044A
Application number: CN201680058213.7A
Authority: CN
Inventors: S·S·A·哈桑; O·F·法里; 柳俊毅; 凌媛
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2015-10-07
Filing date: 2016-09-28
Publication date: 2018-06-08
Also published as: WO2017060795A1; US20180307749A1; EP3360058A1; US11288296B2

Abstract

用于确定与临床医生相关的信息并将与所述临床医生相关的所述信息通知给所述临床医生的系统、方法和设备。由所述设备或所述系统执行的所述方法包括：识别临床医生的用户简档中的至少一个关键词；识别新的信息项中的至少一个内容词；基于所述至少一个关键词和所述至少一个内容词来确定所述新的信息项与所述临床医生之间相关性分数；并且当所述相关性分数高于预定阈值时，为所述临床医生生成指示所述新的信息项的通知。

Description

用于确定与临床医生相关的信息的设备、系统和方法

背景技术

临床医生可以亲自或通过诸如在线通信的通信向患者提供医学护理或健康相关信息。即使知道临床医生可能熟练掌握集中的医学领域，临床医生仍然可以参考外部资源来帮助确定提供给患者的适当的医学护理或健康相关信息。临床医生在利用可用信息时(特别是在效率方面)可能受到限制。

临床医生对关于他们自己的科学领域或相关专业的特定信息和/或知识感兴趣。随着可用信息(例如，数字信息)的量的不断增加，临床医生可能会发现手动跟踪所有可用信息源并手动挖掘这些信息源来(尤其是实时地)检索所需信息以访问最新的知识的过程非常耗时或几乎不可能。例如，如果临床医生对医学同事如何处置患有相似疾病表现的患者感兴趣，则临床医生将不得不手动浏览电子病历(EMR)以获取相关医学报告，或者亲自联系其他临床医生以更新临床医生的知识。在另一范例中，要熟悉EMR之外的最新知识，临床医生必须手动筛选大量的可用信息源以提取相关的感兴趣内容。这个过程繁琐且容易出错，因为临床医生错过了重要信息，导致医学错误风险增加和患者安全性受损。

此外，手动搜索信息的方法还导致检索临床相关信息的时间延迟较长，这可能会对向患者有效递送高质量护理产生不利影响。例如，如果感染性疾病突然出现或者最近发现了重要临床实践方法，那么临床医生想要得到这些信息来优化任何临床决策制定过程。

发明内容

示例性实施例涉及一种用于确定与临床医生相关的信息并将与所述临床医生相关的所述信息通知给所述临床医生的方法。所述方法包括：识别临床医生的用户简档中的至少一个关键词；识别新的信息项中的至少一个内容词；基于所述至少一个关键词和所述至少一个内容词来确定所述新的信息项与所述临床医生之间相关性分数；并且当所述相关性分数高于预定阈值时，为所述临床医生生成指示所述新的信息项的通知。

示例性实施例还涉及一种具有经由通信网络进行通信的收发器以及存储可执行程序的存储器的相关性服务器，所述收发器被配置为接收临床医生信息和新的信息项。所述相关性服务器还具有执行所述可执行程序的处理器，所述可执行程序使得所述处理器执行包括以下的操作：识别临床医生的用户简档中的至少一个关键词，识别新的信息项中的至少一个内容词，基于所述至少一个关键词和所述至少一个内容词来确定所述新的信息项与所述临床医生之间的相关性分数，并且当所述相关性分数高于预定阈值时，为所述临床医生生成指示所述新的信息项的通知。

示例性实施例还涉及一种用于确定与临床医生相关的信息并将与所述临床医生相关的所述信息通知给所述临床医生的另外的方法。所述另外的方法包括：接收与临床医生相关联的临床医生信息；分析所述临床医生信息以识别至少一个关键词，从而生成针对所述临床医生的用户简档；针对新的信息项监视信息源；当检测到所述新的信息项时，分析所述新的信息项以识别所述新的信息项中的至少一个内容词；基于所述至少一个关键词和所述至少一个内容词来确定所述新的信息项与所述临床医生之间的相关性分数；并且基于所述相关性分数为临床医生生成指示所述新的信息项和所述新的信息项的相关性因子的通知。

附图说明

图1示出了根据示例性实施例的系统。

图2示出了根据示例性实施例的图1的相关性服务器。

图3示出了根据示例性实施例的用于确定相关的新的可用信息的方法。

具体实施方式

参考下文的描述和相关附图可以进一步理解示例性实施例，其中，相同的元件被提供有相同的附图标记。示例性实施例涉及用于临床医生通过确定与临床医生相关的新的可用信息来向患者提供更高效的护理方式的设备、系统和方法。示例性实施例被配置为实时自动监视信息源，所述信息源被过滤以确定针对选定的临床医生的最相关内容，使得临床医生被通知相关内容以做出更明智的临床决策并改善医学护理质量和患者预后。

示例性实施例使临床医生手动审查大量临床和生物医学信息源以获取可能增强临床敏锐度并确保对临床医生的患者有更好预后的特定临床信息/知识所需的时间和努力最小化。因此，示例性实施例被配置为实时自动监视可用信息流，基于临床医生的兴趣简档来过滤出最相关的内容，并且以无缝且以工作流程为中心的方式向临床医生及时递送内容。

图1示出了根据示例性实施例的系统100。系统100涉及临床医生向患者或用户提供医学护理和/或健康相关信息时涉及的各种部件之间的通信。具体地，系统100可以包括多个信息源105和110、通信网络115、临床医生设备120、简档存储库125，以及相关性服务器130。如将在下文中进一步详细描述的，系统100被配置为利用信息源105、110而使得可以使用根据示例性实施例的第一机制和/或第二机制来提供医学护理和/或健康相关信息。

信息源105、110可以表示从其接收信息的任何源。信息可以是医学信息、在线或数字信息等。例如，信息源105可以包括用于电子病历(EMR)中的临床报告的存储库。在另一范例中，信息源105可以包括来自医学期刊、医院等的其他医学相关数据。在另一范例中，信息源110可以包括在线流，例如，社交媒体流(例如，微博网站)、健康博客、在线新闻媒体等。出于示例性目的，根据示例性实施例，信息源105、110可以提供可以用于执行第一机制和第二机制的任何信息。

应当注意，图示两个信息源105、110的系统100仅是示例性的。信息源105、110可以表示被配置为将信息提供给系统100的其他部件的一个或多个信息源。实际上，信息源105、110可以表示可以从存储库或源获得的每个个体项、存储库或源本身、存储库集合等。

通信网络115可以被配置为通信性地连接系统100的各个部件以交换数据。通信网络115可以表示由系统100的部件用于彼此通信的任何单个网络或多个网络。例如，如果在管理站点处使用相关性服务器130，那么通信网络115可以包括相关性服务器130可以最初连接的专用网络(例如，医院网络)。专用网络可以连接到互联网服务提供商的网络以连接到互联网。随后，通过互联网，可以建立到其他电子设备的连接。应当注意，通信网络115和其中可能包括的所有网络可以是任何类型的网络。例如，通信网络110可以是局域网(LAN)、广域网(WAN)、虚拟LAN(VLAN)、WiFi网络、无线热点、蜂窝网络(例如，3G、4G、长期演进技术(LTE)等)、云网络、这些网络的有线形式、这些网络的无线形式、这些网络的组合的有线/无线形式等。

临床医生设备120可以表示被配置为执行与临床医生相关联的功能的任何电子设备。例如，临床医生设备120可以是诸如平板电脑、膝上型计算机等的便携式设备或诸如台式终端的固定设备。临床医生设备120可以包括必要的硬件、软件和/或固件以执行与医学处置相关联的各种操作。临床医生设备120还可以包括所需的连接硬件、软件和固件(例如，收发器)以建立与通信网络115的连接，从而进一步建立与系统100的其他部件的连接。例如，临床医生设备120可以使用日程表应用程序为患者安排预约，可以跟踪患者的处置或流程等。在另一范例中，临床医生设备120可以用于发布诸如微博的在线内容。在另外的范例中并且如将在下文中进一步详细描述的，临床医生设备120可以从相关性服务器130接收关于新的可用信息的通知。

简档存储库125可以是对用户简档进行存储的部件。具体地，简档存储库125可以存储临床医生的用户简档。如将在下文中进一步详细描述的，相关性服务器130可以生成可以被存储在简档存储库125中的用户简档。如果简档存储库125已经具有用于特定临床医生的用户简档，那么相关性服务器130就可以查询简档存储库125以检索对应的用户简档。

相关性服务器130可以是系统100的执行与示例性实施例的第一机制相关联的功能的部件。图2示出了根据示例性实施例的图1的相关性服务器130。相关性服务器130可以在确定相关的新的可用信息并向临床医生通知这些相关的新的可用信息时提供各种功能。虽然相关性服务器130被描述为网络部件(具体为服务器)，但是相关性服务器130可以被实施在各种硬件部件(例如，便携式设备(例如，平板电脑、智能电话、膝上型计算机等)、固定设备(例如，台式终端))中，被并入个人设备(例如，医师设备)，被并入网站服务等。相关性服务器139可以包括处理器205、存储器布置210、显示设备215、输入和输出(I/O)设备220、收发器225，以及其他部件230(例如，成像器、音频I/O设备、电池、数据采集设备、将报告服务器130电连接到其他电子设备的端口等)。

处理器205可以被配置为执行相关性服务器130的多个应用程序。如将在下文中进一步详细描述的，处理器205可以利用多个引擎，所述多个引擎包括简档引擎235、监视引擎240、细化引擎245、匹配引擎250，以及通知引擎255。简档引擎235可以分析临床医生的兴趣简档，以通过生成临床医生的用户简档来确定信息需求的整体背景。监视引擎240可以实时监视信息源105、110以追踪任何新的可用信息。细化引擎245可以处理监视引擎240的结果以细化结果。匹配引擎250可以基于临床医生的用户简档来确定细化结果中的选定结果。通知引擎255可以为临床医生生成细化结果中的选定结果的通知。

应当注意，对于上述应用程序和引擎均是由处理器205执行的应用程序(例如，程序)的情况仅是示例性的。与应用程序相关联的功能还可以被表示为一个或多个多功能程序的部件，相关性服务器130的单独并入的部件，或者可以是被耦合到相关性服务器130的模块部件(例如，具有或不具有固件的集成电路)。

存储器210可以是被配置为存储与由相关性服务器130执行的操作有关的数据的硬件部件。具体地，存储器210可以存储与各种引擎235-255有关的数据，例如，临床医生的用户简档以及来自信息源105、110的数据。显示设备215可以是被配置为向用户示出数据的硬件部件，而I/O设备220可以是使得用户能够录入输入项目的硬件部件。例如，相关性服务器130的管理员可以通过在显示设备215上示出的用户接口，利用经由I/O设备220录入的输入项目来维护和更新相关性服务器130的功能。应当注意，显示设备215和I/O设备220可以是单独的部件或被集成在一起的部件，例如，触摸屏。收发器225可以是被配置为经由通信网络110发送和/或接收数据的硬件部件。

根据示例性实施例，相关性服务器130可以执行各种不同的操作来确定哪些新的可用信息与特定的临床医生有关。最初，如上所述，简档引擎235可以分析临床医生的兴趣简档，以通过生成临床医生的用户简档来确定信息需求的整体背景。简档引擎235可以提供初始操作，在所述初始操作中，搜集简档信息以确定特定的临床医生的用户简档。与可以被搜集的用户简档有关的简档信息可以是任何类型的并且可以接收自信息源105、110或者来自临床医生的手动录入。例如，简档信息可以包括临床医生的简历、被保存在各种存放库(例如，医院管理系统)中的专业知识简档、经由对临床医生的特定信息需求的短期交互式在线调查而收集的信息等。

简档应用程序235可以被配置为分析简档信息。例如，简档应用程序235可以利用主题建模/主题签名操作来提取捕捉临床医生的兴趣简档的整体背景的主题关键词。主题建模操作可能倾向于通过统计分析文档中的词语来从数据集的集合中发现抽象主题。如果与大背景语料库相比，给定文本中的词具有显著更高的概率，那么主题签名操作可以将词语识别为主题词。所提取的主题关键词连同各种可能的n-gram组合可以用于通过从开源词典数据库(例如，WordNet)中提取有关的同义词集并且经由利用深度神经词/短语嵌入来扩展主题词汇表。可以通过使用基于深度学习的词/短语进行向量表示建模操作而根据大量搜集自各种在线信息源的数据对神经词/短语嵌入进行训练。在该框架中，可以使用skip-gram模型架构将每个词/短语映射到唯一向量。一旦训练收敛，具有相似含义的词/短语可以共同位于向量空间中，使得可以利用位置和/或位置差异来确定不同词/短语之间的相关度。可以经由文本索引应用来存储每个用户简档的扩展主题关键词列表，以用于在实时信息内容过滤期间进行进一步分析，实时信息内容过滤将在下文中进一步详细描述。以这种方式，简档应用程序235可以生成包括与临床医生相关联的各种关键词的临床医生的用户简档。

监视引擎240可以实时监视信息源105、119以追踪任何新的可用信息。监视引擎240可以监视被包括在信息源105、110中的各种在线信息流和/或其他信息流。例如，信息流可以包括社交媒体数据，例如，Twitter、博客帖子、在线新闻媒体、EMR免费文本医学报告等，这些社交媒体数据被实时跟踪以确定任何传入的新的帖子和/或报告。

细化引擎245可以通过细化监视引擎240的结果来处理这些结果。具体地，细化引擎245可以处理传入的信息，执行标记化操作和/或词类(POS)加标签操作，并且去除杂乱元素以生成由监视引擎240识别的新的可用信息的“干净”版本。应当注意，由监视引擎240监视的信息可以以各种格式进行流式传输。例如，可以将信息作为短句子(例如，来自Twitter的推文)，作为一个或多个段落的集合(例如，来自社交媒体站点的状态帖子、博客帖子等)，作为文档和/或报告(例如来自EMR)等进行流式传输。当监视引擎240接收到新的可用信息时，细化引擎245可以处理新的可用信息，以根据信息源并基于信息流式传输的格式来去除所有可能的杂乱内容。具体地，使用与流式传输格式相对应的基于规则的操作并联合与关于依赖于域的杂乱词/模板的策划的知识数据库来去除杂乱内容。细化引擎245可以将自然语言处理(NLP)操作(例如，标记化和POS加标签)应用于提取保留经流式传输的信息的内容的背景含义的重要内容词。以这种方式，可以生成包括新的可用信息的内容词的新的可用信息的干净版本。

匹配引擎250可以基于临床医生的用户简档来确定适合于临床医生的细化结果中的选定结果。具体地，匹配引擎250可以使用NLP操作和信息检索技术来分析关于临床医生的用户简档的新的可用信息的干净版本，以确定适当的匹配。匹配引擎250可以利用来自细化引擎245的内容词作为与临床医生的用户简档的关键词相匹配的查询(例如通过使用文本索引操作)。文本索引操作可以利用内容词作为可能的n-gram/短语的各种组合以找到跨用户简档的关键词的总体内容匹配。

可以在两个步骤的过程中测量新的可用信息中的项目与临床医生的用户简档的相关性。在第一步骤中，文本索引操作可以返回相对于临床医生的用户简档的基于词频-逆向文档频率(TF-IDF)的内容匹配分数。具体地，可以生成文本索引分数。在第二步骤中，可以进一步利用来自用户简档的关键词，通过建立在有关的词的语义网络和基于语料库的统计结果上的语义相似性测量操作来确定与新的可用内容的内容词的语义相似性。具体地，可以生成语义相似性分数。

匹配引擎245可以利用与文本索引分数和语义相似性分数相关联的加权因子。加权因子可以提供动态方法来利用文本索引分数和语义相似性分数，其中，更大的索引或更大的相似性可以允许对应的分数被相应地加权并且提供更重要的因子。因此，匹配引擎245可以将通过文本索引分数的加权因子进行加权的文本索引分数与通过语义相似性分数的加权因子进行加权的语义相似性分数进行组合，以生成新的可用信息项与临床医生的用户简档的总的相关性分数。总的相关性分数可以指示新的可用信息项对于特定临床医生的相关程度如何。因此，具有第一总的相关性分数的第一新的可用信息项可以大于第二新的可用信息项的第二总的相关性分数。因此，第一新的可用信息项可以与临床医生具有更高的相关性。匹配引擎245还可以确定新的可用信息项与可能已经被传送给临床医生的其他新的可用信息项的语义相似性。该操作可以提供冗余核查，使得临床医生不会被重复的信息淹没。

通知引擎255可以为临床医生生成细化结果中的选定结果的通知。具体地，当新的可用信息项被识别为相关(例如，对应于临床医生的用户简档的信息)时，通知引擎255可以将内容通知发送给临床医生。例如，如果新的可用信息项的总的相关性分数大于(例如在足够量的训练之后凭经验确定的)预定阈值，那么新的可用信息项可以被发送给临床医生。例如，通知引擎255可以生成被发送的对应消息(例如，实时移动推送通知、电子邮件等)。以这种方式，一旦感兴趣的新的可用信息变得可用，临床医生就可以(例如在新的可用信息变得可用的几秒钟内)知道该感兴趣的新的可用信息。

通知引擎250可以被配置为以各种不同的方式生成通知。在第一范例中，可以生成通用消息以指示已经检测到新的可用信息项。在另一范例中，可以生成更具体的消息，其包括将临床医生引导到新的可用信息项的链接或其他指针。在另外的范例中，可以生成描述性消息，其中，最相关的句子或段落被包括在关于新的可用信息项的消息中，使得临床医生可以读取所提供的文本并确定是否继续进行。描述性消息还可以利用包括链接的更具体的消息特征而易于允许临床医生继续进行。

通知引擎250还可以被配置为被修改，尤其是限制一段时间内通知的数量。以这种方式，临床医生不会被所有新的可用信息项淹没。在第一范例中，可以通过设置上限来控制要递送的通知的数量(例如，每天仅有15个通知)。在第二范例中，可以定制递送通知的时间，例如基于临床医生的工作时间表，使得不会在不想要的时间段期间(例如当临床医生正在轮班、手术中或者睡觉时)递送通知。在第三范例中，临床医生可以利用个性化的预定阈值，使得更相关的项目(例如，比机器学习值更高的值)或更不相关的项目(例如，比机器学习值更低的值)可以被包括在通知中。在第四范例中，可以捆绑通知而使得新的可用信息项被存储并且稍后被分析，使得具有至少特定总的相关性分数的最新的可用信息项被包括在要被递送的消息(例如，电子邮件)中。该过程的定时可以是长的时间段(例如，每天一次、每周一次等)。

在相关性服务器130的具体实施方式中，可以基于要满足的各种临床问题来确定新的可用信息项的结果。例如，主要使用情况可能涉及临床医生可能寻求关于如何在护理点处最佳地护理患者的基于研究的相关证据的情景。具体地，临床医生可能需要关于给定病症/症状列表的患者的最可能的诊断、给定情景中最重要的检验/流程以及给定诊断的最有效的治疗计划的特定信息。因此，示例性实施例被配置为具有检索回答与多种类别的临床信息需求有关的问题的结果的排序列表的目的。在特定范例中，简短的医学案例报告与三个通用临床问题(“对患者的诊断是什么？”，“患者应当接受什么检验？”以及“应当如何处置患者？”)中的一个相关联。结果可以根据其与对应的临床问题的相关性来判断。这尤其涉及监视引擎240和细化引擎245。

如上所述，示例性实施例提供了一种NLP驱动的方法，该方法将语法操作、语义操作和过滤操作进行组合以提取对应于与每个给定主题相关的临床概念(例如，诊断、处置和/或检验)的相关生物医学文章。这种特定的实施方式还可以利用上述引擎来进行例如(i)从信息源105、110中识别最相关的内容词的主题分析，(ii)对内容词进行推理来通过使用神经短语嵌入和/或外部临床知识库以达到基于基础临床背景的诊断、检验和处置的临床推断，以及(iii)基于来自(i)和(ii)的内容词和临床推断对相关的生物医学文章进行检索和排序的相关文章检索。

在主题分析中，可以根据给定的描述和/或概要来利用上述TF-IDF，并且将上述TF-IDF映射到受控临床词汇表和/或本体论中表示的类别。TF-IDF也可以被识别为与人口统计学信息相关，基于标准正常范围值对其重要的患者参数进行解读，并且滤除负面的临床概念以在给定的患者情景中对积极临床表现给予更多的权重。本领域技术人员将意识到，使用临床领域本体论可能是特别有效的，因为它们已经被实施以促进标准临床词汇表并被广泛用于对临床概念进行语义分类，并且促进了信息交换和互操作性。

在临床推断中，使用词/短语-向量神经短语嵌入模型(其已经在从多个临床数据源、文章和出院概要中获得的超过400万个临床相关的句子上进行了训练)来捕捉给定主题描述或概要的整体背景，以基于最常见的临床诊断来推断鉴别诊断，所述最常见的临床诊断以来自主题分析步骤中的识别的主题内容词的集群来表示。可以利用skip-gram模型架构来学习所报告的词和短语的向量表示以提供改善的结果。可能的诊断的列表可以通过参考索引的临床知识库得到进一步验证、过滤和排序，并且可以提取具有与每个主题内容词相对应的相关诊断的候选文章的列表。通过这个过程，为了生物医学证据检索的目的，可以在全面的知识库中找到主题内容词与相关联的临床概念(例如，诊断/障碍、处置和检验)之间的关系。

在相关文章检索中，可以使用从临床推断操作中获得的主题内容词和对应的障碍/诊断、检验和处置，以通过搜索给定文章的摘要来检索候选的生物医学文章。候选结果可以使用被设计为解决三种类型的临床问题(例如，诊断、检验和处置)的多个加权操作来排序。检索结果可以通过位置、人口统计学信息和来自主题描述/概要的其他背景信息得到进一步过滤，以改善结果的相关性。最终的列表可以进一步按新的可用信息项的发布日期进行排序，以提供针对每个主题的答案的按时间顺序的生物医学证据。

在根据示例性实施例执行相关性服务器130的上述实施方式中，可以使用实验数据集。例如，检验数据集可以包括30个主题，这30个主题被分为诸如如上所述问题类型的三个问题类型。给定的主题描述或主题可以基本上是描述与患者病史、病症/症状、诊断、检验和处置有关的情景的医学案例叙述。根据信息的深度，可以提供两个版本的主题。主题描述可以包括患者情况的全面描述，而主题概要可以包含最重要的信息。此外，可以为检验主题和处置主题提供基础真实诊断。

利用上述数据集运行实验，可以使用标准评价程序(例如，文本检索会议(TREC)程序)进行评价以用于特定信息检索任务。可以由医学领域专家根据与关于给定情景的相关联的问题类型的答案的相关性以0(不相关)、1(可能相关)和2(肯定相关)的三个标度点对排名最高的生物医学文章进行采样和判断。结果表明，根据示例性实施例的该实施方式的临床问题解答系统对所有评价措施执行接近中值的分数。结果分析还表明，当使用主题概要时，根据示例性实施例的临床问题解答系统可以针对某些主题实现更好的结果，而神经词/短语嵌入对多个主题的评分进行改善。结果还表明，识别和使用准确的鉴别诊断对相关的生物医学文章检索的准确性有重大影响。

根据示例性实施例的相关性服务器130的这种实施方式还可以利用实时过滤系统，尤其是微博的实时过滤系统。使用上述引擎，该特定实施方式可以(i)分析利用神经词/短语嵌入来进行背景理解的用户简档，(ii)分析微博内容，其中，执行杂乱元素过滤操作以及标记化和POS加标签操作以用于生成微博的干净版本，以及(iii)匹配相关内容，其中，相关的微博到对应的用户简档的映射是通过基于TF-IDF的内容匹配分数和语义相似性分数的组合。这尤其涉及简档引擎235和匹配引擎250。

在对用户简档的分析中，可以使用主题签名操作来分析多个不同的用户简档，该主题签名操作提取最重要的关键词以捕捉信息需求的总体背景。关键词连同对应的n-gram组合可以用于通过提取有关的同义词集合并利用深度神经词/短语嵌入来扩展主题词汇表。神经词/短语嵌入可以通过使用基于深度学习的词/短语来进行向量表示建模操作而根据超过六千万个微博进行训练。在实时微博内容过滤期间，可以对每个用户简档的扩展关键词列表进行索引以用于进一步分析。

在微博内容分析中，可以使用各种基于规则的操作并结合在微博中广泛使用的已知杂乱元素的策划的数据库来处理每个传入的微博，以去除所有杂乱内容。标记化和POS加标签可以用于提取保留微博的背景含义的最重要的词语。

在相关的内容匹配中，关键词和上述临床问题解答系统中的内容词可以被用作检索并匹配适当的用户简档的查询。该查询可以被变换为可能的n-gram/短语的各种组合，以确定跨用户简档的总体内容匹配。可以使用两个分数的加权组合，基于TF-IDF的内容匹配分数以及基于建立在有关的词的语义网络和基于语料库的统计结果上的操作的语义相似性分数来测量它们之间的最终相关性。随后，通知引擎255可以用于通知任何匹配。

图3示出了根据示例性实施例的用于确定相关的新的可用信息的方法300。具体地，方法300可以涉及示例性实施例的机制，其中，使用用户简档来识别将向与用户简档相关联的临床医生标识的新的可用信息项中的选定信息项。因此，将从相关性服务器130的角度来描述方法300。方法300还将关于图1的系统100和图2的相关性服务器130的多个引擎235-255进行描述。

在步骤305中，相关性服务器130经由简档引擎235可以接收与临床医生相关联的信息。如上所述，可以从信息源105、110接收与临床医生相关联的信息。例如，可以接收临床医生的文档，例如，简历、专业知识简档等。在另一范例中，相关性服务器130可以接收在线数据，例如，临床医生的微博信息。在步骤310中，相关性服务器130经由简档引擎235可以为临床医生生成用户简档。具体地，可以分析临床医生的信息以确定被包括在用户简档中的关键词。

在步骤315中，相关性服务器130可以确定新的可用信息项。具体地，相关性服务器130经由监视引擎240可以监视诸如社交媒体、博客帖子、在线新闻媒体、EMR免费文本医学报告等的信息源105、110。信息源105、110可以被周期性地更新或者由添加或发布新的可用信息的作者动态地更新。相关性服务器130可以被配置为识别来自先前的时间的新的可用信息项。

在步骤320中，相关性服务器130经由细化引擎245可以细化新的可用信息。具体地，相关性服务器130可以执行标记化操作和/或POS加标签操作，以去除新的可用信息项中的杂乱元素。杂乱元素可能涉及与示例性实施例的特征无关的新的可用信息的部分。相关性服务器130可以相应地基于新的可用信息项的干净版本来生成内容词。

在步骤325中，相关性服务器130经由匹配引擎250可以将新的可用信息项的内容词与临床医生的用户简档的关键词进行匹配。具体地，使用NLP操作和信息检索技术，新的可用信息项中的选定的可用信息项可以被识别为与临床医生的用户简档相关。使用具有对应权重的文本索引分数和具有对应权重的语义相似性分数，可以确定指示新的可用信息项与临床医生的用户简档的相关性的总的相关性分数。需要注意，没有相关性的新的可用信息项可以具有零值，而具有至少一些相关性的新的可用信息项可以具有正值。

在步骤330中，相关性引擎130经由通知引擎255可以为临床医生生成关于具有至少一些相关性(正的总的相关性分数)的任何新的可用信息项的通知。需要注意，通知引擎255还可以利用预定的阈值作为是否要在通知中使用新的可用信息项的基础(例如，仅当新的可用信息项的总的相关性分数大于预定阈值时)。可以以各种不同的形式，在各种不同的时间，使用各种不同的因子等发送通知。相关性引擎130还可以报告任何新的可用信息项并且包括总的相关性分数以指示新的可用信息项与临床医生的用户简档有关的程度。

上述示例性实施例涉及临床医生和为临床医生识别医学信息的医学领域。但是，使用与医学有关的实施方式仅是示例性的。本领域技术人员将理解，可以相应地修改示例性实施例以与任何用户简档和基于用户简档的任何文档检索系统一起使用。

示例性实施例提供了确定与临床医生相关的信息的设备、系统和方法。示例性实施例提供简档机制，其中，通过多个关键词来确定临床医生的用户简档。示例性实施例提供了一种信息机制，其中，识别新的可用信息并且确定与新的可用信息相关联的内容词。示例性实施例提供了一种匹配机制，其中，为临床医生的用户简档确定新的可用信息项的相关性，使得相关的新的可用信息项被通知给临床医生。

本领域技术人员将理解，上述示例性实施例可以以任何合适的软件或硬件配置或其组合来实施。用于实施示例性实施例的示例性硬件平台可以包括例如具有兼容操作系统的基于Intel x86平台、Windows平台、Mac平台和MAC OS，具有诸如iOS、Android的操作系统的移动设备等。在另外的范例中，上述方法的示例性实施例可以被实施为包含被存储在计算机可读存储介质上的代码行的计算机程序产品，该计算机可读存储介质可以在处理器或微处理器上执行。该存储介质可以是例如本地数据存储库或远程数据存储库，其能兼容或被格式化以与使用任何存储操作的上述操作系统一起使用。

对于本领域技术人员而言明显的是，在不脱离本公开内容的精神或范围的情况下，可以在本公开内容中进行各种修改。因此，本公开内容旨在覆盖对本公开内容的修改和变化，只要它们落入权利要求及其等价方案的范围内。

Claims

1.一种方法，包括：

在相关性服务器处进行以下操作：

识别临床医生的用户简档中的至少一个关键词；

识别新的信息项中的至少一个内容词；

基于所述至少一个关键词和所述至少一个内容词来确定所述新的信息项与所述临床医生之间的相关性分数；并且

当所述相关性分数高于预定阈值时，为所述临床医生生成指示所述新的信息项的通知。

2.根据权利要求1所述的方法，还包括：

接收临床医生信息；

确定所述临床医生信息中的所述至少一个关键词；并且

通过包括所述至少一个关键词来生成所述用户简档。

3.根据权利要求2所述的方法，其中，所述临床医生信息基于以下中的至少一个：简历、可用的专业知识简档、调查结果，以及在线内容。

4.根据权利要求1所述的方法，还包括：

针对所述新的信息项监视信息源；并且

确定所述新的信息项中的至少一个第一内容词，所述至少一个内容词被包括在所述至少一个第一内容词中。

5.根据权利要求4所述的方法，其中，所述信息源基于以下中的至少一个：社交媒体数据、博客帖子、在线新闻媒体，以及电子媒体记录(EMR)报告。

6.根据权利要求4所述的方法，其中，所述至少一个第一内容词是通过去除其中的杂乱内容而被细化的。

7.根据权利要求1所述的方法，其中，所述相关性分数包括文本索引分数和语义相似性分数。

8.根据权利要求7所述的方法，其中，所述文本索引分数基于词频-逆向文档频率(RF-IDF)内容匹配操作，并且其中，所述语义相似性分数基于有关的词的语义网络和基于语料库的统计结果。

9.根据权利要求7所述的方法，其中，所述文本索引分数被应用以第一加权因子，并且所述语义相似性分数被应用以第二加权因子。

10.根据权利要求1所述的方法，还包括：

基于以下中的至少一个将所述通知发送给所述临床医生：预定时间段内的通知的总数、一天中的时间，以及收集偏好。

11.一种相关性服务器，包括：

收发器，其经由通信网络进行通信，所述收发器被配置为接收临床医生信息和新的信息项；

存储器，其存储可执行程序；以及

处理器，其执行所述可执行程序，所述可执行程序使得所述处理器执行包括以下的操作：

识别临床医生的用户简档中的至少一个关键词，

识别新的信息项中的至少一个内容词，

基于所述至少一个关键词和所述至少一个内容词来确定所述新的信息项与所述临床医生之间的相关性分数，并且

12.根据权利要求11所述的相关性服务器，其中，所述操作还包括：确定所述临床医生信息中的所述至少一个关键词，并且通过包括所述至少一个关键词来生成所述用户简档。

13.根据权利要求12所述的相关性服务器，其中，所述临床医生信息基于以下中的至少一个：简历、可用的专业知识简档、调查结果，以及在线内容。

14.根据权利要求11所述的相关性服务器，其中，所述操作还包括：针对所述新的信息项监视信息源，并且确定所述新的信息项中的至少一个第一内容词，所述至少一个内容词被包括在所述至少一个第一内容词中。

15.根据权利要求14所述的相关性服务器，其中，所述信息源基于以下中的至少一个：社交媒体数据、博客帖子、在线新闻媒体，以及电子媒体记录(EMR)报告。

16.根据权利要求14所述的相关性服务器，其中，所述至少一个第一内容词是通过去除其中的杂乱内容而被细化的。

17.根据权利要求11所述的相关性服务器，其中，所述相关性分数包括文本索引分数和语义相似性分数。

18.根据权利要求17所述的相关性服务器，其中，所述文本索引分数基于词频-逆向文档频率(RF-IDF)内容匹配操作，并且其中，所述语义相似性分数基于有关的词的语义网络和基于语料库的统计结果。

19.根据权利要求17所述的相关性服务器，其中，所述文本索引分数被应用以第一加权因子，并且所述语义相似性分数被应用以第二加权因子。

20.一种方法，包括：

在相关性服务器处进行以下操作：

接收与临床医生相关联的临床医生信息；

分析所述临床医生信息以识别至少一个关键词，从而生成针对所述临床医生的用户简档；

针对新的信息项监视信息源；

当检测到所述新的信息项时，分析所述新的信息项以识别所述新的信息项中的至少一个内容词；

基于所述相关性分数为所述临床医生生成指示所述新的信息项和所述新的信息项的相关性因子的通知。