CN110612522B - 实体模型的建立 - Google Patents
实体模型的建立 Download PDFInfo
- Publication number
- CN110612522B CN110612522B CN201780090530.1A CN201780090530A CN110612522B CN 110612522 B CN110612522 B CN 110612522B CN 201780090530 A CN201780090530 A CN 201780090530A CN 110612522 B CN110612522 B CN 110612522B
- Authority
- CN
- China
- Prior art keywords
- natural language
- imtm
- medical
- medical event
- language query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/67—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/10—Numerical modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
所公开的方面涉及使用无限混合主题建模(IMTM)技术的实体模型建立。可以检测对应于事件集的事件数据集。使用所述IMTM技术,可以分析对应于所述事件集的所述事件数据集。基于使用所述IMTM技术分析所述事件数据集,可以确定用于所述事件集的实体模型集。基于所述事件集的所述实体模型集,可以建立所述事件集的所述实体模型集的子集。
Description
背景
本公开一般地涉及计算机系统,并且更具体地,涉及使用无限混合主题建模(IMTM)技术的命名实体识别(NER)和实体关系检测(ERD)模型建立。可能希望尽可能有效地执行数据管理。随着需要管理的数据的增加,使用IMTM技术建立NER和ERD的需求也可能增加。更具体地,NER和ERD系统可能具有如本文所述的各种挑战。
背景技术
自然语言处理对于处理电子健康记录(EHR)是有用的。然而,关系检测任务中的不良性能,例如共参考(与同一实体/事件有关的语言表达)可能影响EHR处理的质量。因此,需要推进EHR的关系检测。许多临床共指消解系统基于监督机器学习或基于规则的方法。对手动注释的语料库的需求妨碍了大规模使用这种系统。
认知计算可被用于促进动态临床决策支持。临床决策支持、队列识别或患者风险预测和分析可能存在多重挑战。特别地,当前临床/医学相同的NER和ERD系统具有可以解决的问题。监督模型,例如成对分类,都强烈依赖于带注释的语料库,其包括较少的可移植性并且可能包括难以捕获可能导致不知情决策的全局信息。基于规则的确定性系统,如多通道筛(the multi-pass sieve),需要精心设计的特征或规则生成。无监督模型,例如纯贝叶斯框架包括随机性,其降低了结果的一致性并且主要依赖于共现(co-occurrences)。
摘要
根据一个方面,提供了一种用于使用无限混合主题建模(IMTM)技术建立实体模型的计算机实现的方法,该方法包括:检测对应于事件集的事件数据集;使用所述IMTM技术分析对应于所述事件集的所述事件数据集;基于使用所述IMTM技术分析所述事件数据集,确定用于所述事件集的实体模型集;并且基于所述事件集的所述实体模型集建立所述事件集的所述实体模型集的子集。
根据另一个方面,提供了一种使用IMTM技术用于实体模型建立的系统,该系统包括:具有一组计算机可读的计算机指令的存储器,以及用于执行所述一组计算机可读指令的处理器,所述一组计算机可读指令包括:检测对应于事件集的事件数据集;使用IMTM技术分析对应于所述事件集的事件数据集;基于使用IMTM技术分析所述事件数据集,确定用于所述事件集的实体模型集;并且基于所述事件集的所述实体模型集建立所述事件集的所述实体模型集的子集。
根据另一个方面,提供了一种使用IMTM技术用于建立实体模型的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有体现在其上的程序指令,所述计算机可读存储介质不是临时性信号本身,所述程序指令可由处理器执行以使所述处理器执行包括以下的方法:检测对应于事件集的事件数据集;使用IMTM技术分析对应于所述事件集的所述事件数据集;基于使用IMTM技术分析所述事件数据集,确定用于所述事件集的实体模型集;并且基于所述事件集的所述实体模型集建立所述事件集的所述实体模型集的子集。
本公开的实施例涉及使用带有神经网络的无限混合主题建模(IMTM)技术的自由文本中的NER和ERD。所述IMTM技术可以构建医疗事件中的实体链和神经实体对精炼器(NEPR)技术以提高性能。在某些实施例中,所述实体链可以包括相同的实体链。特征可以考虑每个文档中的实体数据的不确定性。IMTM技术在生成新实体方面的动态性可能对实体数量的预估需求产生积极影响。在某些实施例中,可以构建由NER和ERD促成的可追踪纵向电子健康记录。与半监督特征相关的实施方案可能对于针对训练数据的依赖程度具有积极影响。
公开的实施例涉及使用无限混合主题建模(IMTM)技术的实体模型建立。可以检测对应于事件集的事件数据集。使用所述IMTM技术,可以分析对应于所述事件集的所述事件数据集。基于使用IMTM技术分析事件数据集,可以确定用于所述事件集的实体模型集。基于所述事件集的实体模型集,可以建立所述事件集的所述实体模型集的子集。总之,本公开的实施例可以具有性能或效率益处。实施例可以节省诸如带宽、磁盘、处理或存储器之类的资源。
在实施方案中,其对应于所述事件集的事件数据的集合是使用IMTM技术摄取。可以使用IMTM技术处理所述事件数据集中的某组提及元素。这样,所述某组提及元素的相应提及元素可以与一个或多个不同的实体元素相关联。在各种实施例中,可以使用相似性度量并且基于使用IMTM技术分析事件数据集来聚类对应于所述事件集的事件数据集。在某些实施例中,可以导出一组IMTM参数以供IMTM技术使用关于所述事件数据集的吉布斯采样(Gibbs sampling)技术来使用。
在实施方案中,该事件集的实体模型集的可使用神经实体对精炼(NEPR)技术进行分析。基于使用NEPR技术分析实体模型集,可以确定所述事件集的实体模型集的子集。在各种实施例中,可以使用自然语言处理技术来提取一组特征。该组特征既可以由所述实体模型集指示,也可以从所述事件数据集中导出。将所述IMTM技术与所述NEPR技术结合使用可以提供各种性能或效率优势。
上述发明内容并非意图描述每个图示实施例或本发明的每种实施方式。
附图说明
包含在本申请的附图被并入并且作为本说明书的一部分。它们示出了本公开的实施例,并且与描述一起用于解释本公开的原理。附图仅是对某些实施例的说明,并不限制本公开。
图1是根据实施例的示例计算环境的图解说明。
图2示出根据实施例的用于问答系统的高级逻辑架构的系统图。
图3示出根据实施例的用于生成针对一个或多个输入问题的答案的问答系统的框图。
图4示出根据实施例的使用无限混合主题建模(IMTM)技术建立实体模型的方法的流程图。
图5示出根据实施例的使用IMTM技术建立实体模型的方法的流程图。
图6示出根据实施例的使用IMTM技术建立实体模型的方法的流程图。
图7示出根据实施例的使用IMTM技术建立实体模型的方法的流程图。
图8示出根据实施例的使用IMTM技术建立实体模型的示例。
图9示出根据实施例的使用IMTM技术建立实体模型的示例。
图10示出根据实施例的使用IMTM技术建立实体模型的示例。
图11示出根据实施例的使用IMTM技术建立实体模型的示例。
虽然本发明可修改为各种修订和替代形式,但其细节已通过举例在附图中示出并且将详细进行描述。然而,应该理解,以上附图的意图不是将本发明限制于所描述的特定实施例。相反,其目的是涵盖落入本发明的精神和范围内的所有修改、等同物和替代物。
详细说明
本公开的实施例涉及使用具有神经网络的无限混合主题建模(IMTM)技术的自由文本中的NER和ERD。IMTM技术可以在医疗事件(例如,以无监督方式)和神经实体对精简器(NEPR)技术之间构建实体链以改善性能(例如,以监督方式)。在某些实施例中,所述实体链可以包括相同的实体链。特征可以考虑每个文档中的实体数据(例如数字)的不确定性。IMTM技术在生成新实体中的动态性可能对实体数量的预估计的需要具有积极影响(例如,减少对实体数量的这种预估计的需求/需求)。在某些实施例中,可以构建由NER和ERD促进的可追踪纵向电子健康记录(例如,相同的NER和ERD)。与半监督特征相关的实施例可以对关于训练数据的依赖性水平具有积极影响(例如,减少或在某些情况下消除这种依赖性)。将IMTM技术与NEPR技术结合使用可以提供各种性能或效率优势。
本文中描述的特征可涉及在医疗或卫生保健环境中的认知计算,以促进动态临床决策支持。实体可以指示对象或对象集(例如,在现实世界中)。对实体的文字引用可称为提及。提及可包括名词、代词、短语、语言短语等,其可包括在医学/临床说明中。相同的NER和ERD可以包括聚类相同提及的过程,发现提到涉及实体链的所述相同实体和相同提及(例如,自然语言处理中的共同参照解决)。主题建模可以包括发现文档集合中发生的抽象主题的统计过程。它可以用作文本挖掘工具,用于发现文本体中隐藏的语义结构。在某些实施例中,部件可以在云环境(例如,医疗云环境、认知计算云环境)中实现。本文描述的实施方案可以促进医学信息学研究或临床实践。为了说明,所公开的实施例可以解决临床决策支持、群组识别或患者风险预测和分析中的挑战。
NER和ERD系统可具有各种挑战。特别地,当前临床/医学相同的NER和ERD系统具有可以解决的问题。监督模型,例如成对分类,都强烈依赖于带注释的语料库,其包括较少的可移植性并且可能包括难以捕获可能导致不知情决策的全局信息。基于规则的确定性系统,如多通道筛,需要精心设计的特征或规则生成。无监督模型,如纯贝叶斯框架,包括随机性,降低了结果的一致性,并且主要依赖于共现。所公开的实施例使用半监督技术来解决和解决这些挑战,利用结构化临床记录和非结构化临床记录,能够以全局方式操作,具有灵活的特征提取,使用贝叶斯技术的集成,利用神经实体对精炼,具有可移植性,并可能产生更一致的结果。
本公开的实施例涉及一种系统、方法和计算机程序产品的产品实体模型的建立使用IMTM技术。可以检测对应于事件集的事件数据集。使用IMTM技术,可以分析对应于所述事件集的事件数据集。基于使用IMTM技术分析事件数据集,可以确定用于所述事件集的实体模型集。基于所述事件集的实体模型集,可以建立所述事件集的所述实体模型集集的子集。总之,本公开的实施例可以有性能或效率方面的好处。实施方案这里描述的可以节省诸如带宽、磁盘、处理或存储器之类的资源。
在实施方案中,其对应于所述事件集的事件数据的集合是使用IMTM技术摄取。可以使用IMTM技术处理所述事件数据集中的某组提及元素。这样,所述某组提及元素的相应提及元素可以与一个或多个不同的实体元素相关联。在各种实施例中,可以使用相似性度量并且基于使用IMTM技术分析事件数据集来聚类对应于所述事件集的事件数据集。在某些实施例中,可以导出一组IMTM参数以供IMTM技术使用关于所述事件数据集的吉布斯采样技术来使用。
在实施方案中,该针对所述事件集的所述实体模型集可使用神经实体对精炼(NEPR)技术进行分析。基于使用所述NEPR技术分析所述实体模型集,可以确定所述事件集的所述实体模型集的子集。在各种实施例中,可以使用自然语言处理技术来提取一组特征。该组特征既可以由所述实体模型集指示,也可以从所述事件数据集中导出。将IMTM技术与NEPR技术结合使用可以提供各种性能或效率优势。
现在转向附图,图1是与本公开的实施例一致的示例性计算环境的示意图。在某些实施例中,环境100可以包括一个或多个远程设备102、112和一个或多个主机设备122。远程设备102、112和主机设备122可以彼此远离并且通过其中主机的网络150进行通信。设备122包括中央集线器,远程设备102、112可以通过该中央集线器建立通信连接。或者,主机设备和远程设备可以以任何其他合适的关系(例如,以对等或其他关系)配置。
在某些实施例中,网络100可以由任何数量的任何合适的通信媒体(例如,广域网(WAN)、局域网(LAN)、因特网、内联网等)实现。或者,远程设备102、112和主机设备122可以彼此是本地的,并且经由任何适当的本地通信介质(例如,局域网(LAN)、硬连线、无线链路、内联网等)进行通信。在某些实施例中,网络100可以在云计算环境内实现,或者使用一个或多个云计算服务来实现。与各种实施例一致,云计算环境可以包括提供一个或多个云计算服务的基于网络的分布式数据处理系统。在某些实施例中,云计算环境可包括许多计算机,数百或数千计算机布置在一个或多个数据中心内并且被配置为通过网络共享资源。
在某些实施例中,主机设备122可以包括一个问答系统130(在本文中也简称为一个QA系统)具有搜索应用程序134和一个应答模块132。在某些实施例中,该搜索应用程序可以通过传统的或其他搜索引擎实现,并且可以分布在多个计算机系统上。该搜索应用程序134可以被配置为在一个或多个数据库或其他计算机系统中搜索与用户在远程设备102、112处输入的问题相关的内容。
在某些实施方式中,远程设备102、112使用户能够提交问题(例如,搜索请求或其他查询)到主机设备122检索搜索结果。例如,远程设备102、112可以包括查询模块120(例如,以web浏览器或任何其他合适的软件模块的形式)并呈现图形用户(例如,GUI等)或其他接口(例如,命令行提示,菜单屏幕等)以请求来自用户的查询以提交给一个或多个主机设备122,并进一步显示从主机设备122获得的与这些查询有关的答案/结果。
在各种实施例中一致的,主机设备122和远程设备102、112可以是优选地配备有显示器或监视器的计算机系统。在某些实施例中,计算机系统可包括至少一个处理器106、116、126,存储器108、118、128和/或内部或外部网络接口或通信设备104、114、124(例如,调制解调器、网卡等),可选的输入设备(例如,键盘,鼠标或其他输入设备),以及任何可商用的和定制的软件(例如,浏览器软件、通信软件、服务器软件、自然语言处理软件、搜索引擎和/或网络爬行软件、用于基于预定标准过滤内容的过滤器模块等)。在某些实施例中,计算机系统可以包括服务器、台式机、膝上型计算机和手持设备。另外,答案模块132可以包括一个或多个模块或单元以执行下面描述的本公开实施例的各种功能(例如,接收输入问题、评估输入问题的质量、分配一组质量值并生成图标),并且可以通过任何数量的软件和/或硬件模块或单元的任意组合来实现。
图2是描绘与本公开的实施例一致的用于问答系统(在此也称为QA系统)的高级逻辑架构200的系统图。图2的一部分涉及用于QA系统的组件。在某些实施例中,问题分析组件204可以从远程设备202接收自然语言问题,并且可以分析问题以最低限度地产生预期答案的语义类型。搜索组件206可以从问题分析组件204的输出中制定查询,并且可以查询各种资源,例如因特网或一个或多个知识资源,例如数据库、语料库208,以检索文、段落、网页、数据库元组等,这与回答问题有关。例如,如图2所示,在某些实施例中,搜索组件206可以查询主机设备225上的信息语料库208。候选答案生成组件210然后可以从搜索结果中提取对该问题的潜在(候选)答案,然后可以对该问题进行评分。并且由答案选择组件212排序,其可以产生具有相关置信度量值的最终排序的答案列表。
用于上述QA系统的示例性高级逻辑架构的各种组件可用于实现本公开的实施例的各种特征。例如,在某些实施例中,问题分析组件204可以用于处理可以提供相关图像的自然语言问题。此外,在某些实施例中,搜索组件206可以用于针对与QA系统的输入问题的答案相关的一组图像执行信息语料库208的搜索。所述候选生成组件210可以用于基于所述搜索组件206的结果来标识一组候选图像。此外,在某些实施例中,所述答案选择组件212可以用于确定和选择要在显示区域中提供的候选图像集的子集。在某些实施例中,候选图像的子集的确定可以基于该组图像的置信度值和指定的显示规范。
图3示出与本公开的各种实施例一致的用于生成对一个或多个输入问题的答案的问答系统(在本文中也称为QA系统)的框图。图3的一部分涉及问题回答系统312的示例性系统架构300,以产生对查询的答案(例如,输入问题)。在某些实施例中,一个或多个用户可以使用远程设备(诸如图1的远程设备102,112)向QA系统312发送对信息的请求。QA系统312可以执行用于响应由一个或多个客户端应用程序308发送的请求的方法和技术。在某些实施例中,客户端应用程序308可以涉及一个或多个实体,其可操作以生成经由网络315分派给QA系统312的事件。
一个问题(在本文中作为查询类似简称)可以是形成用于数据,信息或知识搜索项或请求一个或多个单词。可以以一个或多个关键字的形式表达问题。问题可能包括各种选择标准和搜索字词。问题可能由复杂的语言特征组成,而不仅仅是关键字。但是,也可以使用基于关键字的答案进行搜。在某些实施例中,启用对用户提出的问题使用不受限制的语法。限制语法的使用为用户提供了各种替代表达式,以更好地说明他们的需求。
与各种实施例一致,客户端应用程序308可以包括一个或多个组件,诸如搜索应用302和移动客户端310。客户端应用程序308可以在各种设备上的操作。这些设备包括但不限于移动和手持设备,例如笔记本电脑、移动电话、个人或企业数字助理等;访问由QA系统312提供的服务和功能的个人计算机、服务器或其他计算机系统。例如,移动客户端310可以是安装在移动设备或其他手持设备上的应用程序。在某些实施例中,移动客户端310可以向QA系统312分派查询请求。
与各种实施例一致,搜索应用302可以向QA系统312分派对信息的请求。在某些实施例中,搜索应用302可以是QA系统312的客户端应用。在某些实施例中,搜索应用302可以向QA系统312发送对答案的请求。搜索应用程序302可以安装在个人计算机、服务器或其他计算机系统上。在某些实施例中,搜索应用程序302可以包括搜索图形用户界面(GUI)304和会话管理器306.用户可以在搜索GUI304中输入问题。在某些实施例中,搜索GUI304可以是搜索框或其他GUI组件,其内容表示要提交给QA系统312的问题。用户可以通过会话管理器306向QA系统312认证。在某些实施例中,会话管理器306跟踪与QA系统312的交互会话之间的用户活动。会话管理器306可以跟踪在用户的会话的生命周期内提交了什么问题。例如,会话管理器306可以保留用户在会话期间提出的一系列问题。在某些实施例中,还可以保留QA系统312响应于在整个用户会话过程中提出的问题而产生的答案。由会话管理器306管理的会话的信息可以在计算机系统和设备之间共享。会话管理器306可以保留用户在会话期间提出的一系列问题。在某些实施例中,还可以保留QA系统312响应于在整个用户会话过程中提出的问题而产生的答案。由会话管理器306管理的会话的信息可以在计算机系统和设备之间共享。会话管理器306可以保留用户在会话期间提出的一系列问题。在某些实施例中,还可以保留QA系统312响应于在整个用户会话过程中提出的问题而产生的答案。由会话管理器306管理的会话的信息可以在计算机系统和设备之间共享。
在某些实施例中,客户端应用程序308和QA系统312可以通过网络315通信地耦合,例如因特网、内联网或其他公共或私人计算机网络。在某些实施例中,QA系统312和客户端应用程序308可以通过使用超文本传输协议(HTTP)或代表性状态转移(REST)调用进行通信。在某些实施例中,QA系统312可以驻留在服务器节点上。客户端应用程序308可以与QA系统312建立服务器-客户端通信,反之亦然。在某些实施例中,网络315可以在云计算环境内实现,或者使用一个或多个云计算服务来实现。与各种实施例一致,云计算环境可以包括提供一个或多个云计算服务的基于网络的分布式数据处理系统。
与各种实施例一致,QA系统312可以响应客户端应用程序308发送的信息请求,例如用户提出的问题。QA系统312可以生成对所接收问题的答案。在某些实施例中,QA系统312可以包括问题分析器314、数据源324和答案生成器328。问题分析器314可以是分析所接收的问题的计算机模块。在某些实施例中,问题分析器314可以执行用于在语法上和语义上分析问题的各种方法和技术。在某些实施例中,问题分析器314可以解析所接收的问题。问题分析器314可以包括各种模块以执行对所接收问题的分析。例如,质疑分析器314的计算机模块可以包括但不限于标记生成器316,
与各种实施例一致,标记生成器316可以是执行词法分析的计算机模块。标记生成器316可以将字符序列转换为标记序列。标记可以是由用户键入的字符串,并且被分类为有意义的符号。此外,在某些实施例中,标记生成器316可以识别输入问题中的单词边界,并将问题或任何文本分解成其组成部分,例如单词、多字标记、数字和标点符号。在某些实施例中,标记生成器316可以接收字符串,识别字符串中的词位,并将它们分类为标记。
与各种实施例一致,POS(词性)标记器318可以是标记文本中的单词以对应于特定词性的计算机模块。POS标记器318可以用自然语言读取问题或其他文本,并为每个单词或其他标记分配词性。POS标记器318可以基于单词的定义和单词的上下文来确定单词对应的词性。单词的上下文可以基于其与短语、句子、问题或段落中的相邻和相关单词的关系。在某些实施例中,单词的上下文可以取决于一个或多个先前提出的问题。可以分配给单词的词性的示例包括但不限于名词、动词、形容词、副词、疑问等。POS标记器318可以分配的词性类别的其他部分的示例包括但不限于比较级或最高级副词、疑问副词、连词、肯定词、否定词、所有格标记、介词、疑问代词等。在某些实施例中,POS标记器318可以用词性类别标记或以其他方式注释问题的标记。在某些实施例中,POS标记器318可以标记要由QA系统312解析的问题的标记或单词。
与各种实施例一致,语义关系识别320可以是计算机模块,能够识别由用户提出的问题识别实体的语义关系。在某些实施例中,语义关系标识320可以确定实体之间的功能依赖性,与成员相关联的维度以及其他语义关系。
与各种实施例一致,句法关系识别322可以是计算机模块,其可以标识由用户向QA系统312提出的标记组成的问题中的句法关系。句法关系识别322可确定句子的语法结构,例如,哪些单词组被关联为“短语”,哪个单词是动词的主语或宾语。在某些实施例中,句法关系标识322可以符合形式语法。
在某些实施方案中,问题分析器314可以是计算机模块,其可以解析接收到的查询而生成所述查询的相应的数据结构。例如,响应于在QA系统312处接收的问题,问题分析器314可以将解析的问题输出为数据结构。在某些实施例中,解析的问题可以以解析树或其他图形结构的形式表示。为了生成解析的问题,问题分析器130可以触发计算机模块132-144。问题分析器130可以单独地或组合地使用由计算机模块316-322提供的功能。另外,在某些实施例中,问题分析器130可以将外部计算机系统用于作为问题解析过程的一部分的专用任务。
与各种实施例一致,QA系统312可以使用问题分析器314的输出来执行一个或多个数据源324的搜索以检索信息以回答用户提出的问题。在某些实施例中,数据源324可以包括数据仓库、信息语料库、数据模型和文档存储库。在某些实施例中,数据源324可以是信息语料库326.信息语料库326可以实现数据存储和检索。在某些实施例中,信息语料库326可以是存储标准化、一致性、清洁和集成的数据形式的存储机制。数据可以来自各种操作系统。存储在信息语料库326中的数据可以以专门解决报告和分析要求的方式构造。在一个实施例中,信息语料库可以是关系数据库(例如,符合本体)。在一些示例实施例中,数据源324可以包括一个或多个文档存储库。
在某些实施方案中,答案生成器328可以是生成回答所提出的问题的计算机模块。答案生成器328生成的答案的示例可以包括但不限于自然语言句子形式的答案、报告、图表或其他分析表示、原始数据、网页等。
与各种实施例一致,回答生成一致328可以包括查询处理器330、可视化处理器332和反馈处理器334。当在匹配被解析的问题的数据源324中的信息被定位,与该模式相关联的技术的查询可以通过执行查询处理器330.基于由查询处理器330执行的技术查询检索的数据,可视化处理器332可以呈现所检索数据的可视化,其中可视化表示答案。在某些实施例中,可视化处理器332可呈现各种分析以表示答案,包括但不限于图像、图表、表格、仪表板、地图等。在某些实施例中,可视化处理器332可以通过可理解的形式向用户呈现答案。
在某些实施方案中,反馈处理器334可以是用来处理来自用户的对应答发生器328产生的答案反馈的计算机模块。在某些实施方案中,用户可接合与QA系统312的对话,以评估所接收的答案的相关性。答案生成器328可以产生与用户提交的问题相对应的答案列表。用户可以根据其与问题的相关性对每个答案进行排名。在某些实施例中,用户对所生成的答案的反馈可以用于将来的问答环节。
上述示例性问答系统的各种组件可用于实现本公开的各种实施例。例如,客户端应用程序308可用于接收具有一组查询属性的输入问题。在某些实施例中,问题分析器314可以用于通过将该组查询属性与一组评估标准进行比较来评估输入问题的质量。此外,在某些实施例中,问答系统312可以用于执行信息语料库326的搜索,以获得可以提供对输入问题的答案的数据。可以使用答案生成器328将一组质量值分配给该组查询属性,以及使用指定的质量值集和查询属性集来生成指示输入问题质量的直观表示的图标。此外,在某些实施例中,可视化处理器332可用于在指定的显示区域中呈现图标(例如,数字面部图标)。
图4示出使用IMTM技术建立实体模型的方法400的流程图。零件可以是半监督和高度便携的。特征可能依赖于低于阈值依赖性的核心链接关系的手动注释(例如,有限的依赖性)。类似地,低于阈值的知识可能是必要的(例如,需要有限的知识)。元素可以集成到云计算环境中。在临床记录中构建的共同链可以促进健壮的临床决策支持系统的构建。因此,可能导致对群组识别、患者风险分析以及各种预测或预测的积极影响。方法400可以在块401处开始。
在块420处,事件数据的集合可以被检测到。所述事件数据集可以对应于事件集。通常,检测可以包括感测、发现、识别、解析或以其他方式识别所述事件数据集。所述事件集可以包括状态、条件、存在模式、环境等。例如,在医学背景中,所述事件集可包括身体不适、疾病、怀孕、呕吐、恶心、胃肠症状、缓解期癌症、骨折、肿瘤生长等。所述事件数据集可以包括表示事件的标识符。例如,怀孕一词可能表示怀孕的人。同样,“期待”一词也可能表明该人怀孕了。102度体温等数据可能表明个体患有流感。因此,所述事件数据集可以是结构化或非结构化格式。这样,可以在临床笔记中检测所述事件数据集,该临床笔记可以在自然语言计算机文本、手写文本、关系数据库或与其一致的各种其他格式中找到。
在块440处,其对应于所述事件集的事件数据的集合可以被分析。可以使用IMTM技术执行分析。例如,分析可以包括提取(例如,创建推导),检查(例如,执行检查),扫描(例如,检查样本),评估(例如,生成评估),解剖(例如,仔细检查属性),解析(例如,确定观察/结论/答案),解析(例如,解密构造),查询(例如,询问问题),搜索(例如,探索原因/理由/动机),比较(例如,关联评估),分类(例如,指定指定),或分类(例如,通过特征组织)。数据分析可以包括检查、清理、转换或建模数据以发现有用信息,建议结论或支持决策的过程。数据分析可以从数据集中提取信息/模式,并将其转换/转换为可理解的结构(例如,可以提供/提供的数据报告)以供进一步使用。例如,IMTM技术可以解决多个提及之间的核心(coreferent)关系。为了进行说明,两个提及之间的相似性度量可以用于评估两个提及是核心的可能性。所述相似性得分可用于确定是否存在给定提及的先行词。
在块460,对于所述事件集的实体模型集可以被确定。可以基于使用IMTM技术分析所述事件数据集来执行该确定。通常,确定可以包括制定、解析、计算、计算、识别或以其他方式确定所述实体模型集。例如,关于文本:“患者出现胃肠道症状,包括恶心、呕吐。她有10天的症状。事实上,自怀孕初期就有这个问题,但自10天以来最严重。”,可提取各种提及,例如:”患者、胃肠道症状、恶心、呕吐、她、症状、那个问题、怀孕初期”。因此,可以衍生出一个或多个实体,例如“患者,胃肠道症状,恶心,呕吐,怀孕初期”。因此,可以认为在形成五个实体模型的短文本中发现了五个实体。已经考虑与本文描述的实施例一致的其他可能性。
在实施方案中,在块461的所述实体模型集可以被配置成包括一组实体链。所述实体模型集的子集可以被配置为包括所述一组实体链的子集。在临床记录中,可能存在大量单独提及患者提及的长链。可以使用诸如自然语言处理之类的机器学习技术基于相似性来链接提及。各种相关项可以在实体链中映射或链接在一起。提及可能是相关的,例如在上下文中具有相似/相同的含义(例如,“她期待”和“她怀孕”、“只是在这种天气下有一点感觉”和“生病但看起来并不严重”)。在某些实施例中,所述实体模型集可以被配置为在块462处包括一组相同的实体链。所述实体模型集的子集可以被配置为包括该组相同实体链的子集。相同的实体链可以具有相同的含义(例如,“运行温度高于正常3度”和“运行温度101.6度”)或者在措辞上相同(例如,“恶心”和“恶心”),或者类似。不同的实体链也是可能的。在某些实施例中,所述实体模型集可以被配置为在块463处指示至少一个共指解析。共指解析可以包括引用文本中的相同项目/实体的表达。已经考虑与本文描述的实施例一致的其他可能性。
在块480,所述实体模型集的事件集的子集可以被建立。通常,建立可以包括创建、实例化、制定、构建、构建、组装、构造、生成或以其他方式生成。可以基于所述事件集的实体模型集来执行建立。在某些实施例中,可以建立用于所述事件集的所有实体模型。在某些实施例中,可以建立少于所述事件集的所有实体模型。在各种实施例中,所述实体模型集的子集可以被配置为包括单个实体模型(例如,产生一个链)。因此,可以基于可以被认为是“最佳”链的加权值来进行选择。已经考虑与本文描述的实施例一致的其他可能性。
方法400结束于块499。方法400的实施例可以提供与实体模型建立的性能或效率的好处。实施例可以包括关于不同关系检测任务的相对更通用的框架。元素可以包括时间关系的分辨率和纵向数据的时间序列链的构造。可以促进它们之间的命名实体检测和关系发现。可以改进语义网络。可以构建相对更准确的知识图。功能可以适应医学信息学中的药物-药物相互作用研究。在某些实施例中,可以进行药物-疾病关系发现。可以建立和组装基因模式发现框架。实施例可以节省诸如带宽、磁盘、处理或存储器之类的资源。
图5是示出使用IMTM技术建立实体模型的方法500的流程图。方法500的部分可以与方法400/600/700的部分类似或相同,并且部分可以互换使用。方法500可在块501开始。在块520,事件数据集可以被检测到。所述事件数据集可以对应于事件集。
在实施方案中,其对应于所述事件集的事件数据的集合可以在块521摄取。通常,摄取可以包括检测、分析、检测、接收、收集、聚集、转化、导入或以其它方式捕获与事件集相对应的事件数据集。可以使用IMTM技术执行摄取。可以处理所述事件数据集的某组提及元素。可以使用IMTM技术来执行处理。某组提及元素的相应提及元素可以与一个或多个不同的实体元素相关联。因此,IMTM技术在给定一定数量的提及的情况下处理不确定数量的实体(例如,给定文档,处理该文档而不计算存在多少核心提及的数量)。在吉布斯采样的帮助下,IMTM技术可以在阈值容差(例如,诸如10%或5%的百分比)或类似数值内生成接近实际临床记录的实体(例如,真实临床记录中的实体)。考虑与本文描述的实施例一致的其他可能性。
在块540处,其对应于所述事件集的事件数据集可以被分析。可以使用IMTM技术执行分析。在某些实施例中,对应于所述事件集的事件数据集可以在块542被聚类。通常,聚类可以包括分组、对齐、组合、排列、配置或以其他方式排序。可以使用相似性度量(例如,如何相似,基于诸如语法、语义等的数据的属性的同质分数)并基于使用IMTM技术分析事件数据集来执行聚类。可以使用各种聚类技术。聚类技术可以包括用于关于所述事件数据集执行统计数据分析的方法或算法。作为示例,聚类技术可以包括连通性模型(例如,分层(hierarchical)聚类)、质心模型(例如,k均值聚类)、分布模型(例如,多元正态分布)、密度模型(例如,基于密度的空间聚类,有序点识别)、子空间模型(例如,共聚类、双聚类(biclustering))等。已经考虑与本文描述的实施例一致的其他可能性。
在实施方案中,一组的IMTM参数可以在块543导出。通常,导出可包括配制、提取、计算、生成或以其它方式识别。可以执行导出以供IMTM技术使用。可以使用关于所述事件数据集的吉布斯采样技术来执行导出。吉布斯采样是马尔可夫链蒙特卡罗模拟,其可以产生用于近似推断的简单算法(例如,在高维模型中)。因此,可以确定参数和参数值(例如,与实体和提及有关)。参数可以包括可以用于定义一个或多个模型(例如实体模型集)的属性、特征或设置。考虑与本文描述的实施例一致的其他可能性。
在块560,对于所述事件集的实体模型集可以被确定。可以基于使用IMTM技术分析事件数据集来执行该确定。在块580,可以建立用于所述事件集的所述实体模型集的子集。可以基于所述事件集的实体模型集来执行该建立。方法500在块599结束。方法500的实施例可以提供与实体模型建立相关的性能或效率益处。实施例可以节省诸如带宽、磁盘、处理或存储器之类的资源。
图6是示出使用IMTM技术建立实体模型的方法600的流程图。方法600的部分可以与方法400/500/700的部分类似或相同,并且部分可以互换使用。方法600可在块601开始。在块620,事件数据的集合可以被检测到。所述事件数据集可以对应于事件集。在块640处,可以分析对应于所述事件集的事件数据集。可以使用IMTM技术执行分析。在块660,可以确定用于所述事件集的实体模型集。可以基于使用IMTM技术分析事件数据集来执行该确定。
在实施方案中,所述实体模型集的所述事件集合可以在块664分析。可使用神经实体对精炼(NEPR)技术来执行所述分析。可以利用NEPR技术来细化由所述IMTM技术生成的实体对。可以确定所述事件集的所述实体模型集的子集。可以基于使用NEPR技术分析所述实体模型集来执行该确定。NEPR技术可以包括特征提取(例如,使用自然语言处理来从电子医疗记录临床自由文本中提取信息)。这样,可以在块665处提取特征集。特征集既可以由所述实体模型集指示,也可以从所述事件数据集中导出。可以使用自然语言处理技术来执行提取。可以考虑这些特征的各种组合。可以针对NEPR技术细化或合并组合以实现阈值水平的准确度、精度等。已经考虑与本文描述的实施例一致的其他可能性。
在实施方案中,所述特征集可以被配置为包括在块667一组背景元素的语境元件可以包括语义或句法特征/部件。周围短语的标点符号可以指示各种单词的含义。被动语句中的单个活动语音句子可以指示相对重要性级别。表情符号及其放置可以指示所述事件数据集的一个或多个组成部分。通常,可以基于相应特征的上下文来分析每个特征。已经考虑与本文描述的实施例一致的其他可能性。
在实施方案中,可以在块668分析所述特征集的组合集。卷积因子集可以被计算。通常,计算可以包括制定、计算、确定、测量、估计或以其他方式确定该卷积因子集。可以关于所述特征集的所述组合集来执行计算。通常,卷积是对产生第三个函数的两个函数的数学运算。第三函数可以表示为原始函数之一的修改版本,给出所述两个函数的逐点乘法的积分作为所述原始函数之一被转换的量的函数。因此,卷积因子可以是影响这种第三函数的性质的属性、特征或参数。卷积可能与互相关或自相关不同。已经考虑与本文描述的实施例一致的其他可能性。
在实施方案中,所述事件集的所述实体模型集的所述子集可以在方块669解析。通常,解析可包括显影、配制、探知、计算、运算、确定、选择或以其它方式确定。可以基于所述卷积因子集来执行该解析。例如,可以过滤各种候选实体模型以仅解析/选择所述实体模型集的一部分(例如,单个实体模型)。可以基于所述卷积因子集发生这种滤波/收窄。已经考虑与本文描述的实施例一致的其他可能性。
在块680,所述事件集的所述实体模型集的子集可以被建立。可以基于所述事件集的所述实体模型集来执行该建立。方法600在块699结束。方法600的实施例可以提供与实体模型建立相关的性能或效率益处。实施例可以节省诸如带宽、磁盘、处理或存储器之类的资源。
图7是示出使用IMTM技术建立实体模型的方法700的流程图。方法700的部分可以与方法400/500/600的部分类似或相同,并且部分可以互换使用。方法700可在块701处开始。
在实施方案中,所述检测、分析、确定、建立以及在块704以动态方式来执行每一个本文描述的其它步骤。本文中所描述的所述步骤可以以动态方式来简化实体执行模型建立。例如,这里描述的检测、分析、确定、建立和其他步骤可以实时、正在进行或即时发生。作为示例,本文描述的一个或多个步骤可以在运行中执行(例如,实时运行IMTM技术和NEPR技术),以简化(例如,促进、提升、增强)实体模型建立。以动态方式执行本文所述步骤的其他方法也是可能的并且已被考虑。
在实施方案中,所述检测、分析、确定、建立以及在块706以自动化的方式来执行每一个本文描述的其他步骤。本文描述的所述步骤以自动化的方式执行而无需用户干预。在某些实施例中,本文描述的检测、分析、确定、建立和其他步骤可以由在本地计算设备的永久性存储设备中维护的内部实体模型建立模块来执行((例如,网络节点、多节点服务器)。在某些实施例中,这里描述的检测、分析、确定、建立和其他步骤可以由远程计算设备或服务器托管的外部实体模型建立模块来执行(例如,可通过订阅访问的服务器、基于使用的或其他服务模型)。以这种方式,可以使用自动计算机器来执行部分实体模型建立而无需手动操作。因此,这里描述的步骤可以以自动方式执行而无需用户干预或手动操作(例如,使用自动计算机器,其完全机器驱动而无需手动刺激)。以自动方式执行本文所述步骤的其他方法也是可能的并且已被考虑。
在块720,事件数据集可以被检测到。所述事件数据集可以对应于事件集。在某些实施例中,可以在块724处检测到所述事件数据集包括结构化数据和非结构化数据。结构化数据可以包括具有实质程度的组织的信息,使得包含在关系数据库中是无缝且容易的。通过简单的查询、搜索引擎算法或其他搜索操作进行搜索。因此,结构化数据可以包括以标题列和行显示的信息(例如,文本文件),其可以由数据挖掘工具(例如,存储在数据库中的字段中的数据)容易地排序和处理。非结构化数据可以包括没有(容易)可识别/可识别的内部结构的信息。因此,非结构化数据可以指代不存在于传统行列数据库中的信息(例如,书籍、期刊、文档、元数据、健康记录、音频、视频、模拟数据、图像、文件和非结构化文本例如电子邮件、网页或文字处理器文档的正文)。因此,非结构化数据可以包括不具有预定义数据模型或者不以预定义方式组织的信息。可以提取用作分析参数集(例如,IMTM/NEPR技术的约束)的特征集。可以使用关于所述事件数据集的自然语言处理技术来执行该提取。该自然语言处理技术可以包括一个或多个基于计算机的算法,其被配置为从自然语言内容导出含义。作为实施例,该自然语言处理技术可以包括被配置用于词性标注、解析、关系提取、情感分析、信息检索、信息提取、形态分割等的算法。已经考虑与本文描述的实施例一致的其他可能性。
在块740处,对应于所述事件集的所述事件数据集可以被分析。可以使用IMTM技术执行分析。在某些实施例中,在块741处所述事件集可以被配置为包括医疗事件集。可以构建电子健康记录数据集。可以基于该医疗事件集的所述实体模型集的子集来构建该电子健康记录数据集。在某些实施例中,所述事件集可以被配置为在块742处包括图像事件集。可以处理图像数据集。可以基于该图像事件集的所述实体模型集的所述子集来执行该处理。
在块760,所述事件集的实体模型集可以被确定。可以基于使用IMTM技术分析该事件数据集来执行该确定。在各种实施例中,可以在块769确定用于所述事件集的所述实体模型集。可以独立于手动共参照注释(manual coreference annotation)(例如,没有这样的注释)来执行该确定。可以建立用于所述事件集的所述实体模型集的所述子集。可以响应于确定独立于手动共参照注释的所述事件集的所述实体模型集来执行该建立。
在块780,所述事件集的所述实体模型集的子集可以被建立。可以基于所述事件集的所述实体模型集来执行该建立。方法700在块799结束。方法700的实施例可以提供与实体模型建立相关的性能或效率的益处。实施例可以节省诸如带宽、磁盘、处理或存储器之类的资源。
图8示出了根据实施例的使用IMTM技术建立实体模型的示例800。实施例800示出了示例性系统管线。可以使用示例性系统管线等以精简方式处理原始临床记录和知识资源。可以从结构化和非结构化笔记中检索和识别提及。可以用语言处理系统提取特征,并且可以将其用作约束。吉布斯采样可以用于参数估计和在具有IMTM的NER和ERD的循环中的推断。可以构造卷积神经网络以细化由IMTM生成的每个实体对,以改善系统的性能。相同的提及可以聚集成一个链并输出到最终的实体链存储库中。与本文描述的实施例一致的各种其他可能性都明确地描述和隐式地被考虑。
图9示出了根据实施例的使用IMTM技术建立实体模型的实施例900。实施例900是用于NER和ERD的IMTM技术的图形说明。在给定一定数量的提及的情况下,IMTM技术可以处理不确定数量的实体。因此,该模型可以被认为是无限模型而不是有限模型。特别地,在给定文档中,IMTM技术可以在不预先知道包括多少核心提及的情况下执行。例如,当与吉布斯采样一起使用时,IMTM技术可以生成接近实际的实体。与本文明确地和隐含地所述的实施例一致的各种其他可能性都已被考虑。
图10示出了根据实施例使用IMTM技术建立实体模型的实施例1000。实施例1000可以通过使用特征提取(例如,利用自然语言处理)开始。在提取所述特征之后,可以在混合特征嵌入层中混合各种组合和排列。所述卷积层可以过滤或合成数据。然后可以关于诸如本地连接性、深度、参数共享等元素来分析数据。因此,可以通过合并将项目分类成一对,并且可以提供预测。与本文明确地和隐含地所述的实施例一致的各种其他可能性都已被考虑。
图11示出了根据实施例使用IMTM技术建立实体模型的实施例1100。NEPR可以进一步细化NER和ERD以响应NER和ERD的发展。NEPR可以使用各种考虑因素来解释数据的各种上下文。例如,IMTM的提及功能可以表明“这个头痛”是e2。因此,NEPR的上下文特征可以根据e2和e5之间的接近程度将其更正为e5。与本文明确地和隐含地所述的实施例一致的各种其他可能性都已被考虑。
总而言之,本公开的实施例涉及使用具有神经网络的IMTM技术的自由文本中的NER和ERD。IMTM技术可以在医疗事件和NEPR技术之间构建实体链以提高性能。在某些实施例中,所述实体链可以包括相同的实体链。特征可以考虑每个文档中的实体数据的不确定性。IMTM技术在生成新实体方面的动态性可能对实体数量的预估需求产生积极影响。在某些实施例中,可以构建由NER和ERD促成的可追踪纵向电子健康记录。与半监督特征相关的实施例可能对基于训练数据的依赖程度具有积极影响。
除了上面描述的实施例,具有更少的操作步骤、多个操作步骤或不同的操作步骤的其他实施例是预期的。而且,一些实施例可以以不同的顺序执行上述操作步骤中的一些或全部。在某些实施例中,可以响应于其他操作步骤来执行操作步骤。根据实施例说明性地列出和描述模块,并且不意味着指示特定模块的必要性或其他潜在模块的排他性(或应用于特定模块的功能/目的)。
在前面,参考了各种实施例。然而,应该理解,本公开不限于具体描述的实施例。相反,所描述的特征和元件的任何组合,无论是否与不同的实施例相关,都被设想为实现和实践本公开。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。此外,尽管本公开的实施例可以实现优于其他可能的解决方案或优于现有技术的优点,但是否通过给定实施例实现特定优点不是对本公开的限制。因此,所描述的方面、特征、实施例和优点仅是示例性的,并且不被认为是所附权利要求的要素或限制,除非在权利要求中明确叙述。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备计算机可读存储介质例如可以是-但不限于-电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备,例如其上存储有指令的打孔卡或凹槽内凸起结构,以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的磁波(例如,通过光纤电缆的光脉冲)或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络,例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言-诸如Java、Smalltalk、C++等,以及过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法,装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机,专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机,可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机,其它可编程数据处理装置,或其它设备上,使得在计算机,其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机,其它可编程数据处理装置,或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
可以通过云计算基础设施向根据最终用户提供根据本公开的实施例。云计算通常是指将可扩展计算资源作为网络上的服务提供。更正式地,云计算可以被定义为提供计算资源与其底层技术架构(例如,服务器、存储、网络)之间的抽象的计算能力,从而能够方便地按需网络访问可配置计算的共享池。可以通过最少的管理工作或服务提供商交互快速配置和发布的资源。因此,云计算允许用户在“云中”访问虚拟计算资源(例如,存储、数据、应用程序甚至完整的虚拟化计算系统),无需考虑用于提供计算资源的基础物理系统(或那些系统的位置)。
典型地,云计算资源提供给用户在付费使用的基础,其中,用户只支付实际使用的计算资源(例如,由用户使用的存储空间的量或者用户实例化的若干虚拟化系统)。用户可以随时从Internet上的任何位置访问驻留在云中的任何资源。在本公开的上下文中,用户可以访问云中可用的应用或相关数据。例如,用于创建流计算应用的节点可以是由云服务提供商托管的虚拟机。这样做允许用户从连接到与云连接的网络(例如,因特网)的任何计算系统访问该信息。
本公开的实施例还可以作为与客户公司、非营利组织、政府实体、内部组织结构等的服务约定的一部分来递送。这些实施例可以包括配置计算机系统以执行和部署实现本文描述的一些或所有方法的软件、硬件和web服务。这些实施例还可以包括分析客户端的操作、响应于分析创建建议、构建实现部分推荐的系统、将系统集成到现有过程和基础设施中、计量系统的使用、向系统的用户分配费用以及计费使用系统。
附图中的流程图和框图显示了根据本发明的多个实施例的系统,方法和计算机程序产品的可能实现的体系架构,功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块,程序段或指令的一部分,所述模块,程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框,以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
这里使用的术语仅用于描述特定实施例的目的,并不旨在限制各种实施例。如这里所使用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。“一组”、“一组”、“一堆”等旨在包括一个或多个。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包括”指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组。在先前对各种实施例的示例性实施例的详细描述中,参考附图(其中相同的数字表示相同的元件),其形成本发明的一部分,并且其中通过图示的方式示出了可以实践各种实施例的特定示例性实施例。足够详细地描述了这些实施例以使得本领域技术人员能够实践实施例,但是可以使用其他实施例,并且可以在不脱离各种实施例的范围的情况下进行逻辑、机械、电气和其他改变。在前面的描述中,阐述了许多具体细节以提供对各种实施例的透彻理解。但是,可以在没有这些具体细节的情况下实践各种实施例。在其他情况下,未详细示出公知的电路,结构和技术,以免混淆实施例。
Claims (19)
1.一种用于使用无限混合主题建模IMTM技术建立实体模型的计算机实现的方法,该方法包括:
通过问答系统的问题分析器经由查询模块从个人电子设备的用户接收自然语言查询,其中所述问题分析器包括:
标记生成器,识别所述自然语言查询的单词边界并将所述自然语言查询的字符序列转换为标记序列,分析单词边界并将所述自然语言查询分解成包括单词、多字标记、数字和标点符号的组成部分,其中,所述标记序列包括所述自然语言查询的字符串,被分类为能够被所述问答系统识别的有意义的符号,
词性标记器,基于所述自然语言查询的组成部分的定义和所述组成部分的上下文来确定所述组成部分所对应的词性,以及
语义关系识别器,确定所述自然语言查询的语义关系和所述自然语言查询的句子的语法结构,其中所述问题分析器以解析树的形式的数据结构提供所述自然语言查询;
通过所述问答系统的答案生成器的查询处理器和可视化处理器,使用所述IMTM技术在所述问答系统中的信息语料库中检测医疗事件数据集,所述医疗事件数据集与对应于所述自然语言查询的医疗事件集对应,其中,
所述查询处理器识别与所述自然语言查询匹配的所述医疗事件数据集,并且所述可视化处理器呈现所述医疗事件数据集的可视化并使用图像、图表、表格、仪表板和地图来呈现分析以呈现答案的可理解的形式;
使用所述IMTM技术分析对应于所述医疗事件集的所述医疗事件数据集,其中,所述IMTM技术在医疗事件之间以无监督方式构建实体链,并以监督方式使用神经实体对精简NEPR技术;
基于使用所述IMTM技术分析所述医疗事件数据集,确定用于所述医疗事件集的实体模型集;
基于卷积因子集,使用所述NEPR技术来分析用于所述医疗事件集的所述实体模型集;
基于用于所述医疗事件集的所述实体模型集,使用所述IMTM技术,基于所述实体模型集的分析为所述医疗事件集建立所述实体模型集的子集,其中,至少一个子集包括单个实体模型,并通过基于包括图像医疗事件的所述医疗事件集的子集的置信度值来选择所述至少一个子集而建立;和
基于所接收的自然语言查询、由所述答案生成器进行的所述医疗事件数据集的检测、所述医疗事件数据集的分析、所述实体模型集的确定、所述实体模型集的分析和所述实体模型集的所述子集的建立,向所述个人电子设备的用户提供自然语言结果。
2.如权利要求1所述的方法,还包括:
配置所述实体模型集以包括实体链集;和
配置所述实体模型集的所述子集以包括所述实体链集的子集。
3.如权利要求1所述的方法,还包括:
配置所述实体模型集以包括相同实体链集;和
配置所述实体模型集的所述子集以包括所述相同实体链集的子集。
4.如权利要求1所述的方法,还包括:
配置所述实体模型集以指示至少一个共指解析。
5.如权利要求1所述的方法,还包括:
使用所述IMTM技术摄取对应于所述医疗事件集的所述医疗事件数据集;和
使用所述IMTM技术处理所述医疗事件数据集的提及元素的特定组,其中所述提及元素的特定组中的一个相应提及元素与一个或多个不同实体元素相关。
6.如权利要求1所述的方法,还包括:
使用相似性度量并基于使用所述IMTM技术分析所述医疗事件数据集来聚类,所述医疗事件数据集对应于所述医疗事件集。
7.如权利要求1所述的方法,还包括:
使用关于所述医疗事件数据集的吉布斯采样技术导出IMTM参数集供所述IMTM技术使用。
8.如权利要求1所述的方法,还包括:
使用自然语言处理技术提取特征集,其中该特征集既由所述实体模型集指示并且从所述医疗事件数据集导出。
9.如权利要求8所述的方法,还包括:
配置所述特征集以包括上下文元素集。
10.如权利要求8所述的方法,还包括:
分析所述特征集的组合集;和
关于所述特征集的组合集,计算卷积因子集。
11.如权利要求10所述的方法,还包括:
基于所述卷积因子集,解析用于所述医疗事件集的所述实体模型集的所述子集。
12.如权利要求1所述的方法,还包括:
基于所述医疗事件集的所述实体模型集的所述子集构建电子健康记录数据集。
13.如权利要求1所述的方法,还包括:
配置所述医疗事件集以包括图像事件集;和
基于用于图像事件集的所述实体模型集的所述子集处理图像数据集。
14.如权利要求1所述的方法,还包括:
检测到所述医疗事件数据集包括结构化数据和非结构化数据;和
使用关于所述医疗事件数据集的自然语言处理技术,提取用作分析参数集的特征集。
15.如权利要求1所述的方法,还包括:
独立于手动共参照注释确定所述医疗事件集的所述实体模型集;和
响应于确定独立于手动共参照注释的所述医疗事件集的所述实体模型集,建立所述医疗事件集的所述实体模型集的所述子集。
16.如权利要求1所述的方法,还包括:
以动态方式执行以下各项以精简实体模型的建立:
所述检测,
所述分析,
所述确定,和
所述建立。
17.如权利要求1所述的方法,还包括:
在没有用户干预的情况下以自动方式执行以下各项:
所述检测,
所述分析,
所述确定,和
所述建立。
18.一种使用IMTM技术建立实体模型的系统,该系统包括:
存储器,具有一组计算机可读计算机指令,以及
处理器,用于执行该组计算机可读指令,该组计算机可读指令包括:
通过问答系统的问题分析器经由查询模块从个人电子设备的用户接收自然语言查询,其中所述问题分析器包括:
标记生成器,识别所述自然语言查询的单词边界并将所述自然语言查询的字符序列转换为标记序列,分析单词边界并将所述自然语言查询分解成包括单词、多字标记、数字和标点符号的组成部分,其中,所述标记序列包括所述自然语言查询的字符串,被分类为能够被所述问答系统识别的有意义的符号,
词性标记器,基于所述自然语言查询的组成部分的定义和所述组成部分的上下文来确定所述组成部分所对应的词性,以及
语义关系识别器,确定所述自然语言查询的语义关系和所述自然语言查询的句子的语法结构,其中所述问题分析器以解析树的形式的数据结构提供所述自然语言查询;
通过所述问答系统的答案生成器的查询处理器和可视化处理器,使用所述IMTM技术在所述问答系统中的信息语料库中检测医疗事件数据集,所述医疗事件数据集与对应于所述自然语言查询的医疗事件集对应,其中,
所述查询处理器识别与所述自然语言查询匹配的所述医疗事件数据集,并且所述可视化处理器呈现所述医疗事件数据集的可视化并使用图像、图表、表格、仪表板和地图来呈现分析以呈现答案的可理解的形式;
使用所述IMTM技术分析对应于所述医疗事件集的所述医疗事件数据集,其中,所述IMTM技术在医疗事件之间以无监督方式构建实体链,并以监督方式使用神经实体对精简NEPR技术;
基于使用所述IMTM技术分析所述医疗事件数据集,确定用于所述医疗事件集的实体模型集;
基于卷积因子集,使用所述NEPR技术来分析用于所述医疗事件集的所述实体模型集;
基于用于所述医疗事件集的所述实体模型集,使用所述IMTM技术,基于所述实体模型集的分析为所述医疗事件集建立所述实体模型集的子集,其中,至少一个子集包括单个实体模型,并通过基于包括图像医疗事件的所述医疗事件集的子集的置信度值来选择所述至少一个子集而建立;和
基于所接收的自然语言查询、由所述答案生成器进行的所述医疗事件数据集的检测、所述医疗事件数据集的分析、所述实体模型集的确定、所述实体模型集的分析和所述实体模型集的所述子集的建立,向所述个人电子设备的用户提供自然语言结果。
19.一种用于使用IMTM技术建立实体模型的计算机可读存储介质,所述计算机可读存储介质具有与其一起实现的程序指令,其中所述计算机可读存储介质本身不是暂时性信号,所述程序指令可由处理器,用于使处理器执行包括以下的方法:
通过问答系统的问题分析器经由查询模块从个人电子设备的用户接收自然语言查询,其中所述问题分析器包括:
标记生成器,识别所述自然语言查询的单词边界并将所述自然语言查询的字符序列转换为标记序列,分析单词边界并将所述自然语言查询分解成包括单词、多字标记、数字和标点符号的组成部分,其中,所述标记序列包括所述自然语言查询的字符串,被分类为能够被所述问答系统识别的有意义的符号,
词性标记器,基于所述自然语言查询的组成部分的定义和所述组成部分的上下文来确定所述组成部分所对应的词性,以及
语义关系识别器,确定所述自然语言查询的语义关系和所述自然语言查询的句子的语法结构,其中所述问题分析器以解析树的形式的数据结构提供所述自然语言查询;
通过所述问答系统的答案生成器的查询处理器和可视化处理器,使用所述IMTM技术在所述问答系统中的信息语料库中检测医疗事件数据集,所述医疗事件数据集与对应于所述自然语言查询的医疗事件集对应,其中,
所述查询处理器识别与所述自然语言查询匹配的所述医疗事件数据集,并且所述可视化处理器呈现所述医疗事件数据集的可视化并使用图像、图表、表格、仪表板和地图来呈现分析以呈现答案的可理解的形式;
使用所述IMTM技术分析对应于所述医疗事件集的所述医疗事件数据集,其中,所述IMTM技术在医疗事件之间以无监督方式构建实体链,并以监督方式使用神经实体对精简NEPR技术;
基于使用所述IMTM技术分析所述医疗事件数据集,确定用于所述医疗事件集的实体模型集;
基于卷积因子集,使用所述NEPR技术来分析用于所述医疗事件集的所述实体模型集;
基于用于所述医疗事件集的所述实体模型集,使用所述IMTM技术,基于所述实体模型集的分析为所述医疗事件集建立所述实体模型集的子集,其中,至少一个子集包括单个实体模型,并通过基于包括图像医疗事件的所述医疗事件集的子集的置信度值来选择所述至少一个子集而建立;和
基于所接收的自然语言查询、由所述答案生成器进行的所述医疗事件数据集的检测、所述医疗事件数据集的分析、所述实体模型集的确定、所述实体模型集的分析和所述实体模型集的所述子集的建立,向所述个人电子设备的用户提供自然语言结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/591,235 | 2017-05-10 | ||
US15/591,235 US11188819B2 (en) | 2017-05-10 | 2017-05-10 | Entity model establishment |
PCT/IB2017/057985 WO2018207013A1 (en) | 2017-05-10 | 2017-12-15 | Entity model establishment |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110612522A CN110612522A (zh) | 2019-12-24 |
CN110612522B true CN110612522B (zh) | 2023-05-23 |
Family
ID=64097312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780090530.1A Active CN110612522B (zh) | 2017-05-10 | 2017-12-15 | 实体模型的建立 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11188819B2 (zh) |
JP (1) | JP7116435B2 (zh) |
CN (1) | CN110612522B (zh) |
DE (1) | DE112017007530T5 (zh) |
GB (1) | GB2576659A (zh) |
WO (1) | WO2018207013A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11188819B2 (en) | 2017-05-10 | 2021-11-30 | International Business Machines Corporation | Entity model establishment |
CN112015859B (zh) * | 2019-05-31 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 文本的知识层次抽取方法及装置、计算机设备及可读介质 |
US11537816B2 (en) * | 2019-07-16 | 2022-12-27 | Ancestry.Com Operations Inc. | Extraction of genealogy data from obituaries |
WO2021012263A1 (en) * | 2019-07-25 | 2021-01-28 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Systems and methods for end-to-end deep reinforcement learning based coreference resolution |
US11483319B2 (en) * | 2020-03-05 | 2022-10-25 | International Business Machines Corporation | Security model |
CN111428035A (zh) * | 2020-03-23 | 2020-07-17 | 北京明略软件系统有限公司 | 实体聚类的方法及装置 |
CN112445889B (zh) * | 2020-11-30 | 2024-08-09 | 杭州海康威视数字技术股份有限公司 | 存储数据、检索数据的方法及相关设备 |
US20220351069A1 (en) * | 2021-04-30 | 2022-11-03 | International Business Machines Corporation | Federated training of machine learning models |
US11501075B1 (en) | 2021-07-01 | 2022-11-15 | Fmr Llc | Systems and methods for data extraction using proximity co-referencing |
US11599728B1 (en) * | 2022-03-07 | 2023-03-07 | Scribd, Inc. | Semantic content clustering based on user interactions |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008574A (zh) * | 2014-06-16 | 2014-08-27 | 浙江大学 | 一种基于无限高斯混合模型的高光图图像解混方法 |
US9582482B1 (en) * | 2014-07-11 | 2017-02-28 | Google Inc. | Providing an annotation linking related entities in onscreen content |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185592B1 (en) | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
US6438543B1 (en) | 1999-06-17 | 2002-08-20 | International Business Machines Corporation | System and method for cross-document coreference |
US8712758B2 (en) | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
US8533223B2 (en) * | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
US20110106807A1 (en) | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
CN102262632B (zh) | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和系统 |
US20150112664A1 (en) | 2010-12-09 | 2015-04-23 | Rage Frameworks, Inc. | System and method for generating a tractable semantic network for a concept |
US8457950B1 (en) | 2012-11-01 | 2013-06-04 | Digital Reasoning Systems, Inc. | System and method for coreference resolution |
CN103268348B (zh) | 2013-05-28 | 2016-08-10 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
US9535902B1 (en) | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
US9477654B2 (en) | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
EP3143526A4 (en) | 2014-05-12 | 2017-10-04 | Diffeo, Inc. | Entity-centric knowledge discovery |
US9311301B1 (en) | 2014-06-27 | 2016-04-12 | Digital Reasoning Systems, Inc. | Systems and methods for large scale global entity resolution |
US9575952B2 (en) * | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US20170329867A1 (en) * | 2016-05-13 | 2017-11-16 | Cognitive Scale, Inc. | Ingesting a Natural Language Query into a Cognitive Graph |
US11188819B2 (en) | 2017-05-10 | 2021-11-30 | International Business Machines Corporation | Entity model establishment |
-
2017
- 2017-05-10 US US15/591,235 patent/US11188819B2/en active Active
- 2017-12-15 WO PCT/IB2017/057985 patent/WO2018207013A1/en active Application Filing
- 2017-12-15 CN CN201780090530.1A patent/CN110612522B/zh active Active
- 2017-12-15 GB GB1916798.0A patent/GB2576659A/en not_active Withdrawn
- 2017-12-15 JP JP2019561140A patent/JP7116435B2/ja active Active
- 2017-12-15 DE DE112017007530.0T patent/DE112017007530T5/de active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008574A (zh) * | 2014-06-16 | 2014-08-27 | 浙江大学 | 一种基于无限高斯混合模型的高光图图像解混方法 |
US9582482B1 (en) * | 2014-07-11 | 2017-02-28 | Google Inc. | Providing an annotation linking related entities in onscreen content |
Non-Patent Citations (5)
Title |
---|
An Infinite Mixture Model for Coreference Resolution in Clinical Notes;Sijia Liu等;《AMIA Joint Summits on Translational Science proceedings》;20161231(第2016期);摘要,Methods,Discussion,Experimental Setup and Results小节,图1,图2,表2 * |
Natural Language Processing (Almost) from Scratch;Ronan Collobert等;《Journal of Machine Learning Research》;20111231(第12期);第1、3、5小节,图2,图5 * |
Question Answering over Freebase with Multi-Column Convolutional Neural Networks;Li Dong等;《Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing》;20150731;第1、4小节,图1 * |
Sijia Liu等.An Infinite Mixture Model for Coreference Resolution in Clinical Notes.《AMIA Joint Summits on Translational Science proceedings》.2016,(第2016期),第428-437页. * |
一种基于狄利克雷过程混合模型的文本聚类算法;高悦;《信息网络安全》;20151130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US11188819B2 (en) | 2021-11-30 |
JP2020520002A (ja) | 2020-07-02 |
GB2576659A (en) | 2020-02-26 |
WO2018207013A1 (en) | 2018-11-15 |
JP7116435B2 (ja) | 2022-08-10 |
CN110612522A (zh) | 2019-12-24 |
GB201916798D0 (en) | 2020-01-01 |
DE112017007530T5 (de) | 2020-01-23 |
US20180330231A1 (en) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110612522B (zh) | 实体模型的建立 | |
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
US10366107B2 (en) | Categorizing questions in a question answering system | |
US10606893B2 (en) | Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US10102254B2 (en) | Confidence ranking of answers based on temporal semantics | |
US9996604B2 (en) | Generating usage report in a question answering system based on question categorization | |
US9633309B2 (en) | Displaying quality of question being asked a question answering system | |
US9483519B2 (en) | Authorship enhanced corpus ingestion for natural language processing | |
US9715531B2 (en) | Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system | |
US20170161619A1 (en) | Concept-Based Navigation | |
US9720962B2 (en) | Answering superlative questions with a question and answer system | |
US9697099B2 (en) | Real-time or frequent ingestion by running pipeline in order of effectiveness | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
US20160196313A1 (en) | Personalized Question and Answer System Output Based on Personality Traits | |
US10552461B2 (en) | System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer | |
US20180082187A1 (en) | System and Method for Scoring the Geographic Relevance of Answers in a Deep Question Answering System Based on Geographic Context of an Input Question | |
US10586161B2 (en) | Cognitive visual debugger that conducts error analysis for a question answering system | |
de Diego et al. | System for evaluating the reliability and novelty of medical scientific papers | |
US20190056912A1 (en) | Sorting of Numeric Values Using an Identification of Superlative Adjectives | |
Ernst | Biomedical knowledge base construction from text and its applications in knowledge-based systems | |
Tabebordbar | Augmented Understanding and Automated Adaptation of Curation Rules | |
Chuang | Designing visual text analysis methods to support sensemaking and modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |