CN109964224A

CN109964224A - 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质

Info

Publication number: CN109964224A
Application number: CN201780071846.6A
Authority: CN
Inventors: 穆拉利·阿拉瓦穆丹; 温卡塔拉马南·桑达拉贾; 阿吉特·拉贾耶克哈兰; 普拉桑·叶琳娜; 阿尔俊·普拉尼克; 阿什文·穆拉利; 威廉·吉普森; 恩里克·加西亚-里维拉; 卡西克·穆卢加多斯
Original assignee: Enfrence Co
Current assignee: Enfrence Co
Priority date: 2016-09-22
Filing date: 2017-09-22
Publication date: 2019-07-02
Also published as: US20180082197A1; US20220138599A1; WO2018057945A1; JP2022133385A; US10360507B2; US11062218B2; KR20190075067A; JP2019536178A; US11900274B2; EP3516566A1; JP7229495B2; US20190354883A1; JP7106077B2

Abstract

公开的系统、方法和计算机可读介质可以检测语义实体之间的关联并生成实体之间的语义信息。例如，可以识别知识库中存在于的语义实体和相关联的语义集合。可以确定时间段并将其划分成时间片。可以为每个时间片生成所识别的语义实体的词嵌入；可以确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度；以及可以确定第一语义实体输入和与语义集合相关联的语义实体之间的第二语义关联强度，所述语义集合与第二语义实体相关联。可以基于第一和第二语义关联强度来提供输出。

Description

用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质

相关申请

本申请根据35U.S.C.§119(e)要求2016年9月22日提交的题为“用于语义信息可视化的方法和系统”的第62/398,386号美国临时专利申请和2017年6月2日提交的题为“用于指示生命科学实体之间显著关联的时间信号推断的方法和系统”的第62/514,697号美国临时专利申请的权益，其全部内容通过引用整体明确并入本文。

背景技术

技术领域

本公开的实施例涉及用于分析数据中潜在关系的系统、方法和计算机可读介质。

现有技术

不论数据是多维的还是实时的，数据可视化的复杂性——特别是利用与线性相反的二维和三维布局——都在迅速提升，这促进了对数据和潜在关系的理解。然而，这些可视化方法对于呈现其中信息是非结构化的且需要语义推理来提取结构化信息的数据源是不太有效的。

某些数据源包含丰富的非结构化和半结构化信息，通常在制药行业不同组成部分的不同孤岛中访问。例如，转化医学和临床开发团队通常会访问clinicaltrials.gov网站；药物警戒研发科学家和进行市场调研的商业数据科学家等通常访问联邦不良事件报告系统(FAERS)。

目前，生成对用户查询的概要/摘要响应还面临着许多挑战，特别是当响应需要使用不同来源的结构化和非结构化信息进行语义合成时。例如，在当前系统中，尝试逐渐发展以超越仅对用户查询输出匹配结果的“概要式响应”其实很简单(例如，生成的响应中缺乏语义深度的单一来源的简单概要)，可以实现自动化(例如，针对诸如“nfl季后赛”或“2012年选举”的查询的实时分数或选举状态表)。

因此，需要一种高级可视化系统来呈现语义信息。

现有技术中的一些方法依赖于通过研究引用两个实体的文档(即实体对同现的文档)随时间的增长来识别实体对之间的开创性关联。通常，此类方法的预测能力极小，尤其是当同现的文档数量仍然很少时(即，关联的相关知识处于初始阶段)。从定义上来说，这些方法只能在公开的时候捕捉开创性关联，而在公开之前则不能。引文索引等方法也需要长时间的监控才能进行重要的推断。通过查看给定出版物的引文，在公开开创性关联后，将会出现明显的积极信号，但这一信号不能用于预测。

现有技术中的其他方法(例如，谷歌word2vec)没有提供关于实体关联的时间分析的深刻见解。此外，由于行业特定语言用法导致从非结构化源识别实体(例如药物、基因、疾病)存在固有困难，因此，现有技术中用于自然语言处理(NLP)的通用方法在应用于任何特定行业(例如生命科学)时均存在许多缺点。

因此，需要一种高级系统来标记初期的和潜在的开创性关联，并随时间跟踪其显著性。

发明内容

根据所公开的主题，提供了用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质。

在详细解释根据本公开的示例性实施例之前，应当理解，本公开的应用不限于以下描述中阐述的或附图中示出的构造细节和布置。本公开能够具有除所描述的实施例之外的实施例，并且能够以各种方式实践和执行。此外，应当理解，本文以及摘要中使用的措辞和术语是为了描述，而不应被视为是限制性的。此外，虽然本公开中的讨论集中于生命科学领域，但是公开的系统和方法的应用不限于这一领域。

根据本公开的一个实施例的检测语义实体之间的关联的方法可以包括：识别一个或多个知识库中存在的语义实体和相关联的语义集合，其中语义实体包括单个词或多词短语中的一个或多个，并且语义集合的语义实体共享实体类型；确定用于分析的时间段；将时间段划分成一个或多个时间片；基于一个或多个语料库为每个时间片生成所识别的语义实体的一组词嵌入；为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度；为每个时间片确定第一语义实体输入和语义集合中的多个语义实体之间的第二语义关联强度，该语义集合与第二语义实体相关联；以及基于一个或多个时间片的第一和第二语义关联强度提供输出。

根据一些实施例，一个或多个语料库可以包括结构化数据和非结构化数据。

根据一些实施例，识别语义实体可以包括以下一个或多个：(1)将一个或多个单个词或多词短语识别为属于语义集合的语义实体的自动方法，和(2)从一个或多个知识库中强制选择一个或多个单个词或多词短语。

根据一些实施例，可以从由结构化数据库编译的信息中强制选择一个或多个单个词或多词短语。

根据一些实施例，可以在所述时间段内对一个或多个知识库中的所有文本进行语义实体识别。

根据一些实施例，词嵌入可以使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个来生成。

根据一些实施例，可以独立于为其他时间片生成的词嵌入，为每个时间片生成词嵌入。

根据一些实施例，可以利用先前时间片的词嵌入来生成当前时间片的词嵌入。

根据一些实施例，与语义集合相关联的多个语义实体可以不包括第二语义实体，该语义集合与第二语义实体相关联。

根据一些实施例，第二语义关联强度可以是第一语义实体输入和与语义集合相关联的多个语义实体之间的一组语义关联强度的平均值、中位数或百分位数，该语义集合与第二语义实体相关联。

根据一些实施例，该方法还可以包括检测第一时间片的第一语义关联强度相对于随后的第二时间片的第一语义关联强度的增量；和确定第一语义关联强度的增量相对于相应的第二语义关联是否具有统计显著性。

根据一些实施例，可以基于p值来确定增量的统计显著性，该p值用作第一语义关联强度相对于对应的第二语义关联的统计显著性的度量。

根据一些实施例，该方法还可以包括基于一个或多个知识库中第一实体和第二实体之间的共现水平来选择第一实体输入和第二实体输入。

根据一些实施例，第一实体和第二实体之间的共现水平为零。

根据一些实施例，该方法可以进一步包括从用户接收第一实体输入和第二实体输入。

根据一些实施例，该方法还可以包括为每个时间片确定包含第一实体和第二实体的一个或多个语料库中存在的文档的计数；和确定与第一时间片的第一语义关联强度相对于随后的第二时间片的第一语义关联强度的增量相关联的第一日期(1)和与第三时间片的包含第一实体和第二实体的文档计数相对于第四时间片的包含第一实体和第二实体的文档计数的增量相关联的第二日期(2)之间的时间差。

根据一些实施例，该方法还可以包括基于固定轴的曲线斜率检测包含第一实体和第二实体的文档计数的增量，其中该曲线基于曲线x轴上的时间段和曲线y轴上的文档计数。

根据一些实施例，该方法可以进一步包括基于文档计数阈值检测包含第一实体和第二实体的文档计数的第二增量。

根据一些实施例，第一实体和第二实体中的每一个可以是以下实体类型中的至少一种：生物分子、生物实体、疾病、不良事件、表型、公司、机构、大学、医院、人、药物、医疗器械和医疗程序。

根据一些实施例，输出可以使用户设备显示图形线，该图形线通过绘制所述时间段内每个时间片的每个第一语义关联强度而创建。

根据一些实施例，输出可以使用户设备显示图形线，该图形线通过绘制所述时间段内每个时间片的每个平均第二语义关联强度而创建。

根据一些实施例，输出可以使用户设备显示图形线，该图形线通过绘制所述时间段内每个时间片的包含第一实体和第二实体的一个或多个语料库中存在的文档的计数而创建。

根据本公开的一个实施例的生成实体之间语义信息的方法可以包括：识别一个或多个语料库中的多个语义实体，其中语义实体包括单个词或多词短语中的一个或多个；识别一个或多个语料库中的多个语义实体类型；将一个或多个语义实体类型与所述多个语义实体中的语义实体相关联；为所述多个语义实体生成词嵌入；基于词嵌入确定来自多个语义实体的语义实体之间的一个或多个语义关联分数；接收查询项；基于一个或多个语义关联分数生成与查询项相关联的结果语义实体的第一列表；基于与结果语义实体的第一列表中的语义实体相关联的语义实体类型生成语义实体集合的第二列表，其中来自第二列表的每个语义实体集合与语义实体类型相关联；以及基于语义实体集合的第二列表提供输出。

根据一些实施例，可以基于以下一个或多个来识别多个语义实体类型：结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。

根据一些实施例，神经网络结构可以是以下一个或多个：递归神经网络(RNN)或长短时记忆(LSTM)。

根据一些实施例，基于与结果语义实体的第一列表的语义实体相关联的语义实体类型生成语义实体集合的第二列表可以包括使生成仅基于满足以下一个或多个条件的结果语义实体：与潜在语义实体类型相关联的结果语义实体的数量最大；结果语义实体的语义关联分数最小；结果语义实体在一个或多个语料库中出现的次数最少；结果语义实体出现在一个或多个语料库的最小数量的文档中；查询项和结果语义实体的共现次数最少；查询项和结果语义实体的共现次数最多；一个或多个语料库中查询项和结果语义实体共现的文档的数量最小；以及一个或多个语料库中查询项和结果语义实体共现的文档的数量最大。

根据一些实施例，生成语义实体集合的第二列表可以包括将第二列表中的语义实体集合的数量限制到最大数量。

根据一些实施例，生成语义实体集合的第二列表可以包括要求第二列表的每个语义实体集合中的语义实体的数量最小。

根据一些实施例，生成语义实体集合的第二列表可以包括要求第二列表的每个语义实体集合中的每个语义实体的语义关联分数最小。

根据一些实施例，生成语义实体集合的第二列表可以进一步基于与所选语义实体集合相关联的一个或多个结果语义实体。

根据一些实施例，输出可以使用户设备从第一列表中列出一个或多个结果语义实体，并且从第二列表中列出一个或多个语义实体集合。

根据本公开的一个实施例的生成实体之间语义信息的方法可以包括：识别一个或多个语料库中的多个语义实体，其中语义实体包括单个词或多词短语中的一个或多个；为多个语义实体生成词嵌入，其中至少一个语义实体是具有多个含义和相应的多个词嵌入的多含义语义实体，其中每个含义与相应的词嵌入相关联；基于词嵌入确定来自多个语义实体的语义实体之间的一个或多个语义关联分数；接收查询项；确定查询项是否对应于与多个嵌入相关联的语义实体；当查询项对应于与多个嵌入相关联的语义实体时，生成一组列表，每个列表包含用于多个嵌入的每个嵌入的语义实体，其中基于一个或多个语义关联分数的比较，将语义实体包括在一个或多个列表中；以及当查询项对应于与多个嵌入相关联的语义实体时，基于该组列表提供输出。

根据一些实施例，该方法还可以包括确定一组度量，该度量测量一个或多个语料库中多含义语义实体的多个含义中的每个含义的出现。

根据一些实施例，该度量可以是多含义语义实体的特定含义与多个语义实体中的一个或多个语义实体在一个或多个语料库的一个或多个文档中共现的次数的计数。

根据一些实施例，该度量可以是一个或多个语料库的文档计数，在该文档中多含义语义实体的特定含义与多个语义实体中的一个或多个语义实体共现。

根据一些实施例，可以使用Adaptive Skip-gram(AdaGram)来生成词嵌入。

根据一些实施例，该方法进一步包括为该组列表中的每个列表生成百分比，其中每个列表的百分比通过将对应列表中的语义实体的数量除以该组中所有列表中的实体总数进行计算。

根据一些实施例，该方法可以进一步包括通过分析与对应列表中的语义实体相关联的一个或多个语义实体类型，将语义实体类型与该组列表中的一个或多个列表相关联。

根据一些实施例，分析与对应列表中的语义实体相关联的一个或多个语义实体类型可以包括确定最常与对应列表中的语义实体相关联的语义实体类型。

根据一些实施例，输出可以使用户设备显示该组列表和该组列表中每个列表中的结果语义实体。

根据本公开的一个实施例的生成实体之间语义信息的方法可以包括识别一个或多个语料库中的多个语义实体，其中语义实体包括单个词或多词短语中的一个或多个；识别一个或多个语料库中的多个语义实体类型；将至少一种语义实体类型与多个语义实体中的语义实体相关联；为多个语义实体生成词嵌入；确定来自多个语义实体的语义实体之间的一个或多个语义关联分数；接收查询项和实体类型输入；确定与查询项相关联的查询项实体类型；基于所述一个或多个语义关联分数生成与查询项相关联的结果语义实体的第一列表，其中来自第一列表的结果语义实体与同查询项实体类型相同的语义实体类型相关联；基于所述一个或多个语义关联分数生成与查询项相关联的结果语义实体的第二列表，其中来自第二列表的结果语义实体与实体类型输入相关联；生成语义关联分数的第三列表，其中第三列表包括来自第一列表的每个结果语义实体和来自第二列表的每个结果语义实体之间的语义关联分数；以及基于第一列表、第二列表和第三列表提供输出。

根据一些实施例，可以基于以下一个或多个来识别所述多个语义实体类型：结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。

根据一些实施例，生成第一列表可以包括将结果语义实体的数量限制到最大计数。

根据一些实施例，生成第一列表可以进一步基于要求每个结果语义实体的语义关联分数大于最小语义关联分数。

根据一些实施例，生成第二列表可以包括将结果语义实体的数量限制到最大计数。

根据一些实施例，生成第二列表可以进一步基于要求每个结果语义实体的语义关联分数大于最小语义关联分数。

根据一些实施例，输出可以使用户设备生成热图，其中来自y轴上的第一列表的结果语义实体、来自x轴上的第二列表的结果语义实体以及来自第三列表的每个语义关联分数以颜色或颜色的深浅表示，其中颜色或颜色的深浅映射到语义关联分数。

根据本公开的一个实施例的方法可以包括识别一个或多个知识库中存在的语义实体和相关联的语义集合，其中语义实体包括单个词或多词短语中的一个或多个，并且语义集合的语义实体共享实体类型；确定用于分析的时间段；将时间段划分成一个或多个时间片；基于一个或多个语料库为每个时间片生成所识别的语义实体的一组词嵌入；通过执行以下步骤来表征第一语义实体输入和第二语义实体输入之间的时间语义关联：为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度；为每个时间片确定第一语义实体输入和与语义集合相关联的多个语义实体之间的第二语义关联强度，该语义集合与第二语义实体相关联；为每个时间片确定将第一语义关联强度与第二语义关联强度相联系的概率度量；为每个时间片分配时间值；通过将为时间片分配的时间值与该时间片的概率度量相关联来为每个时间片确定二维点的序列，其中该序列通过增加时间值来排序；将曲线拟合到所述有序序列；提取所述曲线拟合的特征，其中所述特征包括以下一个或多个：增加时间值，其表示概率度量在该时间值处出现统计上的显著幅度变化，概率饱和值，其表示概率度量的最大值，或曲线下面积值；通过表征第一语义实体输入和第二语义实体输入之间的时间语义关联来提供曲线拟合的特征。

根据一些实施例，该方法可以进一步包括：从用户接收第一语义实体输入；从用户接收第二语义实体输入作为一组，该组至少有两个第二语义实体；为该组的每个第二语义实体执行表征第一语义实体输入和第二语义实体输入之间的时间语义关联的步骤；以及显示第一语义实体输入和该组的至少两个第二语义实体输入的曲线拟合的特征。

根据一些实施例，显示曲线拟合的特征可以包括将第一语义实体输入和第二语义实体输入时间语义关联中的每一个的增加时间值、概率饱和值和曲线下面积值显示为气泡图，其中沿着气泡图x轴的气泡位置对应于增加时间值，沿着气泡图y轴的气泡位置对应于概率饱和值，气泡的尺寸对应于曲线下面积值。

根据一些实施例，该方法可以进一步包括：显示与该气泡附近的气泡相关联的第一语义实体输入的身份和第二语义实体输入的身份。

根据一些实施例，显示曲线拟合的特征可以包括仅显示概率饱和值满足概率阈值的曲线拟合的特征。

根据一些实施例，显示曲线拟合的特征可以包括仅显示第一语义实体输入和第二语义实体输入之间的时间语义关联的曲线拟合的特征，该第一语义实体输入和第二语义实体输入在满足共现阈值的一个或多个语料库的文档中具有共现计数。

根据一些实施例，该方法还可以包括：确定第一语义实体输入和该组的至少两个第二语义实体输入的一个或多个语料库的文档中的共现计数。

根据一些实施例，显示曲线拟合的特征可以包括将第一语义实体输入和第二语义实体输入时间语义关联中的每一个的增加时间值、概率饱和值和共现计数显示为气泡图，其中沿着气泡图x轴的气泡位置对应于增加时间值，沿着气泡图y轴的气泡位置对应于概率饱和值，气泡的尺寸对应于共现计数。

根据一些实施例，将第一语义关联强度与第二语义关联强度相联系的概率度量可以是p值的负对数，其中相对较高的概率度量表示第一语义关联强度相对于第二语义关联强度更具统计显著性，而相对较低的概率度量表示第一语义关联强度相对于第二语义关联强度无统计显著性。

根据一些实施例，将曲线拟合到所述有序序列可以包括根据以下等式将sigmoid曲线拟合到所述有序序列：

其中，

y值是序列的概率度量；和

x值是序列的时间值。

根据一些实施例，本文公开的任何步骤或动作可以由服务器执行。在一些实施例中，服务器可以包括存储模块的存储器。在一些实施例中，服务器包括处理器，该处理器配置为运行存储在存储器中的模块，该模块配置为使得处理器执行本文公开的任何步骤或动作。根据一些实施例，非暂时性计算机可读介质可以具有可执行指令，该指令可操作以使服务器执行本文公开的任何步骤或动作。

任何上述实施例或方面可以与本文阐述的其他实施例和/或方面相结合，并且仍在本发明的范围内。

附图说明

当结合以下附图考虑时，参考以下关于所公开主题的详细描述，可以更全面地理解所公开主题的各种目的、特征和优点，其中相同的附图标记表示相同的元件。

虽然公开了多个实施例，但是通过以下示出并描述了本公开的说明性实施例的详细描述，本公开的其他实施例对于本领域技术人员将变得显而易见。

因此，附图和详细描述本质上是说明性的，而不是限制性的。

图1示出了根据本公开的一些实施例的系统结构。

图2A示出了一种针对查询提供语义响应的方法。

图2B示出了根据本公开的一些实施例的通过合成来自多个路径的数据而启用的界面的再现。

图3A示出了一种针对查询提供语义响应的方法。

图3B示出了根据本公开的一些实施例的通过合成来自多个路径的数据而启用的界面的再现。

图4示出了根据本公开的一些实施例的由响应合成器112(图1)生成的二维数据矩阵。

图5A至5B示出了根据本公开的一些实施例的与不同实体相关的知识图谱，如针对用户提供的示例性查询的“邻域”所强调的。

图6A至6D示出了根据本公开的一些实施例的示出知识图谱如何使不同实体相联系的示例，如针对“类比”所强调的。

图7示出了根据本公开的一些实施例的靶心视图(备选2D视图)，其可以是“符号”时间相位的径向表示。

图8示出了根据本公开的一些实施例的由响应合成器112(图1)生成的二维数据矩阵。

图9示出了根据本公开的一些实施例的在应用实体识别技术之后，查询示例性短语“髓鞘再生”的生物知识图谱的输出。

图10示出了根据本公开的一些实施例的来自生物知识图谱的输出，其能够识别与用户提供的任何真实世界表型查询密切相关的疾病适应症。

图11示出了根据本公开的一些实施例的搜索输入的实体分布，其中邻域节点随时间变化。

图12示出了根据本公开的一些实施例的输出跨实体类的概念的时间进程的实例。

图13示出了根据本公开的一些实施例的即时创建知识图谱子集的实例。

图14示出了根据本公开的一些实施例的在知识图谱(“KG”)中捕获实体的时间进程，并因此捕获实体随时间的分布。

图15示出了根据本公开的一些实施例的示例性实体集合。

图16示出了根据本公开的一些实施例的余弦距离概率密度函数(PDF)图。

图17示出了根据本公开的一些实施例的时间分析流程图。

图18示出了根据本公开的一些实施例针对所有疾病实体的两个基因的语义关联强度的密度分布。

图19示出了根据本公开的一些实施例的用于评估统计背景模型并向用户呈现汇总统计的过程。

图20示出了根据本公开的一些实施例的与时间分析重叠的的汇总统计的示例。

图21示出了根据本公开的一些实施例的从一组随机向量生成的两个直方图。

图22A至22B示出了根据本公开的一些实施例的真实生命科学实体对的时间分析。

图23示出了根据本公开的一些实施例的PTEN-KRAS基因-基因时间分析。

图24示出了根据本公开的一些实施例的AML1(RUNX1)-FLT3基因-基因关联时间分析。

图25示出了根据本公开的一些实施例的非典型溶血性尿毒综合征-CFH(疾病基因)时间分析。

图26示出了根据本公开的一些实施例的PCSK9-LDLR(基因-基因)时间分析。

图27示出了根据本公开的一些实施例的PCSK9-LDLR(基因-基因)时间分析。

图28示出了根据本公开的一些实施例的OT分数和余弦距离(语义关联分数)之间的关系。

图29示出了根据本公开的一些实施例的非显著基因-疾病相互作用的时间统计推断的阴性对照图形表示。

图30示出了根据本公开的一些实施例的显著基因-疾病相互作用的时间统计推断的阳性对照图形表示。

图31示出了根据本公开的一些实施例的示例性邻域义项界面。

图32示出了根据本公开的一些实施例的示例性邻域义项界面。

图33示出了根据本公开的一些实施例的示例性知识图谱界面。

图34示出了根据本公开的一些实施例的示例性知识图谱界面。

图35示出了根据本公开的一些实施例的示例性信息框。

图36示出了根据本公开的一些实施例的示例性信息框。

图37示出了根据本公开的一些实施例的示例性知识图谱界面。

图38示出了根据本公开的一些实施例的示例性知识图谱界面。

图39示出了根据本公开的一些实施例的示例性知识图谱界面。

图40示出了根据本公开的一些实施例的示例性知识图谱界面。

图41示出了根据本公开的一些实施例的示例性知识图谱界面。

图42示出了根据本公开的一些实施例的示例性知识图谱界面。

图43至44示出了根据本公开的一些实施例的示例性知识图谱界面。

图45示出了根据本公开的一些实施例的示例性知识图谱界面。

图46示出了根据本公开的一些实施例的示例性热图。

图47示出了根据本公开的一些实施例的示例性热图。

图48示出了根据本公开的一些实施例的示例性热图。

图49示出了根据本公开的一些实施例的时间分析图的示例性用户界面。

图50示出了根据本公开的一些实施例的具有时间分析图的示例性知识图谱界面。

图51示出了根据本公开的一些实施例的具有时间分析图的示例性知识图谱界面。

图52至56示出了根据本公开的一些实施例的与五种不同实体类型相关联的实体“Rho”的邻域义项图。

图57示出了根据本公开的一些实施例的数据流。

图58示出了根据本公开的一些实施例的当用户向邻域应用发出查询请求时的控制/数据流。

图59示出了根据本公开的一些实施例的具有时间分析图的示例性知识图谱界面。

具体实施方式

可以对所讨论的示例性实施例进行各种其他修改和添加而不脱离本公开的范围。例如，虽然上述实施例涉及特定特征或特定步骤，但是本公开的范围还包括具有不同特征或步骤组合的实施例，和不包括上述所有特征或步骤的实施例。

本公开描述了系统、方法和计算机可读介质，以克服当前生成对用户查询的概要/摘要响应所面临的许多挑战，特别是当响应需要使用来自不同来源的结构化和非结构化信息进行语义合成时。在一些实施例中，神经网络和/或语言模型可以用于解决以下在目前几乎不可能缩放的任务：从结构化和/或非结构化数据推断的语义信息的可视化，其中，可选地，一些或所有数据可以从不同来源实时聚集。

本公开的实施例可以应用于各种行业和领域。然而，为了进行说明，本公开专注于医疗保健/医疗空间。在一些实施例中，下列术语可以互换使用：“实体”和“标记”。在一些实施例中，下列术语也可以互换使用：“实体类”和“实体类型”。此外，在一些实施例中，下列术语可以互换使用：“嵌入”和“向量”。此外，短语“词嵌入”用于统一指字符、词、段落、句子和/或文档嵌入，除非明确指出。在一些实施例中，下列术语可以互换使用：“语义关联强度”、“语义关联分数”和“余弦距离”。

公开的系统和方法可以在语义相关的实体未同现时，使用自语料库生成的词/文档/段落/句子嵌入来识别语义相关的实体，其中嵌入可以使用已知技术生成，但是其中术语/短语被映射到实体和实体类。每个非共现实体与其映射到的实体和类之间的映射的相似性(例如，之间的距离)使得能够发现在原始语料库中非共现存在的语义相关的实体。换句话说，第一映射到第二映射的相似性使得能够发现相关的实体，其中第一实体映射将第一实体与第一组实体和类相关联，第二映射将第二实体与第二组实体和类相关联。

神经网络可以用于从非结构化数据源中提取语义信息，以创建结构化聚合。在一些实施例中，可以在神经网络中使用具有状态维护的序列模型来达到这一目的。在一些实施例中，可以进行最少的人工验证来创建能够支持数据的空间可视化的候选数据集。

所公开的合成用于搜索查询的多维摘要的系统和方法可以包括标记实体和未标记术语/短语。搜索输入可以是一个或多个未标记实体。搜索查询可以是术语/短语或者是可以包括术语/短语的自然语言查询。所述术语可以从一系列查询中获得，如在对话交换中，用于歧义消除。

搜索输入邻域的标记实体可以用于创建合成摘要的正交维度(例如，行和列)。合成可以通过以下来来进行：检查嵌入输入术语/短语邻域的词/文档/段落/句子中的实体分布，并使用该分布来选择用于摘要生成的候选实体。捕获实体/邻域关系的实体分布可以是获自通用语料库的一般分布，或者是其中隐式或显式地推断上下文的上下文特定分布。

可以将其中词是原子实体的传统n-gram模型替换为使用词向量/嵌入(或组成词嵌入的字符向量)的语言模型，以建立词嵌入作为机器学习模型中词的实际表征。类似于远超出仅捕捉共现的将词表征为向量，将概念和概念之间的关系表征为向量，可以超出在提取它们的空间中编码的显式关系，从而促进构建具有概念/关系嵌入的语义知识图谱，以便更广泛和更深入地理解数据。

一些实施例可以将一个或多个不同的数据源聚合成示例性“核心语料库”。例如，可以使用下表中的一个或多个数据源:

源
	药物@FDA
FDA不良事件报告系统(FAERS)
	Clinicaltrial.gov
维基百科&Dbpedia
	Pubmed
化合物(NCI、临床试验、药物银行、FDA、Pubchem)
	公司(Crunchbase、Linkedin、SBIR、Bloomberg)
结构化本体(Hugo、KEGG、MeSH、OMIM)

根据一些实施例，聚合可以在从实时或基本实时(例如，通过馈送)到非实时或基本实时的任何时间段(例如，秒、分、小时、天、周、月、年)的各种频率下执行。在一些实施例中，这样的频率可以基于每个资源站点的爬行频率策略，其中本公开的实施例可以基于这样的策略。在一些实施例中，可以为一个或多个不同的数据源设置不同的频率。在一些实施例中，频率可以静态或动态设置。

在医疗保健/药品行业，每个药品公司在不同开发阶段都可以具有关于其药品的概要。在一些实施例中，可以在不同公司之间自动聚类信息(例如药物种类和疾病类别)的聚合和/或合成语义概要不仅需要对该空间相关实体的语义理解，还需要来自不同的结构化和非结构化源(例如，结构化公司网站、诸如临床试验的准结构化网站、诸如Pubmed的非结构化源)的收集和/或合成信息。在一些实施例中，可以创建聚合和/或合成的语义摘要，以提高可伸缩性和处理一大类语义查询的能力，从而有利于用户快速作出决策，且无需花费大量时间(例如，几小时，几天，甚至是几周)从不同的结构化和非结构化源创建这样的合成。

本公开的实施例还可以解决从不同的结构化和非结构化源提取语义信息的其他挑战。

这些挑战的示例如下。

首先，人工精选本体/信息库中的“实体类”可能不足，无法对广泛的用户搜索产生语义响应。虽然医疗保健行业中有大量精选本体，但实体或实体类可能会被遗漏，导致用户输入对文档的词汇匹配结果的退化响应。例如，搜索项，如“髓鞘再生”，可以退化为词汇搜索响应，除非为输入构建了精选语义结果。这是因为髓鞘再生不太可能是典型实体类型的实体，如适应症、疾病、药物等。即使使用了词嵌入邻域的响应也是不够的，因为实体的邻域可能是各种实体类型的混合。尽管使用词嵌入邻域的响应可能略优于从词汇响应生成的结果，但是仍远不如使用最匹配用户意图的语义合成的本公开的实施例生成的结果。

其次，某些术语可能需要消除实体歧义。例如，术语“EGFR”可以代表基因“Epidermal Growth Factor Receptor”或实验室测试“Estimated GlomerularFiltration Rate”，而词汇搜索可能出现该术语的误导性结果。在纯词汇系统中，这种常见的用户查询可能会导致错误命中。在一些实施例中，这一问题可以通过使用语义生物知识图谱在上下文存在时隐式消除歧义，或者在无上下文时显式消除实体的歧义来解决。

第三，可能需要使非结构化源中单个词和多词(短语)实体的明确识别和分类最大化。可能缺乏使用序列学习神经网络模型(例如，单独或与条件随机场(CRF)结合的递归神经网络(RNN)变体)从非结构化数据中识别命名实体的性能。在一些实施例中，利用词嵌入中潜在的语义相似性的性能，特别是来自语义相关信息源的性能可以提高。

第四，可能需要提取结构化源中潜在的特定感兴趣的语义信息。结构化存储库中的数据结构可能不参与跨结构化存储库中的字段和关键字提取语义信息。例如，FAERS(FDA不良事件报告系统)包括关于不良事件和药物错误报告的结构化信息。根据这一存储库计算的流行度量因为数据结构而不能捕获一些有意义的潜在信息。

下面描述了药物生态系统的各种孤岛常用的并且可以由本公开的实施例使用的数据源的示例。

药物@FDA(www.accessdata.fda.gov/scripts/cder/drugsatfda/)：

药物@FDA包括超过100,000个当前FDA批准的标签、旧标签、批准函、评论(科学分析)和患者信息(1998年至今)。除了所有停用药物和化学6类批准，这一基本上非结构化的知识库包括目前批准在美国销售的所有处方药和非处方药以及治疗性生物制剂。包括以下治疗性生物制品：单克隆抗体、细胞因子、生长因子、酶、免疫调节剂、溶栓剂、从动物或微生物中提取的用于治疗用途的蛋白质以及非疫苗治疗性免疫疗法，其中所述蛋白质包括这些制品(凝血因子除外)的重组版本。药物@FDA中的信息来自FDA橙皮书(经批准的通过治疗等效性评估的药品)和中心范围内基于Oracle的管理信息系统(COMIS)，该系统维护新药临床试验申请(IND)、新药上市申请(NDA)和简略新药申请(ANDA)。本公开的一些实施例还可以利用FDA的结构化产品标签(SPL)源，包括关于批准的产品的信息(www.fda.gov/ForIndustry/DataStandards/StructuredProductLabeling)，例如剂型和药物种类(https://dailymed.nlm.nih.gov/dailymed)。

联邦不良事件报告系统(https://open.fila.gov/data/faers/)：

FDA不良事件报告系统(FAERS)是一个存有超过610万份报告的数据库，包括提交给FDA的关于不良事件和用药错误的信息。该数据库旨在支持FDA的药物和治疗性生物制品上市后的安全监控计划。大部分半结构化和结构化的FAERS数据库遵循国际协调会议(ICHE2B)发布的国际安全报告指南，不良事件和用药错误根据《国际医学用语词典》(MedDRA)中的术语编成术语。FAERS包括FDA法规规定的获自医疗保健专业人员(如医生、药剂师、护士等)、消费者(如患者、家庭成员、律师等)和产品制造商的不良事件报告。

Clinicaltrials.gov(https://ciinicaltrials.gov/)：ClinicalTrials.gov是基于网络的资源，提供美国所有50个州和192个县正在进行、已经完成或终止的220,000多项临床试验提供登录页面。这些基本上非结构化和半结构化的资源包括关于各种疾病和病况的公共和私人支持的临床研究的信息。该资源由国立卫生研究院(NIH)的国立医学图书馆(NLM)维护。所述信息由临床试验的发起人或临床研究的主要研究者提供和更新。通常在开始(注册)时，提交研究，并且网站上的信息在整个研究过程中都会更新。在某些情况下，在研究结束后，研究结果也会以非结构化文本和半结构化表格的形式包含在内。每条ClinicalTrials.gov记录提供了关于研究方案的摘要信息，包括以下内容：疾病或病况；干预(例如，正在研究的医疗产品、行为或程序)；研究的标题、描述和设计；参与要求(资格标准)；进行研究的地点；研究地点的联系信息；与其他健康网站相关信息的链接，如提供病人健康信息的NLM的MedlinePlus和提供医学领域学术文章的引用和摘要的PubMed。一些记录还包括关于研究结果的信息，例如：研究参与者的描述(开始和完成研究的参与者人数及其人口数据)；研究成果；以及研究参与者经历的不良事件的总结。任何临床试验记录变更的完整历史可通过ClinicalTrials.gov档案获得。

EDGAR-SEC Filings(www.sec.gov/edgar/searchedgar/companysearch.html)：电子数据收集、分析和检索(EDGAR)系统提供了美国证券交易委员会(SEC)要求的2100万份文件。EDGAR对公司和其他实体提交的所有文件进行自动收集、验证、索引、接受和转发。向股东提交的实际年度报告(共同基金公司除外)不需要提交到EDGAR上，尽管有些公司会自愿提交。然而，包含许多相同信息的表格10-K或表格10-KSB的年度报告需要提交到EDGAR上。EDGAR数据库中每天有3000多份文件以基本上非结构化和半结构化的形式提供。

维基百科&DBpedia(www.wikipedia.org/and http://wiki.dbpedia,org/)：

维基百科是基于网络的、内容自由的、可公开编辑的百科全书，包括由约70,000多名活跃的贡献者提供的大约有500多万条目。DBpedia是以众包社区的形式从维基百科中提取结构化信息。DBpedia知识库描述了大约458万件事物，其中大约422万件被分类在一致的本体中，包括大约1,445,000人，大约735,000个地方，大约411,000个创意作品，大约241,000个组织(包括大约58,000个公司和大约49,000个教育机构)，大约251,000个物种，以及大约6,000种疾病。

Pubmed摘要(www.nchi.nlm.nih.gov/pubmed)：PubMed收录了MEDLINE、生命科学期刊和在线书籍的超过2600万篇生物医学文献的引文。引文可能包括PubMed Central和出版商网站的全文内容的链接。这包括结构化摘要(www.nlm.nih.gov/bsd/policy/structured_abstracts.html)，其针对科学研究使用EVIRAD格式(简介、方法、结果和讨论)，针对随机对照试验(RCT)使用CONSORT格式(临床试验报告统一标准)。

化合物和药物实体：NCI-http://www.cancer.gov/；Clinicaltrials.gov-https://ciimcal triais.gov/；药物银行-http://www.drugbank.ca/；FDA-https://www.fda.gov/；Pubchem-https://pubchem.ncbi.nlm.nih.gov/。

公司：Crunchbase-https://www.crunchbase.com/；Linkedin-https://www.linkedin.com/；SBIR-https://www.sbir.gov/；Bloomberg-http://www.loomberg.com/。

人工精选本体：Hugo-http://www.genenames.org/；KEGG-http://www.gersome.jp/kegg/keggl.html；MeSH-http://www.ncbi.nlm.nih.gov/mesh；OMPM-http://www.omim.org/。

在一些实施例中，语义搜索系统可以为一系列关于药物或治疗实体的“时间状态”的查询提供“摘要答案”。时间状态可以指示药物的开发阶段(例如，临床前、阶段1、阶段2、阶段3、上市)。在一些实施例中，时间状态可以自动映射到语义生物知识图谱中的“实体”和/或“一个或多个实体的交集”(例如，如图8所示)。实体的非限制性示例可以包括：药物(例如格列卫)、公司/组织(例如罗氏、达纳法伯)、适应症(例如非小细胞肺癌)、表型(例如髓鞘再生、血管生成)、包括基因突变的生物分子特征(例如肺癌肿瘤中的EGFR T790M)、RNA或蛋白质表达(例如癌症肿瘤中的PD-L1过表达)；脱髓鞘性罕见神经疾病PMD中的PLP1)、信号通路(例如，血癌和自身免疫性疾病如类风湿性关节炎中的JAK/STAT通路)、基因融合(例如，白血病中的BCR/ABL融合或费城染色体)、拷贝数改变(例如，乳腺癌中的BRCA、结肠直肠癌中的APC)和“治疗方法”(例如，小分子、抗体、免疫疗法、基因治疗、放射治疗)。

图1示出了根据本公开的一些实施例的系统结构。本公开的实施例可以有利地从不同路径(例如，101a和102a)提取关键数据先决条件(例如，实体、它们的属性、实体类型、逻辑和时间序列关系)，并且将系统存储器114中的关键数据先决条件与利用另一个的路径合并。通过使用这些提取和合并方法，本公开的实施例可以使合成响应自动化。

信息通常可以分散在结构化和非结构化数据中。例如，在临床试验中，作为一线和二线治疗施用的药物的时间序列被嵌入句子中。本公开的实施例可以消除在临床试验中手动通读句子来构建时间序列的需要。

输入到系统的数据可以是结构化数据101、半结构化数据117和/或非结构化数据102。在一些实施例中，结构化数据101可以是实体元组的形式。例如，结构化数据可以包括键值元组，其中键是“疾病”，值是“癌症”。在一些实施例中，非结构化数据102可以包括短语或句子形式的信息。例如，非结构化数据可以包括短语“我患有帕金森氏病并且我服用了药物X”。在一些实施例中，半结构化数据117可以包括结构化数据和非结构化数据。例如，半结构化数据可以是键/值元组的分层/平面结构，其中一些值是非结构化的。

在一些实施例中，结构化数据101可以通过101a而达到结构化数据提取分类器103，该分类器可通过可用上下文明确地识别实体类型和其属性(实体)。例如，如果结构化数据是“疾病＝癌症”，那么结构化数据提取分类器103可以识别到实体类型是“疾病”，且实体是“癌症”。在一些实施例中，结构化数据分类器103可以使用监督学习模型，例如支持向量机(SVM)。结构化数据提取分类器103可以将提取的数据存储(103a)在系统存储器114中。在一些实施例中，结构化数据提取分类器103的输出可以是实体类型、实体以及实体类型与其他实体类型的关系。

实体的实体类型可以通过各种其他方式识别。在一些实施例中，实体的实体类型可以基于序列模型来识别。例如，可以使用LSTM。可以在特定语料库上对序列模型进行训练，以学习出现词的上下文。因此，序列模型可以揭示当前与实体类型无关的实体出现的上下文。当为实体寻找实体类型时，这使得实体类型能够与实体相关联。也可以用其他合适的机器学习模型来揭示实体出现的上下文。

在一些实施例中，可以使用实体的邻居基于邻居的实体类型来识别实体的实体类型。在一些实施例中，邻居可以被定义为在余弦距离方面与实体密切相关的其他实体。在一些实施例中，可以选择特定数量的邻居，并且可以为每个选择的邻居分配权重。例如，为了将实体类型与实体相关联，可以基于与实体的余弦距离对实体的邻居进行排名，可以考虑前500个邻居。500个邻居中的每一个都可以分配有一个权重，例如百分比权重，该权重可以根据他们的排名而变化。例如，可以给排名第一的邻居分配1％的权重，可以给排名第二的邻居分配0.9％的权重，可以给排名第三的邻居分配0.87％的权重，等等。在一些实施例中，权重的递减率可以基于指数衰减函数。在一些实施例中，可以考虑所有邻居，并无限制。在一些实施例中，权重的量可以与余弦距离的值成正比。在一些实施例中，权重的量可以与排名的值成正比。在某些情况下，这种权重的分配可以被称为“连续衰减”，因为权重随着排名的降低而连续减小。分配权重后，可以对邻居的实体类型进行检查并按照相同的实体类型进行分组。对于每个实体类型，可以计算该实体类型的邻居的百分比权重之和，并将其分配给该实体类型。例如，如果实体类型X与具有三个百分比权重(0.5％、0.3％和0.1％)的三个邻居相关联，则向X分配0.9％的百分比。在一些实施例中，该百分比可以指示实体是该实体类型的概率。在一些实施例中，如果该百分比超过某个阈值数，则系统可以将实体与实体类型相关联。在一些实施例中，系统可以将实体与具有最高百分比的实体类型相关联。

在一些实施例中，可以给每个邻居分配相同的权重，而不是分配不同的权重。例如，如果可以选择前100个邻居，则可以给每个邻居分配1％的权重。在这种情况下，即使邻居有不同的余弦距离，在分配权重时也会被同等对待。

在一些实施例中，非结构化数据102可以通过102a到达非结构化数据提取分类器105。非结构化数据提取分类器105的输出可以将提取的数据存储(105a)在系统存储器114中。在一些实施例中，非结构化数据提取分类器105可以使用一类人工神经网络(ANN)(例如，递归神经网络RNN)和/或词嵌入生成器。

在一些实施例中，当存在可以从结构化数据101提取的潜在信息时，可以使用专用编码器104由结构化数据101生成非结构化数据。专用编码器104可以将生成的非结构化数据发送(104a)到非结构化数据提取分类器105，非结构化数据提取分类器105进而可以通过非结构化数据提取路径105a发送输出。在一些实施例中，生成的非结构化数据是非结构化文本的形式。例如，如果结构化数据是“疾病＝癌症；适应症＝体重减轻；药物＝甲氨蝶呤；副作用＝头晕”，则专用编码器104可以以“疾病癌症适应症体重减轻药物甲氨蝶呤副作用头晕”的形式生成非结构化数据。在该示例中，结构化数据中的潜在信息可以是癌症可能与体重减轻和甲氨蝶呤有关，并且患者会头晕。因此，这种潜在信息可以通过在已经由专用编码器104处理的结构化数据101上使用非结构化数据提取分类器105来提取和利用。在一些实施例中，结构化数据101的一部分可以使用专用编码器104来进行处理。在其他实施例中，整个结构化数据101均可以使用专用编码器104来进行处理。在另一示例中，专用编码器104可以通过使用实体标签来将实体以给定的接近度定位来生成非结构化数据。例如，给定同一组结构数据，专用编码器104可以应用“药物疾病药物适应症药物副作用”的映射来创建“甲氨蝶呤癌症甲氨蝶呤体重减轻甲氨蝶呤头晕”的非结构化文本。

在一些实施例中，半结构化数据117的结构化数据部分可以被传递给结构化数据提取分类器103。在一些实施例中，半结构化数据117的非结构化数据部分可以传递给非结构化数据提取分类器105。在一些实施例中，半结构化数据117的部分或全部结构化数据部分可以传递给专用编码器104，专用编码器104可以将输出发送给非结构化数据提取分类器105。

在一些实施例中，非结构化数据提取分类器105的输出可以包括实体类型、实体、文档/段落/句子嵌入、包括时间/逻辑序列关系的实体关系以及序列表征。在一些实施例中，实体可以被标记或不被标记。标签可以用来描述实体。例如，实体“EGFR”可以指“表皮生长因子受体”，在这种情况下，可以将实体“EGFR”标记为基因。没有标签的情况下，实体指的是什么可能会有歧义。例如，如果实体“EGFR”未被标记，“EGFR”可能是不明确的，因为“EGFR”可以指基因“Epidermal Growth Factor Receptor”或实验室测试“EstimatedGlomerular Filtration Rate”。实体可以使用各种技术进行标记。例如，搜索(例如，通过谷歌)可以为实体产生标签。作为另一示例，语料库可以提供标签。例如，维基百科可以在其许多页面上为某些实体提供标签。对于非结构化数据，可以分析实体附近的上下文来确定它们的标签。在一些实施例中，一类ANN(例如，RNN)可以用于执行这种分析。在一些实施例中，使用ANN执行的分析可以通过利用下面结合图8和9描述的系统和方法来改进。

在一些实施例中，系统存储器114可以以不同的形式捕获从两个或更多个源路径(例如，103a和105a)提取的信息，以便于信息的合成和/或允许通过不同的路径(例如，路径103a和105a)进行后续的信息提取。系统存储器114可以包括存储在结构化语义数据库106(可以是传统数据库)中的信息；知识图谱107(可以是标记的实体(从路径101a和102a中提取的)和/或未标记的实体(从路径102a中提取的)的有向图)；词嵌入108(其可以包括词和/或句子)；文档/段落/句子嵌入109；和非结构化数据110的序列表征。在一些实施例中，词嵌入的示例可以是word2vec。在一些实施例中，文档/段落/句子嵌入的示例可以是doc2vec。在一些实施例中，序列表征110的示例可以是记忆神经网络(MemNN)。在一些实施例中，MemNN可以用于“问答”式发现，其中可以对MemNN进行问题训练以生成响应/后续问题。在一些实施例中，这些响应和/或后续问题可以在有歧义的情况下使用。例如，实体指的是什么可能有歧义时。

在一些实施例中，词嵌入108和/或文档/段落/句子嵌入109可以是为一大类领域特定语料库生成的嵌入的储存库。在一些实施例中，这些嵌入可以捕获所述领域中标记和未标记实体的一个或多个关系。在一些实施例中，这些嵌入可以用于指示和/或对这种关系的强度进行排名。

嵌入可以用于构建一个或多个知识图谱107。知识图谱107可以代表通用图、领域和/或上下文特定图，其中标记和/或未标记的节点具有通用/领域/上下文特定权重。语料库可以确定嵌入，进而确定图中的邻域节点。序列表征110可以是通用、领域和/或上下文特定序列的储存库，并且可以用于理解和响应跨越多个句子/问题的问题。

系统存储器114可以用于合成响应，并促进随后通过路径107a和108a进行的信息提取。例如，词嵌入108可以用于消除结构化数据中可能存在的虚假信息。在一些实施例中，如果在结构化记录中发现实体，并且该实体在语义上与记录中的其他实体不相关(这可以通过词嵌入邻域度量来揭示)，则该信息可以被传递(108a)到结构化数据提取分类器103，并且该实体可以被隔离，以进行手动验证。结构化数据库路径107a可以用于提高命名实体标记分数。在一些实施例中，命名实体标记分数可以与标记术语/短语的置信度分数相关联。在一些实施例中，结构化语义数据库106可以用于验证和/或确认术语/短语的实体类型；这有助于提高命名实体标记分数，并且可提高标记术语/短语的置信度分数。

系统存储器114可以支持鉴别引擎116，鉴别引擎116可以包括对话/查询分析器111(其可以很大程度上依赖于序列表征110)、响应合成器112和响应模板生成器/选择器115。响应模板生成器/选择器115可以通过116a支持用户界面113。在一些实施例中，对话/查询分析器111可以分析用户输入，例如搜索项和过滤标准。例如，如果用户在界面(例如，图8中的界面)上搜索术语“AML”，则对话/查询分析器111可以接收和分析该搜索项，并将搜索项传递给响应合成器112，以进行进一步的处理。在一些实施例中，对话/查询分析器111可以从系统存储器114通过114a接收数据，以用于分析。响应合成器112还可以通过114b从系统存储器114接收数据，并且使用该数据来合成与产生用户搜索动作的结果相关的响应。

响应模板生成器/选择器115可以生成/选择用于通过界面向用户呈现搜索结果的适当模板。不同类型的模板可以用于生成不同类型的生物知识图谱，例如图7中的靶心生物知识图谱和图8中的流水线生物知识图谱。在一些实施例中，响应模板生成器/选择器115可以基于界面上呈现的实体的标签生成模板。这些实体可以根据其实体分布进行选择。在一些实施例中，响应模板生成器/选择器115可以从一组硬编码模板中选择模板。在一些实施例中，可以通过训练生成硬编码模板(例如，系统可以通过从语料库中学习某些类型的实体和其标签来生成模板)。在其他实施例中，可以手动生成硬编码模板。在一些实施例中，用户可以覆盖自动选择/生成的模板中的一部分或全部视图。例如，用户可以使用过滤器用适应症信息替换药物信息。

作为系统100一部分的各种组件可以实现为硬件、软件或两者的组合。本文描述的各种组件和块可以以不同方式排列(例如，以不同的顺序排列，或者以不同的方式分割/组合)，而所有这些都不脱离本主题技术的范围。

根据一些实施例，图1中系统的一个或多个计算可以由云系统中的一个或多个处理器来执行。在一些实施例中，输出的任何呈现(例如，用户界面的呈现)可以由用户设备(例如，个人计算机、移动设备等)来执行。在一些实施例中，对图1中系统的任何输入可以由输入系统进行，该输入系统可以包括硬件和/或软件(例如，小键盘、键盘、麦克风、语音识别软件等)。在一些实施例中，图1的系统所使用的数据库(例如，结构化语义数据库106)可以来自任何源，例如关系数据库、NoSQL DB、平面文件和/或任何其他合适的数据库。在一些实施例中，数据库可以是本地数据库和/或远程数据库。

图2A示出了针对查询提供语义响应的方法。可以利用谷歌等搜索引擎查找搜索项“ami”的有关信息。

图2B示出了根据本公开的一些实施例的通过合成来自多个路径的数据而启用的界面的再现。在一些实施例中，这些路径可以是图1中的101a和102a。

图3A示出了针对查询提供语义响应的方法。图3B示出了根据本公开的一些实施例的通过合成来自多个路径的数据而启用的界面的再现。在图3A中，用户界面由文档搜索索引301支持，该文档搜索索引301带有搜索输入“AML”的属性信息框302。此外，一组语义上与搜索项相关的问题出现在驱动界面的后端。相反，在图3B中，用户界面可以具有丰富的语义信息。例如，用户界面呈现的结果中根本没有搜索项“AML”。即使粗略地看一下，也可以看到没有匹配搜索项“AML”的结果。在一些实施例中，支持界面的合成数据可以是行和列的矩阵，其中第一列303和第二列304是实体(在该示例中，第一列包括与药物和其关联公司相关的信息；第二列包括与路径相关的信息)，该实体可以与用户输入“AML”相关。之后的列可以形成时间序列，其中每个列涉及药物开发的不同阶段。

图4示出了根据本公开的一些实施例的由响应合成器112(图1)生成的示例性二维数据矩阵。该示例性二维数据矩阵示出了对用户输入“AML”的响应，其中示出了以下项目：实体401(药物+公司、路径)、实体403的时间序列(处于各开发阶段的药物)、摘要402和矩阵变换控件404，矩阵变换控件404可以包括数据的语义过滤器和变换盒。意图确定可以由查询分析器111(图1)来执行，这可以导致利用响应模板选择器115(图1)来合成响应。在一些实施例中，模板选择器/生成器115可以由神经网络(例如卷积/RNN组合)进行训练，以生成涉及实体和实体序列的适当响应模板。

在一些实施例中，作为监督学习系统的组件可以具有用户采样和验证，包括手动覆盖。即使用来训练模板选择器/生成器115的标记数据的量在最初时很低(例如，对于特定的领域，系统可以记忆)，这种系统的缩放也可以比手动设计规则驱动的模板系统要好，其中更多标记数据(用例)的可用性会导致系统变得更加脆弱。在神经网络中，当网络中的参数数量较大而训练数据较小时，给定大量参数的情况下，系统可以对训练数据执行紧密拟合。这就是所谓的过度拟合。过度拟合就像记忆训练数据一样。这并不一定意味着它可以远远超出训练数据。为了进行说明，在二维空间中示出了图4中的响应。在一些实施例中，本公开的实施例可以支持具有任意数量维度(包括单个维和多于两个维)的界面。

在现有技术的水平下，用户界面通常由数据库视图从后面提供支持，其中用选定的标记实体在前面精选视图的数据。相反，如图4所示，本发明的实施例能够使得动态地自动合成丰富的语义响应，即使当输入查询包括未标记的实体时(例如，髓鞘再生，“详述髓鞘再生”)。在一些实施例中，丰富的语义响应可以通过以下合成：(1)基于查询的上下文检查输入术语周围的实体分布，其中在语料库内和/或不同语料库之间实体分布可以在术语周围变化(例如，图9示出术语“髓鞘再生”的实体分布)；(2)识别候选实体和实体序列以构建响应；(3)基于识别的候选实体和实体序列创建摘要；以及(4)选择适合所选候选实体和实体序列的变换。

此外，本公开中描述的系统组件可以根据结构化和非结构化数据中进行监督、无监督或半监督学习。

根据本公开实施例的系统和方法可以解决合成用户查询的语义响应所面临的各种挑战(其示例将在下面直接讨论)。

一个示例性挑战可以是当用户进行不是标记实体或实体类的查询时(例如，髓鞘再生)。在这种情况下，知识图谱(包括标记和未标记的实体)可以通过扫描其邻域来帮助找到与用户输入相关的标记实体。此外，标记实体(例如，基因、药物、适应症、公司等)的分类能够实现实体分布的计算(例如，图9)，以便于选择该实体最相关的语义再现。这种方法解决了上述实体类不足的问题，其中现有技术系统的当前状态将只输出词汇匹配结果，或者只输出未标记实体的词嵌入邻域中的实体。

另一个示例性挑战是，尽管词、文档/段落/句子嵌入具有将语义相关的实体集合在一起的固有属性(即使它们未在语料库中共现)，但是这些实体很难从嵌入中发现。

本公开的实施例可以通过将语义关系与标记的实体和/或实体类相结合来构建知识图谱。这可以激发出创新的见解，而这些见解在原始文献中并未描述为共现。例如，词“riluzole”(ALS药物)和词“vemurafenib”(黑素瘤药物)彼此接近，如其余弦距离所示，余弦距离可以是大约0.48。因为是在治疗癌症的上下文中发现的这两个词，所以余弦距离是显著的。因此，在发现这些词的上下文中存在重叠。然而，“riluzole”和“vemurafenib”这两个词的近似共现并没有出现在任何相关原始文献中。例如，谷歌搜索在五个词的窗口接近度内没有显示包含这两个词的文档。在一些实施例中，新颖的见解可以从能够显示诸如“riluzole”和“vemurafenib”之类的词之间的关系的系统中显现出来。这些见解参与R&D假设、临床试验设计和商业决策的有效生成。在一些实施例中，这些相关实体的可视化可以涉及一种机制，该机制将这些邻域实体与仅因为与文档中的原始术语物理接近而出现的其他邻域实体区分开来。示例见图11。换句话说，如下文更详细描述的，实体“riluzole”和“vemurafenib”之间的关系由于它们在语料库中的接近度而未被发现。相反，正是基于对整个语料库的分析，这些实体的特征的相似性(例如，通过比较其向量的余弦距离)揭示了隐藏的关系。

在一些实施例中，根据非结构化和结构化源创建的知识图谱可以用于创建实体特定的质心(例如，使用与上下文相关的所有或一些实体)，并使用合成的质心来验证由序列学习模型，例如双向LSTM(长短时记忆)RNN，生成的实体的标记。语义生物知识图谱可以用于约束必须对特定文档加以解释的上下文；这有助于从通用数据库(例如，考虑所有HUGO基因的数据库)中过滤出大量“噪音”。

在一些实施例中，来自结构化源的键/值字段通过专用编码器进行处理，该编码器可以创建非结构化流，该非结构化流可以被馈送到学习模型以生成揭示结构化数据的潜在语义关系的词嵌入。

在一些实施例中，带有标记实体的知识图谱可以直接用于识别实体并生成响应。知识图谱可以关联不同的实体，如示例性“邻域”(图5A至5B)和“类比”案例研究(图6A至6D)所强调的。在一些实施例中，知识图谱可以包括以下集合：(1)容纳所有标记和未标记实体的集合计算机系统，(2)实体特定计算机系统，以及(3)容纳未标记为实体的所有术语或短语的未标记计算机系统。

图5A至5B示出了根据本公开的一些实施例的与不同实体相关的知识图谱，如针对用户提供的示例性查询的“邻域”所强调的。对于图5A和图5B，用户提供的示例性查询分别是“拉科酰胺”和“赛妥珠单抗”。这些知识图谱可以显示系统如何在语料库(例如，“核心语料库”)上运行。

图6A至6D示出了根据本公开的一些实施例的显示知识图谱如何使不同实体相联系的示例，如针对“类比”所强调的。在一些实施例中，知识图谱包括标记的(分配有实体/实体类的词/文档/段落/句子嵌入)和未标记的实体。

图6A示出了示例1，其中存在“anti-EGFR:Erlotinib::infliximab:？”(使用众所周知的格式A:B::C:？，意思是A对B就像C对？)，最高命中包括抗-TF的目标英夫利昔单抗。图6B示出了示例2，其中存在“T315I:Ponatinib::CO-1686:？”，最高命中包括CO-1686/Rociletinib的基因型T790M。图6C示出了示例3，其中存在“Arthritis:Certolizumab::Rotigotine:？”，最高命中包括帕金森综合征，其是FDA批准罗替戈汀治疗的疾病适应症。图6D示出了示例4，其中存在“Zyrtec:Allergy::Hypercholesterolemia:？”，最高命中包括FDA批准治疗血胆脂醇过多的罗苏伐他汀。

在一些实施例中，所揭示的语义关系可以有助于药剂学中关键商业、临床和R&D功能的自动化工作流程。示例是，通过孤儿+罕见疾病视角生成对复杂疾病形式的战略洞察，以帮助用户确定高价值的投资空白。相关的用例可以是生成竞争性临床投资前景所需的强大的可视快照，以支持数据驱动的商业和临床策略。

在一些实施例中，一个示例性用例可以涉及工作流程自动化，其可以使用生物知识图谱来识别孤儿/罕见疾病创新空白。在一些实施例中，可以采取如下不同的步骤来实现该工作流程自动化。首先，从语义生物知识图谱中，可以识别出每个搜索项邻域中最接近的疾病适应症“实体”(例如，对于“真实世界表型”实体，诸如“神经退化”、“髓鞘再生”、“血管生成”等)。第二，对于每个识别出的疾病适应症，系统可以确定一个或多个地理区域中的市场(例如，商业市场、投资市场)，诸如美国、西欧、英国、日本和新兴市场。生物知识图谱还可以用于支持用户界面(UI)，以可视化每种疾病和/或每个地理区域的临床竞争状况。

图7示出了示例性靶心视图(备选2D视图)，其可以是“符号”时间相位的径向表示，其中，离中心越近，药物越先进/市场越好；离外围越近，开发度/临床前资产越低。该系统可以基于药物和疾病之间的余弦距离以及其他因素(例如，搜索项、其他相关实体类型，诸如临床试验)，找到并定位与每种疾病相关联的药物。针对搜索项“神经退化”所显示的示例性靶心视图可以显示出罕见疾病，例如PKAN、LHON和CLN2，可以提供创新空白。第三，生物知识图谱还可以支持后续的用户查询。例如，用例可以涉及：基于各种类型的信息(包括失败/终止的试验或来自联邦不良事件报告系统(FAERS)的信号)，识别与每种疾病-药物机制对的战略投资相关的额外风险因素。另一个常见的后续查询可能涉及识别可参与并购(M&A)或许可策略的特定资产(例如，药物、设备)。该工作流程也可以通过生物知识图谱生成的视觉效果，例如二维效果图之一(靶心、竞争流水线等)来启用。在一些实施例中，可以从一个或多个不同来源(例如，FAERS、涉及特定药物和疾病适应症对的失败/终止的临床试验的数量等)预先计算风险因素。

图7的靶心视图还示出了根据本公开的一些实施例的生物知识图谱如何能够自动捕获任何用户提供的查询(例如，“神经退化”)与其邻域中的不同实体(例如，在此突出显示了八种示例性疾病适应症)之间的实时语义关系。例如，在图7中，用户已经搜索了“神经退化”。系统使用生物知识图谱识别与搜索项相关联的顶部标记实体(例如，通过距离测量的“接近”)。然后，系统使用与顶部标记实体相关联的实体类型(取自标签)来确定要显示的数据的性质。在该示例中，实体类型/标签“疾病”与最接近搜索项的实体相关联。因此，该系统将靶心的每个部分与一个实体相关联，该实体是与搜索项“神经退化”(例如ALS、帕金森症、阿尔茨海默症等)相近的特定疾病。然后，系统发现实体类型/标签“药物”接近该搜索项。因此，系统将特定药物填充进图的相应部分，该药物与对应于该区域的特定疾病接近。

在一些实施例中，显示的实体的数量可以是固定的(例如，前八个疾病适应症)。在一些实施例中，显示的实体的数量可以通过使用“过滤器”功能来改变(例如，可以增加或减少数量；可以添加或移除特定实体)。在一些实施例中，系统可以基于结果中不同实体的可用性和重要性来确定要显示的实体的初始数量。这里示出的示例性“靶心视图”可以将来自各种临床试验、药物名称和/或其他相关信息(例如公司名称、作用机制等)的信息聚集在一起。而这可以确保公司战略和竞争情报功能不会被市场误导。

图8示出了根据本公开的一些实施例的生物知识图谱，其能够跨公司和作用机制(或信号通路)快速组织关于药物和其竞争对手的信息，这可以是竞争市场情报工作流程的核心。在该示例中，对于搜索查询“AML”，系统可以检索对疾病至关重要的几种不同的信号通路，并且根据药物的开发阶段来表示整个市场的药物(例如，这里示出了临床试验阶段1、2、3和上市)。此外，可以在卡片视图中捕获影响商业决策和市场规模的每个试验的属性(例如，像FLT3阳性的遗传标记；一线治疗信息，以及阿糖胞苷+柔红霉素等联合疗法)。

图8所示的示例示出了涉及竞争情报工作流程自动化的另一个示例性用例，其可以跨R&D、临床试验、生物医学知识库、公司新闻稿/投资者报告和/或监管机构的不同孤岛集成信息，以突出商业显著因素(例如，一线治疗、生物分子约束、联合疗法等)。在一些实施例中，可以采取不同的步骤来实现这一工作流程自动化。首先，从语义生物知识图谱来看，对于用户搜索的疾病适应症实体，从作用机制(MOA)的观点来看，可以识别“路径”实体和通过这些路径具体起作用的药物。类似于图7描述的方法，系统显示路径和药物实体，因为这些实体类型/标签对应于与闭合实体相关联的标签，该闭合实体与搜索输入“AML”相关联。第二，可以识别药品的相关实体，例如销售药品的“公司”、开发阶段(如临床前、IND、第一阶段、第1/2阶段、第二阶段、第三阶段、第四阶段、NDA/预期上市、上市等)。可以计算“试验组”实体，其可以是彼此最密切相关的一系列临床试验(例如，类似的临床试验参数，例如一线治疗、联合/单一治疗、生物标记/目标约束)。第三，所有上述信息都可以基于用户友好的角度作为一个“竞争流水线”进行整合。例如，可以使用如图8所示的流水线视图。流水线视图是一个二维空间组织，每行标识一种特定药物(和药物公司)，并具有相应的“开发阶段”(x轴是“符号”时间相位，y轴是单个药物)。可视化方面的创新在于将来自不同公司的具有一些共同主题(比如相同的分子靶向机制)的药物进行“聚集”。系统可以通过检查实体分布来识别这样一个公共主题。每个试验组可以显示为单独的一行，组成该组的单个临床试验卡仅突出已经由生物知识图谱链接在一起的商业显著信息。实体分布可以标识候选列，该候选列可以包括实体和实体序列。术语的排序可以基于模板或通过训练模型来生成要呈现的实体类型的适当矩阵。第四，竞争性流水线视图可以快速总结处于不同开发阶段(例如，临床前、IND、第一阶段、第1/2阶段、第二阶段、第三阶段、第四阶段、NDA/预期上市、上市等)的药物总数。在一些实施例中，系统可以基于每行的特定药物/路径和生物知识图谱中的临床试验信息之间的距离关系来确定药物开发的各个阶段。在一些实施例中，该视图可以提供对临床上最先进的路径(系统生物学)和/或作用机制(与R&D公司战略和市场情报显著相关)的快速识别。竞争流水线视图可以呈现一个概览，使得能够快速识别特别感兴趣的公司的资产，然后可以详细研究这些资产。第五，这里显示的视图也可以容易地扩展为(1)显示视图中包含的系统最后一次自动更新的信息的日期；(2)显示参与具体验证视图中显示的数据(包括每个SME最后手动验证数据的日期；到SME的专业网站/Linkedin的可能链接)的主题专家(SME)；以及(3)使用户能够编辑显示的视图，保存工作流/会话，并将视图直接下载为图像/幻灯片，从而提高用户的工作效率。扩展可以基于识别所寻求的知识和答案的词之间的关联。例如，由于药物名称和专家名称之间的距离，用户可以点击顶部的行，输入“专家”，并获得主题专家。作为另一示例，如果用户输入“CAR T细胞治疗专家”，则系统可以检索嵌合抗原受体T细胞(CART)治疗领域中所有当前的“关键意见领袖”。

图9示出了根据本公开的一些实施例的在应用实体识别方法之后，查询示例性短语“髓鞘再生”的生物知识图谱，其中实体识别方法使得不同的实体类能够被可视化。在该说明性示例中，小图902中的药物、小图904中的疾病适应症和小图906中的生物分子信号可以显示在短语“髓鞘再生”邻域中识别的不同实体类型。可以根据到原始查询向量“髓鞘再生”的余弦距离对实体进行排名，其中余弦距离1排名最高，并指示自向量“髓鞘再生”。

在一些实施例中，另一个示例性用例可以涉及使用户能够查询“真实世界表型”，以可视化按相关性递减排名的相关实体，从而识别“孤儿/罕见疾病”投资渠道。对于研究中枢神经系统(CNS)疾病的制药公司来说，真实世界表型“髓鞘再生”可能很显著。然而，“词”髓鞘再生并不存在于人工精选的疾病/适应症语料库(如ICD10)中，该语料库只对疾病适应症进行分类。鉴于每个制药公司都拥有自己独特的“真实世界表型”，竞争情报和企业战略功能的用户很可能会查询任何具有“髓鞘再生”等真实世界表型的系统。有鉴于此，使用现有数据库可能会导致错误的商业、临床和R&D投资决策。在一些实施例中，生物知识图谱包括数百万个实体，包括数千个真实世界表型，如“髓鞘再生”。生物知识图谱可以进一步准确地捕捉不同实体(如药物/化合物、疾病/适应症、基因等)的“髓鞘再生”邻域，如图9所示。

上面的示例可以显示像竞争流水线和靶心这样的视图如何能够具备独特的能力，将不同的重要实体(如基因、药物、疾病)联系起来，用于像“髓鞘再生”这样的高价值查询。例如，“髓鞘再生”的结果可以识别疾病适应症佩梅病(PMD)和相关的PLP1基因(参见图10)，在用户界面(UI)上反映这些见解使得视图“语义准确”。这可以克服现有的竞争情报和企业战略功能主要支持词汇搜索和检索的用户界面的致命缺陷。“髓鞘再生”的结果还可以识别其他疾病适应症(例如，小图904中的任何其他疾病适应症)，并使用类似于图10所示的生物知识图谱发现相关基因和/或药物。在一些实施例中，系统或用户可以选择任何实体，并且系统可以使用类似于图10所示的生物知识图谱基于所选择的实体来确定其他相关实体。在一些实施例中，系统可以通过使用结构化知识库的组合来填充路径抑制剂，以检索所靶向系统识别的路径的抑制剂。在一些实施例中，抑制剂的“邻域”可以用于识别该邻域中的所有其他“抑制剂”实体，然后在这些“抑制剂”邻域中的每一个中，系统可逐例确定“基因”或“路径”有多“接近”。

图10示出了根据本公开的一些实施例的生物知识图谱，其能够识别与用户提供的任何真实世界表型查询密切相关的疾病适应症。对于此处示出的示例，查询“髓鞘再生”可以实现孤儿/罕见疾病PMD(佩梅病)的识别。反过来，对PMD邻域的分析可以揭示其他几种真实世界表型，具体来说，就是神经元丢失、轴突运输和神经炎症，其与PMD的关系按降序排列。图10中的数字表示两个实体之间的余弦距离。因此，余弦距离越大，两个实体越近。在该示例中，神经元丢失、轴突运输和神经炎症与PMD的联系比髓鞘再生少。接下来是蛋白质聚集，最后与PMD联系最小的表型分别是突触传递、衰老、组织微结构、糖尿病和吞噬作用。在该示例中，基因PLPl(包括剪接变体DM20)、PMP22、MPZ和GJB1都在PMD疾病媒介物的邻域中。利用额外的生物平板筛选实验数据集可以进一步表明，BRAF和甲乙酮途径抑制剂对过度表达PLPl、PMP22、MPZ和GJB1基因的样品特别敏感。在一些实施例中，这些额外的生物面板筛选实验数据集可以来自一个或多个结构化数据库，例如由博德研究所(Broad Institute)推出的癌症治疗反应门户网站(CTRP)v2、由博德研究所出版的《癌细胞系百科全书(CCLE)》、桑格研究所(Sanger Institute)的癌症体细胞突变目录(COSMIC)和癌症药物敏感性基因组学(GDSC)数据库。在一些实施例中，可以使用任何数量的外部结构化数据库或知识库来收集额外的见解。因此，所公开的发明还促使在髓鞘再生试验中测试BRAF-MEK抑制剂。在该示例中，如上所述，显示为与搜索项“PMD”相关的实体类型可以由与最接近搜索项的实际实体(例如，真实世界表型)相关联的实体类型来确定。要显示的每个连续类型的实体(例如基因)又可以由与搜索项“PMD”相关联的实体类型和最高实体值“髓鞘再生”来确定。在每个级别，从与先前实体值(例如，特定基因)相关联的最高实体值中发现新的实体类型(例如，药物)。这样，系统可以揭示多级别关系。

在某些情况下，同一实体可以适用于多个实体类型。例如，实体“ICOS”可以适用于基因类型(诱导型T细胞共刺激因子)、公司名称(ICOS公司的商标，该公司于2007年被EliLily公司收购)或其他实体类型。这种实体会对传统系统造成歧义。例如，如果用户将查询项“ICOS”输入传统搜索引擎，搜索引擎会生成的结果不考虑“ICOS”的不同含义。根据一些实施例，公开的系统和方法可以识别给定实体的不同实体类型。这些不同的实体类型可以以不同的邻域义项呈现。对于每个邻域义项，可以呈现与给定实体相关联的相关实体。

图31示出了根据本公开的一些实施例的示例性邻域义项界面3100。当实体作为查询项3101被输入并且该实体与多于一个实体类型相关联时，邻域义项界面3100呈现邻域义项，每个邻域义项对应于不同实体类型之一。每个邻域义项与同查询项3101相关联的实体相关联，并且还与对应于邻域义项的实体类型相关联。例如，对于查询项“icos”3101，邻域义项界面3100可以呈现四种不同的邻域义项3102(icos¹、icos²、icos³和icos⁴)。在一些实施例中，每个邻域义项可以与表示查询项3101为相应邻域义项的概率的百分比相关联。例如，icos¹旁边显示的值61.8％可以指示查询相“icos”在语料库中61.8％的时间与邻域义项icos¹相关联。为邻域义项“icos¹”时，与查询项“icos”相关联的词或实体3103可以包括“icos¹”、“CO_STIMULATOR”、“pdcdl”、“il2ra”、“icos”、“CD28”和“叉头基因”，它们可以相对于查询项“icos”按其语义关联强度的递减顺序列出。通过在邻域义项icos¹中分析这些实体，系统或用户可以认识到为邻域义项的“icos”的实体类型可能是“基因类型”。在该示例中，行3104显示词“pdcdl”具有0.76的第三高语义关联强度，并且在语料库中的188个文档中出现1,109次。对于给定的查询项，可以使用各种方法来确定其邻域义项。例如，可以使用Adaptive Skip-gram(Adagram)模型捕获从无监督学习模型生成的词向量。其他可以使用的方法和模型包括Multisense Skip-gram，例如，Neelakantan等人(2014)，和/或可以推断词在上下文(例如，生物上下文)中的不同义项的任何其他合适的模型或方法。

图32示出了根据本公开的一些实施例的示例性邻域义项界面3200。图32示出了当邻域义项是icos²时查询项“icos”的结果。在图32中，具有最高语义关联强度的实体包括“henneys”、“制药”、“标记临床研究(xoma)”、“henney”、“基因泰克(Genentech)”、“公司”和“疗法”。从这些实体中，系统或用户可以认识到，为该邻域义项的“icos”的实体类型可能是“公司名称”。

图33示出了根据本公开的一些实施例的示例性知识图谱界面3300。知识图谱界面3300可以显示与查询项3301相关联的不同邻域义项3302。每个邻域义项可以链接到细节框3303，细节框3303示出了查询项3301为相应邻域义项的概率以及与邻域义项相关联的实体列表。例如，对于查询项“icos”3301，知识图界面3300示出有四个邻域义项3302(表示为矩形的四个部分)。“icos”为第一邻域义项的概率为61.8％。第一邻域义项包括以下实体：“icosl”、“共刺激因子(co-stimulator)”、“pdcdl”、“il2ra”、“icos”、“cd28”、“叉头基因”、“icosig”、“foxp3”和“klrgl”。在一些实施例中，细节框3303可以通过点击矩形3302中对应于期望的邻域义项的区域来访问。

因此，在一些实施例中，系统或用户可以通过分析每个邻域义项的结果实体来确定对应于期望实体类型的邻域义项。

图34示出了根据本公开的一些实施例的示例性知识图界面3400。知识图界面3400类似于知识图3300(图33)，除了此处细节框3403示出的是第二邻域义项的信息。“icos”在第二个邻域中的概率为28.1％。第二邻域义项包括以下标记：“henneys”、“制药”、“标记临床研究”、“henney”、“基因泰克”、“公司”、“疗法”、“礼来”、“董事会”和“瓦克斯金(VaxGen)”。

图35示出了根据本公开的一些实施例的示例性信息框3500。信息框3500可以为实体提供聚合信息。当实体属于哪个实体类型不明确时，这会很有用。例如，当实体“icos”的信息框3500以第一邻域义项启动时，信息框3500表明“icos”指的是“诱导型T细胞共刺激因子(ICOS)”3501，并提供了关于基因“icos”的详细信息3502。信息框3500可以进一步提供一个或多个资源3503，从这些资源中检索所述详细信息。例如，信息框3500列出了以下资源3503：HGNC、基因卡片(GeneCards)、GTEx、NIH美国国家癌症研究所GDC数据门户、cBioPortal用于肿瘤基因组学、UniProt和谷歌。在一些实施例中，这些资源中的每一个都可以链接到其相应的资源网站或数据库。

图36示出了根据本公开的一些实施例的示例性信息框3600。当实体“icos”指的是实体类型“公司名称”时，信息框3600可以提供关于实体“icos”的信息。在这一背景下，信息框3600提供了关于公司“icos”的信息，而不是关于基因类型“icos”的信息。在一些实施例中，只能显示提供关于公司“icos”的信息的资源链接。例如，在信息框3600中，当所有其他资源都不提供关于公司“icos”的信息时，只能提供到谷歌的链接。

因此，在一些实施例中，系统或用户可以通过分析信息框中的信息来确定和选择对应于期望实体类型的邻域义项。

图52至56示出了根据本公开的一些实施例的与五种不同实体类型相关联的实体“Rho”的邻域义项图。在一些实施例中，“Rho”可以表示为其与五种不同实体类型的每个关联的不同向量。

在图52中，第一邻域义项(Rho¹)与同数学相关性相关的词相关联，例如“皮尔森”和“斯皮尔曼”。因此，可以得出这样的结论，即该邻域义项捕获了“Rho”(希腊符号)作为斯皮尔曼等级相关性(也被称为斯皮尔曼Rho)的符号的用法。

在图53中，第二邻域义项(Rho²)与同其他希腊符号(包括σ、μ和π)相关的词相关联。因此，可以得出这样的结论，即该邻域义项捕获了“Rho”作为希腊字母表中第17个字母的用法。

在图54中，第三邻域义项(Rho³)与同其他GTP酶相关的词(包括“鸟苷”和“RHOA”)相关联。因此，可以得出这样的结论，即该邻域义项捕获了“Rho”作为小GTP酶家族的用法，这些小GTP酶在信号转导级联中充当分子开关。

在图55中，第四邻域义项(Rho⁴)与同Rho Ventures(一家投资基金公司)相关的词相关联，包括其常务董事的姓氏“leschly”、常务合伙人的姓氏“kairouz”以及“Ventures”一词。因此，可以得出这样的结论，即该邻域义项捕获了“Rho”作为投资基金的用法。

在图56中，除了“RHOA”(GTP酶的基因符号)之外，第五邻域义项(Rho⁵)与作为最高关联的词“GTPASES”和“GTPASE”相关联。因此，可以得出这样的结论，即该邻域义项捕获了“Rho”作为GTP酶蛋白家族的用法。

图37示出了根据本公开的一些实施例的示例性知识图界面3700。在一些实施例中，知识图界面3700可以提供查询框3701，其中用户可以输入查询项(词或短语)，该查询项可以用于查询与查询项具有语义关联的实体。知识图界面3700可以为查询提供一个或多个过滤器。在一些实施例中，可以设置结果实体的最小出现次数3702。例如，如果用户将最小出现次数3702设置为“20”，则查询结果只能包括语料库中出现至少20次的实体。

在一些实施例中，可以设置查询结果3703的数量。例如，如果用户将结果3702的数量设置为“20”，则在显示词嵌入和相关数据的余弦分析结果的输出框3708中仅显示20个结果。如果结果的数量少于20，则在输出框3708中显示的结果的数量可以少于20。如果结果的数量超过20，则只能显示前20个结果(例如，具有最高语义关联强度的20个实体)。其他结果可以忽略。或者，一个功能可以为用户提供到另一个页面的导航以获得其他结果。

在一些实施例中，可以设置最小语义关联强度3704。例如，如果最小语义关联强度设置为“0.0”，则查询将考虑所有实体，而不管它们的语义关联强度如何。然而，如果最小语义关联强度3704被设置为“0.3”，则仅考虑语义关联强度为0.3或更高的实体。

在一些实施例中，语料库选择功能3705可以设置用于查询的考虑语料库。核心语料库可以代表系统中所有可用数据集的超集。例如，如果语料库选择功能3705设置了“核心语料库”(在本示例中包括98.14k文档)，则将考虑所有可用的数据集(包括Pubmed、临床试验、FDA、SEC、维基百科和Media Corpus)用于查询。可以通过选择语料库3705中核心语料库之外的选项来选择一个或多个单独数据集。

在一些实施例中，知识图界面3700可以建议用户可能感兴趣的一个或多个实体3706。该建议可以基于用户的查询项和/或用户的设置。该建议也可以基于用户先前与系统的交互和/或其他用户与系统的交互。在一些实施例中，建议可以是与查询项具有高度语义关联的实体。在一些实施例中，建议可以来自存储在同义词数据库中的同义词。在一些实施例中，可以用FASText确定同义词。

在一些实施例中，知识合成框3707可以为查询项3701列出为所选邻域义项的一个或多个标记集合。例如，与查询项“pcsk9”的邻域相关联的标记集合可以包括“基因修饰因子”、“基因”、“所有基因”、“活肝细胞...”、“鼠肝(SEQC)、“致病性过敏...”、“肝脏(GTEx)”和其他邻域(显示为“更多”...+15”)。在一些实施例中，标记集合可以指相同实体类型的实体集合。在一些实施例中，标记集合可以是机器生成的和/或人工精选的。

在一些实施例中，可以基于与查询项3701相关联的一个或多个实体来确定一组标记集合。例如(以下称为“示例A”)，假设查询项“E1”与以下实体相关联：“A1”、“A2”、“A3”、“A4”、“A5”和“A6”。同时假设“A1”、“A2”和“A3”属于标记集合“ECl”；“A4”和“A5”属于标记集合“EC2”；“A6”属于标记集合“EC3”。在该示例中，可以确定该组标记集合包括ECl、EC2和EC3。这些标记集合可以显示在查询项“E1”的知识合成框3707中。在一些实施例中，知识合成框3707可以仅显示这些标记集合的子集。例如，系统可以选择只显示实体数量最多的前两个实体集合。在示例A中，可以选择只显示ECl和EC2，因为它们各自包含比EC3更多的实体。在一些实施例中，系统可以基于其他标准选择性显示标记集合——例如，选择显示这样的两个标记集合，其中在每个标记集合中包含的实体具有最高平均或中间语义关联强度。

在一些实施例中，可以基于与查询项3701相关联并满足特定条件的一个或多个实体来确定一组标记集合。例如，要包含在该组标记集合中，标记集合必须具有大于、小于或等于标记集合中一定数量的实体。作为另一示例，要包含在该组标记集合中，标记集合必须具有大于、小于或等于特定语义关联强度的平均或中间语义关联强度。在上面的示例A中，如果标记集合需要在该组标记集合中包含至少两个实体，则该组标记集合中仅包含ECl和EC2。在另一示例中，并没有考虑与查询项3701相关联的所有实体。换句话说，系统可以在确定该组标记集合之前过滤掉不满足特定条件的那些实体。在上面的示例中，进一步假设系统要求所有实体被认为至少具有0.7的语义关联强度；A3、A4、A5和A6各自具有大于0.7的语义关联强度，但是A1和A2不具有；以及知识合成框3707仅显示具有最多标记数的一个标记集合。在这种情况下，知识合成框3707将显示EC2，因为系统当前将确定EC1仅具有A3，EC2仍然具有A4和A5，EC3仍然具有A6。

在一些实施例中，每个标记集合可以与百分比相关联，其中该百分比可以表示各个标记集合中的标记数量除以所有标记集合中的标记总数。在一些情况下，标记集合的百分比总和可能超过100％，因为一个或多个标记可能属于多于一个标记集合。在一些实施例中，知识合成框3707可以选择显示百分比大于一定阈值的标记集合。

在一些实施例中，可以在生成标记集合列表之前、期间和/或之后应用一个或多个过滤器。在一些实施例中，当邻居和查询项之间的共现水平高于或低于一定阈值时，可以从结果或标记集合中过滤出查询项的邻居。例如，只能选择具有高共现水平的邻居。在另一示例中，只能选择具有零共现水平的邻居。使用过滤器，可以控制其具有以下一种或多种类型的结果：(1)具有高余弦距离和高共现水平的邻居；(2)具有低或零共现水平但通过其他实体相关的邻居；(3)具有高余弦距离和低或零共现水平的邻居；(4)在整个感兴趣的语料库中具有高出现率和高共现水平的邻居；以及(5)在感兴趣的语料库中具有低总体出现率低和高共现率的邻居。后面的过滤器可能特别重要，因为它可以指示实体/标记之间的刚刚开始出现但尚未被熟知或识别的关联。这些结果的类型是非限制性的，不一定是互斥的。

在一些实施例中，输出框3708可以产生与查询项3701相关联的结果。例如，输出框3708可以按结果实体的语义关联强度的递减顺序提供结果。输出框3708还可以显示与结果中的每个实体相关联的量值、出现次数和文档数量。在一些实施例中，量值可以指与实体相关联的向量的量值，其中量值是L2范数(即向量的各个维度的平方和的平方根)。例如，实体“circulating_pcsk9”的语义关联强度是0.81。它的量值是5.4。它在所选语料库中的237个文档中出现了494次。此外，可以显示与每个实体相关联的实体集合。

图38示出了根据本公开的一些实施例的示例性知识图界面3800。知识图界面3800类似于知识图界面3700(图37)，除了所选语料库3805是“Pubmed”。因此，在该示例中，查询限于Pubmed数据库中存在的文档，导致在知识合成框3807和输出框3808中产生不同的结果。

图39示出了根据本公开的一些实施例的示例性知识图界面3900。知识图界面3900类似于知识图界面3700(图37)，除了所选语料库3905是“SEC”。因此，在该示例中，查询限于SEC数据库中存在的文档，导致在知识合成框3907和输出框3908中产生不同的结果。

图40示出了根据本公开的一些实施例的示例性知识图界面4000。知识图界面4000类似于知识图界面3700(图37)，除了所选择的语料库4005是“Media Corpus”。因此，在该示例中，查询限于Media Corpus数据库中存在的文档，导致在知识合成框4007和输出框4008中产生不同的结果。

图41示出了根据本公开的一些实施例的示例性知识图界面4100。一个实体可以与一个或多个同义词相关联。例如，实体“pcsk9”可以具有以下同义词：“pcsk9”、“pcsk9_pcsk9”、“pcsk9_ldlr”、“ldlr_pcsk9”和“pcsk9_mediated”。在一些实施例中，同义词可以以与如何生成建议相同的方式生成，如上所述。所公开的系统和方法可以合并实体的同义词，使得查询结果不会将同义词列为单独的词。在一些实施例中，知识图界面4100可以允许启用或禁用同义词合并功能4101。当同义词合并功能被禁用4101时，系统将实体及其同义词视为不同的实体。例如，当同义词合并功能被禁用4101时，实体“pcsk9”及其上面的任何同义词被视为不同的实体。

图42示出了根据本公开的一些实施例的示例性知识图界面4200。在图42中，启用同义词合并功能4201，使得实体及其同义词被视为单个实体。例如，同义词列表4202中的同义词显示了实体“pcsk9”的所有同义词，这些同义词均被视为与实体“pcsk9”相同的实体。

图43至44示出了根据本公开的一些实施例的示例性知识图界面4300，4400。知识图谱界面4300，4400示出标记列表4301，4401，每个列表列出给定标记集合中的标记。例如，标记列表4301列出了基因标记集合中的所有标记。作为另一示例，标记列表4401列出了肝脏(GTEx)标记集合中的所有标记。

图45示出了根据本公开的一些实施例的示例性知识图界面4500。知识图界面4500可以提供自动完成功能4501。当用户开始在查询框中键入实体时，自动完成功能4501可以预测该实体并提供一个或多个建议。在一些实施例中，每个建议实体还可以包括附加信息，例如每个建议实体在所选语料库中出现的次数。

根据一些实施例，热图可以提供多个实体之间关联的二维视图，并识别它们之间的关系。图46示出了根据本公开的一些实施例的示例性热图4600。热图4600可以显示基因(如y轴上所列)和药物(如x轴上所列)之间的关联。在该示例中，第一行是基因“pd_l”，其他行是与基因“pd_l”相关的其他基因。这些基因可以与FDA批准药物(包括大约6500种药物)的实体集合进行比较。可以选择与基因“pd_l”具有最高语义关联强度的药物的子集，并将其显示为列。热图中的每个单元可以表示相应行和列实体之间的语义关联强度。在一些实施例中，不同的颜色和/或不同的颜色梯度可以用来表示各种语义关联强度。颜色图例4603可以将颜色(或颜色梯度)映射到语义关联强度。热图4600可以揭示实体之间的各种关系。例如，从第一行中，可以观察到纳武单抗和派姆单抗是结合pd_l的药物，与其他药物相比，“pd_l”与这些药物的关联最强。在一些实施例中，热图4600可以包括每行语义关联强度的平均值4601和/或标准偏差4602。

图47示出了根据本公开的一些实施例的示例性热图4700。在该示例中，第一行代表药物“利妥昔单抗”，其他行代表与药物“利妥昔单抗”相关的其他药物。将这些药物与疾病实体的集合(可以包括大约9500种疾病)进行比较。可以选择这些与药物“利妥昔单抗”具有最高语义关联的疾病的子集并显示为列。类似于热图4600，每个单元值可以表示该对实体之间(即，在该单元处表示的一对药物和疾病之间)的语义关联强度。热图4700不仅可以揭示当前使用利妥昔单抗的适应症(即淋巴瘤的各种亚型)，还可以揭示包括狼疮肾病(突出显示)在内的似乎“标签外”的适应症。

图48示出了根据本公开的一些实施例的示例性热图4800。热图4800可以与分子分析相结合。在该示例中，第一行代表基因“TRIM32”，其他行代表与基因“TRHVI32”相关的其他基因。这些基因与代表从GTEx数据库获得的人脑组织中特异性过表达的基因的实体集合进行比较。这可以代表一种独特的比较，其将知识合成与人类大脑中基因表达相关的分子分析相结合。在该示例中，TRIM32与大脑中特异表达的基因有很高的关联。这可以通过跨列具有高平均语义关联强度的TRIM32看出。基因“TRIM2”也与TRIM32紧密相连，TRIM2本身在大脑中高度表达。

图11示出了搜索输入的实体分布，其中邻域节点随时间而变化。在图11中，每个时隙(T1、T2、T3)示出了在该时间步出现的新节点(用于说明)。变换1102可以用于改变时间范围等。矩阵可以捕获实体邻域随时间的变化，并且还可以指示节点1101在随后的时间步骤(1105和1106)中如何与其他节点相关联。例如，对于像“随机失活(dropout)”这样的术语，可以在许多神经网络模型的上下文中使用在机器学习模型中避免过拟合的关键方法，在该技术成功之后，实现如节点1106所示的大扇出。除了通过在用于构建知识图谱的输入语料库中的实际共现而彼此相关的术语之外，在邻域中却不共现但语义相关的实体(黑色的1109和1110)也可以通过该过程来识别。虽然这些语义上相关的实体可能具有误报，但是这些实体生成潜在见解的候选类，否则这些潜在见解随时间推移很难通过对邻域集的视觉细读来发现。

图12示出了输出跨实体类的概念的时间进程的实例。在图示中，实体类“统计”邻域中的实体可以与实体类“神经网络”进行比较，其中过滤器/变换1102可以用于在进行神经网络的实体类之前比较实体类统计，并且其中实体类是一组实体的标签。过滤器/变换1102可以用于改变日期/时间范围，以将实体的邻域变化与时间进行比较。图12还示出了代表相同概念的实体从“统计”空间到“神经网络”空间的演变。对于来自生物空间等效案例，2014年前后，药物cenicriviroc的知识图谱邻域的实体分布发生了变化。2014年之前，实体分布主要由属于“ccr5拮抗剂”类药物的“抗病毒”药物主导。然而，2014年后，同一药物的知识图谱邻域的实体分布显示出现了“肝脏相关疾病”，如非酒精性脂肪性肝炎(NASH)。

图13示出了即时创建知识图谱子集的实例。瞬间的结构化/非结构化数据快照1301可以用于生成词、句子和文档嵌入1302，这些嵌入又用于创建标签实体1303和标签集合1304。嵌入可以通过无监督的方法(如word2vec、doc2vec)生成，也可以使用序列学习模型(如RNNs)生成。该过程中的这些术语/短语然后可以被标记为实体和实体类，其中也可以使用结构化语义数据库1305。此外，该过程还可以产生没有用先验知识标记的候选实体和实体类。这可以利用未标记实体的实体分布和成对实体之间的邻域不对称来实现。例如，即使term1和term2有一个余弦距离度量，term1和term2的邻域项的排序也是不对称的。这种不对称的性质也可以产生不同的实体分布和不同的实体排名。因此，term1可以是作为term2的邻居的药物，但反之不成立。term2可以有更多的实体类作为它的邻居，而term1可能没有。这些不对称的类型可以用来识别候选的新实体和实体类。该过程的输出可以是标记实体和实体类以及未标记实体的知识图谱。知识图谱存储器1307可以是通用以及域和子域知识图谱的存储器，其中单个实体(标记的或未标记的)可以具有不同的实体分布。

图14示出了通过知识图谱生成过程1402从结构化和非结构化数据1401捕获实体的时间进程以及知识图谱(“KG”)中随时间的实体分布，作为子集空间(KGSL.Sn)随时间积累的知识图谱快照[1403]。

图57示出了根据本公开的一些实施例的数据流。在一些实施例中，结构化和/或非结构化数据可以由图1中描述的系统获取和处理(5701)。经处理的数据可以用于生成词/句子嵌入和/或知识图谱(5702)。经处理的数据还可以用于填充结构化数据库(5701)。来自5701和5702的不同资产可以通过满足不同应用的不同后端服务器/计算机系统提供(5703)。例如，词嵌入可以存储在词向量服务器上(5703)，并且用于下游应用，例如可以生成邻域义项图的邻域应用(5704)。义项嵌入可以存储在Adagram服务器/计算机系统上，并且用于义项嵌入应用(5704)。词嵌入也可以用于为热图应用生成热图数据(5704)。此外，词嵌入可以用于时间分析应用(5704)。与数据流同时，可以在后端服务器/计算机系统中创建并存储集合。可以通过利用结构化和/或非结构化数据在本地执行集合的精选(5702)。也可以由任何希望通过精选/自动创建的集合来丰富特定感兴趣领域的人远程执行集合的精选(5705)。然后，这些集合可以存储在后端服务器上(5703)。或者，后端服务器可以是远程存储集合的代理。

图58示出了根据本公开的一些实施例的当用户向邻域应用发出查询请求(5801)时的控制/数据流。邻域应用可以提供用户界面，其中用户可以输入查询项，并且邻域应用可以生成与查询项相关联的不同邻域义项。用户界面可以看起来类似于图图31至32。在一些实施例中，如果用户查询是基因，则该页面的邻域(5802)很可能包含基因实体，并且可能包含诸如疾病、药物等其他相关实体。在一些情况下，当查询项具有多重含义时，邻域页面将具有与这些不同含义在语义上相关的实体。义项嵌入在某种程度上起到了分离义项的作用(参见图52至56)。

与集合的语义匹配可以通过知识合成生成丰富的表征(5803)，并且提供不仅仅是来自词嵌入的语义邻域的更广泛/更丰富的视图。例如，即使邻域没有任何与基因相关联的疾病，所公开的系统和方法也可以将基因与同查询基因相关联的疾病集合进行语义匹配，并且显示出超出语义邻域的丰富视图。集合与邻域的匹配可以是从简单的词汇匹配到具有不同抽象/分离程度的语义匹配(参见图7至10)。例如，虽然关于基因的查询可以通过基因集合来丰富，但是它也可以通过相关疾病甚至是涉及对这些基因进行研究的人员的集合来丰富。在一些实施例中，挑选候选集合的三角剖分不是固定的，而是非常广泛和多样的(词汇到语义匹配)，为查询提供了真正丰富的体验，而不仅仅是邻域实体。在一些实施例中，三角剖分过程可以指将邻域结果映射到实体集合，该实体集合可以人工精选和/或机器生成。在一些实施例中，词汇匹配可以指将搜索项与标记集合的名称相匹配。在一些实施例中，语义匹配可以指分析搜索项的邻居以及与邻居相关联的实体类型。在一些实施例中，所公开的丰富合成框不同于现有的搜索系统，现有的搜索系统的信息增强结果——即使是语义的——仅仅是语义结果或概要结果的聚类。公开的系统和方法不仅通过将邻域与集合进行语义匹配来实现真正的丰富，而且使得用户能够在一个界面中获得集合和当前页面的语义匹配信息的全景视图。

公开的系统、方法和计算机可读介质可以在生命科学实体知识创造的初始阶段识别它们之间的重要关联，包括在建立那些精确因果关联的开创性出版物之前的预见性关联。在一些实施例中，该系统还可以提供对人工精选的实体集合的不断增长的汇辑的无缝合并，包括定制实体集合，其是来自整个生命科学语料库的子集、超集或完全新颖的实体集。在一些实施例中，该系统可以依赖于预先创建和/或定期更新的语料库，这些语料库被临时分割成各种分辨率，从而实现可追溯和接近实时地跟踪生命科学实体对之间语义关联强度的时间演变。在一些实施例中，该系统可以基于附属实体集合容易地对可归因于每个关联的特异性进行统计推断。

公开的系统和方法证实，通过对给定的一对实体(词或短语)的语义邻域(例如，在PubMed中找到的所有文档中)的时间分析，可以实现新的生物关联的发现。这些配对可以是生命科学文献中使用的任何实体类型(例如，基因-基因或基因-疾病)，从而产生对战略决策有深远影响的假设。构成生命科学实体(例如，疾病、基因)的复杂短语集通常由多个词组成，保存这些短语对于最大限度地发挥自然语言处理(NLP)在生命科学中的价值至关重要。

根据实施例，语义关联强度或分数的时间分析能够识别在科学文献中发表的开创性生物发现之前或与其同时的新关联。强语义关联分数信号可以出现在开创性出版物的年份，或者在该开创性出版物之前的几年。因此，现如今，本文描述的语义关联分数(余弦距离)可以用于预测尚未在生物医学文献中公开的新的生物关联。

公开的系统和方法可以在初始阶段识别和可视化生命科学实体之间的重要关联(例如，基因EGFR是生命科学实体)。实体集可以分组为实体集合，包括但不限于以下内容：生物分子(例如，基因、DNA或RNA聚合物、蛋白质、脂质、代谢物、编码和非编码RNA、肽、抗原、突变等)、生物实体(例如细胞、器官等)、疾病(例如，非小细胞肺癌、关节炎风湿性病、血胆脂醇过多、多发性硬化、帕金森病、NASH、NAFLD、艾滋病、败血症等)、不良事件、微生物(例如幽门螺杆菌、流感HlNl病毒、丙型肝炎病毒、白色念珠菌等)、分析(例如高通量细胞筛选、Kinome分析、生长抑制、质谱分析等)、公司/机构(如制药、生物技术、CRO、诊断工具/设备制造商、医院、诊所、大学等)、人员(例如，研究人员/科学家、医生/内科医生、医生姓名、药剂师的NPI标识、高管等)、表型(例如，体外、体内可观察/可测量/主观的等)、药物(例如化合物/小分子、抗体、细胞等)、医疗器械、医疗程序(如手术、移植、放射等)以及可以由不同生物医学语料库的用户编译的其他实体集合(参见图15)。在一些实施例中，术语“知识库”和“实体集合”是可互换的。

图15示出了根据本公开的一些实施例的示例性实体集合。图15突出显示了根据本公开的一些实施例的包括几个较小子集合的超集，以及跨多个其他实体集合重叠的集合。生命科学语料库中所有集合的超集本身可以解释为“主实体集合”(语料库中所有集合和实体的集合)。在一些实施例中，将由系统用户创建的定制集合也可以被标记为实体集合。在本文的可视化的实体集合示意图中，可以存放不同的实体集合，其中实体可以属于多个实体集合，并且实体集合可以彼此嵌套或者扩展跨越其他实体集合。

根据一些实施例，可以创建一组行业特定实体集合，以提供将“聚集集合”的进化历史与单个实体进行比较的基础，从而例如可以对单个实体随时间与另一个实体的关联的显著性在统计上做出稳健的推断。

向量空间模型表示连续向量空间中的词，其中“语义上”相似的词被映射到邻域点(即，这样的词在合成高维空间中彼此邻近地嵌入)。这种技术在自然语言处理领域有着悠久而丰富的历史，但是所有的方法都以某种方式依赖于分布假设，这说明出现在相同语境中的词共享语义。利用这一原则的不同方法可以分为两类：基于计数的方法(例如潜在语义分析)和预测方法(例如神经概率语言模型)。基于计数的方法计算某个词与其相邻词在大型文本语料库中共现的频率，然后将这些计数统计值向下映射到每个词的小而密集向量。预测模型直接尝试根据学习到的小而密集的嵌入向量(考虑模型的参数)来预测其附近的词。对于从原始文本中学习词嵌入，Word2vec是计算效率特别高的预测模型。它有两种形式：连续词袋模型(CBOW)和Skip-Gram模型，参见2013年ICLR研讨会(Mikolov等人)上，Tomas Mikolov、Kai Chen、Greg Corrado和Jeffrey Dean等人所著《向量空间中词表征的有效估计(Efficient Estimation of Word Representations in Vector Space)》的第3.1和3.2节。在算法上，这些模型是相似的，不同的是CBOW从源上下文词(例如，“猫坐在……上面”)中预测目标词(例如，“垫子”)，而skip-gram恰恰相反，其从目标词中预测源上下文词。这种倒转看起来像是一种任意的选择，但是从统计上来说，它的效果是CBOW平滑了许多分布信息(通过将整个上下文视为一个观察)。在很大程度上，这对于较小的数据集是有用的。然而，skip-gram将每个上下文-目标对视为一个新的观察，这更适合于较大的数据集，例如下面表1中总结的庞大的生命科学语料库。

表1

根据一些实施例，生物医学语料库可以包括但不限于来自一个或多个以下来源的数据：科学文献(例如，在PubMed、PubMed Central-PMC开放获取、NCBI书架等中的文章)、临床文献(例如clinicaltrials.gov中的记录)、监管文献(例如FDA文献)和商业文献(例如SEC文件、药品销售信息、药品处方和交易数据集等)。表1列举了生物医学语料库的示例性来源。可以使用本文介绍的方法，通过使用来自整个生命科学生态系统的各种客户提供的专有文档和/或公共文档来扩展和增强该语料库。专有数据库的示例有电子健康记录(EHR)、医生笔记、不良事件报告等。文档的格式可以包括但不限于由科学家准备或审阅的幻灯片(例如，以PowerPoint或Keynote进行的展示)、带有分析数据的文本文件或电子表格(例如，TXT、CSV、XLS或XLSX格式)，或记录科学、医学、临床、商业或监管见解的文档(例如，DOC、DOCX、PDF或任何其他合适的格式)。

如图1所示，根据本公开的一些实施例，系统存储器114可以捕获从两个或更多个源路径(例如，103a和105a)提取的不同形式的信息，以便于信息的合成和/或允许通过不同路径(例如，路径103a和105a)进行后续的信息提取。在一些实施例中，图1包括根据本公开的一些实施例的系统存储器114，该系统存储器114可以用于将词转换成向量并分析所得语义生物知识图谱。系统存储器114可以包括存储在结构化语义数据库106(可以是传统数据库)中的信息；知识图谱107(可以是标记的(从路径101a和102a中提取的)和/或未标记的实体(从路径102a中提取的)的有向图)；词嵌入108(其可以包括词和/或句子)；文档/段落/句子嵌入109；和非结构化数据110的序列表征。在一些实施例中，词嵌入的示例可以是word2vec。在一些实施例中，文档/段落/句子嵌入的示例可以是doc2vec。在一些实施例中，序列表征110的示例可以是记忆神经网络(MemNN)。

根据一些实施例，图1中的系统可以将结构化数据101(例如，人工精选的)、非结构化数据102(例如，原始文本)和/或半结构化数据117(例如，结构化和非结构化数据的任意组合)作为输入。结构化数据的示例是名称-值对的表，或者术语的精选本体。非结构化数据可以只是文本(例如，该描述)。结构化和半结构化数据可以通过标准化和分类过程(103、104)到达101a，该标准化和分类过程将它们合并到现有的结构化语义数据库106中。在一些实施例中，标准化过程可以包括生成资源描述框架(RDF)三元组(由属性边缘连接的节点A和节点B)。标准化/分类可以利用现有结构化数据106和嵌入108的107a、108a进行合并。非结构化数据可以通过标记化/标准化到达102a，这可能涉及例如清理标记。在一些实施例中，标记可以是构成机器学习模型输入的词和/或短语。例如，词“the”是一个标记。作为另一示例，“new york”是两个词的短语，可以通过添加如下特殊字符(例如“_”)而成为一个标记：“new_york”。在一些实施例中，文本输入可以经过输入处理，输入处理将文本转换成一个或多个标记。在一些实施例中，短语可以被创建为独立于给定输入之外的先验知识的标记。例如，当两个词“New York”在输入中频繁出现时，“New York”可以被转换成短语，然后这个短语可以成为一个标记，即“New_York”。在一些实施例中，多个词可以成为短语和/或标记，即使它们在输入中不频繁出现。例如，如果词“lung cancer”在输入中不经常出现，它们可能被迫成为短语和/或标记。在一些实施例中，可以在标记化过程中使用已知技术(例如，Word2Phrase)。专用编码器可以用于处理特定数据源104a的解析。此外，短语可以通过分析结构化数据库来识别/生成，在该数据库中，这样的短语作为被识别的实体存在。

所有处理过的数据可以流入(103a、105a)存储库，例如系统存储器114。该数据以及由该数据107，108，109，110生成的模型可以用作系统存储器114。词和文档嵌入108可以包括使用模型/工具，例如Word2vec、Adagram、Fasttext、doc2vec和/或任何其他合适的模型/工具，由结构化(通过特殊转换转为文本流)和非结构化数据生成的嵌入。也可以生成嵌入的增量和时间版本，并将其存储在系统存储器114中。序列嵌入可以使用递归神经网络(RNN)族神经网络模型，例如双向长短时记忆(LSTM)网络来生成。除了嵌入之外，其他模型也可以存储在这一存储库中，例如促进交互的知识图谱107和神经网络模型(例如，递归实体网络)。

子系统116表示促进与子系统113交互的模块111，112，115的一个实施例。数据可以通过路径114a和114b从系统存储器114流向子系统116。数据可以经由路径116a在子系统116和子系统113之间流动。虽然已经从信息流动的角度对图1中的系统进行了说明，但是可以使用系统存储器中的数据作为输入和标记数据(结构化数据用作标记数据)对一些模型进行端到端的训练。“端到端”一词可以具有特定的含义，即计算流程图的参数以一个损失函数进行端到端训练。例如，双向LSTM编码器/解码器可以与代表一种语言的词嵌入108一起使用，并为交互式应用生成另一种语言的输出。114和116中的模型可以通过用于多种发现方法的无监督、监督和/或强化学习方法来生成。生成模型(GAN)也可以用于为任务创建标记数据，其中标记数据是稀疏的。

图1中的系统还可以利用传统的基于图形的算法，将词嵌入作为输入，以找到可以补偿标记数据缺失的模式(例如，实体分布)。该系统可以利用现有技术模型，使其适应特定任务和/或将其用传统算法组合/增强，其中一个示例是补偿标记数据的缺失。这些模型可以通过任何界面113提供与系统的实时或离线交互。

图1中描述的系统可以包括处理器，该处理器配置为使用存储在临时和/或永久非暂时性存储器中的计算机可执行指令来实现本文所描述的功能。处理器可以是通用处理器和/或也可以使用专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)和/或任何其他集成电路来实现。

处理器可以执行任何合适的操作系统(OS)，包括典型的操作系统，例如任何版本或类型的Windows、Mac OS、Unix、Linux、VXWorks、Android、Blackberry OS、iOS、Symbian或其他操作系统。处理器还可以执行来自网络服务器相关硬件和/或软件的任何指令。

图16示出了根据本公开的一些实施例的余弦距离概率密度函数(PDF)图。该图直观地描述了基于系统存储器114实现word2vec，如向量空间模型。系统存储器114可以产生表示被选择表示为向量的词/短语的节点的语义生物知识图谱和由语义关联强度的度量(例如，表示为大维度空间中向量的一对词嵌入之间的余弦距离)确定的边缘权重。余弦距离的范围从0(表示无语义关联)到1(表示最强关联)。这种关联度量可以反映生物医学语料库中实体的上下文相似性。

图17示出了根据本公开的一些实施例的时间分析流程图。文档的时间片的词/短语嵌入可以如本公开的一些实施例所述进行创建(步骤1701)。词嵌入可以通过不受本文所描述的方式限制的方法来生成。

在一些实施例中，时间片可以表示特定时间段(例如，一个月、一年、五年、十年、一个世纪或任何其他时间段)。可以为每个时间片生成词嵌入。例如，一年中发表的所有期刊文章都可以被视为一个时间片，例如，1996年的科学文章属于一个时间片，1997年的科学文章属于另一个时间片，等等。在一些实施例中，术语“词嵌入”和“词向量”是可互换的。

在一些实施例中，可以单独或独立地为每个时间片生成词向量。在这种情况下，在机器学习的训练过程中，对于每个时间片，实体的词向量被随机和独立地初始化。例如，当为1996年和1997年的科学文章中的实体创建词向量时，可以独立于1997年的科学文章的时间片来初始化1996年的科学文章的时间片。因此，1996年存在的语义关联不影响1997年的语义关联，原因是1996年的词向量没有用于生成1997年的词向量。这种方法对于独立分析每个时间片的语义关联非常有用。

在一些实施例中，可以通过利用来自一个或多个其他时间片的词向量为每个时间片生成词向量。在这种情况下，当为一个时间片的实体生成词向量时，来自另一个时间片的词向量被用来开始机器学习中的训练过程。例如，当为1997年的实体创建词向量时，为1996年创建的词向量可以用于开始训练过程。因此，1996年的语义关联可以影响1997年的语义关联，原因是1996年的词向量被用于生成1997年的词向量。鉴于来自另一个时间片的语义关联，这种方法对于分析时间片的语义关联是有用的。

在一些实施例中，这些其他时间片可以来自先前的时间片。在一些实施例中，词向量可以自整个语料库中生成，其中这些嵌入可以成为全域。在一些实施例中，在词向量生成之后，公开的系统和方法可以分析术语的语义邻域如何随时间变化。

一旦生成时间片的嵌入，可以自动或由用户选择术语对(步骤1702)。例如，在自动情况下，可以从实体类型的组合中选择候选对，例如基因x基因、基因x疾病或任何其他合适的实体类型组合。在一些实施例中，可以通过挑选在时间片内不经常出现或根本不出现的那些来挑选候选集。与高度共现的配对相反，这些候选者可能是预测的潜在配对。然后可以跨时间片分析这些配对(步骤1703)。在一些实施例中，一种方法包括随着时间和两个术语之间的余弦距离而变化的新颖性度量。该分析可以产生作为其输出(步骤1704)的项目，对于这些项目，系统可以预测这些术语在将来可能具有更强的关联。新颖性度量可以突出不常一起出现或根本不一起出现的术语对，从而能够发现随时间片增强，并且是时间增益预测的候选者的术语对之间的潜在联系。对于在受检时间片中具有高共现率的术语对，公开的系统和方法可以执行两个术语之间的回顾性因果路径研究。

为了定量研究概念的演变，理解语义关联强度度量的行为是很重要的。在零假设下描述度量和度量的统计属性，从而对根据所公开的系统和方法的语义关联强度的显著性做出更有力的陈述。在一些实施例中，由无监督神经网络生成的词嵌入(所考虑的语料库中词或短语的d维向量表征)可以通过使用点积(或内积)与另一个进行比较。两个矢量a和b之间的点积定义为：

a.b＝||a||||b||cosθ，

其中||a||和||b||分别是向量的量值(也称为L2范数)，cosθ是余弦距离，取值范围为-1到1。神经网络使用的目标函数以这样一种方式被公式化，即集合在局部滑动窗口中共现的词。也就是说，这一对词之间的角度将更接近，余弦距离将更大。神经网络表现出的一种行为是将语义上相互接近的词进行聚类。在包含不同实体集(词的“类”，如基因、疾病、公司、药物、人等)的语料库中，与随机选择的各对词相比，相同实体类型的词倾向于具有高余弦距离。因此，在研究词关联时反复出现的一个问题是在一对词向量之间观察到的特定余弦距离的统计显著性。为了评估统计显著性，我们首先正式分析了余弦距离的性质，即余弦距离可以在由均匀分布的词向量组成的d维空间中观察到。称某个词对关联重要意味着该词对的余弦距离由上述随机分布产生的可能性极小。

在d维单位球面(位于R^d的d球面)上选择一个向量v。我们想计算从单位球面随机选择的另一个向量w与v之间具有余弦距离x的概率。所有向量都可以被假设为均匀分布在d球面中。我们有一个随机变量，向量之间的角度，以及随机变量X＝cosθ，随机选择的w和固定向量v之间的角度θ的余弦。例如，可以分析三维空间(d＝3)。在单位球面上，任意的单位向量v都是固定的。与v成角θ的向量都位于半径为sinθ的圆上(该圆的平面与球面中心距离为cosθ，见图15)。为了计算向量w相对于向量v呈角度θ的概率，我们需要知道w所在的球面的面积分数。在三维空间中，这样的面积分数只不过是特定圆(半径为sinθ)的周长与小微分的乘积因此概率是对于d维空间的一般情况，这些向量将存在于半径为sinθ的(d-l)球面中。让A_d(r)表示d球面的表面积。示例：A₂(r)＝2πr，A₃(r)＝4πr²。面积分数为A_d-1(sinθ)dθ，角度为θ的概率为:

在上述等式中，比例成立，因为半径为r的d球面的表面积与r^d-2成比例。将变量从θ更改为x：让x＝cosθ，因此

由等式1，

其中，

等式2给出了余弦距离分布的概率密度函数。

图16示出了根据本公开的一些实施例的各种N维空间的概率密度函数(pdf)。在一些实施例中，神经网络使用的典型维度是300。从图中可以看出，分布高度集中，大部分质量集中在0左右，也就是说，随机选择的一对向量通常是正交的或接近正交的(角度接近π/2)。下表2显示了观察到具有一定余弦距离的向量对的概率以及不同余弦距离的随机向量的预期数量。

表2

例如，在余弦距离为0.9处(角度大约26°)，概率极小，为5.5×10^-111；即使在更大的余弦距离0.3处(角度大约73°)，概率仍然很小，为8.1×10^-9。在一些实施例中，公开的系统中的典型语料库倾向于具有几百万个词/短语。因此，使用随机分布(例如余弦分布)的传统方式将产生非常好的p值，导致将太多的关联标记为具有统计显著性。一种更严格解释关联的方法是将观察到的余弦距离以上的随机向量的预期数量与余弦距离以上的向量的实际数量进行比较。表2的第三列显示了不同余弦距离的随机向量的预期数量。例如，在具有4800万向量的核心语料库上，针对基因、疾病、药物等生命科学实体，余弦距离0.3以上的向量通常为50K以上。在这种情况下，逻辑基础可以是：使用预期随机向量与观察到的实际向量的比率作为统计显著性的度量。当评估密切相关实体(如基因/基因或基因/疾病关联)的统计显著性时，可能需要更高的标准来达到可信度。

在一些实施例中，关于一对实体之间的关联强度的显著性的统计解释涉及多个协变量，包括但不限于文档的数量、文档的来源以及包含该对词嵌入的实体集合。可以随时间跟踪所得到的关联度量，从而对两个生命科学实体之间的关系进行时间推断，并建立这种关系的统计显著性。下面列举的一些示例表明，高语义关联强度先于牢固建立两个实体之间关系的最终开创性出版物。这个概念可以作为“时间增益”被捕获，其可以表示“语义信号”的出现(即语义关联强度的增加)和主要文献中关联的实际发生(即报告关联的文档的增加)之间的时间量(例如年)。

该方法可以用于识别统计上显著的实体关联的特定对和网络。通过随时间分析语义关联强度(即，执行时间分析)，可以从语料库，例如生命科学语料库中发现和跟踪新生的开创性关联。通过跟踪两个实体，例如生命科学实体的语义关联强度，时间分析可以对其进行比较。在一些实施例中，可以比较超过两个实体。例如，如果有实体A、B、C和D，那么这些实体可以按顺序逐对比较，例如按A-B、B-C、A-C、A-D、B-D、C-D的顺序。生命科学实体可以重新分类或使用科学文献中已有的分类方案进行定义。在后一种情况下，可以利用结构化数据库来确定实体类。例如，基因可以来自NCBI的基因记录(https://www.ncbi.nlm.nih.gov/gene)和/或HUGO基因命名委员会数据集(https://www.genenames.org)。同样，疾病名称和本体可以从医学主标题(MeSH)集合(https://meshb.nlm.nih.gov)中获得。

一旦确定了实体类型，可以跟踪其在生物医学语料库中的关联强度。实体可以首先通过短语生成过程来生成，其中候选实体不仅通过构成它们的n元词的出现/共现的标准度量来选择，还通过强制选择获自结构化集合编译的字典的候选者来选择。标准度量可以是逐点互信息度量(PMI)。这可以确保即使出现计数不满足成为短语的阈值，也能生成短语。这在时间片中可能特别有价值，在时间片中，词汇表可能不够大，并且构成重要短语的术语的出现/共现率可能不够高。

在一些实施例中，短语生成过程可以使用为任何时间片生成的词汇作为后续时间片的保留词列表的一部分。这可以确保出现在时间片中的术语可以从该点开始被跟踪，即使构成短语的单个术语的计数低。级联的第一步可以使用语料库词汇表，该词汇表是所有语料库文本的组合，从而增加了重要短语在时间片训练中被保留的可能性，尽管构成短语的单个术语的出现率很低。短语生成过程还可以确保短语的组成术语的计数至少与短语计数本身一样多。这可以确保在训练过程中，所有短语及其组成术语都可以单独或以复合地参与训练过程。

训练过程可以通过迭代上面生成的语料库来生成词向量嵌入。可以为每个时间片生成词嵌入，然后用于实体随时间的时间分析和比较。

训练过程可以执行两种形式的向量生成。在一种形式中，随机初始化每个片的词向量，并且在训练期间学习向量嵌入。这种形式的训练有助于了解一个特定术语是如何相对于另一个独立于其过去的术语进行演变的。在第二种形式的训练中，每个时间片在训练之前通过前一个实例的嵌入被实例化。这对于了解术语是如何随时间演变的尤其有用。

时间片中每个术语的实体类型可以通过受限于该语料库的实体类型分布计算来评估。这可以实现随时间跟踪术语的语义。例如，一个术语的邻域可能会随时间变化，导致其实体类型分布随时间变化。这种方法可以实现跟踪实体类型分布随时间的变化。

对于每个时间片，可以通过检查由跟踪训练窗口内出现的词而生成的训练图来分析将两个术语结合在一起的因果路径。这一覆盖在训练余弦距离图上的训练图可以为以不同间接级别聚集在一起的词提供因果解释。

在时间分析图中，可以识别与新生关联相关的某些标记。在包含两个实体的文档增加之前语义关联强度的急剧增加可能是一个明确的信号，其表明系统可以在文献报道之前预测开创性关联。语义关联强度的增加可以被捕获为曲线的二阶导数的最大值，而文档计数的增加可以通过查看曲线在固定轴上的斜率或者通过达到预先指定的文档计数阈值来捕获。已知开创性关联的重复时间增益案例验证了所公开的系统和方法具有预测能力。具有高语义关联强度但不存在两者共现的文档的生命科学实体对可以被标记为潜在的新颖和开创性的关联。

被检测到的新生生命科学实体关联可以通过它们的特征进一步表征，这些特征可以在各种专有和/或公共数据集中找到。例如，对于基因实体，它们在正常人体组织中的表达可以通过使用数据集来确定，例如来自博德研究所(https://gtexportal.org/home/)的GTEx数据集，并将其与它们的语义关联分数相关联。类似地，基因和疾病的关联可以通过在数据库中确定它们的关联分数来进行新颖性的压力测试，例如OpenTargets数据库(https://www.targetvalidation.org/)，对于我们预测的新生生命科学实体对来说，该分数应该较低。

统计解释

多种因素会影响两个实体之间的关联。当比较两个实体时，每个实体所属的实体集合会影响语义关联强度。此外，当与给定的实体集合进行比较时，每个实体具有不同的语义关联强度分布。

图18示出了根据本公开的一些实施例的针对所有疾病实体的两个基因的语义关联强度的密度分布。可以针对某些或所有疾病实体来测量基因，例如ADAL和ADGRG1，的语义关联强度(x轴上的余弦距离和y轴上的概率密度函数)。这两种分布可以不同。例如，图18说明了ADAL和ADGRG1的分布是不同的。当将基因ADGRG1与疾病实体集合中的所有疾病术语进行比较时，语义关联强度的分布平均值为0.34，标准差为0.13。另一方面，当将基因ADAL与同一疾病术语集合进行比较时，语义关联强度的分布平均值为0.19，标准差为0.067。平均来说，人们会认为大多数基因疾病关联是杂讯，而不是因果联系。在一些实施例中，因为给定实体类的语义关联强度的分布根据所查询的实体而变化，所以在试图得出统计推断时应该考虑这种影响。

所公开的系统和方法可以通过为用户输入的查询类型提供语义关联强度的背景模型的度量来帮助用户解释他们的查询。图19示出了根据本公开的一些实施例的用于评估统计背景模型并向用户呈现汇总统计的过程。用户可以输入两个实体E1和E2进行比较(步骤1905、1910、1915)。默认情况下，可以计算E1和E2各自所属的合适的实体集合(例如，最相关的实体集合)，或者用户可以指定要用于查询中每个实体的实体集合(步骤1920、1925)。对于E1和E2，两个选定的实体集合可以分别被定义为EC1(长度n₁)和EC2(长度n₂)(步骤1930、1935)。可以从EC1中减去E1，从而生成一个新的实体集合，称为EC1’(步骤1940)。可以在EC2上执行相同的操作来生成EC2’(步骤1945)。可以计算E1和EC2’的所有成员(包含n₂-1个成员)之间的语义关联强度，以生成长度为n₂-1的向量D₂。也可以在E2和ECl’的所有成员(包含n₁-l个成员)之间计算语义关联强度，以生成向量D1(步骤1950、1955)。

向量D1和D2分别代表E2×EC1和E1×EC2类型的所有查询的语义关联强度的分布。这些分布对于用作显著关联的统计推断的背景(零)模型是有用的。为了有助于这种统计推断，可以计算汇总统计数据，例如D1和/或D2的平均值，并将其呈现给用户(步骤1960、1965)。这些汇总统计数据包括但不限于平均值、中位数、百分位数和p值。也可以呈现更复杂的函数。一个这样的函数可以是从D1和D2随机抽取的概率分布函数右边的区域。在该等式中，我们将D1和D2的点视为随机变量(d1和d2)。这些随机变量的总和被定义为新的随机变量h(等式1)。h的概率分布函数可以计算为D1和D2的卷积(*)。观察到的E1×E2语义关联强度(SAS_EIxE2)根据D1和D2得到，因此度量统计(p_conv)是根据D1和D2得到的随机比例，该比例超过SAS_EIxE2的两倍。

h＝d1+d2

pdf(h)＝D1*D2

图20示出了与时间分析重叠的这些汇总统计数据的显示的示例。在该示例中，针对疾病实体“嗜酸性粒细胞计数”查询基因“EPX”。时间分析中每年的汇总统计数据都会提供，包括EPX类型相对疾病实体的所有查询的语义关联强度的平均值(行2001)、第25百分位和第75百分位(框2002)。汇总统计数据包括但不限于平均值、中位数、百分位数和p值。还会显示每年包含这两个实体的文档数量。

新颖性度量

由神经网络产生的高维向量空间的有趣特性之一是某些向量的聚类，这些向量的对应短语甚至没有在语料库中共现过一次。初看之下，这是违反常理的：用于训练神经网络的优化标准依赖于最大化词在小的局部滑动窗口中出现的概率。与滑动窗口中的词相对应的向量通常作为反向传播过程的一部分被集合在一起，也就是说，两个词在滑动窗口中更频繁地共现，因而自然会认为该对向量之间有高余弦距离。然而，在训练过程中使用的一个原则(也称为负采样或噪声对比估计)明确地最小化了滑动窗口中频繁出现的词(例如普通英语单词，如“the”、“of”、“to”等)和其他词之间的余弦距离。以上的最终结果可以使两个甚至没有共现过一次(或者只共现过很少次)的词仍然具有高余弦距离。这种关联可以被称为“新颖关联”，因为这种词对之间的关联很强(即高余弦距离)，尽管缺乏主要文献中的证据。

图21示出了根据本公开的一些实施例的从一组随机向量(在由神经网络生成的向量空间中)生成的两个直方图，其中一个分布(表示为“距离＜0.32”)表示余弦距离小于0.32的所有向量对(被认为是“非强关联”)，而另一个分布(表示为“距离≥0.32”)表示余弦距离大于0.32的所有向量对(被认为是“强关联”)。这可以表明找到具有非常好的余弦距离但在语料库中甚至一次也没有共现过的词向量对是多么普遍的现象。零值处的“距离≥0.32”条表明，余弦距离大于0.32(“强关联”)的向量对中，约有11％从未共现过一次。从图中还可以清楚地看出，尽管更多的“距离≥0.32”分布的质量像预期的那样向右倾斜(更多的共现，因此余弦距离也更大)，但是“距离＜0.32”分布有一个长尾(非常高的共现率，但余弦距离很小)。长尾是负采样的直接结果——在负采样中，对应于滑动窗口中经常与重要词共现的普通词的向量被移离其他词的向量。

根据一些实施例，可以提供定量度量来基于逐点互信息(PMI)来测量新颖性。PMI测量两个随机变量X和Y之间的关联强度，如下所示：

其中p(x)和p(y)是随机变量X和Y的概率，p(x，y)是X和Y的联合概率。

设w₁和w₂分别为词1和2的出现次数。设w_c是词1和2在大小为T的语料库中共现的次数。

通过使用逻辑函数(sigmoid)将pmi值限制在0和1之间，并且另外使用指数阻尼防止非常大的共现计数。其基本原理是，共现计数w_c越大，我们期望神经网络将向量集合在一起，阻尼有助于解释这一假象。

综上所述，我们对新颖性度量的定义如下：

，其中a是阻尼系数(例如，通常设置为0.01)。新颖性为1(或100％)表示w_c＝0。新颖性度量应该结合余弦距离仔细解释，因为新颖性分数好的同时余弦距离可能较弱。在一些实施例中，典型的实践是，我们倾向于将新颖性解释为低于某个阈值余弦距离的0(例如，大约0.3将在50M词语料库的300维空间中作出很好的选择，因为它代表最大一个随机向量的距离，并且该距离也具有非常小的概率)。

在一些实施例中，在描述生命科学中的开创性关联的主要出版物发布之前，时间分析可以揭示所述开创性关联。图22A至22B示出了根据本公开的一些实施例的真实生命科学实体对的时间分析。这些图说明了一对生命科学实体之间的语义关联强度(余弦距离)是如何随时间(以年为单位)为PubMed语料库(在图例中用“语义关联强度”表示)以及文档共引用计数(在图例中用“包含两个词的文档”表示)绘制的。如前所述，文档共引用曲线(在图例中用“包含两个词的文档”表示)并且不提供任何“预测”优势，而是只反映了讨论这两个词的文章的累积数量。然而，即使在关于这些基因的知识还处于萌芽状态时，真正的生物关联(pd-1:pd-11||pd-1:肿瘤浸润淋巴细胞)也有很强的语义关联。具体来说，在1997至2001年期间，当联合引用词(pd-1:pd-11||pd-1:肿瘤浸润淋巴细胞)的论文还没有出现时，这些词对的语义关联分数突然显著增加。这一结果展示了为什么一对生命科学实体之间的语义关联强度(余弦距离)以一种高度敏感的方式捕获概念关联的时间演变(当知识还处于萌芽状态并且只有少数文章进行了报道时)。

根据一些实施例，当本文所描述的方法给出两个生命科学实体对的强语义关联分数时和当足够数量的文档共引用该对词或短语时之间的时间增益是该系统的显著应用。图23提供了根据本公开的一些实施例的示例性PTEN-KRAS时间分析。图23示出了类似于图20、22A至22B所示的图，除了图23中的图是针对实体PTEN和KRAS的。直到2000年才有文档证明致癌基因PTEN和KRAS是相互关联的(Ikeda,T.；Yoshinaga,K.；Suzuki,A.；Sakurada,A.；Ohm on,H.；Horii,A.“人类子宫内膜癌中KRAS和PTEN基因的反对应突变”《肿瘤学报告(Oncol.Rep.)》2000,7,567-570)，整整三年后，PTEN和KRAS之间的语义关联分数增加到显著水平，提供了充分的机会窗口。一旦检测到关联分数的显著增加，可以将其标记为感兴趣的年份(在图23中显示为“关联信号的出现时间”)。在信号振荡的情况下，等待关联的稳定(即关联分数稳定的时间)可能是有利的，在该PTEN-KRAS示例中，这与它的出现同时发生。时间增益被定义为关联信号出现和共现文档计数显著增加的时间之间的时间段(在图23中显示为“高共现文档计数的出现时间”)，这表明了科学界对关联的认识。

在一些实施例中，如果可以预测一对当前不相关的疾病生物标志物的关联，则这可以用于洞察疾病的分子机制。这种见解可以大大加快制药和临床R&D工作的步伐。作为概念的证明，我们已经通过文档证明了几个额外的回顾性案例研究，其中语义关联分数确实先于随后重要的生物学发现和发表。这些发现验证了本文描述的利用语义关联分数(词或短语对之间的余弦距离)动力学的系统，并且提供了具体的示例，在这些示例中，知道当时的所述信息将会对该领域的企业极其有意义。图24至27概述了这些额外的说明性示例，图24至27示出了类似于图20、22A至22B和23所示的图，除了具有不同的输入值，例如实体。

图24示出了根据本公开的一些实施例的AML1(RUNX1)-FLT3基因-基因关联时间分析。AMLl(RUNX1)和FLT3是与急性髓系白血病密切相关的两个基因，直到2002年后，才探明了它们之间的明确联系(de Guzman,C.G.；Warren,A.J.；Zhang,Z.；Gartland,L.；Erickson,P.；Drabkin,H.；Hiebert,S.W.；Klug,C.A.“AML1-ETO易位小鼠模型中造血干细胞扩增和明显骨髓发育异常”《分子与细胞生物学(Mol.Cell.Biol.)》2002,22,5506-5517)。这是在公开的系统检测到这两个基因之间有很强的语义关联分数后的差不多十年。

图25示出了根据本公开的一些实施例的非典型溶血性尿毒综合征——CFH(疾病基因)时间分析。在该案例中，2005年发表的一篇文献描述了补体调节基因因子H(CFH)和非典型溶血性尿毒综合征的新颖关联(Hageman,G.S.；Anderson,D.H.；Johnson,L.V.；Hancox,L.S.；Taiber,A.J.；Hardisty,L.I；Hageman,J.L.；Stockman,H.A.；Borchardt,J.D.；Gehrs,K.M.；等人“补体调节基因因子H(HFl/CFH)中的常见单体型使个体易患年龄相关性黄斑变性”；《美国国家科学院院刊(PNAS 2005)》，102,7227-7232)，设法最大化两个术语之间的语义关联分数。传统的假设在探索这种关联时是谨慎的，而从公开的系统中得出的分数表明，追求这种关联是谨慎的。

图26示出了根据本公开的一些实施例的PCSK9-LDLR(基因-基因)时间分析。在该案例中，2004年的一项研究首次观察到PCSK9的表达与LDLR基因敲除的相关性(Maxwell,K.N.；Breslow,J.L.“Pcsk9在小鼠中的腺病毒介导表达导致低密度脂蛋白敲除表型”《美国国家科学院院刊》2004,101,7100-7105)，显著提高了这两个基因之间的语义关联分数，远早于后来发表的大量研究证实这种关系。

图27示出了根据本公开的一些实施例的PCSK9-LDLR(基因-基因)时间分析。语义关联分数赋予已发表研究有效性的另一个示例是在2002年发现致癌基因BRAF和KRAS之间的关联(Rajagopalan,H.；Bardelli,A.；Lengauer,C.；Kinzler,K.W.；Vogelstein,B.；Velculescu,V.E.“肿瘤发生：RAF/RAS致癌基因和错配修复状态”《自然(Nature)》2002,418,934-934)。该研究显著增加了关联分数，并且先于文档计数的增加。

图49示出了根据本公开的一些实施例的时间分析图的示例性用户界面4900。用户界面4900可以用于对两个实体执行时间分析。在一些实施例中，这两个实体可以被输入到第一实体框4901和第二实体框4902中。用户可以点击比较按钮4903来执行两个实体之间的时间分析。例如，用户可以在第一实体框4901中输入“egfr”，在第二实体框4902中输入“nsclc”。然后，用户可以点击“比较”按钮4903来产生时间分析图4907。在本示例中，已经对在1990年至2016年期间的实体“egfr”和实体“nsclc”进行了分析，其中有27次切片(每年1次切片)。

在一些实施例中，时间分析图4907可以包括一行或多行，以提供关于两个实体的信息。语义强度关联线4912可以表示实体“egfr”和实体“nsclc”在该段时间内的语义关联强度。“带有两个标记的文档”线4913可以显示该段时间内同时包含“egfr”和“nsclc”的文档数量。平均线4910可以显示在该段时间内“egfr”的所有查询相对于疾病实体类型的实体的语义关联强度的平均值。第95百分位线4911可以显示在该段时间内“egfr”的所有查询相对于疾病实体类型的实体的语义关联强度的第95百分位。在该示例中，线4910，4911，4912和4913基于27个绘制点绘制。可以自定义时间段、绘制点的数量(基于时间片的数量)、百分位和该图中的任何其他设置。

在一些实施例中，平均线4910和第95百分位线4911可以与语义强度关联线4912进行比较，以查看“egfr”和“nsclc”之间的语义强度是否特别强。例如，语义强度关联线4912相对于第95百分位线4911越高，则“egfr”和“nsclc”之间的语义强度可能就越特别强。

在一些实施例中，可以选择用于分析的语料库4904的全域。在该示例中，已经选择了Pubmed数据库，从而基于该数据库产生时间分析图4907。在一些实施例中，可以定制控制集合4909。在该示例中，控制集合是“疾病”，其指示时间分析图4907基于该实体集合生成。例如，平均线4910基于将“egfr”与对照集合“疾病”(即疾病实体类型)中的实体进行比较。

在一些实施例中，可以为时间分析图4907定制百分位4908。例如，当百分位4908被设置为“95”时，绘制第95百分位线4911以示出给定实体的所有查询相对于给定实体类型的实体的语义关联强度的第95百分位。作为另一个示例，如果百分位4908被设置为“30”，则可以绘制第30百分位线来表示给定实体的所有查询相对于给定实体类型的实体的语义关联强度的第30百分位。

在一些实施例中，可以显示当前语义关联强度4905和当前新颖关联4906。在该示例中，“egfr”和“nsclc”之间的当前语义关联强度显示为“0.58”。它们之间的新颖关联是“0％”，这可以指示两个实体之间的新颖关联的概率为零。在一些实施例中，新颖性分数可以与带有两个标记的文档总数成反比。

图50示出了根据本公开的一些实施例的具有时间分析图的示例性知识图谱界面5000。知识图谱界面5000可以显示实体类型(例如，“所有疾病”)的全部或子集可以被选择(5001)作为控制集合。

图51示出了根据本公开的一些实施例的具有时间分析图的示例性知识图谱界面5100。知识图谱界面5100可以显示与实体“帕金森病”相关的信息，因为它与实体“震颤”相关。

我们还将OpenTargets数据库中包含的所有生命科学关联及其相关关联分数(以下称为“OT分数”)与给定的对语义关联强度进行了比较。OpenTargets平台试图用从不同来源聚集的基因-疾病对之间关联的证据来注释基因-疾病对，包括文本挖掘的另一种LP方法。总之，我们发现关联分数之间的相关性很弱，如图28所示。

图28示出了根据本公开的一些实施例的OT分数和余弦距离(语义关联分数)之间的关系。这是OpenTargets中的所有生命科学实体对的OpenTargets关联分数(OT分数)相对于余弦距离(语义关联分数)的图。分布图2801(在y轴的右侧)基于OT关联分数(其中越接近1表示关联越)，分布图2802(在x轴的顶部)基于余弦距离(而其又基于数千个基因/疾病关联的分析)。矩形区域(由x轴、y轴和分布图2801、2802所围成)表示OT关联分数和余弦距离之间的映射。图28示出了这一映射不是一对一的。因此，公开的系统和方法已经发现在OT关联分数揭示的内容和余弦距离揭示的内容之间存在差异。这些差异可能是由于OT关联分数的错误和/或不足造成的。

进一步的检查显示，OT分数是双峰的，一小部分的分数非常高，其余的分数很低。这些高分归因于众所周知的基因-疾病关联(例如，BRAF肿瘤)，其具有相应的高语义关联分数。这说明了为什么目前的生物关联发现方法只是简单地概括了文献中已知的内容，而几乎没有预测能力。

图29示出了非显著的基因-疾病相互作用(即阴性对照)的时间统计推断的图形表示。“c9orf72对库鲁病”线代表基因和疾病术语之间的余弦距离(分别为c9orf72和库鲁病)。“c9orf72对所有疾病(25至75％覆盖)条代表c9orf72和所有疾病之间余弦距离的第25至75百分位。“负对数(p值)”线代表所查询的基因-疾病关系的p值的负对数，该负对数不同于真正的疾病-基因关系平均值。在该案例中，基因c9orf72与库鲁症无关。

图30示出了显著基因-疾病相互作用(即阳性对照)的时间统计推断的图形表示。“c9orf72对als_ftd”线代表基因和疾病术语之间的余弦距离(分别为c9orf72和肌萎缩性侧索硬化/额颞痴呆(als_ftd))。“c9orf72与所有疾病(25至75％覆盖)”条代表c9orf72与所有疾病之间余弦距离的第25至75百分位。“负对数(p值)”线代表所查询的基因-疾病关系的p值的负对数，该负对数不同于真正的疾病-基因关系平均值。在该案例中，基因c9orf72的重复导致肌萎缩性侧索硬化/额颞痴呆症。当p值的负对数在2010至2012年期间大幅上升时，这一点就清楚地显示出来了。到c9orf72和肌萎缩性侧索硬化之间的共现文档计数增加的这一年的时间框架基本上代表了“时间增益”的另一个示例。

公开的系统和方法可以捕获一段时间内两个实体之间语义关联的演变。在一些情况下，一对实体的语义关联随着时间的推移而发展，用户或系统可以检测到语义关联的增加，这种增加可能具有统计显著性，也可能不具有统计显著性。在一些实施例中，公开的系统和方法可以通过使用各种方法，包括使用Sigmoid曲线方法，来检测一对实体出现统计上显著增加的时间。在一些实施例中，语义关联分数可以在一段时间内在第一实体(其可以与第一实体集合相关联)和第二实体(其可以与第二实体集合相关联)之间生成。语义关联分数也可以在第一实体和第二实体集合中的实体之间生成。在一些实施例中，当确定这些语义关联分数时，第二实体本身可以从计算中排除。计算这些第一和第二语义关联分数的系统和方法的细节已经在本公开的其他部分中描述(参见例如图19、20、22至27、49至51以及这些图的描述)。

在一些实施例中，当评估第一实体对第二实体的语义关联分数与第一实体对第二实体集合的所有实体的语义关联分数相比较是否具有统计显著性时，p值可以通过p值方法生成进行假设检验。换句话说，p值可以被用作第一实体对第二实体相对于第一实体对第二实体集合的所有实体的统计显著性的度量。在一些实施例中，零假设可以表明，与第一实体对第二实体集合的所有实体的语义关联分数相比较，第一实体对第二实体的语义关联在统计上不具显著性。低p值表示零假设应该被拒绝。因为低p值会导致高负对数(p值)，高负对数(p值)会导致我们拒绝零假设。因此，如果第一实体对第二实体的语义关联是显著的，将产生相对高的负对数(p值)，而我们可以拒绝零假设。

在一些实施例中，可以用x轴上的时间段和y轴上的负对数p值绘制负对数p值曲线(参见图29和30)。在一些实施例中，当第一实体和第二实体之间的语义关联强度随着时间的推移而增加时，负对数p值随着时间的推移而增加，使得Sigmoid曲线可以拟合负对数p值曲线。在一些实施例中，在拟合Sigmoid曲线之前，负对数p值可以使用滤波器进行平滑，例如使用Savitzky-Golay滤波器。在一些实施例中，与Sigmoid曲线相关联的一个或多个拟合参数可以针对速度和精度进行优化。

在一些实施例中，在负对数p值曲线已经与Sigmoid曲线拟合之后，可以使用与Sigmoid曲线相关联的以下公式来确定(1)增加时间(其为Xo)；(2)饱和值(在X＝∞时为K+c)；(3)曲线下面积(AUC)：

Sigmoid曲线拟合公式为：

曲线下面积(AUC)公式为：

在一些实施例中，饱和值可以接近于最终(例如，最大)负对数p值。

在一些实施例中，可以计算多对实体的一组负对数p值，其中，对于每对实体，该对中的一个实体来自第一实体集合，而该对中的另一个实体来自第二实体集合。在一些实施例中，两个实体集合之间的所有可能的实体对可以用于计算一组负对数p值。在一些实施例中，如上所述，可以创建负对数p值曲线来确定增加时间、饱和度值和/或AUC。在一些实施例中，可以手动和/或自动比较所述多对。在一些实施例中，所述多对可以显示在用户界面中。

图59示出了根据本公开的一些实施例的具有时间分析图的示例性知识图谱界面5900。知识图谱界面5900可以为多对实体提供语义关联强度信息。知识图谱界面5900包括查询项框5901、提交按钮5902、最小共现过滤器5903、最大共现过滤器5904、最小负对数P值过滤器5905、图类型选择5906、语义实体收集比较标签5907、图呈现部分5908、实体对表征5909和实体对描述框5910。

当用户将基因“aqp4”作为查询项输入查询项框5901并点击提交按钮5902时，示例用例开始。因为语义实体集合比较标签5907被选为疾病(这可以手动或自动选择)，所以系统计算“aqp4”和疾病集合中的一个或多个实体(例如，1、2、5、所有实体)之间的一系列负对数p值。每个“气泡”(例如，气泡5909)可以表示一个实体对，已经计算了该实体对随时间的负对数p值。在一些实施例中，可以基于一个或多个条件在执行负对数p值时间序列计算之前、期间和/或之后过滤掉一个或多个实体对。例如，用户可以过滤掉(1)实体的共现数量小于最小共现值(如最小共现过滤器5903中所指定的)的实体对，(2)实体的共现数量大于最大共现值(如最大共现过滤器5904中所指定的)的实体对，和/或(3)负对数p值小于最小负对数p值(如最小负对数P值过滤器5905中所指定的)的实体对。在一些实施例中，对应于与实体对相关联的值的气泡被绘制在图呈现部分5908中。根据曲线拟合确定的增加时间值和最终负对数(p值)，特定实体对的气泡分别沿x轴和y轴放置。在一些实施例中，气泡的大小可以与由气泡表示的计算的实体对AUC值成正比，这同样由曲线拟合确定。尽管未示出，但是当用户在图类型选择5906控件中做出适当选择时，气泡的大小可以与被分析的语料库中的实体对之间的共现次数成比例。在一些实施例中，可以提供每个气泡的详细信息。例如，通过将鼠标光标放置在气泡5909上(或者通过使用任何其他合适的触发机制)，可以显示实体对描述框5910。实体对描述框5910可以显示关于实体对(例如，aqp4和视神经脊髓炎)、实体对语义关联强度增加的日期(例如，2006年第86天)、负对数p值(例如，3.01)、AUC值(例如，35.76)和/或共现次数(例如，1169)的信息。在一些实施例中，通过使用知识图谱界面5900，该使用可以仅生成和/或显示实体之间具有统计上显著关联的实体对。在一些实施例中，知识图谱界面5900可以揭示具有统计上强语义关联强度的实体，即使这些实体的共现率很低或不存在。

在一些实施例中，以下公式可以用于描述负对数p值和第一实体对第二实体的百分位数之间的关系，其中与第一实体和第二语义实体集合的所有实体之间的语义关联强度相比，第一实体对第二实体的百分位数是第一实体和第二实体之间的语义关联强度的百分位数：

负对数P值＝-log₁₀(1-百分位/100)。

例如，第95百分位给出大约1.3的负对数p值。在一些实施例中，可以使用其他公式来描述负对数p值和百分位数之间的关系。

在一些实施例中，当计算第一实体和第二实体集合的实体之间的语义关联强度时，可以省略来自第二语义实体集合的一个或多个语义实体，尽管上述步骤描述了使用“第二实体集合的所有实体”。例如，这种语义关联强度可以在第一实体和第二语义实体集合的所有实体之间计算，除了第二语义实体本身。

公开的系统和方法可以用于和/或扩展到生命科学以外的行业。其他行业可能有自己适用的语料库。例如，对于娱乐业，公开的系统和方法可以使用电影评论作为其语料库。

本领域技术人员将理解，本文描述的说明书和附图中的各种图示可以实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的可互换性，上面已经根据其功能概括地描述了各种说明性的块、模块、元件、组件、方法和算法。这种功能是实现为硬件、软件还是组合取决于特定的应用和对整个系统的设计约束。技术人员可以针对每个特定应用以不同的方式实现所描述的功能。各种组件和块的排列可以不同(例如，以不同的顺序排列，或者以不同的方式分区)，而所有这些都不脱离本主题技术的范围。

此外，通信协议的实现可以以集中式方式在一个计算机系统中实现，或者以分布式方式实现，其中不同的元件分布在几个互连的计算机系统中。任何类型的计算机系统或适于执行本文描述的方法的其他设备都适于执行本文描述的功能。

硬件和软件的典型组合可以是具有计算机程序的通用计算机系统，该计算机程序在被加载和执行时控制计算机系统，使其执行本文描述的方法。用于通信协议的方法也可以嵌入到非暂时性计算机可读介质或计算机程序产品中，其包括能够实现本文描述的方法的所有特征，并且当被加载到计算机系统中时，能够执行这些方法。对所公开的系统和方法的任何部分的输入不限于文本输入界面。例如，可以处理任何形式的用户输入，包括文本和语音。

该上下文中的计算机程序或应用是指一组指令的任何语言、代码或符号的任何表达，该组指令旨在使具有信息处理能力的系统直接或在以下任一或两者之后执行特定功能：a)转换成另一种语言、代码或符号；b)以不同的材料形式复制。值得注意的是，该通信协议可以以其他特定形式实施而不脱离其精神或基本属性，因此，本发明的范围应当参考以下权利要求，而不是前述说明书。

已经具体参考这些示出的实施例详细描述了通信协议。然而，显而易见的是，在前述说明书中描述的本公开的精神和范围内可以进行各种修改和变化，并且这些修改和变化被认为是本公开的等同物和一部分。

应当理解，所公开的主题不限于其应用于以下描述中阐述的或附图中示出的结构细节和部件布置。所公开的主题能够有其他实施例，并且能够以各种方式实践和执行。此外，应当理解，本文使用的措辞和术语是为了描述，而不应被视为限制。

因此，本领域技术人员将理解，本公开所基于的概念可以容易地用作设计实现所公开主题的几个目的的其他结构、系统、方法和介质的基础。因此，重要的是，权利要求被视为包括这样的等同结构，只要它们不脱离所公开主题的精神和范围。

尽管在前述示例性实施例中已经描述和示出了所公开的主题，但是应当理解，本公开只是作为示例，在不脱离所公开主题的精神和范围的情况下，可以对所公开主题的实现细节进行许多改变。

Claims

1.一种检测语义实体之间的关联的方法，包括：

识别一个或多个知识库中存在的语义实体和相关联的语义集合，其中所述语义实体包括单个词或多词短语中的一个或多个，并且语义集合的所述语义实体共享实体类型；

确定用于分析的时间段；

将所述时间段划分成一个或多个时间片；

基于一个或多个语料库为每个时间片生成所述识别的语义实体的一组词嵌入；

为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度；

为每个时间片确定所述第一语义实体输入和语义集合中的多个语义实体之间的第二语义关联强度，所述语义集合与所述第二语义实体相关联；以及

基于所述一个或多个时间片的所述第一和第二语义关联强度提供输出。

2.根据权利要求1所述的方法，其中所述一个或多个语料库包括结构化数据和非结构化数据。

3.根据权利要求1所述的方法，其中识别语义实体包括以下一个或多个：(1)将一个或多个单个词或多词短语识别为属于语义集合的语义实体的自动方法，和(2)从所述一个或多个知识库中强制选择一个或多个单个词或多词短语。

4.根据权利要求3所述的方法，其中从由结构化数据库编译的信息中强制选择所述一个或多个单个词或多词短语。

5.根据权利要求1所述的方法，其中在所述时间段内对所述一个或多个知识库中的所有文本进行语义实体识别。

6.根据权利要求1所述的方法，其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。

7.根据权利要求1所述的方法，其中独立于为其他时间片生成的词嵌入，为每个时间片生成所述词嵌入。

8.根据权利要求1所述的方法，其中利用先前时间片的词嵌入生成时间片的所述词嵌入。

9.根据权利要求1所述的方法，其中与所述语义集合相关联的所述多个语义实体不包括所述第二语义实体，所述语义集合与所述第二语义实体相关联。

10.根据权利要求1所述的方法，其中所述第二语义关联强度是所述第一语义实体输入和与语义集合相关联的所述多个语义实体之间的一组语义关联强度的平均值、中位数或百分位数，所述语义集合与所述第二语义实体相关联。

11.根据权利要求1所述的方法，进一步包括：

检测第一时间片的所述第一语义关联强度相对于随后的第二时间片的所述第一语义关联强度的增量；和

确定所述第一语义关联强度的所述增量相对于所述相应的第二语义关联是否具有统计显著性。

12.根据权利要求11所述的方法，其中基于p值来确定所述增量的所述统计显著性，所述p值用作所述第一语义关联强度相对于所述对应的第二语义关联的统计显著性的度量。

13.根据权利要求1所述的方法，进一步包括：

基于所述一个或多个知识库中所述第一实体和所述第二实体之间的共现水平来选择所述第一实体输入和所述第二实体输入。

14.根据权利要求13所述的方法，其中所述第一实体和所述第二实体之间的所述共现水平为零。

15.根据权利要求1所述的方法，进一步包括：

从用户接收所述第一实体输入和所述第二实体输入。

16.根据权利要求1所述的方法，进一步包括：

为每个时间片确定包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数；和

确定与第一时间片的所述第一语义关联强度相对于随后的第二时间片的所述第一语义关联强度的增量相关联的第一日期(1)和与第三时间片的包含所述第一实体和所述第二实体的文档计数相对于第四时间片的包含所述第一实体和所述第二实体的文档计数的增量相关联的第二日期(2)之间的时间差。

17.根据权利要求16所述的方法，进一步包括：

基于固定轴的曲线斜率检测包含所述第一实体和所述第二实体的所述文档计数的所述增量，其中所述曲线基于所述曲线x轴上的所述时间段和所述曲线y轴上的所述文档计数。

18.根据权利要求16所述的方法，进一步包括：

基于文档计数阈值检测包含所述第一实体和所述第二实体的所述文档计数的所述第二增量。

19.根据权利要求1所述的方法，其中所述第一实体和所述第二实体中的每一个是以下实体类型中的一个或多个：生物分子、生物实体、疾病、不良事件、表型、公司、机构、大学、医院、人、药物、医疗器械和医疗程序。

20.根据权利要求1所述的方法，其中所述输出使用户设备显示图形线，所述图形线通过绘制所述时间段内每个所述时间片的每个所述第一语义关联强度而创建。

21.根据权利要求1所述的方法，其中所述输出使用户设备显示图形线，所述图形线通过绘制所述时间段内每个所述时间片的每个平均第二语义关联强度而创建。

22.根据权利要求1所述的方法，其中所述输出使用户设备显示图形线，所述图形线通过绘制所述时间段内每个所述时间片的包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数而创建。

23.一种检测语义实体之间的关联的系统，包括：

存储器，其存储模块；和

处理器，其配置为运行存储在所述存储器中的所述模块，所述模块配置为使所述处理器：

确定用于分析的时间段；

将所述时间段划分成一个或多个时间片；

24.根据权利要求23所述的系统，其中所述一个或多个语料库包括结构化数据和非结构化数据。

25.根据权利要求23所述的系统，其中识别语义实体包括以下一个或多个：(1)将一个或多个单个词或多词短语识别为属于语义集合的语义实体的自动方法，和(2)从所述一个或多个知识库中强制选择一个或多个单个词或多词短语。

26.根据权利要求25所述的系统，其中从由结构化数据库编译的信息中强制选择所述一个或多个单个词或多词短语。

27.根据权利要求23所述的系统，其中在所述时间段内对所述一个或多个知识库中的所有文本进行语义实体识别。

28.根据权利要求23所述的系统，其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。

29.根据权利要求23所述的系统，其中独立于为其他时间片生成的词嵌入，为每个时间片生成所述词嵌入。

30.根据权利要求23所述的系统，其中利用先前时间片的词嵌入生成时间片的所述词嵌入。

31.根据权利要求23所述的系统，其中与所述语义集合相关联的所述多个语义实体不包括所述第二语义实体，所述语义集合与所述第二语义实体相关联。

32.根据权利要求23所述的系统，其中所述第二语义关联强度是所述第一语义实体输入和与语义集合相关联的所述多个语义实体之间的一组语义关联强度的平均值、中位数或百分位数，所述语义集合与所述第二语义实体相关联。

33.根据权利要求23所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

34.根据权利要求23所述的系统，其中基于p值来确定所述增量的所述统计显著性，所述值用作所述第一语义关联强度相对于所述对应的第二语义关联的统计显著性的度量。

35.根据权利要求23所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

36.根据权利要求35所述的系统，其中所述第一实体和所述第二实体之间的所述共现水平为零。

37.根据权利要求23所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

从用户接收所述第一实体输入和所述第二实体输入。

38.根据权利要求23所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

确定与第一时间片的所述第一语义关联强度相对于之后的第二时间片的所述第一语义关联强度的增量相关联的第一日期(1)和与第三时间片的包含所述第一实体和所述第二实体的文档计数相对于第四时间片的包含所述第一实体和所述第二实体的文档计数的增量相关联的第二日期(2)之间的时间差。

39.根据权利要求38所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

40.根据权利要求38所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

41.根据权利要求23所述的系统，其中所述第一实体和所述第二实体中的每一个是以下实体类型中的一个或多个：生物分子、生物实体、疾病、不良事件、表型、公司、机构、大学、医院、人、药物、医疗器械和医疗程序。

42.根据权利要求23所述的系统，其中所述输出使用户设备显示图形线，所述图形线通过绘制所述时间段内每个所述时间片的每个所述第一语义关联强度而创建。

43.根据权利要求23所述的系统，其中所述输出使用户设备显示图形线，所述图形线通过绘制所述时间段内每个所述时间片的每个平均第二语义关联强度而创建。

44.根据权利要求23所述的系统，其中所述输出使用户设备显示图形线，所述图形线通过绘制所述时间段内每个所述时间片的包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数而创建。

45.一种生成实体之间语义信息的方法，包括：

识别一个或多个语料库中的多个语义实体，其中所述语义实体包括单个词或多词短语中的一个或多个；

识别所述一个或多个语料库中的多个语义实体类型；

将一个或多个语义实体类型与来自所述多个语义实体的语义实体相关联；

为所述多个语义实体生成词嵌入；

基于所述词嵌入确定来自所述多个语义实体的语义实体之间的一个或多个语义关联分数；

接收查询项；

基于所述一个或多个语义关联分数生成与所述查询项相关联的结果语义实体的第一列表；

基于与结果语义实体的所述第一列表中的所述语义实体相关联的所述语义实体类型生成语义实体集合的第二列表，其中来自所述第二列表的每个语义实体集合与语义实体类型相关联；以及

基于语义实体集合的所述第二列表提供输出。

46.根据权利要求45所述的方法，其中所述一个或多个语料库包括结构化数据和非结构化数据。

47.根据权利要求45所述的方法，其中基于以下一个或多个来识别所述多个语义实体类型：结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。

48.根据权利要求47所述的方法，其中所述神经网络结构是以下一个或多个：递归神经网络(RNN)或长短时记忆(LSTM)。

49.根据权利要求45所述的方法，其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。

50.根据权利要求45所述的方法，其中所述基于与结果语义实体的所述第一列表的所述语义实体相关联的所述语义实体类型生成语义实体集合的所述第二列表包括使所述生成仅基于满足以下一个或多个条件的结果语义实体：与潜在语义实体类型相关联的结果语义实体的数量最大；结果语义实体的语义关联分数最小；所述结果语义实体在所述一个或多个语料库中出现次数最少；所述结果语义实体出现在所述一个或多个语料库的最小数量的文档中；所述查询项和所述结果语义实体的共现次数最少；所述查询项和所述结果语义实体的共现次数最多；所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最小；以及所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最大。

51.根据权利要求45所述的方法，其中所述生成语义实体集合的所述第二列表包括将所述第二列表中的语义实体集合的数量限制到最大数量。

52.根据权利要求45所述的方法，其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的语义实体的数量最小。

53.根据权利要求45所述的方法，其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的每个所述语义实体的语义关联分数最小。

54.根据权利要求45所述的方法，其中所述生成语义实体集合的所述第二列表进一步基于与所选语义实体集合相关联的所述一个或多个结果语义实体。

55.根据权利要求45所述的方法，其中所述输出使用户设备从所述第一列表中列出一个或多个所述结果语义实体，并且从所述第二列表中列出一个或多个所述语义实体集合。

56.一种生成实体之间语义信息的系统，包括：

存储器，其存储模块；和

识别所述一个或多个语料库中的多个语义实体类型；

为所述多个语义实体生成词嵌入；

接收查询项；

基于语义实体集合的所述第二列表提供输出。

57.根据权利要求56所述的系统，其中所述一个或多个语料库包括结构化数据和非结构化数据。

58.根据权利要求56所述的系统，其中基于以下一个或多个来识别所述多个语义实体类型：结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。

59.根据权利要求58所述的系统，其中所述神经网络结构是以下一个或多个：递归神经网络(RNN)或长短时记忆(LSTM)。

60.根据权利要求56所述的系统，其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。

61.根据权利要求56所述的系统，其中所述基于与结果语义实体的所述第一列表的所述语义实体相关联的所述语义实体类型生成语义实体集合的所述第二列表包括使所述生成仅基于满足以下一个或多个条件的结果语义实体：与潜在语义实体类型相关联的结果语义实体的数量最大；结果语义实体的语义关联分数最小；所述结果语义实体在所述一个或多个语料库中出现的次数最少；所述结果语义实体出现在所述一个或多个语料库的最小数量的文档中；所述查询项和所述结果语义实体的共现次数最少；所述查询项和所述结果语义实体的共现次数最多；所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最小；以及所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最大。

62.根据权利要求56所述的系统，其中所述生成语义实体集合的所述第二列表包括将所述第二列表中的语义实体集合的数量限制到最大数量。

63.根据权利要求56所述的系统，其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的语义实体的数量最小。

64.根据权利要求56所述的系统，其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的每个所述语义实体的语义关联分数最小。

65.根据权利要求56所述的系统，其中所述生成语义实体集合的所述第二列表进一步基于与所选语义实体集合相关联的所述一个或多个结果语义实体。

66.根据权利要求56所述的系统，其中所述输出使用户设备从所述第一列表中列出一个或多个结果语义实体，并且从所述第二列表中列出一个或多个语义实体集合。

67.一种生成实体之间语义信息的方法，包括：

为所述多个语义实体生成词嵌入，其中至少一个所述语义实体是具有多个含义和相应的多个词嵌入的多含义语义实体，其中每个含义与相应的词嵌入相关联；

接收查询项；

确定所述查询项是否对应于与多个嵌入相关联的语义实体；

当所述查询项对应于与多个嵌入相关联的语义实体时，生成一组列表，每个列表包含用于所述多个嵌入的每个嵌入的语义实体，其中基于所述一个或多个语义关联分数的比较，语义实体被包括在一个或多个列表中；以及

当所述查询项对应于与多个嵌入相关联的语义实体时，基于该组列表提供输出。

68.根据权利要求67所述的方法，其中所述一个或多个语料库包括结构化数据和非结构化数据。

69.根据权利要求67所述的方法，进一步包括：

确定一组度量，其测量所述一个或多个语料库中所述多含义语义实体的所述多个含义中的每个含义的出现。

70.根据权利要求69所述的方法，其中所述度量是所述多含义语义实体的所述特定含义与所述多个语义实体中的一个或多个所述语义实体在所述一个或多个语料库的一个或多个文档中共现次数的计数。

71.根据权利要求69所述的方法，其中所述度量是所述一个或多个语料库的文档计数，在所述文档中所述多含义语义实体的所述特定含义与所述多个语义实体中的一个或多个所述语义实体共现。

72.根据权利要求67所述的方法，其中所述词嵌入是使用Adaptive Skip-gram(AdaGram)生成的。

73.根据权利要求67所述的方法，进一步包括：

为该组列表中的每个列表生成百分比，其中每个列表的所述百分比通过将所述对应列表中的语义实体的数量除以该组中所有所述列表中的实体总数进行计算。

74.根据权利要求67所述的方法，进一步包括：

通过分析与所述对应列表中的所述语义实体相关联的一个或多个语义实体类型，将语义实体类型与该组列表中的一个或多个列表相关联。

75.根据权利要求74所述的方法，其中所述分析与所述对应列表中的所述语义实体相关联的所述一个或多个语义实体类型包括确定最常与所述对应列表中的语义实体相关联的语义实体类型。

76.根据权利要求67所述的方法，其中所述输出使用户设备显示该组列表和该组列表中每个列表中的所述结果语义实体。

77.一种生成实体之间语义信息的系统，包括：

存储器，其存储模块；和

接收查询项；

确定所述查询项是否对应于与多个嵌入相关联的语义实体；

当所述查询项对应于与多个嵌入相关联的语义实体时，生成一组列表，每个列表包含用于所述多个嵌入的每个嵌入的语义实体，其中基于所述一个或多个语义关联分数的比较，将语义实体包括在一个或多个列表中；以及

78.根据权利要求77所述的系统，其中所述一个或多个语料库包括结构化数据和非结构化数据。

79.根据权利要求77所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

确定一组度量，所述度量测量所述一个或多个语料库中所述多含义语义实体的所述多个含义中的每个含义的出现。

80.根据权利要求79所述的系统，其中所述度量是所述多含义语义实体的所述特定含义与所述多个语义实体中的一个或多个所述语义实体在所述一个或多个语料库的一个或多个文档中共现次数的计数。

81.根据权利要求79所述的系统，其中所述度量是所述一个或多个语料库的文档计数，在所述文档中所述多含义语义实体的所述特定含义与所述多个语义实体中的一个或多个所述语义实体共现。

82.根据权利要求77所述的系统，其中所述词嵌入是使用Adaptive Skip-gram(AdaGram)生成的。

83.根据权利要求77所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

84.根据权利要求77所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

85.根据权利要求84所述的系统，其中所述分析与所述对应列表中的所述语义实体相关联的所述一个或多个语义实体类型包括确定最常与所述对应列表中的所述语义实体相关联的语义实体类型。

86.根据权利要求77所述的系统，其中所述输出使用户设备显示该组列表和该组列表中每个列表中的所述结果语义实体。

87.一种生成实体之间语义信息的方法，包括：

识别所述一个或多个语料库中的多个语义实体类型；

将至少一种语义实体类型与所述多个语义实体中的所述语义实体相关联；

为所述多个语义实体生成词嵌入；

确定来自所述多个语义实体的语义实体之间的一个或多个语义关联分数；

接收查询项和实体类型输入；

确定与所述查询项相关联的查询项实体类型；

基于所述一个或多个语义关联分数生成与所述查询项相关联的结果语义实体的第一列表，其中来自所述第一列表的所述结果语义实体与同所述查询项实体类型相同的语义实体类型相关联；

基于所述一个或多个语义关联分数生成与所述查询项相关联的结果语义实体的第二列表，其中来自所述第二列表的所述结果语义实体与所述实体类型输入相关联；

生成语义关联分数的第三列表，其中所述第三列表包括来自所述第一列表的每个所述结果语义实体和来自所述第二列表的每个所述结果语义实体之间的语义关联分数；以及

基于所述第一列表、所述第二列表和所述第三列表提供输出。

88.根据权利要求87所述的方法，其中所述一个或多个语料库包括结构化数据和非结构化数据。

89.根据权利要求87所述的方法，其中基于以下一个或多个来识别所述多个语义实体类型：结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。

90.根据权利要求89所述的方法，其中所述神经网络结构是以下一个或多个：递归神经网络(RNN)或长短时记忆(LSTM)。

91.根据权利要求87所述的方法，其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。

92.根据权利要求87所述的方法，其中所述生成所述第一列表包括将所述结果语义实体的数量限制到最大计数。

93.根据权利要求87所述的方法，其中所述生成所述第一列表进一步基于要求每个所述结果语义实体的语义关联分数大于最小语义关联分数。

94.根据权利要求87所述的方法，其中所述生成所述第二列表包括将所述结果语义实体的数量限制到最大计数。

95.根据权利要求87所述的方法，其中所述生成所述第二列表进一步基于要求每个所述结果语义实体的语义关联分数大于最小语义关联分数。

96.根据权利要求87所述的方法，其中所述输出使用户设备生成热图，其中来自y轴上的所述第一列表的所述结果语义实体、来自x轴上的所述第二列表的所述结果语义实体以及来自所述第三列表的每个所述语义关联分数以颜色或颜色的深浅表示，其中所述颜色或所述颜色的深浅映射到语义关联分数。

97.一种生成实体之间语义信息的系统，包括：

存储器，其存储模块；以及

识别所述一个或多个语料库中的多个语义实体类型；

为所述多个语义实体生成词嵌入；

接收查询项和实体类型输入；

确定与所述查询项相关联的查询项实体类型；

98.根据权利要求97所述的系统，其中所述一个或多个语料库包括结构化数据和非结构化数据。

99.根据权利要求97所述的系统，其中基于以下一个或多个来识别所述多个语义实体类型：结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。

100.根据权利要求99所述的系统，其中所述神经网络结构是以下一个或多个：递归神经网络(RNN)或长短时记忆(LSTM)。

101.根据权利要求97所述的系统，其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。

102.根据权利要求97所述的系统，其中所述生成所述第一列表包括将所述结果语义实体的数量限制到最大计数。

103.根据权利要求97所述的系统，其中所述生成所述第一列表进一步基于要求每个所述结果语义实体的语义关联分数大于最小语义关联分数。

104.根据权利要求97所述的系统，其中所述生成所述第二列表包括将所述结果语义实体的数量限制到最大计数。

105.根据权利要求97所述的系统，其中所述生成所述第二列表进一步基于要求每个所述结果语义实体的语义关联分数大于最小语义关联分数。

106.根据权利要求97所述的系统，其中所述输出使用户设备生成热图，其中来自y轴上的所述第一列表的所述结果语义实体、来自x轴上的所述第二列表的所述结果语义实体以及来自所述第三列表的每个所述语义关联分数以颜色或颜色的深浅表示，其中所述颜色或所述颜色的深浅映射到语义关联分数。

107.一种方法，包括：

识别存在于一个或多个知识库中的语义实体和相关联的语义集合，其中所述语义实体包括单个词或多词短语中的一个或多个，并且语义集合的所述语义实体共享实体类型；

确定用于分析的时间段；

将所述时间段划分成一个或多个时间片；

通过执行以下步骤来表征第一语义实体输入和第二语义实体输入之间的时间语义关联：

为每个时间片确定所述第一语义实体输入和所述第二语义实体输入之间的第一语义关联强度；

为每个时间片确定所述第一语义实体输入和与语义集合相关联的多个语义实体之间的第二语义关联强度，所述语义集合与所述第二语义实体相关联；

为每个时间片确定将所述第一语义关联强度与所述第二语义关联强度相联系的概率度量；

为每个时间片分配时间值；

通过将为时间片分配的所述时间值与所述时间片的所述概率度量相关联来为每个所述时间片确定二维点的序列，其中所述序列通过增加时间值来排序；

将曲线拟合到所述有序序列；

提取所述曲线拟合的特征，其中所述特征包括以下一个或多个：

增加时间值，其表示所述概率度量在所述时间值处出现统计上的显著幅度变化，

概率饱和值，其表示所述概率度量的最大值，或

所述曲线下面积值；

通过表征所述第一语义实体输入和所述第二语义实体输入之间的所述时间语义关联来提供所述曲线拟合的特征。

108.根据权利要求107所述的方法，进一步包括：

从用户接收所述第一语义实体输入；

从用户接收所述第二语义实体输入作为一组，该组至少有两个第二语义实体；

为该组的每个所述第二语义实体执行所述表征所述第一语义实体输入和所述第二语义实体输入之间的所述时间语义关联的步骤；以及

显示所述第一语义实体输入和该组的至少两个所述第二语义实体输入的所述曲线拟合的所述特征。

109.根据权利要求108所述的方法，其中所述显示所述曲线拟合的所述特征包括将所述第一语义实体输入和所述第二语义实体输入时间语义关联中的每一个的所述增加时间值、所述概率饱和值和所述曲线下面积值显示为气泡图，其中沿着所述气泡图x轴的气泡位置对应于所述增加时间值，沿着所述气泡图y轴的气泡位置对应于所述概率饱和值，气泡的尺寸对应于所述曲线下面积值。

110.根据权利要求109所述的方法，进一步包括：

显示与所述气泡附近的气泡相关联的所述第一语义实体输入的身份和所述第二语义实体输入的身份。

111.根据权利要求108所述的方法，其中显示所述曲线拟合的所述特征包括仅显示所述概率饱和值满足概率阈值的所述曲线拟合的所述特征。

112.根据权利要求108所述的方法，其中所述显示所述曲线拟合的所述特征包括仅显示所述第一语义实体输入和所述第二语义实体输入之间的时间语义关联的所述曲线拟合的所述特征，所述第一语义实体输入和所述第二语义实体输入在满足共现阈值的所述一个或多个语料库的文档中具有共现计数。

113.根据权利要求108所述的方法，进一步包括：

确定所述第一语义实体输入和该组的至少两个所述第二语义实体输入在所述一个或多个语料库的文档中的共现计数。

114.根据权利要求113所述的方法，其中所述显示所述曲线拟合的所述特征包括将所述第一语义实体输入和所述第二语义实体输入时间语义关联中的每一个的所述增加时间值、所述概率饱和值和所述共现计数显示为气泡图，其中沿着所述气泡图x轴的气泡位置对应于所述增加时间值，沿着所述气泡图y轴的气泡位置对应于所述概率饱和值，气泡的尺寸对应于所述共现计数。

115.根据权利要求107所述的方法，其中将所述第一语义关联强度与所述第二语义关联强度相联系的所述概率度量是p值的负对数，其中相对较高的概率度量表示所述第一语义关联强度相对于所述第二语义关联强度更具统计显著性，而相对较低的概率度量表示所述第一语义关联强度相对于所述第二语义关联强度无统计显著性。

116.根据权利要求115所述的方法，其中所述将所述曲线拟合到所述有序序列包括根据以下等式将sigmoid曲线拟合到所述有序序列：

其中，

y值是序列的概率度量；和

x值是序列的时间值。

117.一种系统，包括：

存储器，其存储模块；和

确定用于分析的时间段；

将所述时间段划分成一个或多个时间片；

为每个时间片分配时间值；

通过将为所述时间片分配的所述时间值与所述时间片的所述概率度量相关联来为每个时间片确定二维点的序列，其中所述序列通过增加时间值来排序；

将曲线拟合到所述有序序列；

概率饱和值，其表示所述概率度量的最大值，或

所述曲线下面积值；

118.根据权利要求117所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

从用户接收所述第一语义实体输入；

119.根据权利要求118所述的系统，其中所述显示所述曲线拟合的所述特征包括将所述第一语义实体输入和所述第二语义实体输入时间语义关联中的每一个的所述增加时间值、所述概率饱和值和所述曲线下面积值显示为气泡图，其中沿着所述气泡图x轴的气泡位置对应于所述增加时间值，沿着所述气泡图y轴的气泡位置对应于所述概率饱和值，气泡的尺寸对应于所述曲线下面积值。

120.根据权利要求119所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

121.根据权利要求118所述的系统，其中所述显示所述曲线拟合的所述特征包括仅显示所述概率饱和值满足概率阈值的所述曲线拟合的所述特征。

122.根据权利要求118所述的系统，其中所述显示所述曲线拟合的所述特征包括仅显示所述第一语义实体输入和所述第二语义实体输入之间的时间语义关联的所述曲线拟合的所述特征，所述第一语义实体输入和所述第二语义实体输入在满足共现阈值的所述一个或多个语料库的文档中具有共现计数。

123.根据权利要求118所述的系统，其中存储在所述存储器中的所述模块还配置为使所述处理器：

124.根据权利要求123所述的系统，其中显示所述曲线拟合的所述特征包括将所述第一语义实体输入和所述第二语义实体输入时间语义关联中的每一个的所述增加时间值、所述概率饱和值和所述共现计数显示为气泡图，其中沿着所述气泡图x轴的气泡位置对应于所述增加时间值，沿着所述气泡图y轴的气泡位置对应于所述概率饱和值，气泡的尺寸对应于所述共现计数。

125.根据权利要求117所述的系统，其中将所述第一语义关联强度与所述第二语义关联强度相联系的所述概率度量是p值的负对数，其中相对较高的概率度量表示所述第一语义关联强度相对于所述第二语义关联强度更具统计显著性，而相对较低的概率度量表示所述第一语义关联强度相对于所述第二语义关联强度无统计显著性。

126.根据权利要求125所述的系统，其中将所述曲线拟合到所述有序序列包括根据以下等式将sigmoid曲线拟合到所述有序序列：

其中,

y值是序列的概率度量；和

x值是序列的时间值。