CN114287000A

CN114287000A - 信息检索和/或可视化方法

Info

Publication number: CN114287000A
Application number: CN202080060121.9A
Authority: CN
Inventors: J·L·雷蒙德; D·普罗布斯特
Original assignee: Bern University
Current assignee: Bern University
Priority date: 2019-08-12
Filing date: 2020-08-12
Publication date: 2022-04-05
Also published as: EP4014132A1; WO2021028505A1; EP3779733A1; US20220300528A1

Abstract

用于从对象数据库检索信息和/或生成可视化数据的计算机实现的信息检索方法，该方法包括以下步骤：针对多个数据库对象建立索引结构，在索引结构中搜索数据库对象的最近邻，基于找到的最近邻生成最小生成树，从最小生成树生成可视化数据。还提供了数据库中数据对象的可视化方法，该方法包括：针对多个数据库对象建立索引结构；在索引结构中搜索数据库对象的最近邻；基于找到的最近邻生成最小生成树；从最小生成树生成可视化数据，以及基于可视化数据生成显示。

Description

信息检索和/或可视化方法

本发明涉及信息检索，特别地，涉及用于从对象数据库生成数据可视化的信息的检索。

近年来，存储极大量数据变得可行，实现了将数据收集在越来越大的数据库中。将数据存储在大型数据库中的原因之一是假设可以找到导致科学进步或具有经济利益或其他利益的数据模式，数据库越大，获得的预期结果越好。

例如，在给定的小目标分子对蛋白质位点的给定位点具有某些积极的生物学效应，例如高结合亲和力，但例如由于溶解度低而不适合用作药物化合物时，人们可能会假设存在与目标分子密切对应的其他类似分子，其具有同样的正面性质但没有负面性质。现在，如果化学数据库包含与其生物学特性和物理特性相关的大量小分子的数据，例如毒性、与特定蛋白质位点的结合亲和力、溶解度等，对于药物发现而言，可以在该数据库中搜索类似的分子。因此，可以在数据库中对此类分子进行搜索或“虚拟筛选”，前提是可以识别与初始目标分子“相似”的分子。

然而，虽然可以预期对越大的数据库而言以这种方式获得的结果会越好，但是数据库越大，识别相似分子的任务在计算上会变得越来越具有挑战性。此外，评估数据库中的分子是否与给定的目标分子相似的成本极高。因此，希望使研究人员能够控制数据库中的搜索结果并了解得出分子“相似”结果的模式。

因此，常希望以研究人员易于理解的方式将数据结构可视化。考虑到计算挑战，这种可视化应该以即使数据集非常大的情况下也能适用的方式实现。在该语境下应该注意的是，即使“小”分子仅限于原子数少于17的分子，诸如PubChem、GDB等数据库也可能包含数百万个条目。这一事实带来了重大的技术问题，因为存取与大量分子相关的信息或生成与大量分子相关的可视化数据不仅需要大量的主内存，而且如果要在可接受的时间内获得结果，还需要高内存带宽。此外，即使使用强大的处理器，必要的计算本身也可能需要非常大量的时间。据了解，长时间运行强大的处理器和访问高带宽的内存会消耗相当大的功率。

此类问题不仅在尝试从化学数据库中获取信息时遇到。例如，在根据具有大量传感器的机器的传感器数据预测故障时，当在粒子物理实验中区分背景和来自许多通道的检测器信号查看的“真实”信号时，或者在广泛的文本数据库中确定文本作者时(可以通过查看文本的较小片段实现)，都可能出现类似问题。

可以理解，在所述说明性场景中，不同的参数，如化学数据库中分子的不同生物学特性、利用不同传感器测量的值、粒子物理实验中不同通道的信号值、甚至文本片段等，都或多或少地相互独立，因此可以被认为构成不同的维度。

从这个角度来看，必须从高维空间中的对象中检索信息，如果需要进行可视化，所显示的图案必须具有明显较低的维度。通常，图案显示在平面屏幕上，因此图案的维度应该是二维，但也可以在屏幕上显示3D图案的投影，例如，在三维空间中旋转的3D图案的投影，使三维图案可以容易地被感知。请注意，甚至可以通过改变屏幕中图像的属性(例如色调、色彩饱和度或线条强度)来将其他维度可视化，但尽管如此，可视化的维度远低于底层数据库的维度。

因此，也可以认为本发明涉及计算机实现的将高维数据集可视化的方法。

根据2018年12月6日L.McInnes等人所著的“UMAP：Uniform ManifoldApproximation and Projection for Dimension Reduction”，已知一种用于降维的流形学习技术。据称，降维旨在生成高维数据的保留有相关结构的低维表示，并且是用于机器学习的可视化和预处理的数据符号中的重要问题。据称降维算法倾向于分为两类，即寻求保留数据中的距离结构的算法和相较于全局距离更偏向保留局部距离的算法。鉴于此提出了UMAP算法作为黎曼几何和模糊单纯集合几何实现的理论方法的组合。UMAP使用局部流形近似，将其局部模糊单纯集合表示拼凑在一起，构建成高维数据的拓扑表示。作者解释说，UMAP工作的第一阶段可以认为是构建加权k邻域图。据称，在实践中，UMAP在低维空间中使用力导向图布局算法，该算法利用沿各边施加的一组吸引力和在顶点之间施加的一组排斥力。作者还指出，k最近邻计算可以通过经验复杂度为O(N^1.14)的算法实现。然后指出，所需的优化工作量与模糊图中的边数成比例，导致复杂度为O(kn)。作者还将计算比较与其他算法进行了比较，声称UMAP算法比其他算法执行得更快。然而，该算法被认为缺乏根据其他技术(如主成分分析)已知的强可解释性，因此在强可解释性至关重要的情况下，即使作者也推荐其他技术。

根据Jin等所著的题为“PDB-Explorer:a web-based interactive map of theprotein databank in shape space”的论文(BMC Bioinformatics(2015)16:339DOI10.1186/s12859-015-0776-9)，其中一位共同作者为本申请的发明人之一，已知对特定蛋白质数据库的全局结构多样性进行访问的选项仍然有限。该文档中建议使用基于网络的数据库探索工具，包括PDB化学空间的有效颜色编码图和最近邻搜索工具。作者建议使用其计算出的分子指纹来确定数据库中对象之间的关系。

根据C.M.Bishop等所著的文档“GTM：The Generative Topographic Mapping”(Technical Report NCRG/96/015)，已知许多数据集在变量之间表现出显著的相关性，捕获这种结构的一种方法是根据潜在或隐藏变量对数据分布建模。据称，潜在变量模型的一个重要应用是数据可视化。除其他方面外，作者还考虑了不同映射算法的计算成本和算法的性能。他们还指出，在实际应用中建议该算法的潜在优势来自于试验训练运行次数的减少。

在T.Kohonen所著文档“The self-organizing map”(Proceedings of the IEEE,volume 68,no.9,September 1990,pg.1464et sec)中，建议由自组织映射创建有空间组织的“各种特征的内部表示”，并且所使用的对权重向量的监督微调可以具有如下效果：自组织映射在涉及非常嘈杂信号的图案识别任务中特别成功。在示例中，建议对抽象数据分类(非层次聚类)，并将输入数据矩阵的自组织映射与对应于输入数据矩阵的最小生成树相比较。

根据L.van der Maaten所著的论文“Visualizing Data using t-SNE”(Journalof Machine Learning Research 9(2008)2579-2605)，一种被称为t-SNE的技术通过给每个数据点赋予一个在二维或三维空间中已知的位置来将高维数据可视化。该技术被称为随机近邻嵌入的变型，并且解释了高维数据的可视化是许多不同领域的基本问题。作者指出，传统的降维技术(如PCA和经典多维缩放)专注于将不相似数据点的低维表示保持得相距较远。相反，对于位于或靠近低维非线性流形的高维数据，通常更重要的是将各相似数据点的低维表示保持得靠近在一起，这在使用线性映射的情况下是不可能的。随机近邻嵌入首先将数据点之间的高维或欧几里得距离转换为表示相似性的条件概率。在以做选择的数据点为高斯中心、对近邻的选择与临近点的概率密度成正比的情况下，每对数据点的相似性被表达为一个数据点选取另一数据点作为其近邻的条件概率。附近数据点的该条件概率较高，而相距较远的数据点的概率几乎是无穷小。t-SNE建议使用高斯分布以外的分布。作者指出，t-SNE的计算复杂度和内存复杂度为数据点数量的二次方，这使得在实践中无法将标准版本的t-SNE应用于包含超过10.000个点的数据集。

根据J.Lu等人所著的文档“ChemTreeMap:an interactive map of biochemicalsimilarity in molecular data sets”(Bioinformatics,32(23),2016,3584-3592)，已知虽然计算生物学经常结合各种化学数据来探索生物学问题，但现有的化学数据工具并不适合生物信息学固有的庞大数据集。该文档试图描述一种交互式生物信息学工具，旨在探索化学空间并挖掘化学结构、分子特性、以及生物活性之间的关系。据称，要求用户在图形工具中选择选取规则和调整参数可能限制大型、多样化数据集的效用，而允许用户绘制任何感兴趣的属性有助于实现对分子结构与其他性质间关系的即时的定制探索。作者指出，分子库的组织和可视化要求3个考虑因素，即如何表示分子、如何量化相似性、以及如何以图形方式表示相似性。关于分子的表示，建议使用立体化学感知的扩展连接指纹，即ECFP6。但是，也可以添加其他指纹，例如MACCS密钥或拓扑扭转密钥。据称，每对分子的相似性可以使用两个分子共有的化学特征的数量除以所有特征的并集来计算，并且可以构建层次树。应该注意的是，ChemTreeMap的工作流程建议计算指纹(例如ECFP6#S)以构建树结构，然后根据构建的树结构计算2D坐标。作者建议在可视化时，可以使用广泛的配色方案，并且可以通过轮廓添加数据。

关于相似度搜索，根据J.Wang等人所著的“Hashing for Similarity Search:ASurvey”(arXiv:1408.2927v1,2014年8月13日)，已知散列是将数据项转换到低维表示或由位序列组成的等效短代码的一般方法。

作者将散列算法分为两大类，即局部敏感散列(在不探索数据分布的情况下设计散列函数)以及学习散列(根据数据分布学习得到散列函数)。讨论了几种距离，例如汉明Hamming距离、杰卡德Jaccard系数、以及归一化汉明距离、不对称汉明距离、加权汉明距离、曼哈顿Manhattan距离、对称欧几里得距离、非对称欧几里得距离，例如，在基于配体的虚拟筛选情境下使用分子相似性概念以使用已知的活性物质来寻找新的分子进行测试。

特别地，S.Riniker等人所著的“Open-source platform tobenchmarkfingerprints for ligand-based virtual screening”(Journal ofCheminformatics 2013,5:26)中，使用基准化平台在搜索分子相似性的背景下针对来自公开可用数据集集合的许多目标来评估不同指纹。作者指出，存在各种指纹识别算法，用于评估虚拟筛选性能的方法也有多种，但对于哪种最好并未达成共识。

应当注意，虽然在下文描述的本发明的优选实施例的上下文中，明确提及了某些指纹，但是可以使用除了本文中在实施例的上下文中明确提及的指纹之外的指纹，并且当在对具有不同对象的不同类型的数据库进行可视化或将其用作要从中检索信息的数据库时、以及在要检索或可视化的信息的类型不同的情况下，可以使用对不同指纹的评估。应该特别理解的是，在引用的文档中提及的所建议的用于虚拟筛选的指纹及其衍生物都可以用于本发明的上下文中。

在D.Probst和J.-L.Rey-mond所著的“A probabilistic molecular offingerprint for big data settings”(J.Cheminform(2018)10:66)中，作者指出，为了描述有机小分子，多达4个键的指纹扩展连通(ECFP4)在基准化药物类似物回收率研究中表现最佳，因为其以高度细节对子结构进行编码。然而，作者指出，ECFP4需要高维表示才能良好执行，因此GDB、PubChem或ZINC等大型数据库中的最近邻搜索由于高维而执行缓慢。因此，作者报告了一种新的指纹，其使用ECFP的扩展连接原理对详细的子结构进行编码。作者指出，该文档中建议的指纹的关键优势在于实现了特定的散列方法MinHash，其使得能够使用LSH森林算法在稀疏的高维散列空间中执行特定搜索，ANN(近似最近邻)搜索。作者对若干搜索算法进行了比较，并对尤其通过LSH森林进行索引的指纹进行比较。根据基准化测试，他们得出以下结论，即与称为Annoy的算法相比，LSH森林对于较少数量的最近邻表现更好，并指出通过将最近邻的数量增加kc倍，然后从扩大的集合中选择实际的最近邻，性能得到显著提高。与其他论文一样，文中观测了与不同方法相关的计算量，并比较了不同算法的查询时间。作者得出结论，MHFP6实现在稀疏且高维二元化学空间中进行近似k最近邻搜索，且无需通过直接应用ANN算法(如LSH森林)进行折叠。因此，成功地消除了与高维相关的问题(称为“维数灾难”)，同时保留了局部性。

在搜索最近邻时，必须使用合适的搜索方法。在W.Dong等人所著的“Efficient K-Nearest Neighbor Graph Construction for Generic Similarity measure”(ACM 978-1-4503-0632-4/11/03)中，已知k最近邻图构造是许多与数据相关的应用(包括相似性搜索、数据挖掘和机器学习)的重要操作。作者指出，某些用于构造k最近邻图的方法无法缩放或者特定于一定的相似性度量。他们强调好的构造算法应该是通用的、可扩展的、节省空间的、快速的、准确的且易于实现的。他们考虑了几种相似性度量，例如文本数据的余弦相似度和Jaccard相似度。作者将经验复杂性视为数据集规模。作者声称LSH(局部敏感散列)很难实现高召回率(即良好的结果)。

G.

等人所著的“Localitysensitive hashing for the edit distance”(bioRxiv，preprint TTP：//dx.doi.org/10.1101/534446)中，讨论了LSH在DNA序列比对中的使用。他们指出，在对齐基因组序列时，已知局部敏感散列可以减少必要的工作量。该过程是一种降维方法，其中首先将序列汇总为比原始序列小得多的草图，同时保留重要信息以估计两个序列的相似程度，然后直接比较这些草图，并将这些草图用作进入散列表的密钥来查找可能相似的序列对。此后，可以对这样的候选对使用更彻底和计算上更高成本的对齐过程来细化实际对齐。引入了编辑距离，指将一个字符串转换为另一字符串所需的操作和失配、插入或删除的数量。此编辑距离也称为莱文斯坦Levenshtein距离。作者指出，所使用的方法可能会导致漏报(即对齐丢失)，或误报(即报告不存在的潜在对齐)。作者明白在这种情况下需要额外的计算工作。

根据2016年11月6日A.Andoni所著的“LSH Forest:Practical Algorithms MadeTheoretical”可知，可以修改LSH森林启发法以提高其性能。

WO 2005/031600公开了一种针对包括至少一个项的多个文档确定聚类吸引子的方法。该方法包括针对每个项计算指示在所述文档的至少一个文档中与所述项同时出现的其他或每个其他项的出现频率的概率分布。然后，计算相应概率分布的熵。最后，根据相应的熵值选择所述概率分布中的至少一个作为聚类吸引子。该方法有助于形成非常小的聚类，从而在文档搜索期间实现更明确的检索。

US 2019/205325公开了用于自动发现和提取表示通过多个电子文档传达的主题或概念话语短语或的术语的技术，以有助于生成适用于通过数字助理设备来对用于调用基于应用的操作的命令做出解释的语言模型。

鉴于上述内容，仍然迫切需要一种资源高效的方法来从数据集，特别是从大型数据集生成直观可解释的可视化。

本发明的一个目的是提供用于从数据库检索信息和/或生成可视化数据的方法。该目的通过本文提供的实施例的主题来实现并且以权利要求所表征内容为特征。从属权利要求提供了一些优选实施例。

因此，本发明涉及以下实施例：

1.一种用于将数据库中数据对象可视化的计算机实现的方法，该方法包括下述步骤：

通过提供多个散列函数和针对多个数据库对象中的每个数据库的描述符、并通过基于所述多个散列函数执行描述符的局部敏感散列指定多个索引树，从而针对所述多个数据库对象建立索引结构，

在索引结构中搜索数据库对象的最近邻，

基于找到的最近邻生成最小生成树，以及

使用概率布局算法从最小生成树生成可视化数据，以实现数据库中数据对象的可视化。

2.根据前述实施例的计算机实现的方法，其中建立索引结构时，数据库或数据库中的部分是从非易失性计算机可读存储器检索的，所述非易失性计算机可读存储器特别是本地磁盘、网络服务器或云。

3.根据前述实施例中任一项的计算机实施方法，其中数据库包括多于100.000个对象，特别地包括多于250.000个对象，特别地包括多于500.000个对象，特别地包括多于1.000.000个对象，和/或特别地包括多于10.000.000个对象。

4.根据前述实施例中任一项的计算机实现的方法，其中数据库包括具有多于20维的对象，特别地包括具有多于30维的对象。

5.根据前述实施例中任一项的计算机实现的方法，其中，至少一个指定的索引树具有至少一个线性节点序列，并且建立索引结构的步骤包括折叠线性节点。

6.根据前述实施例中的任一项的计算机实现的方法，其中，指定包括多个不同索引树的LSH森林。

7.根据前述实施例的计算机实现的方法，其中，LSH森林包括的树的数量少于不同散列函数的数量，特别地，少于不同散列函数的数量的一半。

8.根据前述实施例的计算机实现的方法，其中LSH树或LSH森林被存储以用于下一次近邻搜索，特别地，在搜索下一近邻时被存储在RAM中。

9.根据前述实施例中任一项的计算机实现的方法，其中，

数据库对象是化学分子，并且针对多个数据库对象建立索引结构包括提供作为分子指纹作为描述符，特别地，所述分子指纹是MHFP或ECFP指纹；或者

数据库对象是文本，并且针对多个数据库对象建立索引结构包括提供Minhash编码作为描述符；或者

数据库对象是二进制对象，并且针对多个数据库对象建立索引结构包括提供加权Minhash编码作为描述符。

10.根据前述实施例中任一项的计算机实现的方法，其中在索引结构中搜索数据库对象的最近邻的步骤包括：汉明Hamming距离度量、莱文斯坦Levenshtein距离度量、余弦相似度度量、以及杰卡德Jaccard相似度度量，识别近似为下一近邻的近邻对象。

11.根据前述实施例中任一项的计算机实现的方法，其中在索引结构中搜索数据库对象的最近邻的步骤包括：选择k个近似的下一近邻对象，特别地，从kc*k个近邻中选择k个下一近邻，其中kc>1。

12.根据前述实施例中任一项的计算机实现的方法，其中概率布局算法包括使用力导引图绘制技术。

13.根据前述实施例中任一项的计算机实现的方法，其中概率布局算法是有效概率布局算法。

14.根据前述实施例的计算机实现的方法，其中有效概率布局算法包括利用基于多层级、多极的力近似，使用弹簧-电spring-electrical模型布局方法。

15.根据前述实施例中任一项的计算机实现的方法，其中可视化数据被以可移植数据格式输出，特别地，被输出为可移植HTML数据。

16.一种用于数据库中数据对象的可视化的计算机实现的方法，该方法包括下述步骤：

通过提供多个散列函数和针对多个数据库对象中的每个数据库对象的描述符、并通过基于所述多个散列函数对描述符执行局部敏感散列指定多个索引树，从而针对所述多个数据库对象建立索引结构

在索引结构中搜索数据库对象的最近邻，

基于找到的最近邻生成最小生成树，

使用优化方法和布局算法从最小生成树生成可视化数据，以实现数据库中数据对象的可视化。

17.一种用于数据库中数据对象的可视化的计算机实现的方法，该方法包括下述步骤：

针对多个数据库对象建立索引结构，数据库对象包括多于100.000个对象，特别地包括多于250.000个对象，特别地包括多于500.000个对象，特别地包括多于1.000.000个对象，和/或特别地包括多于10.000.000个对象，

在索引结构中搜索数据库对象的最近邻，

基于找到的最近邻生成最小生成树，

18.一种计算机实现的信息检索方法，用于从对象数据库中检索信息，该方法包括下述步骤：

针对多个数据库对象建立索引结构，数据库对象包括多于100.000个对象，特别地包括多于250.000个对象，特别地包括多于500.000个对象，特别地包括多于1.000.000个对象，和/或特别地包括多于10.000.000个对象,

在索引结构中搜索数据库对象的最近邻，

基于找到的最近邻生成最小生成树，并从该最小生成树中检索信息。

19.一种计算机实现的信息检索方法，用于从对象数据库中检索信息，该方法包括下述步骤：

通过提供多个散列函数和针对多个数据库对象中的每个数据库对象的描述符、并通过基于多个散列函数执行描述符的局部敏感散列指定多个索引树，其中指定包括多个不同索引树的LSH森林，从而针对多个数据库对象建立索引结构，

在索引结构中搜索数据库对象的最近邻，

根据本发明的第一总体方面，提出了一种用于从对象数据库检索信息和/或生成可视化数据的计算机实现的信息检索方法，该方法包括以下步骤：针对多个数据库对象建立索引结构，在索引结构中搜索数据库对象的最近邻，基于找到的最近邻生成最小生成树，从最小生成树生成可视化数据。

特别地，在本发明的某些实施例中，提出了一种用于数据库中数据对象的可视化的计算机实现方法，该方法包括以下步骤：通过提供多个散列函数和针对多个数据库对象中的每个数据库对象的描述符、并通过基于多个散列函数执行描述符的局部敏感散列来指定多个索引树，从而针对多个数据库对象建立索引结构；在索引结构中搜索数据库对象的最近邻；基于找到的最近邻生成最小生成树；使用概率布局算法从最小生成树生成可视化数据，以实现数据库中数据对象的可视化。

本文中使用的术语“数据对象”指通常与存储器中特定位置处具有特定大小的连续块对应的概念实体，该连续块具有定义该实体的一个或更多个属性。在本发明的一些实施例中，数据对象是图像、SMILES(简化分子输入行输入规范)、原子坐标、文本、基因表达、信号强度、或粒子ID、协同调节分数(例如蛋白质的)。

本文中使用的术语“描述符”是指示至少一个数据对象并且可以用作索引结构的对象的实体。在本发明的一些实施例中，描述符是指纹(例如，分子指纹)、标识符(例如，唯一标识符)或数据描述符(例如，阵列描述符)。

术语“散列函数”是不可逆函数，其可用于将任意大小的项(例如，数据对象)映射到固定大小的值。

本文中使用的术语“局部敏感散列”是指允许将高维输入项减少到低维版本同时保留项之间的相对距离的散列函数。这种示例性散列函数在G.

等人所著的“Localitysensitive hashing for the edit distance”(bioRxiv,preprint TTP://dx.doi.org/10.1101/534446)中有描述。

本文中使用的术语“树”是指其中任意两个节点通过仅一条路径连接的无向图，或者等效地是无环无向连通图。在该上下文中，图由通过边连接的节点组成。

本文中使用的短语“搜索最近邻”是指使用最近邻搜索算法。优选地，本发明中使用的最近邻搜索算法是k最近邻搜索算法。W.Dong等人所著的“Efficient K-NearestNeighbor Graph Construction for Generic Similarity Measures”(ACM 978-1-4503-0632-4/11/03)中描述了k最近邻算法的示例。

本文中使用的术语“最小生成树”指边赋权无向无环连通图的边的子集，该子集将图的所有节点连接在一起，且具有可能的最小的边权重总和。

本文中使用的术语“可视化”通常指呈现给用户(例如，在显示屏上)的给定数据集的视觉表示。

本文中使用的术语“概率布局算法”指具有概率优化算法的布局算法，其与单独的布局算法相比，能够更快且/或需求更少计算资源地从最小生成树生成可视化数据。本文中使用的术语“布局算法”是指可用于绘制图的一类算法。在本发明的一些实施例中，布局算法是基于力的布局方法、光谱布局方法、正交布局方法、树布局算法、或分层图绘制方法。在本发明的一些实施例中，概率优化算法是模拟退火算法、遗传算法或多级算法。

可视化结果中大量非连通分量和/或低分辨率分量可能对用户而言难以识别、使用和/或解释可视化数据。与以前的方法如UMAP相比，本发明的方法允许绘制具有更多连通分量(例如，链接的分支或链接的子集群)的图并将分量更均匀地分布在画布上，从而实现比已有方法更好的视觉分辨率，从而便于用户对可视化进行解释(参见图1的a至d)。本发明的方法通过可视化呈现集群内的子集群和/或分支如何链接以及哪些真阳性与假阳性相关联来实现对集群内差异和误差的更高分辨率。因此，本发明的效果部分基于由该方法生成的可视化数据的可见性和可解释性。

此外，与已有方法的可视化相比，本发明的方法生成的可视化中的局部性保留性能(例如基于拓扑或欧几里德距离的嵌入后最近邻关系保留性)更好(参见图1的e至f)。因此，本发明的效果部分基于该方法生成的可视化数据的局部性保留性能。

通过使用本发明方法的步骤的组合，可以避免资源密集型步骤。以这种方式，即使对于其中包括具有各种不同参数并因此可被认为是高维对象的对象的非常大型的数据库，为确定可视化数据付出的计算量仍保持得相当低，尽管可视化数据的生成允许进一步的评估。尤其是针对需要存取的频率数据库对象、针对涉及中间存储空间的大小的关于中间结果的存储、针对对象和中间结果的存取频率、以及针对为生成可视化数据而需要执行的计算步骤的总数而言，计算工作量减少了。

因此，即使对于非常大的数据库，也可以在过程中消耗非常少的电能并且以快速的方式生成可视化数据，这样，传统的计算机、膝上型电脑等就足以在生成可视化数据时提供易于接受的用户体验。

关于建立索引结构，整个数据库或数据库的部分可以从非易失性存储器中检索得到，非易失性存储器例如是非易失性计算机可读存储器，特别是USB拇指驱动器、只读存储器(ROM)、铁电RAM、磁性计算机存储装置(例如本地磁盘驱动器、软盘和磁带)、光盘、闪存(例如SSD)、网络服务器或云。本文中使用的术语“非易失性计算机可读存储器”指一类计算机可读存储器，其即使在重新上电之后也可以取回存储的信息。术语“非易失性计算机可读存储器”还指能够由计算机设备通过网络或通信链路例如网络服务器或云访问的各类非易失性存储器。例如，可以通过调制解调器、互联网或局域网取回数据。鉴于只需要访问数据库以建立索引结构并且其可以以简单方式完成，数据库访问通常不太可能构成限制性步骤，因此，即使是缓慢的本地非易失性计算机可读存储器布置(例如硬盘)也可以使用。

在典型的用例中，数据库将包括多于100.000个对象，特别地包括多于250.000个对象，特别地包括多于500.000个对象，特别地包括多于1.000.000个对象，和/或特别地包括多于10.000.000个对象。换句话说，该计算机实现的方法很易于处理非常大的数据库，这对于在药物发现或类似应用期间挖掘化学数据库非常有利。

因此，本发明的方法可用于从特定的大数据集进行信息检索以生成可视化数据和/或用于数据库中数据对象的可视化，具有出人意料的低计算量和/或出人意料的高局部性保持性能。

鉴于计算工作量低，可以使用标准计算机、膝上型电脑等，而无需专用的高性能服务器。

该计算机实现的信息检索方法特别适合高维对象。

本文中使用的术语“维”指至少一个数据对象的参数和/或影响数据对象的可视化数据的至少一个描述符。在某些实施例中，维是通过某种方式(例如，在某个时间点，通过某个试验、由某个仪器或仪器的某个部分)得到的数据对象的生物学特性、数据对象的化学特性、数据对象的物理特性、数据对象的元数据、和/或数据对象的参数。

鉴于可视化方法通常用于生成二维可视化，该计算机实现的信息检索方法也可以理解为计算机实现的降维方法。

在优选实施例中，针对多个数据库对象建立索引结构包括：提供多个散列函数和针对多个数据库对象中的每个数据库对象的描述符，并通过基于多个散列函数执行描述符的局部敏感散列来指定至少一个索引树。尽管多个数据库对象中每个数据对象都需要描述符，但该步骤的总体计算工作量很低，因为可以很容易地确定散列函数并且随后处理散列函数，特别是执行局部敏感散列允许快速生成中间结果，从而允许在执行该计算机实现的方法期间减少存储器访问和计算步骤。

在优选实施例中，可能出现指定的索引树包括一个或更多个线性节点序列的情况。在这种情况下，可以折叠索引结构，在不删除相关信息的情况下，在保持高精度的同时进一步降低计算开销。

通常，计算不止一个索引树，因此指定整个森林。

本文中使用的术语“森林”指至少两个树的不相交并集。

需要注意，为了确定完整的“局部敏感散列森林”，每个数据库对象只需要从硬盘、云或任何计算机可读的非易失性存储器中检索一次，从而产生有利的数据库对象访问图案。

在提供LSH森林的情况下，树的数量通常少于不同散列函数的数量，特别地，少于不同散列函数数量的一半。大量不同的散列函数可以更好地区分不同的分子，而提供更多的树有助于生成有用的最小生成树。

在某些实施例中，本发明的方法可以用于任何化合物数据库、任何MoleculeNet基准数据集、其中的对象指示文本的任何数据集、和/或可使用该方法的任何其他数据库，例如数据库对象是图像文本、基因表达、协同调节分数、信号强度和/或粒子ID。虽然存在针对多个数据库对象提供或建立索引结构的多种不同方法，但典型的用例是数据库对象是化学分子或分子组合，并且以依赖于分子指纹作为描述符的方式针对这样的多个数据库对象建立索引结构，其中分子指纹特别是MHFP或ECFP指纹。

本文中使用的术语“分子指纹”是指示分子特性的描述符(例如n维向量)。通常，分子指纹是被编码在字符串(例如，位串，如具有512位的位串)中的分子的分子结构。分子指纹的示例包括但不限于MHFP(例如MHFP4或MHFP6)、ECFP(例如ECFP4或ECFP6)、MAP(例如MAP4)、SECFP6、MHECFP、MACCS。

应当理解，这些描述符及其派生方式在本领域中是公知的，普通技术人员将能够访问相应的文献，例如上文引用的Journal of Cheminformatics(2018,10:66)中D.Probst和J.L.Reymond所著的文章。

此外，特别地在数据库对象被编码为文本字符串的情况下，索引结构可以是MinHash编码。

本文中使用的术语“Minhash”指用于近似得到两个不同集合之间的jaccard距离的技术。

在数据库对象是二进制对象的情况下，在优选实施例中，可以使用加权MinHash编码建立索引结构。注意，存在多种建立索引结构的方法，并且本文建议的针对特定数据库的方法已被证明尤其有效，但是应该理解，即使对于特别提及的那些类型的数据库对象，也将存在其他建立索引结构的方法。

这些建立索引的步骤可以特别节省资源，并且适用于大数据集和/或对于多种数据库对象，特别是对于其中数据库对象表示化学化合物的数据库，对计算机资源的要求极低。

此外，在搜索到最近邻的情况下，将理解，对两个近邻的距离进行评估增强了使用各种距离度量中的任何一种来识别最近邻的方法，距离度量例如汉明Hamming距离、莱文斯坦Levenshtein距离度量、余弦相似度度量和杰卡德Jaccard相似性度量等。相信这些不同的度量对于本领域技术人员来说是公知的并且不需要在此详细解释。然而，应当理解，在上述引用的文献中，解释了这些不同的距离以及可以根据每种方法确定距离的方式。因此，关于距离度量的确定，所引用的文献通过引用完全并入本文。

在从找到的最近邻生成最小生成树时，可能会出现一种情况，即无法通过本发明的计算机实现的信息检索方法识别实际的下一近邻。此外，上述建议的距离度量或使用的任何其他距离度量可能提供多个声称的最近邻，或者可能根本无法提供事实上的最近邻。然而，为了产生有用的结果，建议确定k个近似的下一近邻，然后基于这些识别的下一近邻生成最小生成树。再次强调，以这种方式，整体计算工作量保持在可以轻松处理的水平，同时可视化仍然提供非常好且有用的结果。

通常，生成可视化数据包括将生成的最小生成树的节点映射到二维表面，例如屏幕表面。然而，也可以将其节点投影到三维空间中的二维(非平面)表面上。这种映射可以通过计算出其中最小生成树的节点互斥的节点排列来实现。这种斥力可以基于弹簧弹性(spring-elastic)模型进行计算，该模型提供了极好的视觉表示。

在某些实施例中，本发明的方法包括使用力导引图绘制技术。

本文中使用的术语“力导引图绘制技术”指用于绘制图的一类算法，其中通过基于节点和边的相对位置在边集和节点集之间分配力，然后使用这些力模拟边和节点的运动或者最小化它们的能量以在二维或三维空间中定位图的节点，使得所有边的长度相似且交叉边的数量少。力导引图绘制技术的示例有无向图绘制技术(例如，弹簧模型、springelectrical模型)、有向图绘制算法(例如，分层图布局)以及Kobourov,Stephen G的“Force-directed drawing algorithms”(2004年)中描述的其他技术。

力导引图绘制技术的使用允许生成可视化数据，这对于用户进行识别、使用和/或解释而言尤其有益。由于力导引图绘制技术依赖于普通物体力的物理类比，可与机械弹簧与电互斥相对比，因此生成的视觉数据特别容易预测和理解。此外，力导引图绘制技术在均匀边长、均匀节点分布和显示对称性方面表现良好。力导引图绘制技术也可以容易地适应和扩展以满足其他功能和/或美学标准(例如，3D图绘制或动态图绘制)。

在某些实施例中，本发明的方法使用有效概率布局算法。

本文中使用的术语“有效概率布局算法”指利用概率全局优化算法的布局算法，其允许从具有次二次(sub-quadratic)运行时间的最小生成树生成可视化数据。

概率布局算法的计算复杂度会是本发明方法的计算复杂度的关键因素。因此，通过使用有效概率布局算法，本发明的方法的计算复杂度可以极低。

在某些实施例中，本发明的方法利用基于多层级、多极的力近似，使用弹簧-电(spring-electrical)模型布局方法。

本文中使用的术语“弹簧-电模型”指将边建模为弹簧并将顶点建模为带电粒子，运行迭代物理模拟以计算顶点位置的算法。弹簧-电模型的示例在Eades,Peter所著的“Aheuristic for graph drawing”(Congressusnumerantium 42(1984):149-160)中有所描述。

本文中使用的术语“基于多层级、多极的力近似”指一种力导引方法，其基于多层级方案和用于通过评估势场来近似得到系统中排斥力的策略的组合。基于多层级、多极的力近似的示例在Hachul、Stefan和Michael Jünger所著的“Drawing large graphs with apotential-field-based multilevel algorithm.”(International Symposium on GraphDrawing.Springer,Berlin,Heidelberg,2004)中有所描述。

由于在一些布局算法中，例如弹簧-电模型，需要进行多次迭代以将最小生成树的初始图转换为可视化数据，本发明的一些实施例通过使用基于多层级、多极的力近似算法来减少布局算法的常数因子

通过结合这些步骤，该方法具有意想不到的资源效率，并且适用于大数据集，有利于局部性保持性能和/或对用于信息检索、生成可视化数据和/或数据可视化的计算机资源的要求极低。

该计算机实现的信息检索方法的数据输出可以是可移植的网络浏览器可读文件的组合，例如HTML文件及其链接文件，或者作为浏览器可读文件类型的组合从网络服务器动态加载。可视化数据还可用于在显示器上直接生成图像或提供打印输出。

现在将参照附图描述本发明。

图1：ChEMBL分子的相关生物实体类和性能的可视化呈现。

图2：ChEMBL和FDB17的可视化呈现。

图3：语言学、RNA测序和粒子物理数据集的可视化呈现。

图4：本发明方法与UMAP在基准数据集上的比较。

图5：LSH森林参数d和l对MNIST可视化的影响。

示例

在下文中通过使用基于TMAP(树图)的方法的示例来描述本发明的方法，该方法利用局部敏感散列、MinHash和LSH森林，使用k最近邻搜索算法，Kruskal最小生成树算法，以及基于多层级、多极的图布局算法，将大型且高维的数据集表示为易于理解和探索树结构。

在第一个示例中，TMAP以化学信息学领域为例，具有关于来自ChEMBL的116万个药物样分子、来自FDB17的1010万个小分子片段、以及来自PDB数据库的131,000个生物分子3D结构的交互映射图。

然后，描述了一种用于从对象数据库中检索信息的计算机实现的信息检索方法，其中，通过针对多个数据库对象建立索引结构、在索引结构中搜索数据库对象的最近邻、从找到的最近邻生成最小生成树，以及从最小生成树生成可视化数据的步骤，实现对来自文献(GUTENBERG数据集)、癌症生物学(PANSCAN数据集)和粒子物理学(Mini-BooNE数据集)的数据是可视化。

可以看出，与其他生成可视化数据的方法(如t-SNE或UMAP)相比，由于本发明的方法显著降低了内存需求和运行时间，因此增大了能够利用TMAP可视化的数据集的大小，使得在大数据时代具有广泛的适用性。

示例中使用的数据库

最近开发的新的且通常非常易于访问的框架和强大的硬件使得计算方法的实施能够生成和收集大型高维数据集，并产生了对探索和理解这些数据的日益增长的需求。大型高维数据集可以被认为是大型矩阵，其中行是样本，列是测量或计算的变量，每列定义了包含数据的空间的维度。对这种数据集进行可视化具有挑战性，因为为了使数据在视觉上对人类可解释必需进行降维，而降维会造成损失且计算成本高。

药物发现领域中使用的数百万个分子的数据库，例如来自科学文献的生物活性分子的ChEMBL数据库及其相关的生物测定数据(n＝1,159,881)，(cmp.Gaulton,A.et al.TheChEMBLdatabase，2017.Nucleic Acids Research 45,D945-D954(2017))，从中计算出分子指纹形式的化学结构的数学表示(高维二进制或整数向量，编码结构或组成)，表示典型的需求案例(cmp.Riniker,S.&Landrum,G.A.Open-source platform to benchmarkfingerprints for ligand-based virtual screening.Journal of Cheminformatics 5,26(2013))。该问题延伸到更大的分子数据库，如在此例示的FDB17，该数据库包含1010万个理论上可能的具有至多17个原子的片段样分子(cmp.Visini,R.,Awale,M.&Reymond,J.-L.Fragment Database FDB-17.J.Chem.Inf.Model.57,700-709(2017))以及生物分子数据库如RSCB蛋白质数据库(cmp.Berman,H.M.et al.The Protein Data Bank.Nucleic AcidsRes 28,235-242(2000))。

降维的一般问题

对于上述数据库，简单的线性降维方法(如主成分分析和相似性映射)容易产生全局特征的2D或3D表示(cmp.Oprea,T.I.和Gottfries,J.所著Chemography:the art ofnavigating in chemical space，收录于J Comb Chem 3,157–166(2001)；Awale,M.和Reymond,J.-L.所著Similarity Mapplet:Interactive Visualization of theDirectory of Useful Decoys and ChEMBL in High Dimensional Chemical Spaces.收录于J.Chem.Inf.Model 55,1509–1516(2015)；Jin,X.等人所著PDB-Explorer:a web-based interactive map of the protein data bank in shape space.收录于BMCBioinformatics 16,339(2015)；Probst,D.和Reymond,J.-L.所著FUn:a framework forinteractive visualizations of large,high-dimensional datasets on the web.收录于Bioinformatics 34,1433–1435(2018))。

然而，在药物研究中非常重要的定义近邻甚至最近邻(NN)分子之间关系的局部特征大部分丢失了，这限制了线性降维方法在可视化中的适用性。

可以理解，NN关系很重要，并且使用非线性流形学习算法可以更好地保留NN关系，该算法假设数据位于嵌入高维空间的低维流形上。诸如非线性主成分分析(NLPCA，non-linear principal component analysis，或自动编码器)、t分布随机近邻嵌入(t-SNE，t-distributed stochastic neighbor embedding)以及最近的统一流形逼近和投影(UMAP，uniform manifold approximation and projection)等流形学习算法都是基于此假设(cmp.McInnes,L.,Healy,J.和Melville,J.所著UMAP:Uniform Manifold Approximationand Projection for Dimension Reduction.收录于arXiv:1802.03426[cs,stat](2018)；Maaten,L.van der和Hinton,G.Visualizing Data using t-SNE.收录于Journal ofMachine Learning Research 9,2579–2605(2008))。

现有技术中使用的其他技术有概率生成拓扑映射(GTM，Generative TopographicMapping)和自组织映射(SOM，self-organizing map)，其基于人工神经网络(cmp.Bishop,C.M.,Svensén,M.和Williams,C.K.I.所著GTM:The Generative TopographicMapping.Neural Computation 10,215–234(1998)；Kohonen,T.Exploration of verylarge databases by self-organizing maps.收录于Proceedings of InternationalConference on Neural Networks(ICNN'97)1,PL1-PL6 vol.1(1997))。

然而，这些算法的时间复杂度至少在O(n^1.14)与O(n^5)之间，限制了可视化数据集的大小。(cmp.Dong,W.,Moses,C.和Li,K.所著Efficient k-nearest neighbor graphconstruction for generic similarity measures.收录于Proceedings of the 20thinternational conference on World wide web-WWW'11577(ACM Press,2011).doi:10.1145/1963405.1963487))。当通过实施用于创建系谱树的近邻连接算法(cmp.Saitou,N.和Nei,M.所著The neighbor-joining method:a new method for reconstructingphylogenetic trees.收录于Mol Biol Evol 4,406–42)在树中分布数据时，对数据集大小有同样的限制。ChemTreeMap工具记录了这种限制行为，该工具只能可视化多达约10,000个数据点(分子或分子簇)(cmp.Lu,J.和Carlson,H.A.所著ChemTreeMap:an interactivemap of biochemical similarity in molecular datasets.收录于Bioinformatics 32,3584–3592(2016))。

相比之下，如下文将展示的，公开了使用局部敏感散列、图论的组合，基于本发明的方法生成和分布具有任意维度的高达(10)^7阶的大数据集的直观可视化的方法，并且其适用于现代网络技术环境。在时间复杂度和空间复杂度方面，所提出的方法优于基于被称为t-SNE和UMAP的方式的方法。

此外，该方法为实现大数据集的探索和解释提供可视化数据，由于本发明方法的树状性质和透明性，该方法提供了比基于t-SNE或UMAP的可视化数据更好的、更直观、且更可解释的可视化。

方法概述

给定任意数据作为输入，所公开的方法包括四个阶段：

(I)建立LSH森林索引(cmp.Andoni,A.,Razenshteyn,I.和Nosatzki,N.S.所著LSHForest:Practical Algorithms Made Theoretical.收录于Proceedings of the Twenty-Eighth Annual ACM-SIAM Symposium on Discrete Algorithms67–78(Society forIndustrial and Applied Mathematics,2017).doi:10.1137/1.9781611974782.5；Bawa,M.,Condie,T.和Ganesan,P.所著LSH forest:self-tuning indexes for similaritysearch.收录于Proceedings of the 14th international conference on World WideWeb-WWW'05 651(ACM Press,2005).doi:10.1145/1060745.1060840)。

(II)构造c近似k最近邻图。

(III)计算c近似k近邻图的最小生成树(MST)(cmp.Kruskal,J.B.所著On theshortest spanning subtree of a graph and the traveling salesman problem.收录于Proc.Amer.Math.Soc.7,48–48(1956))。

(IV)生成得到的MST的布局(cmp.Chimani,M.等人所著The Open Graph DrawingFramework(OGDF).收录于Handbook of Graph Drawing and Visualization 2011,543–569(2013))。

在阶段I中，在LSH森林数据结构中输入数据建立索引，使得能够进行c近似k最近邻搜索，其时间复杂度为n次线性。使用MinHash算法对文本和二进制数据编码，而使用该方法的加权变型对整数和浮点数据编码。更具体地，使用MHFP6对化学结构解码，其是一种化学指纹，已被证明对于虚拟筛选任务而言优于公知的ECFP4，产生输入分子的MinHash表示(cmp.Rogers,D.和Hahn,M.所著Extended-Connectivity Fingerprints.收录于J.Chem.Inf.Model 50,742–754(2010)；Probst,D.和Reymond,J.-L.所著A probabilisticmolecular fingerprint for big data settings，收录于Journal of Cheminformatics10,66(2018))。

利用用于编码数据的散列函数的数量d和前缀树数量l将用于MinHash和加权MinHash数据的LSH森林数据结构初始化。这两个参数值的增加会导致主内存使用量增加；但是，较高的l值也会提高查询速度。参数d和l对最终可视化的影响如图5所示。在图5中请注意，虽然算法的第一阶段主要影响局部性的保留，但d≈l的极值会导致可视化质量劣化。使用(加权)MinHash和LSH森林的组合(其支持对两个二元集之间的Jaccard距离的快速估计)已被证明对分子而言表现良好；实现各种不同距离度量的其他数据结构和方法可能会在其他数据上显示出更好的性能，并且可以用作第一阶段的替代。

在第二阶段，根据LSH森林中加索引的数据点构建无向加权c近似k最近邻图(c-k-NNG)，其中使用先前针对虚拟筛选任务引入的LSH森林查询方法的增强变型来提高效率。该c-k-NNG构建阶段有两个变量，即要搜索的最近邻的数量k，以及增强查询方法使用的因子k_c。查询方法的这种变型将单个查询的时间复杂度从O(logn)增加到O(k·k_c+logn)，因此整体时间复杂度为O(n(k·k_c+logn))，其中实际上k·k_c>logn，实现c-k-NNG构建。为c-k-NNG的边分配其入射顶点的Jaccard距离作为其权重。根据数据的分布和散列，c-k-NNG可以在下述情况下不连通：(1)存在离所有其他数据点的Jaccard距离为1.0的异常点，且其因此未连接到任何其他节点；或者(2)由于Jaccard空间中大小≥k的簇而创建了连通分量。但是，后续阶段并不知晓此阶段是否产生非联通图。参数k和k_c对MNIST最终可视化的影响可以是LSH森林参数k和k_c对MNIST可视化的影响，从而参数k直接影响k最近邻图的平均度，k_c提高返回的k个最近邻的质量。这两个参数仅对可视化的美观和质量产生轻微影响。

替选地，可以将任意图作为加权边列表提供给该方法。

在阶段III中，使用Kruskal算法在加权c-k-NNG上构建最小生成树(MST)。该算法通过在每个阶段应用选择局部最优解(其特性在数据可视化中也是所期望的)的贪心方法来达到全局最优解。Kruskal算法的时间复杂度为O(E+logV)，与第二阶段相比，该阶段的执行时间可以忽略不计。在断非连通c-k-NNG的情况下，创建最小生成森林。在替选实施例中可以使用其他用于MST构建的算法来替代该步骤的Kruskal算法。

第四阶段在欧几里得平面上布置树。由于MST是无根的并且为了保持绘图紧凑，并非通过应用树而是通过图布局方法来将树可视化。为了绘制相当大尺寸的MST(数百万个顶点)，应用了一种利用基于多层级、多极的力近似的弹簧-电模型布局方法。该布局方法由模块化C++库开放图形绘制框架(OGDF，open graph drawing framework)提供。此外，OGDF的使用实现了在美学和计算时间需求方面轻松调整图形布局方法。尽管可以为布局阶段配置多个参数，但只有参数p必须根据输入数据集的大小进行调整。可以看出，点大小参数p对可视化结果的美感有很大的影响，因为其控制了所绘制的树的稀疏度。减小点的大小并因此减小两点之间的排斥力，允许布局算法将点绘制得更靠近其各自的(子)分支。这个阶段构成了计算复杂度的瓶颈。

所描述方法的重要阶段是在加权的c近似k最近邻图(c-k-NNG)上构建最小生成树(MST)。尽管诸如UMAP或t-SNE的可比方法实质上试图嵌入修剪后的图，但本发明的方法使用MST方法从初始图中移除所有回路，显著降低了低维嵌入的计算复杂度。此外，基于树的布局通过对集群之间的最近距离、通过分支和子分支的集群的详细结构、以及假阳性与真阳性之间的连接点进行显式可视化，能够实现高分辨率的直观数据透视。通过对常见的基准化数据集MNIST、FMNIST和COIL20进行可视化，对该方法的质量进行了定性评估并将该方法与UMAP进行了比较(图4)。

注意，图4示出了基准数据集上本发明方法与UMAP的比较。为了评估本发明的总体性能，将其应用于三个计算机视觉基准数据集并与UMAP进行比较。与UMAP相比，UMAP将簇表示为紧密堆积的块并试图达到块之间的最大分离，本发明将簇之间以及簇内的关系可视化为分支和子分支。虽然UMAP能够表示COIL20子集的圆形性质，但本发明在最大差异的边处切割圆形簇并通过最小差异的一个或更多个边连接各子集。然而，该图表明，这种局部连接的去除导致高度相似的数据解开。对于MNIST和FMNIST数据集，树结构导致集群内的差异和误差的分辨率更高，因为子集群(集群内的分支)如何链接以及哪些真阳性与假阳性相连变得明显。

针对ChEMBL的可视化进行评估和与UMAP比较

为了说明本发明的方法，该方法用于将ChEMBL中的数据可视化，并将其性能与最先进的可视化方法UMAP进行比较。对于该分析，使用ECFP4(最多4个键的扩展连接指纹，512-D二进制向量)对分子结构编码，ECFP4是一种编码圆形子结构的分子指纹，在虚拟筛选和目标预测中表现良好。(cmp.Probst,D.和Reymond,J.-L.所著A probabilisticmolecular fingerprint for big data settings，收录于Journal of Cheminformatics10,66(2018))。

为了比较两种方法的可视化性能，考虑通过插入得到的含前10,000个ChEMBL化合物的子集S_t、日期、以及含10,000个ChEMBL分子的随机子集S_r，并使用本发明方法计算用于可视化的2D坐标(运行时间4.685秒，内存使用峰值0.223GB)以与UMAP(运行时间20.985秒，内存使用峰值0.383GB)相比较。将更均匀的集合S_t作为输入，使用Python库matplotlib绘制的由每个表示产生的2D映射说明本发明的方法(其将簇分布在MST的分支和子分支中)与UMAP相比在画布上产生了更加均匀的化合物分布，从而实现更好的视觉分辨率(图1的a，b)。注意，在图1中，前n个化合物S_t(a,b,e)和随机样本S_r(c,d,f)被可视化，大小分别为n＝10,000，基于512维ECFP编码的ChEMBL数据集绘制，以分别将生物实体类和k最近邻的分布可视化。更详细地，(a)示出了本发明的方法将数据布置为单个连通树，而(b)示出了UMAP绘制看起来是高度不连通的图，分量之间的连接变得无法断言。本发明的方法将簇内距离和簇间距离保持在相同的量级，提高了绘图的视觉分辨率。(c,d)示出了从随机样本中随机选择的化合物的20个最近邻。(c)示出了，本发明的方法将查询化合物直接连接到20个最近邻中的三个(1，2，15)；最近邻1到7都在查询化合物周围3拓扑距离以内。(d)示出了，UMAP可视化中同一查询化合物的最近邻是真正的最近邻2、3、18、9和1，其中1是五个中最远的。(e，f)示出了分别基于数据集S_t和S_r的拓扑和欧几里德距离投影后从原始高维空间中到真正最近邻的距离排名。(g)示出了计算随机样本(n＝1,000,000)的坐标突出了本发明的方法的运行时间行为，并允许检查该方法的不同阶段的时间和空间需求。四个随机样本大小递增(n＝10,000、n＝100,000、n＝500,000和n＝1,000,000)详细说明了本发明的方法与UMAP之间在内存使用(h)和运行时间(i)上的差异。(t_TMAP＝4.865s,a_TMAP＝0.223GB；t_UMAP＝20.985s,a_UMAP＝0.383GB以及t_TMAP＝33.485s,a_TMAP＝1.12GB；t_UMAP＝115.661s,a_UMAP＝2.488GB)(t_TMAP＝175.89s,a_TMAP＝4.521GB；t_UMAP＝3,577.768s,a_UMAP＝18.854GB以及t_TMAP＝354.682s,a_TMAP＝8.553GB；t_UMAP＝41,325.944s,a_UMAP＝48.507GB)，其中在生物测定中分子表达最高活性。

此外，与UMAP相比，本发明的方法更好地保留了最近邻关系(局部性)，如异构集S_r的可视化结果中化合物CHEMBL370160222的20个结构最近邻的定位所示，据称该化合物是人酪氨酸蛋白激酶SYK的有效抑制剂。这20个结构最近邻被定义为原始512维指纹空间中的20个最近邻。本发明的方法将查询化合物直接连接到20个最近邻中的三个，即CHEMBL3701630、CHEMBL3701611和CHEMBL38911457，分别是其最近的、次近的和第15最近邻。最近邻1到7都在查询物周围的3拓扑距离以内(图1c)。相比之下，UMAP在几个更远的数据点中定位最近邻2、3、9和18，比原始空间的最近邻更靠近查询(图1d)。实际上，就保留1最近邻关系方面而言，本发明的方法比UMAP更好地保留了局部性，同时应用拓扑度量和欧几里得度量(图1的e，f)。针对MNIST数据集基于拓扑和欧几里德距离进行投影后原始高维空间中到真正最近邻的距离排名。尽管UMAP保留了少于10％的真正1最近邻，但本发明基于拓扑距离保留了超过80％，且基于欧几里得距离保留了超过35％。

计算性能方面，可以看出对于大小为n＝10,000和n＝100,000的512维ECFP编码的ChEMBL数据集的小随机子集，本发明的方法的运行时间t和内存使用量a与UMAP相当，而对于较大的随机子集(n＝500,000和n＝1,000,000)，本发明的方法显著优于UMAP(图1的h，i)。通过基于ECFP4编码的ChEMBL数据集(图1的g)的更大子集(n＝1,000,000)分析不同阶段的运行时间，进一步了解本发明方法的计算行为。在该方法的第一阶段(占执行时间的180秒和大约5GB的主内存使用量)期间，数据以100,000块为单位在LSH森林数据结构中加载和建立索引，这由内存消耗的10次不同的跳跃表示。在第二阶段构建c-k-NNG需要可忽略的主内存量并花费约110秒。在10秒的执行时间内，MST创建(阶段III)再占用2GB内存，其中大约1GB被保留用于存储树数据结构。图布局方法(阶段IV)需要2GB，55秒，之后该方法完成，总挂钟时间355秒，峰值主内存使用量8.553GB。

应当理解，在所有其他参数相同的情况下，以需要较少时间的方式操作系统将导致较低的能量消耗。这对内存使用同样成立。因此，本发明的方法非常显著地降低了处理过程中的能耗。

将ChEMBL和FDB17可视化

本发明的方法的高性能和相对低的内存使用以及生成高维数据集的高度详细且可解释的表示的能力允许实现对化学空间进行前所未有的交互式可视化。为了说明这一点，根据本发明的方法计算了ChEMBL化合物的坐标(n＝1,159,881)。这里使用了MHFP6(512种MinHash排列)，一种与ECFP4相关的分子指纹，但具有更好的虚拟筛选性能和与LSH一起使用的能力(cmp.Probst,D.和eymond,J.-L.所著A probabilistic molecularfingerprint for big data settings，收录于Journal of Cheminformatics 10,66(2018))。

本发明的方法在613秒内成功完成，内存使用峰值为20.562GB。

为了说明对更大数据集的应用，ChEMBL(n＝1,159,881)与片段数据库(FDB17)化合物(n＝10,101,204)合并。通过本发明的方法计算的坐标最终被导出为一组使用Faerun(图2)的交互式可移植网络浏览器可读(HTML和JavaScript)文件并被目视检查。在图2a中，ChEMBL和FDB17的组合被可视化。图2b是图2a中框架轮廓的放大图。FDB17分子以浅灰色显示，而ChEMBL分子以较大的黑点显示。结果图反映了嵌入较大FDB17空间中的大部分ChEMBL分子的强关联。

应用于其他科学数据集

为了测试本发明方法的普遍适用性，该方法被用于将来自语言学、生物学和粒子物理学领域的数据集可视化。GUTENBERG数据集是142位作者用英语撰写的n＝3,036本书的选集(cmp.Lahiri,S.所著Complexity of Word Collocation Networks:A PreliminaryStructural Analysis，收录于arXiv:1310.5111[physics](2013))。

书籍指纹被定义为密集形式的二进制向量，指示从所有书籍中提取的所有单词的全集中哪些单词在给定书中出现至少一次(产生维度d＝1,217,078)。使用LSH森林数据结构和MinHash对书籍指纹建立索引。PANCAN数据集(n＝801,d＝20,531)包含从癌症基因组图谱数据库随机提取的具有不同类型肿瘤(PRAD、KIRC、LUAD、COAD和BRCA)的患者的基因表达(cmp.The Cancer Genome Atlas Research Network等的The Cancer Genome AtlasPan-Cancer analysis project，收录于Nature Genetics 45,1113–1120(2013))。

使用LSH森林数据结构和加权MinHash对PANCAN加索引。MiniBooNE数据集(n＝130,065,d＝50)包括从费米实验室的MiniBooNE试验中提取的测量值，并且包含对信号(电子中微子)和背景(μ子中微子)事件的检测(cmp.Roe,BP等人所著Boosted Decision Treesas an Alternative to Artificial Neural Networks for Particle Identification，收录于Nuclear Instruments and Methods in Physics Research Section A:Accelerators,Spectrometers,Detectors and Associated Equipment 543,577–584(2005))。

由于MiniBooNE中的属性是实数，并且为了展示所提出方法的模块化，在该方法的第一阶段使用支持余弦度量的Annoy索引库对用于k-NNG构建的数据加索引。

注意，在图3中示出了本发明对不同数据库的应用。更详细地，图3针对以下分别示出：(图3a)针对GUTENBERG数据集，其是142位作者的书的选集(n＝3,036，d＝1,217,078)。映射将不同作者的作品划分为不同的分支，如HG Wells的作品所示；(图3b)针对PANCAN数据集(n＝801，d＝20,531)，由五种肿瘤(PRAD、KIRC、LUAD、COAD和BRCA)的基因表达数据组成，并使用MinHash算法的加权变型添加索引。映射将不同的肿瘤类型划分为不同的分支，这里示出了PRAD(黑点)；(图3c)针对MiniBooNE数据集(n＝130,065，d＝50)由从费米实验室的MiniBooNE试验中提取的测量值组成。本发明的方法使信号数据(黑点)在背景中的分布可视化。

总之，公开了一种生成可视化数据的方法，该方法适用于非常大型的高维数据集，例如包含分子信息的数据集。与其他当前可用的方法如t-SNE或UMAP相比，本发明的优势在于其低内存使用量和运行时间。当处理真实世界的化学数据和/或非化学数据(例如，图像数据、组学数据、期刊引文数据、古腾堡数据、从科学文章中提取的数据、流式细胞仪数据)时，本发明的方法已被证明可以以经验亚线性时间复杂度O(n^0.931)生成可视化数据。这允许在给定的可接受的时间内处理更大的数据库和/或获得更好的结果，例如在药物发现中。此外，促进了得到的可视化结果的高度可解释性、保存和可视化全局特征和局部特征的能力，并且已被证明适用于任意数据集如图像、文本或RNA序列数据，暗示其在包括计算语言学或生物学在内的广泛领域中的有用性。

由于可用参数可以容易地调整并且通过本发明的输出质量和内存用量的杠杆作用，该方法不需要用于高质量可视化的专用硬件，即使在数据集包含数百万个数据点的情况下也不需要。

此外，本发明的方法已证明支持例如通过MinHash和加权MinHash分别对二进制或文本和整数或浮点集进行Jaccard相似度估计。这在需要在各种应用中处理大量不同的数据库对象的情况下很有帮助。虽然Jaccard度量已被证明适用于化学指纹相似度计算所带来的挑战，但该度量可能不是解决其他数据集所呈现问题的最佳选择。然而，由于存在大量支持距离和相似度度量(如Hamming距离、l_p距离、Levenshtein距离或余弦相似度)的LSH系列(cmp.例如Wang,J.,Shen,HT,Song,J.和Ji,J.所著Hashing for Similarity Search:ASurvey，收录于arXiv:1408.2927[cs](2014)；或者Marcais,G.,DeBlasio,D.,Pandey,P.和Kingsford,C.所著Localitysensitive hashing for the edit distance，收录于(Bioinformatics,2019).doi:10.1101/534446))，并且由于已发现这些距离与本发明兼容，本发明可用于多种数据库对象。此外，应当理解，本发明的模块化允许插入或使用除了示例中描述的那些之外的最近邻图创建、MST创建和图布局技术。

尽管示例涉及特定数据库，但本领域技术人员可以理解，本发明可以用于从具有不同对象的大量数据库中检索信息和/或生成可视化，这些对象具有相应不同的属性和相互关系。因此，这些示例不应被解释为将本公开内容仅限于针对所给出的明确示例的数据库。

本文中公开了一种基于局部敏感散列、图论和现代网络技术的组合，生成和分布具有任意维度、高达10⁷阶的大数据集的直观可视化的方法。在时间复杂度和空间复杂度方面，所提出的方法优于基于被称为t-SNE和UMAP方式的方法。

此外，该方法为实现大数据集的探索和解释提供可视化数据，由于本发明方法的树状性质和透明性，该方法提供了比基于t-SNE或UMAP的可视化数据更好的可视化。

Claims

1.一种用于数据库中数据对象的可视化的计算机实现方法，所述方法包括下述步骤：

通过提供多个散列函数和针对多个数据库对象中的每个数据库对象的描述符、并通过基于所述多个散列函数执行所述描述符的局部敏感散列指定多个索引树，从而针对所述多个数据库对象建立索引结构，

在所述索引结构中搜索数据库对象的最近邻居，

基于找到的最近邻生成最小生成树，以及

使用概率布局算法从所述最小生成树生成可视化数据，以实现数据库中数据对象的可视化。

2.根据前述权利要求所述的计算机实现的方法，其中建立索引结构时，数据库或数据库中的部分是从非易失性计算机可读存储器检索的，所述非易失性计算机可读存储器特别是本地盘、网络服务器或云。

3.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述数据库包括多于100.000个对象，特别地包括多于250.000个对象，特别地包括多于500.000个对象，特别地包括多于1.000.000个对象，和/或特别地包括多于10.000.000个对象。

4.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述数据库包括具有多于20维的对象，特别地，包括具有多于30维的对象。

5.根据前述权利要求中任一项所述的计算机实现的方法，其中，至少一个指定的索引树具有至少一个线性节点序列，并且所述建立索引结构的步骤包括折叠所述线性节点。

6.根据前述权利要求中任一项所述的计算机实现的方法，其中，指定包括多个不同的索引树的LSH森林。

7.根据前一权利要求所述的计算机实现的方法，其中，所述LSH森林包括许多树，所述树的数量少于不同散列函数的数量，特别地，少于不同散列函数的数量的一半。

8.根据前一权利要求所述的计算机实现的方法，其中，所述LSH树或LSH森林被存储以用于下一次近邻搜索，特别地，在搜索下一近邻时被存储在RAM中。

9.根据前述权利要求中任一项所述的计算机实现的方法，其中，

所述数据库对象是化学分子，并且针对多个数据库对象建立索引结构包括提供分子指纹作为描述符，特别地，所述分子指纹是MHFP或ECFP指纹；或者

所述数据库对象是文本，并且针对多个数据库对象建立索引结构包括提供Minhash编码作为描述符；或者

所述数据库对象是二进制对象，并且针对多个数据库对象建立索引结构包括提供加权Minhash编码作为描述符。

10.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述在所述索引结构中搜索数据库对象的最近邻的步骤包括：考虑汉明Hamming距离度量、莱文斯坦Levenshtein距离度量、余弦相似度度量、以及杰卡德Jaccard相似度度量，识别近似为下一近邻的近邻对象。

11.根据前述权利要求中任一项所述的计算机实现的方法，其中所述在所述索引结构中搜索数据库对象的最近邻的步骤包括：

选择k个近似的下一近邻对象，特别地，从kc*k个近邻中选择k个下一近邻，其中kc>1。

12.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述概率布局算法包括使用力导引图绘制技术。

13.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述概率布局算法是有效概率布局算法。

14.根据前一权利要求所述的计算机实现的方法，其中，所述有效概率布局算法包括利用基于多层级、多极的力近似，使用弹簧-电spring-electrical模型布局方法。

15.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述可视化数据被以可移植数据格式输出，特别地，被输出为可移植HTML数据。