CN112470172A - 使用随机序列嵌入的符号序列分析的计算效率 - Google Patents

使用随机序列嵌入的符号序列分析的计算效率 Download PDF

Info

Publication number
CN112470172A
CN112470172A CN201980030031.2A CN201980030031A CN112470172A CN 112470172 A CN112470172 A CN 112470172A CN 201980030031 A CN201980030031 A CN 201980030031A CN 112470172 A CN112470172 A CN 112470172A
Authority
CN
China
Prior art keywords
sequence
computing device
feature matrix
owner
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980030031.2A
Other languages
English (en)
Inventor
吴凌飞
许坤
陈品谕
陈家佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN112470172A publication Critical patent/CN112470172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种分析符号序列的方法和系统。从所有者的计算设备接收符号序列的元数据。基于所接收的元数据来生成R个随机序列的集合,并且将其发送到所述符号序列的所有者的计算设备,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵。从所有者的计算设备接收特征矩阵。在确定特征矩阵的内积低于阈值准确度时,迭代过程返回到生成R个随机序列。在确定特征矩阵的内积等于或高于阈值准确度时,基于机器学习对特征矩阵进行分类。经分类的全局特征矩阵被发送以显示在所有者的计算设备的用户界面上。

Description

使用随机序列嵌入的符号序列分析的计算效率
技术领域
本公开总体上涉及线性序列(linear sequences)的分类,并且更具体地涉及基于云的敏感数据的符号序列分析。
背景技术
近年来,字符串分类(string classification)已发展为核心学习任务,且在许多应用(包含计算生物学、文本分类和音乐分类)中取得相当大的兴趣。字符串数据中的一个挑战涉及在序列中不存在明确的特征。如本文所使用的,特征是被观察的现象的个体可测量的特性或特性。即使利用先进的特征(characteristic)选择技术,潜在特征的维度可能仍然较高,并且难以捕获特征的顺序性质。这使得序列分类比对特征向量分类更具挑战性的任务。
因此,本领域需要解决上述问题。
发明内容
从第一方面来看,本发明提供了一种用于分析数据的计算设备,该设备包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;存储装置,其耦合到所述处理器;存储在所述存储设备中的分析引擎,其中所述处理器对所述分析引擎的执行将所述计算设备配置成执行动作,所述动作包括:从所述符号序列的所有者的计算设备接收所述符号序列的元数据;基于所接收的元数据来生成R个随机序列的集合;通过所述网络向所述符号序列的所有者的计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到基于所接收的元数据生成R个随机序列的集合的步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
从另一方面来看,本发明提供了一种用于分析数据的方法,所述方法包括:从所述符号序列的所有者的计算设备接收所述符号序列的元数据;基于所接收的元数据来生成R个随机序列的集合;向所述符号序列的所有者的计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到基于所接收的元数据生成R个随机序列的集合的步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
从另一方面来看,本发明提供了一种计算设备,包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;存储装置,其耦合到所述处理器;存储在所述存储设备中的分析引擎,其中所述处理器对所述分析引擎的执行将所述计算设备配置成执行动作,所述动作包括:从符号序列的所有者的计算设备接收对于数据分析的请求;创建表示所述符号序列的所有者的所述计算设备的符号序列的字母表的概率分布的人工元数据;基于所述人工元数据生成R个随机序列的集合;通过所述网络向所述符号序列拥有者的所述计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到基于所述人工元数据生成R个随机序列的集合的步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
从另一方面来看,本发明提供了一种用于分析数据的计算机程序产品,该计算机程序产品包括计算机可读存储媒质,该计算机可读存储媒质可由处理电路读取并且存储用于由处理电路执行以便执行用于执行本发明的步骤的方法的指令。
从另一方面来看,本发明提供了一种存储在计算机可读媒质上并且可加载到数字计算机的内部存储器中的计算机程序,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行本发明的步骤。
一种计算设备,包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;耦合到所述处理器的存储设备;存储在所述存储设备中的分析引擎,其中所述处理器对所述分析引擎的执行将所述计算设备配置成执行动作,所述动作包括:从符号序列的所有者的计算设备接收对于数据分析的请求;创建表示所述符号序列的所有者的所述计算设备的符号序列的字母表的概率分布的人工元数据;基于所述人工元数据生成R个随机序列的集合;通过所述网络向所述符号序列拥有者的所述计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到前一步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
根据各实施例,提供了一种用于在保持数据的隐私的同时分析符号序列的计算设备、非瞬态计算机可读存储介质和方法。从数据所有者的计算设备接收符号序列的元数据。基于所接收的元数据生成R个随机序列的集合。R个随机序列的集合通过网络被发送到数据拥有者的计算设备,用于基于R个随机序列的集合和符号序列来计算特征矩阵。从符号序列的数据所有者的计算设备接收特征矩阵。在确定特征矩阵的内积低于阈值准确度时,该过程迭代回到基于所接收的元数据生成R个随机序列的集合。在确定特征矩阵的内积等于或高于阈值准确度时,将特征矩阵识别为全局特征矩阵。全局特征矩阵基于机器学习来分类。分类的全局特征矩阵被发送以显示在所有者的计算设备的用户界面上。
根据其他实施例,提供了一种用于在保持数据的隐私的同时分析符号序列的计算设备、非瞬态计算机可读存储介质和方法。从符号序列的所有者的计算设备接收对于数据分析的请求。创建人工元数据,其表示符号序列的所有者的计算设备的符号序列的字母表的概率分布。基于人工元数据生成R个随机序列的集合。R个随机序列的集合通过网络被发送到符号序列所有者的计算设备,以基于R个随机序列的集合和符号序列来计算特征矩阵。从符号序列的所有者的计算设备接收特征矩阵。在确定特征矩阵低于阈值准确度时,该过程迭代回到基于人工元数据生成R个随机序列的集合。在确定特征矩阵等于或高于阈值准确度时,特征矩阵被标识为全局特征矩阵并且基于机器学习来分类。发送经分类的全局特征矩阵以显示在符号序列的所有者的计算设备的用户界面上。
这些和其他特征将从以下结合附图阅读的对其说明性实施例的详细说明中变得清楚。
附图说明
附图是示意性实施例。它们没有示出所有实施例。另外或替代地可以使用其他实施例。可省略可明显或不必要的细节以节省篇幅或用于更有效的说明。一些实施例可用附加的组件或步骤和/或不用示出的所有组件或步骤来实践。当相同的数字出现在不同的附图中时,它指代相同或相似的部件或步骤
图1示出了用于使用随机序列嵌入来实现有效的符号序列分析的示例架构。
图2是与说明性实施例一致的用于处理序列数据的系统的概念框图。
图3是与说明性实施例一致的用于处理序列数据的系统的另一概念框图。
图4是与说明性实施例一致的用于随机字符串嵌入的无监督特征生成的算法。
图5是与说明性实施例一致的概述不同示例采样策略的方面的第二算法。
图6示出了提供用于分类准确性的随机字符串嵌入的八个不同变体之间的比较的表格。
图7示出了将随机字符串嵌入的分类准确度与用于字符串分类的其他已知方法进行比较的表格。
图8A和8B示出了通过在随机生成的串数据集上分别改变串N的数量和串L的长度来嵌入随机串的可扩展性。
图9呈现了与说明性实施例一致的用于使用随机序列嵌入的高效符号序列分析的调用流程过程。
图10是与说明性实施例一致的过程流程,其中,数据所有者不向分析引擎提供元数据。
图11是可与不同联网组件通信的计算机硬件平台的功能框图图示。
图12描绘了与说明性实施例一致的云计算环境。
图13描绘了与说明性实施例一致的抽象模型层。
具体实施方式
概述
在下面的详细描述中,通过实例阐述了许多具体细节,以提供对相关教导的全面理解。然而,应当显而易见的是,可以在没有这样的细节的情况下实践本教导。在其他实例中,已无细节地以相对高层级描述众所周知的方法、程序、组件和/或电路,以避免不必要地模糊本教示的方面。
本公开涉及使用随机序列嵌入的基于云的符号序列分析的系统和方法。串分类方法在包括生物信息学、健康信息学、异常检测和音乐分析的各种领域是突出的。如本文所使用的,序列是事件的有序列表。每个事件可以是数值实值、符号值、实值的向量或复杂数据类型。符号序列可以是来自预定字母表的符号的有序列表。例如,氨基酸(例如,异亮氨酸)具有DNA密码子ATT、ATC、ATA。
现有的串内核通常(i)依赖于串中的短子结构的特征(features),这可能不能有效地捕获长的辨别性模式,(ii)对太多子结构(诸如所有可能的子序列)求和,这导致内核矩阵的对角优势,或者(iii)依赖于从编辑距离导出的非正定(non-positive-definite)的相似性测量。如在此所使用的,正定性(positive definiteness)与双线性形式或倍半线性形式可以自然关联的任何对象的数学性质有关,即正定的(positive definite)。虽然已经努力解决关于字符串长度的计算挑战,但是当在基于内核的分类器中使用时,这样的方法通常具有关于训练样本的数量的二次复杂度。
在一个方面,本文呈现的是新一类的串内核,其可操作以(i)通过全局比对(alignments)发现隐藏在串中的全局属性,(ii)保持内核的正定性,而不引入对角主导内核矩阵,以及(iii)具有不仅关于训练样本的长度而且关于训练样本的数量的线性的训练成本。为此,通过不同的随机特征图来定义所提出的内核,每个随机特征图对应于随机字符串的分布。由这样的特征映射定义的内核可以具有正定性并且享受计算益处,因为它们产生可以在线性分类模型中直接使用的随机串嵌入(RSE)。
本文提供了生成表达性RSE的四种不同的采样策略。申请人已经确定,随机串长度典型地相对于数据串(有时在本文中称为符号序列)的长度不增长,由此在随机串的串数及其长度两者上将RSE的计算复杂度从二次到线性降低。在一个方面,RSE以小的容差均匀收敛到精确的内核。RSE随着串的数目(和串的长度)的增加而线性地缩放。本文描述的技术可以多种方式实现。以下参考以下附图提供示例实现。
示例体系结构
图1示出了用于使用随机序列嵌入来实现有效的符号序列分析的示例架构100。架构100包括允许不同计算设备102(1)至102(N)彼此通信的网络106以及连接到网络106的其他元件,诸如训练数据源112、分析服务服务器116和云120。
网络106可以是但不限于局域网(“LAN”)、虚拟专用网(“VPN”)、蜂窝网络、互联网、或其组合。例如,网络106可包括通信地耦合到专用网络(有时称为内联网)的移动网络,该专用网络提供不同辅助服务,诸如与不同应用商店、库和互联网的通信。网络106允许作为在分析服务服务器116上运行的软件程序的分析引擎110与训练数据源112、计算设备102(1)至102(N)和云120通信以提供内核学习。在一个实施例中,数据处理至少部分地在云120上执行。
出于稍后讨论的目的,若干用户设备出现在附图中,以表示可以是旨在保持私有的符号序列数据的源的计算设备的一些示例。符号序列数据(例如,103(1)和103(N))的各方面可通过网络106与分析服务服务器116的分析引擎110通信。如今,用户设备通常采取便携式手机、智能电话、平板计算机、个人数字助理(PDA)和智能手表的形式,尽管它们可以其他形式因素来实现,包括消费者和商业电子设备。
例如,计算设备(例如,102(N))可以向分析引擎110发送请求103(N)以便对存储在计算设备102(N)中的序列数据的特征进行分类,其方式为使得存储在计算设备102(N)中的序列数据不被展现给分析引擎110。在一些实施例中,存在训练数据源112,该训练数据源被配置成用于向分析引擎110提供训练数据(在此有时被称为随机序列)。在其他实施例中,随机序列由分析服务服务器116和/或由云120响应于触发事件而生成。
虽然训练数据源112和分析引擎110通过举例被展示为在不同平台上,但将理解的是,在各种实施例中,训练数据源112和学习服务器可以被组合。在其他实施例中,这些计算平台可以由虚拟机或软件容器的形式的虚拟计算设备来实现,所述虚拟机或软件容器被托管在云120中,由此提供用于处理和存储的弹性架构。
示例框图
符号序列分类、聚类和/或错误检测(在本文中统称为分类)的挑战之一是实现足够的准确性以得出关于数据的有效结论。对此,现在参见图2,其是与说明性实施例一致的用于处理序列数据的系统的概念框图200。注意,在图2的示例中,符号序列可以不具有固定长度,并且甚至可以包括由输入数据202表示的不同子结构。输入数据202仅以举例的方式而不是以限制的方式表示为DNA序列204至206。
输入数据的可变长度可能妨碍诸如支持向量机(SVM)、逻辑回归、神经网络等传统先进机器学习技术。因此,字符串序列(例如,204或206)特征表示在本文中被转换成兼容于机器学习214的特征表示,其可以由分析服务提供者提供,稍后更详细地讨论。凭借可以具有不均匀长度的靶序列的特征表示210,在不同应用中的信息的处理,包括量化生物信息学中DNA和蛋白质序列的相似性,神经语言学编程(NLP)中的自动拼写校正、用户的系统的序列的异常检测,使用内核表示的文本分类,等,得到了促进。
符号序列分类和聚类中的另一挑战涉及数据安全性。实际上,许多应用涉及涉及来自两个或更多个个体的敏感数据的计算。如今,基因组数据隐私的担忧在于计算机科学、医学和公共政策的十字路口。例如,个体可能希望将它们的基因组与不同参与者组的基因组进行比较以鉴定适当的治疗。这样的比较可能具有价值,但是由于隐私问题可能受到抑制。因此,在一个实施例中,本文提供的是数据所有者和分析服务提供者之间的有效屏障210,从而避免在两方之间发送原始敏感信息的需要。
现在参见图3,其是与说明性实施例一致的用于处理序列数据的系统的概念框图300。计算设备包括属于所有者的原始序列数据302。计算设备包括元数据模块306,元数据模块306可操作来执行原始序列数据(在本文中有时被称为原始序列数据的元数据)的概率分析。例如,元数据模块306可以确定序列中的字符(例如,字母表)并且确定原始序列数据中字母表的每个字符的频率分布。
元数据被发送到分析引擎(例如,类似于图1的分析引擎110)。值得注意的是,原始序列数据不需要与分析引擎共享,此概念由墙屏障308表示。
分析引擎包括模块310,该模块可操作用于基于从数据所有者接收的字符的分布生成可变长度D的R个随机序列。R个随机序列被发送到数据拥有者的计算设备以供进一步处理。
数据所有者的计算设备具有模块314,模块314被配置成通过使用接收到的R个随机序列来计算原始序列数据的特征矩阵。特征矩阵Z具有大小N X R,其中N表示原始序列数据中的字符串的数目。分析引擎对随机序列的生成以及特征矩阵Z的后续创建可以是迭代的,直到获得预定的条件,例如预定的迭代次数、最大带宽使用、和/或获得分类中期望的准确度。例如,迭代过程继续,直到特征矩阵的内积具有阈值准确度。换言之,模块310和314可重复操作,直到达到阈值精确度。然后,分析引擎可以使用特征矩阵Z来通过适当的模块318执行分类、错误检测和/或聚类。内核矩阵是K=Z*ZT.。然后,可以将结果提供给适当的接收者,诸如数据所有者的计算设备。
通过对子结构进行计数的示例字符串内核
在一种方法中,通过对字符串x,y之间的共享子结构的数量进行计数来计算两个字符串x,y∈X之间的内核k(x,y)。例如,假设S表示x中的特定子结构(例如,子序列、子字符串或单个字符)的索引集,并且S(x)是所有可能的这种索引集的集。进一步,令U为此子结构的所有可能值(例如,字符)。字符串内核家族可以由下面的等式1来定义:
Figure BDA0002758232800000101
其中,
Figure BDA0002758232800000102
是值u的x中的子结构的数量,由γ(S)加权,这根据S的特性(如长度)减少计数。
例如,在香草文本内核中,S表示文档x中的词位置,U表示词汇集(其中γ(S)=1)。
关于子结构计数内核的一个关注点是对角优势,其中内核格拉姆(Gram)矩阵的对角元素显著(例如,通常数量级)大于非对角元素,从而提供几乎相同的内核矩阵。这是因为字符串与其本身共享大量的公共子结构,对于S中更多子结构的问题解决,问题更加深刻。
示例编辑距离替换内核
在一种方法中,通过使用编辑距离(有时称为Levenshtein距离)来定义字符串内核。例如,令d(i,j)表示两个子串d(x[1:i],y[1:j]).之间的Levenshtein距离(LD)。距离可以递归地定义如下:
Figure BDA0002758232800000103
因而,以上等式2中的距离提供编辑(即,插入、删除或替换)的最小数目以将x变换为y的。距离测量被称为度量,即,其满足(i)
Figure BDA0002758232800000104
Figure BDA0002758232800000105
距离替代内核将典型内核函数中的欧几里德距离替换为新距离d(x,y)。例如,对于高斯(Gaussian)和拉普拉斯(Laplacian)径向基函数(RBF)内核,距离替代提供以下各项:
kGauss(x,y):=exp(-γd(x,y)2) (等式3)
kLap(x,y):=exp(-γd(x,y)) (等式4)
以上等式3和4的一个顾虑是它们对于编辑距离不是正定的(p.d.)。因而,在诸如支持向量机器(SVM)的内核方法中由等式3和4表示的内核的使用不对应于损耗最小化问题,并且由于非正定内核矩阵产生非凸(non-convex)优化问题,所以数值过程可能不会收敛到最优解。
从编辑距离确定字符串内核的示例
在一个实施例中,符号序列的分类是通过序列距离(有时被称为编辑距离)确定的方式。距离函数用于测量两个序列之间的相似性。在确定距离函数后,可应用分类方法。为此,字符串内核可以使用编辑距离来建立正定。
例如,考虑有界长度L的字符串,即,X∈ΣL.。假设Ω∈ΣL也是字符串的域,并且p(ω):Ω→R是随机字符串ω∈Ω的集合上的概率分布。所提出的内核由以下等式5定义:
k(x,y):=∫ω∈Ωp(ω)φω(x)φω(y)dω (等式5)
其中,表达式Фω是针对随机串ω的集合将输入序列x转换成特征值的特征函数。
表达式Фω可以直接设置为由以下等式6提供的距离:
φω(x):=d(x,ω) (等式6)
可替代地,可以通过由以下等式7提供的变换将表达式Фω转换成相似性度量:
φω(x):=exp(-γd(x,ω)) (等式7)
在后一种情形中,距离Фω可以被解释为软距离替代内核。等式3替代内核的“软版本”,而不是将“距离”代入函数,如以下等式8所提供的:
k(x,y)=exp(-γsoftminp(ω){d(x,ω)+d(ω,y)}) (等式8)
其中:
Figure BDA0002758232800000121
假设Ω仅包括非零概率的字符串(即,p(ω)>0)。我们注意到以下内容:
Figure BDA0002758232800000122
当(as)γ→∞(等式9)
进一步地,只要
Figure BDA0002758232800000123
我们就具有三角不等式的以下表达式:
Figure BDA0002758232800000124
(等式10)
因此,当γ→∞时:
k(x,y)→exp(-γd(x,y) (等式11)
以上等式11允许等式8的内核与等式4的距离替代内核之间的比较(在限制情况下)。应注意的是,与等式4的距离替代内核不同,等式8的新颖内核由于其定义总是正定的,如在等式5的上下文中提供的,这是由于以下表达式:
xyω∈Ωp(ω)φω(x)φω(y)dωxy
=∫ω∈Ωp(ω)(∫xφω(x)dx)(∫yφω(y)dy)dω≥0 (等式12)
随机字符串嵌入的示例高效计算(RSE)
尽管已经定义了等式6和7的内核,但是向等式5的内核提供解决方案的简单分析形式可能是有帮助的。可使用以下随机特征(RF)近似来确定内核:
Figure BDA0002758232800000126
例如,特征向量Z(x)是使用差异度量
Figure BDA0002758232800000131
计算的,其中
Figure BDA0002758232800000132
是从分布p(ω)绘制的可变长度D的随机字符串的集合。具体地,函数φ可以是通过比对(alignments)考虑全局特性的任何编辑距离度量或经转换的相似性度量。在不失一般性的情况下,我们将LD视为我们的距离测量。随机近似在本文中被称为随机串嵌入(RSE)。现在参见图4,其是与说明性实施例一致的用于RSE的无监督特征生成的算法400。输入402可由以下表达式来表征:
Figure BDA0002758232800000133
(等式14)
其中L是原始序列的字符串的长度,
xi是符号序列(即,输入串),并且
N是输入串的数量。
随机串的最大长度是Dmax,具有字符串嵌入大小R(特征矩阵)。应注意,R也是随机序列的数目。输出406是具有大小ZNXR.的特征矩阵。借助于图4的RSE是用于嵌入字符串的无监督特征生成方法,除了分类之外,其提供了与各种机器学习任务一起使用的灵活性。超参数Dmax用于等式6和7的内核。超参数γ用于使用“软版本”LD距离作为特征的等式7的内核。例如,随机串Dmax的最大长度的作用是捕获对应于嵌入在数据中的高度有区别的特征的原始串的最长段。申请人在实验中已经确定,这些长区段对于捕获具有长长度(例如,L>1000)的字符串的全局特性是特别显著的。
在一些场景中,可能不存在关于D的值(即,随机序列的字符串的长度)的先验知识,并且因此我们在范围[1,Dmax]中对D的每个随机串进行采样以产生无偏估计。在一些实施例中,D是常数。申请人已经确定,30或更小的值对于D是理想的,因为它在分辨率和计算复杂度之间提供了良好的平衡。进一步,为了学习表达表示,生成高质量的随机字符串集合是适当的,这在后续章节中更详细地讨论。
关于本文所讨论的RSE方法的一个方面涉及RSE在串的数量和串的长度两者中线性缩放的事实。注意,假设两个数据串具有大致相等的长度L,则两个数据串之间的LD的典型评估是O(L2)。利用我们的RSE,我们可以显著地将LD的计算成本降低至O(LD),其中D在图4的算法400中被视为常数。当原始字符串(在本文中有时被称为符号序列)的长度长时,计算效率的这种改进特别显著。应当理解,序列的长度取决于其应用。例如,蛋白质序列可以具有100至10,000或甚至更长的长度。
例如,大多数流行的现有字符串内核在串数目方面也具有二次复杂性,使得大数据的尺度不切实际。相比之下,本文所讨论的RSE借助于嵌入矩阵而非构建全内核矩阵来在样本数目方面将复杂度从二次方减少到线性。因此,在一个实施例中,如果D被视为常数,独立于字母表的大小,则本文所讨论的RSE的总计算复杂度是O(NRL)。
RSE的有效性的一个因素是如何生成高质量的随机字符串集合。就这一点而言,本文讨论了四种不同的采样策略以提供从数据独立分布和数据相关分布两者导出的丰富特征空间。就这一点而言,图5是与说明性实施例一致的算法500(即,第二算法),其概述不同示例采样策略的方面。输入502可以类似于以上等式14的方式表征。输出506包括随机串ωi
第一采样策略基于RF方法,其中找到与预定义内核函数相关联的分布。然而,由于内核函数由显式分布来定义,因此存在使用可以容纳序列数据的任何合适的分布的灵活性。为此,在一个实施例中,使用均匀分布来表示序列数据的主题字母表中的字符的真实分布。这种采样方法在本文中被称为RSE(RF)。
在另一实施例中,反映第二采样策略,代替使用现有分布,针对出现在数据串(即,序列数据)中的主题字母表计算每个字符的直方图。学习的直方图是针对真实概率分布的偏向估计。我们将这种采样方案称为RSE(RFD)。这两个采样策略实质上考虑如何从对应字母表的低级字符生成随机串。数据相关(data-dependent)的分布可以产生更好的泛化误差。
因此,本文讨论的上述两种数据相关的采样方法被配置为生成随机串。在一个实施例(即,第三方法)中,不同于使用整个数据序列(其可能导致大的泛化错误)的已知技术,从原始串采样可变长度的段(例如,子串)。太长或太短的子串可能携带噪声或关于真实数据分布的不充分信息。因此,随机串的长度被均匀地采样。我们将这种采样方法称为RSE(SS)。
在一个实施例中,为了在一个采样周期中采样更多的随机串,我们还将原始串划分成若干子串块,并且将这些块中的一些均匀地采样为我们的随机串。注意,在该实施例中(即,第四种方法),我们采样多个随机串,并且我们不将它们串联为一个长串。当使用LD比较原始字符串和随机字符串时,该方法有助于以更多计算为代价学习更多有区别的特征。我们可以采取这种方式RSE(BSS)。
会聚分析
在一个实施例中,由于以上等式5中描绘的内核不具有分析形式,而仅具有采样近似,如等式13中所提供的,知道在等式13中有多少个随机特征具有精确的近似值将很重要。知道这样的准确度是否泛化到训练数据之外的字符串也将是重要的。我们通过以下等式15中提供的定理回答那些问题。
Figure BDA0002758232800000151
(等式15)
ΔR(x,y)表示等式5的确切内核与R个样本的等式13的随机特征近似之间的差值。KR(x,y)是特征矩阵的内积。均匀收敛由以下等式16提供:
Figure BDA0002758232800000152
(等式16)
其中L是在X中的字符串长度上的界限,并且
|Σ|是字母表的大小。
因此,为了以至少1-δ的概率提供|ΔR(x,y)|≤∈,具有以下数量的随机序列R就足够了:
Figure BDA0002758232800000154
因此,定理1解释对于任何两个串x,y∈X,只要
Figure BDA0002758232800000155
高达对数因子,就可以提供小于∈的误差的内核近似。
RSE的示例变体
如上所述,存在两种不同的全局串内核和四种不同的随机串生成方法,导致RSE的八种不同的组合。就这一点而言,图6示出了提供RSE的这八种不同变体之间的比较以用于分类准确度的表格。
RSE(RF-DF)变型610使用每个字符的预定分布来组合随机特征,以生成具有直接LD距离的随机串,如等式6中所提供的。RSE(RF-SF)变型612使用每个字符的预定分布来组合随机特征,以生成具有LD距离的软版本的随机串,如等式7中所提供的。RSE(RFD-DF)变型614类似于RSE(RF-DF)610变型,因为它计算来自用于生成随机字符串的数据集的每个字符的分布并且使用直接LD距离作为等式6中的特征。RSE(RFD-SF)变体616类似于RSE(RF-SF)变体612,因为它计算来自数据集的每个字符的分布以用于生成随机字符串并且使用LD距离的软版本作为等式7中的特征。
RSE(SS-DF)变型618将从数据集生成的数据相关子串与作为等式6中的特征的直接LD距离组合。RSE(SS-SF)变型620将从数据集生成的数据相关子串与作为等式7中的特征的软LD距离组合。RSE(BSS-DF)变型622类似于RSE(SS-DF)变型618,因为它从数据相关分布生成子串块并且使用直接LD距离作为等式6中的特征。RSE(BSS-SF)变体624类似于RSE(SS-SF)变体620,因为它从与数据相关的分布生成子串块并且使用软版本LD距离作为等式7中的特征。
现在参见图7,其示出了将RSE的分类精度与用于串分类的其他已知方法进行比较的表700。已知方法包括子系统串内核(SSK)712、近似失配串内核(ASK)714、长短期存储器(LSTM)716和使用包括整流线性单元(iRNN)718的RNN的简单但简洁的解决方案。应当注意,表700中的“-”指示SSK和ASK方法耗尽存储器(在工作站上具有512G的示例系统中)。
显著地,表700指示在分类准确性方面本文所讨论的RSE方法710可以胜过或匹配基线712至718,同时使用较少的计算时间来实现相同或更好的准确性。例如,RSE方法710表现得比SSK712和ASK714显著更好,通常大裕度(即,RSE710在三个蛋白质数据集上实现比SSK712和ASK714高25%-33%的准确度)。这是因为(k,m)-失配串内核对长长度的串敏感,这通常导致短子串(k聚体)的特征空间大小呈指数增长并且导致对角优势问题。
更重要的是,仅使用从原始字符串中提取的小的子字符串导致固有的局部视角并且可能无法捕获字符串的全局特性。进一步,为了实现相同的精度,RSE710的运行时间可显著小于SSK712和ASK714的运行时间。例如,对于数据集超家族,RSE710可以仅使用3.7秒来实现46.56%的准确度,而SSK712和ASK714分别使用140.0和257.0秒来实现类似的准确度44.63%和44.79%。
进一步,表700指示RSE710在总共九个数据集中的七个数据集上(例如,除了dna3-class3和mnist-str8上之外)实现比LSTM716和iRNN718更好的准确度。注意,表700包括直接测试数据集上的两个模型(即,LSTM716和iRNN718)的最佳准确度,这可解释为什么它们在mnist-str8上展现有利数。与iRNN相比,LSTM 716通常具有更好的性能,代价是更昂贵的计算,因为LSTM 716的模型参数比iRNN 718大得多。然而,这两个模型通常比RSE花费实质上更多的时间,同时实现较低的分类准确性,突出了我们在本文讨论的RSE710的有效性和效率。
RSE的示例可扩展性
传统的符号序列分类和聚类系统遇到的挑战是可缩放性。例如,距离函数(诸如编辑距离(有时被称为Levenshtein距离))可在传统系统中用于计算不同符号序列的距离或相似性得分。然而,此类方法在计算上涉及,并且因此在执行计算的(多个)计算设备上在计算上效率不高。
因而,在一个方面,本文所讨论的RSE在增加串N的数量时线性地缩放。对此,图8A和8B通过在随机生成的串数据集上分别改变串N的数目和串L的长度,示出了RSE的可扩展性。在该实验中,分别在N=[128,131072]的范围内改变串的数量,在L=[128,8192]的范围内改变串的长度。当生成随机字符串数据集时,其字母表被选择为与其蛋白质字符串相同。进一步,对于与RSE相关的超参数,Dmax=10和R=256。图8A和8B提供了使用814A和814B中的我们的方法RSE的四个变体来计算字符串嵌入的运行时间。
如图8A所示,当增加串N的数量时,RSE线性地缩放,这确认了我们先前的计算分析。其次,图8B凭经验证实RSE在字符串L的长度方面也实现了线性可扩展性。因而,从在此讨论的串内核导出的RSE在串样本的数量和串的长度两者中线性地缩放。这有助于开发在真实世界大规模字符串数据上享有更高准确度和线性可扩展性两者的新的字符串内核家族。
示例过程
利用示例架构100、框图和分析方法的前述概述,现在考虑示例过程的高级讨论可能是有帮助的。为此,图9和10分别呈现了与说明性实施例一致的用于使用随机序列嵌入的高效符号序列分析的调用流程900和1000。
调用流程900和1000被示为逻辑流程图中的处理的集合,其中每个表示可在硬件、软件或其组合中实现的操作序列。在软件的上下文中,这些过程表示计算机可执行指令,这些指令在由一个或多个处理器执行时执行所引用的操作。通常,计算机可执行指令可以包括执行功能或实现抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被解释为限制,并且任何数量的所描述的过程可按任何顺序组合和/或并行执行以实现该过程。出于讨论的目的,参见图1的体系结构100来描述过程900和1000。
在步骤902,符号序列的所有者(即,数据所有者102的计算设备)基于原始符号序列来创建元数据。在一个实施例中,元数据包括原始符号序列的字符(例如,字母表)的概率分布。
在步骤906,分析服务服务器116的分析引擎110从数据所有者的计算设备102接收符号序列的元数据。在一个实施例中,元数据被存储在分析服务器的储存库中。
在步骤910,分析引擎110基于所接收的元数据生成R个随机序列。例如,R个随机序列的集合可以基于序列的字符的概率分布。在一个实施例中,基于所接收的元信息来生成所述R个随机序列包括:对于所述R个随机序列中的每一个随机序列,均匀地对所述随机序列的长度D进行采样,以捕获所述原始符号序列的比对(alignment)。每个随机序列R的长度D是从Dmin到Dmax,其中Dmin。
在步骤914,将R个随机序列发送到数据所有者102的计算设备以供进一步处理。
在步骤918,计算设备102基于接收到的R个随机序列确定特征矩阵Z。例如,计算设备102可以通过随机序列和原始符号序列之间的Levenshtein距离(LD)来确定特征矩阵。
在步骤922,分析引擎110从计算设备102接收特征矩阵Z。
在步骤926处,分析引擎110确定从计算设备102接收的特征矩阵Z的准确度。如果特征矩阵Z低于阈值准确度,则重复步骤910至922。该迭代过程继续,直到分析引擎110确定所接收的特征矩阵等于或高于阈值准确度。在确定达到阈值准确度时,特征矩阵被识别为全局特征矩阵并且使用不同机器学习技术进行分类。在不同实施例中,机器学习可以是无监督的或半监督的。如在此所使用的,分类包括以下各项中的至少一项:分类、聚类、以及经由机器学习的异常检测。在步骤930,将经分类的全局特征矩阵发送到数据所有者的计算设备102,其中结果可以显示在其用户界面上。
现在参见图10,其是与说明性实施例一致的过程流1000,其中,数据所有者不向分析引擎提供元数据。相反,在步骤1006,符号序列的所有者(即,数据所有者102的计算设备)向分析服务服务器116的分析引擎110发送对数据分析的请求。
在步骤1008,分析引擎110确定表示数据所有者102的序列数据的随机分布。在一个实施例中,该分布是均匀分布。换言之,创建表示数据所有者的原始符号序列的字符的概率分布的人工分布,本文称为人工元数据。
在步骤1010,分析引擎110基于人工元数据生成R个随机序列。例如,R个随机序列的集合可以基于人工元数据中提供的序列的字符的概率分布。每个随机序列的长度D是从Dmin到Dmax,其中Dmin是≥1并且Dmax≤20。
在步骤1014,R个随机序列被发送到数据所有者102的计算设备以供进一步处理。
在步骤1018,计算设备102基于接收到的R个随机序列确定特征矩阵Z。例如,计算设备102可以通过随机序列和原始符号序列之间的Levenshtein距离(LD)来确定特征矩阵。
在步骤1022,分析引擎110从计算设备102接收特征矩阵Z。
在步骤1026,分析引擎110确定从计算设备102接收的特征矩阵Z的准确度。如果特征矩阵Z低于阈值准确度,则重复步骤1008至1022。该迭代过程继续,直到分析引擎110确定所接收的特征矩阵等于或高于阈值准确度。在确定达到阈值准确度时,特征矩阵被识别为全局特征矩阵并且使用不同机器学习技术进行分类。
在步骤1030,将经分类的全局特征矩阵发送到数据所有者的计算设备102。
借助于本文所讨论的系统和过程,通过两方系统来保护原始符号序列数据的隐私。与内核矩阵的计算相关的内存消耗可以从O(NL+N^2)减少到O(NR),R<<N。此外,计算内核或相似性矩阵的计算复杂度可以显著降低。例如,编辑距离可以从O(N^2L^2)减小到O(NRLD),R<<N,D<<L。更进一步,可以使用基于学习的特征表示的不同机器学习分类器和聚类技术,从而相对于已知的分类技术实现改进的性能。
示例计算机平台
如以上所讨论的,与使用随机序列嵌入的有效符号序列分析有关的功能可以通过使用经由无线或有线通信被连接用于数据通信的一个或多个计算设备来执行,如图1所示。图11是可与不同联网组件(诸如训练输入数据源、云等)通信的计算机硬件平台的功能框图图示。具体地,图11示出了可以用于实现服务器(如图1的分析服务服务器116)的网络或主机计算机平台1100。
计算机平台1100可以包括连接到系统总线1102的中央处理单元(CPU)1104、硬盘驱动器(HDD)1106、随机存取存储器(RAM)和/或只读存储器(ROM)1108、键盘1110、鼠标1112、显示器1114和通信接口1116。
在一个实施例中,HDD 1106具有包括存储程序的能力,该程序能够以本文所述的方式执行不同过程,诸如分析引擎1140。分析引擎1140可以具有被配置成用于执行不同功能的各种模块。例如,可存在交互模块1142,其可操作以与一个或多个计算设备交互以接收数据,诸如元数据、特征矩阵和来自序列数据的所有者的请求。交互模块1142还可用于从训练数据源接收训练数据,如本文所讨论的。
在一个实施例中,存在随机序列模块1144,其可操作用于基于由数据所有者的计算设备所提供的元数据或由分析引擎生成的或来自训练输入数据源的人工元数据来生成R个随机序列。
在一个实施例中,存在采样模块1146,其可操作以对范围[1,Dmax]中的D的每个随机串进行采样,以产生每个随机串D的无偏估计,同时节省计算资源。
在一个实施例中,存在可操作以确定从数据所有者的计算设备接收的特征矩阵Z的准确度的准确度模块1148。如果特征矩阵Z低于阈值准确度,则迭代过程继续,直到分析引擎1140的准确度模块148确定所接收的特征矩阵等于或高于阈值准确度。
在一个实施例中,存在分类模块1150,其可操作以基于所确定的特征矩阵执行(i)分类、(ii)聚类和(iii)异常检测中的至少一个。在一个实施例中,存在机器学习模块1156,其可操作以对所确定的特征矩阵执行一个或多个机器学习技术,诸如支持向量机(SVM)、逻辑回归、神经网络等。
在一个实施例中,诸如ApacheTM之类的程序可被存储用于将系统操作为Web服务器。在一个实施例中,HDD1106可存储包括一个或多个库软件模块的执行应用,诸如用于实现JVM(JavaTM虚拟机)的JavaTM运行时环境程序的那些。
示例云平台
如上所述,与使用随机序列嵌入的高效符号序列分析有关的功能可包括云200(参见图1)。应当理解,尽管本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本公开的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问,所述可配置计算资源可以用最小的管理努力或与服务提供者的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可按需自动地单方面供应计算能力,诸如服务器时间和网络存储,而无需与服务的提供者的人类交互。
广泛的网络接入:能力在网络上是可用的并且通过标准机制来访问,所述标准机制促进由异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池化:提供者的计算资源被池化以使用多租户模型服务于多个消费者,其中不同的物理和虚拟资源根据需要被动态地指派和重新指派。存在位置独立性的意义,因为消费者通常对所提供资源的确切位置不具有控制或知识,但可能能够在较高抽象层级(例如,国家、州或数据中心)处指定位置。
快速弹性:可以快速且弹性地提供能力(在一些情况下,自动地)以快速缩小并且快速释放以快速放大。对于消费者,可用于供应的能力通常显得不受限制,并且可以在任何时间以任何数量购买。
测量的服务:云系统通过利用适于服务类型(例如,存储、处理、带宽和活动用户账户)的某种抽象级别的计量能力来自动控制和优化资源使用。可监视、控制和报告资源使用,从而为所利用的服务的提供者和消费者两者提供透明度。
业务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至个体应用能力的底层云基础结构,可能的例外是有限的用户特定的应用配置设置。
平台即服务(PaaS):向消费者提供的能力是在云基础结构上部署消费者创建或获取的应用,所述应用是使用提供者所支持的编程语言和工具来创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构,但是具有对所部署的应用以及可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供消费者能够部署和运行可包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础结构,而是具有对操作系统、存储、所部署的应用的控制,以及对所选联网组件(例如,主机防火墙)的可能有限的控制。
部署模型如下:
私有云:云基础结构仅为组织操作。它可由组织或第三方管理,并且可存在于场所内或场所外。
社区云:云基础结构由若干组织共享并且支持具有共享的关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可由组织或第三方管理,并且可存在于场所内或场所外。
公共云:使云基础结构对公众或大型产业组可用并且由销售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公共的)的组成,这些云保持唯一实体但通过标准化或专有技术来绑定在一起,这些技术实现数据和应用便携性(例如,用于云之间的负载平衡的云突发)。低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图12,描绘了说明性云计算环境1200。如图所示,云计算环境1200包括一个或多个云计算节点1210,云消费者使用的本地计算设备(诸如个人数字助理(PDA)或移动电话1254A、台式计算机1254B、膝上型计算机1254C和/或汽车计算机系统1254N)可与云计算节点1210通信。节点1210可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境1250提供基础结构、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应当理解,图12中示出的计算设备1254A-N的类型旨在仅是说明性的,并且计算节点1210和云计算环境1250可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备进行通信。
现在参见图13,示出了由云计算环境1250(图12)提供的一组功能抽象层。应预先理解,图13中所示的部件、层和功能旨在仅是说明性的,并且本公开的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层1360包括硬件和软件组件。硬件组件的示例包括:主机1361;基于RISC(精简指令集计算机)架构的服务器1362;服务器1363;刀片服务器1364;存储装置1365;以及网络和网络部件1366。在一些实施例中,软件组件包括网络应用服务器软件1367和数据库软件1368。
虚拟化层1370提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器1371;虚拟存储器1372;虚拟网络1373,包括虚拟私有网络;虚拟应用和操作系统1374;以及虚拟客户端1375。
在一个示例中,管理层1380可以提供以下描述的功能。资源供应1381提供用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价1382在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及对数据和其他资源的保护。用户门户1383为消费者和系统管理员提供对云计算环境的访问。服务级别管理1384提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)计划和履行1385为云计算资源提供预安排和采购,根据SLA预期该云计算资源的未来要求。
工作负载层1390提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航1391;软件开发和生命周期管理1392;虚拟教室教育交付1393;数据分析处理1394;事务处理1395;以及符号序列分析1396,如本文所讨论的。
结论
本传授内容的不同实施例的描述是出于说明的目的而呈现的,但不旨在是详尽的或限于所披露的实施例。在不脱离所描述的实施例的范围的情况下,许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解在此披露的实施例。
虽然前面已经描述了什么被认为是最佳状态和/或其他示例,应当理解,可在其中做出不同修改,并且本文所公开的主题能够以不同形式和示例来实现,并且该教导可以应用于许多应用中,这里仅描述了其中一些应用。所附权利要求旨在要求保护落入本传授内容的真实范围内的任何和所有应用、修改和变化。
在此已经讨论的部件、步骤、特征、目的、益处和优点仅是说明性的。它们中的任何一个,以及与它们相关的讨论都不旨在限制保护范围。虽然本文已经讨论了各种优点,但应当理解,并非所有实施例都必须包括所有优点。除非另外说明,否则在本说明书中(包括在随后的权利要求书中)阐述的所有测量值、值、评级、位置、量值、大小和其他规格都是近似的,不是精确的。它们旨在具有与它们相关的功能以及它们所属领域的惯例一致的合理范围。
还构想了众多其他实施例。这些包括具有更少、附加和/或不同的部件、步骤、特征、对象、益处和优点的实施例。这些还包括其中部件和/或步骤被不同地安排和/或排序的实施例。
本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图来描述本发明的方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机、专用计算机的处理器,或其他可编程数据处理装置,以产生机器,使得指令经由计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储媒质中,可编程数据处理装置,和/或以某种方式起作用的其他设备,使得具有存储在其中的指令的计算机可读存储媒质包括制品,该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置上,或使得在计算机上执行一系列操作步骤的其他装置,其他可编程装置或其他设备,以产生计算机实现的过程,使得在计算机上执行的指令,其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
本文中附图中的流程图和框图示出了根据本公开的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实施例中,框中所标注的功能可以不以图中所标注的次序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。
虽然已经结合示范性实施例描述了前述内容,但应理解的是,术语“示范性”仅旨在作为实例,而不是最佳或最佳的。除了如上刚刚陈述的,任何已陈述或示出的内容都不旨在或应被解释为引起任何部件、步骤、特征、对象、益处、优点或等效物专用于公众,而不管其是否在权利要求书中陈述。
应当理解,本文中所使用的术语和表达具有普通含义,就其相应的查询和研究的相应领域而言,与这些术语和表达相一致,除非本文另外阐述了具体含义。诸如第一和第二等关系术语可仅用于将一个实体或动作与另一个实体或动作区分开,而不一定要求或暗示此类实体或动作之间的任何实际此类关系或次序。术语“包括(comprises)”、“包含(comprising)”或其任何其他变体旨在覆盖非排他性的包含,这样使得包括一系列要素的过程、方法、物品或装置不仅包括那些要素,而且可以包括未明确列出的或此类过程、方法、物品或装置固有的其他要素。在没有进一步限制的情况下,由“一个(a)”或“一种(an)”开始的元件不排除在包括该元件的过程、方法、物品或设备中存在额外的相同元件。
提供本公开的摘要以允许读者快速确定本技术公开的性质。应理解的是,它将不用于解释或限制权利要求的范围或含义。此外,在前述具体实施方式中,可以看到,为了使本公开流畅的目的,在各种实施方式中将各种特征组合在一起。本披露的这种方法不应被解释为反映所要求的实施例具有比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,发明主题在于少于单个公开的实施例的所有特征。因此,以下权利要求由此并入具体实施方式中,其中每个权利要求独立地作为单独要求保护的主题。

Claims (17)

1.一种用于分析数据的计算设备,所述设备包括:
处理器;
网络接口,其耦合到所述处理器以实现通过网络的通信;
存储装置,其耦合到所述处理器;
一个分析引擎,所述分析引擎存储在所述存储装置中,其中,所述处理器对所述分析引擎的执行将所述计算装置配置成用于执行多个动作,这些动作包括:
a)从所述符号序列的所有者的计算设备接收所述符号序列的元数据;
b)基于所接收的元数据生成R个随机序列的集合;
c)通过所述网络向所述符号序列的所述所有者的所述计算设备发送所述R个随机序列的集合,以基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;
d)从所述符号序列的所述所有者的所述计算设备接收所述特征矩阵;
e)在确定特征矩阵的内积低于阈值精度时,返回步骤b;
f)在确定所述特征矩阵的内积等于或高于所述阈值准确度时:
将所述特征矩阵标识为全局特征矩阵;
基于机器学习对所述全局特征矩阵进行分类;以及
发送所述经分类的全局特征矩阵以在所述符号序列的所述所有者的所述计算设备的用户界面上显示。
2.根据权利要求1所述的计算设备,其中,所述元数据包括所述符号序列的字母表的概率分布。
3.根据权利要求1所述的计算设备,其中,所述R个随机序列的集合基于所述序列字母表的所述概率分布。
4.根据权利要求2或3所述的计算设备,其中,每个随机序列的长度D是从Dmin到Dmax,其中,Dmin是>1并且Dmax<20。
5.根据以上权利要求中任一项所述的计算设备,其中:
基于所接收的元数据来生成所述R个随机序列的集合包括:对于所述R个随机序列中的每一个随机序列:均匀地对所述随机序列的长度D进行采样,以减小将由所述处理器处理的数据量;并且
发送所述R个随机序列的集合由所述随机序列的采样长度D组成。
6.根据以上权利要求中任一项所述的计算设备,其中,所述全局特征矩阵的所述分类包括以下各项中的至少一项:分类、聚类和异常检测。
7.根据以上权利要求中任一项所述的计算设备,其中,所述符号序列保持对所述分析引擎的所述计算设备是私有的。
8.根据以上权利要求中任一项所述的计算设备,其中所述全局特征矩阵维持内核的正定性而不引入对角线主导内核矩阵。
9.根据以上权利要求中任一项所述的计算设备,其中,所述全局特征矩阵的所述分类具有相对于训练样本的长度和数量呈线性的机器学习训练成本。
10.根据以上权利要求中任一项所述的计算设备,其中,从所述符号序列的所有者的计算设备接收所述符号序列的元数据包括;
从符号序列的所有者的计算设备接收对于数据分析的请求;
创建表示所述符号序列的所述所有者的所述计算设备的符号序列的字母表的概率分布的人工元数据;
11.一种用于分析数据的方法,所述方法包括:
a)从符号序列的所有者的计算设备接收所述符号序列的元数据;
b)基于所接收的元数据生成R个随机序列的集合;
c)向所述符号序列的所述所有者的所述计算设备发送所述R个随机序列的集合,以基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;
d)从所述符号序列的所述所有者的所述计算设备接收所述特征矩阵;
e)在确定所述特征矩阵的内积低于阈值精度时,返回步骤b;
f)在确定所述特征矩阵的内积等于或高于所述阈值准确度时:
将所述特征矩阵标识为全局特征矩阵;
基于机器学习对所述全局特征矩阵进行分类;以及
发送所述经分类的全局特征矩阵以在所述符号序列的所述所有者的所述计算设备的用户界面上显示。
12.根据权利要求11所述的方法,其中:
所述元数据包括所述符号序列的字母表的概率分布;以及
所述R个随机序列的集合基于所述序列字母表的概率分布。
13.如权利要求11或12中任一项所述的方法,其中:
基于所接收的元数据来生成所述R个随机序列的集合包括:对于所述R个随机序列中的每一个随机序列:均匀地对所述随机序列的长度D进行采样,以减小将由所述处理器处理的数据量;并且
发送所述R个随机序列的集合由所述随机序列的所述采样长度D组成。
14.如权利要求11至13中任一项所述的方法,其中,所述全局特征矩阵的所述分类包括以下各项中的至少一项:分类、聚类和异常检测。
15.如权利要求11至14中任一项所述的方法,其中,所述符号序列保持对所述分析引擎的所述计算设备是私有的。
16.一种用于分析数据的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,所述计算机可读存储介质由处理电路可读并且存储用于由所述处理电路执行以便执行根据权利要求11至15中任一项所述的方法的指令。
17.一种计算机程序,存储在计算机可读介质上并且可加载到数字计算机的内部存储器中,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行如权利要求11至15中任一项所述的方法。
CN201980030031.2A 2018-05-04 2019-05-03 使用随机序列嵌入的符号序列分析的计算效率 Pending CN112470172A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/972,108 2018-05-04
US15/972,108 US11227231B2 (en) 2018-05-04 2018-05-04 Computational efficiency in symbolic sequence analytics using random sequence embeddings
PCT/EP2019/061374 WO2019211437A1 (en) 2018-05-04 2019-05-03 Computational efficiency in symbolic sequence analytics using random sequence embeddings

Publications (1)

Publication Number Publication Date
CN112470172A true CN112470172A (zh) 2021-03-09

Family

ID=66589507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980030031.2A Pending CN112470172A (zh) 2018-05-04 2019-05-03 使用随机序列嵌入的符号序列分析的计算效率

Country Status (5)

Country Link
US (1) US11227231B2 (zh)
EP (1) EP3788561A1 (zh)
JP (1) JP7316722B2 (zh)
CN (1) CN112470172A (zh)
WO (1) WO2019211437A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11641346B2 (en) * 2019-12-30 2023-05-02 Industrial Technology Research Institute Data anonymity method and data anonymity system
US11106694B1 (en) * 2020-02-21 2021-08-31 Sas Institute Inc. Computerized pipelines for transforming input data into data structures compatible with models

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108200A1 (en) * 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
JP2008084064A (ja) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
CN105654126A (zh) * 2015-12-29 2016-06-08 华为技术有限公司 一种计算设备、核矩阵评估方法以及多核学习方法
CN105843781A (zh) * 2015-02-02 2016-08-10 国际商业机器公司 执行大型稀疏矩阵运算中用于缓存效率的矩阵排序的方法和系统
JP2016189062A (ja) * 2015-03-30 2016-11-04 有限責任監査法人トーマツ 異常検出装置、異常検出方法及びネットワーク異常検出システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9543980B2 (en) 2014-10-10 2017-01-10 Massachusettes Institute Of Technology Systems and methods for model-free compression and model-based decompression
GB201517331D0 (en) 2015-10-01 2015-11-18 Chase Information Technology Services Ltd And Cannings Nigel H System and method for preserving privacy of data in a cloud
WO2017153456A1 (en) 2016-03-09 2017-09-14 Sophia Genetics S.A. Methods to compress, encrypt and retrieve genomic alignment data
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108200A1 (en) * 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
JP2008084064A (ja) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
CN105843781A (zh) * 2015-02-02 2016-08-10 国际商业机器公司 执行大型稀疏矩阵运算中用于缓存效率的矩阵排序的方法和系统
JP2016189062A (ja) * 2015-03-30 2016-11-04 有限責任監査法人トーマツ 異常検出装置、異常検出方法及びネットワーク異常検出システム
CN105654126A (zh) * 2015-12-29 2016-06-08 华为技术有限公司 一种计算设备、核矩阵评估方法以及多核学习方法

Also Published As

Publication number Publication date
WO2019211437A1 (en) 2019-11-07
EP3788561A1 (en) 2021-03-10
JP7316722B2 (ja) 2023-07-28
US20190340542A1 (en) 2019-11-07
US11227231B2 (en) 2022-01-18
JP2021522598A (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
US11048718B2 (en) Methods and systems for feature engineering
CN110659740A (zh) 基于边缘节点处的数据输入对机器学习模型排序和更新
US20180365560A1 (en) Context aware sensitive information detection
US11727019B2 (en) Scalable dynamic acronym decoder
US11042581B2 (en) Unstructured data clustering of information technology service delivery actions
US11853908B2 (en) Data-analysis-based, noisy labeled and unlabeled datapoint detection and rectification for machine-learning
US20170140297A1 (en) Generating efficient sampling strategy processing for business data relevance classification
US10248626B1 (en) Method and system for document similarity analysis based on common denominator similarity
US11599826B2 (en) Knowledge aided feature engineering
Beebe et al. Clustering digital forensic string search output
US11151410B2 (en) Generating and augmenting transfer learning datasets with pseudo-labeled images
US11829455B2 (en) AI governance using tamper proof model metrics
US20220122000A1 (en) Ensemble machine learning model
US20210150270A1 (en) Mathematical function defined natural language annotation
CN112470172A (zh) 使用随机序列嵌入的符号序列分析的计算效率
US11500840B2 (en) Contrasting document-embedded structured data and generating summaries thereof
US20210149793A1 (en) Weighted code coverage
US11714637B1 (en) User support content generation
US11556514B2 (en) Semantic data type classification in rectangular datasets
US11580322B2 (en) Scalable attributed graph embedding for large-scale graph analytics
US20230021563A1 (en) Federated data standardization using data privacy techniques
US11392473B2 (en) Automated extension of program data storage
US20210406294A1 (en) Relevance approximation of passage evidence
US11163953B2 (en) Natural language processing and candidate response evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination