CN104583972B

CN104583972B - 基于符号空间的模式压缩的多层系统

Info

Publication number: CN104583972B
Application number: CN201380030434.XA
Authority: CN
Inventors: I·赖切尔高兹; K·奥迪内夫; Y·Y·泽维
Original assignee: Cortica Ltd
Current assignee: Cortica Ltd
Priority date: 2013-02-12
Filing date: 2013-06-17
Publication date: 2016-05-11
Anticipated expiration: 2033-06-17
Also published as: KR20150127101A; US8922414B2; US20160079997A1; DE112013006650T5; GB201417750D0; US20150102948A1; US20140225757A1; JP5922841B2; GB2515938B; US9691164B2; JP2015519828A; US9197244B2; US9438270B2; US20160328863A1; GB2515938A; CN104583972A; KR101655835B1; WO2014126600A1

Abstract

提供了一种基于符号空间的模式压缩的方法和装置。该方法包括接收输入序列，该输入序列具有第一长度，并且包括多个符号；提取输入序列中的共同模式，其中共同模式包括至少两个符号；生成对应于所有共同模式的提取的输出序列，其中输出序列具有第二长度，其中第二长度要短于第一长度；并且在存储器中存储输出序列，作为数据层，其中输出序列作为后续生成数据层的新的输入序列。

Description

基于符号空间的模式压缩的多层系统

相关申请的交叉引用

本申请拥有2013年2月12日提交的美国临时申请No.61/763,554的权益，其内容以引用的形式并入文中。

技术领域

本发明主要涉及模式识别和大数据，特别涉及一种利用模式识别技术和大数据存储和分析理论的系统和方法。

背景技术

人们一直努力进行模式识别并且为了存储而合理地对其进行组合，尤其是以一种紧凑的方式。然而除非特别指定，不能认为所有的模式在数据中都是均匀分布的。因为有些模式要比其他模式更加突出，它们发生的可能性更大，而其他模式却非常不常见。此外，一些模式彼此相关，共同形成模式组合，这也是非常普遍的。这就为模式识别系统的应用带来了问题。例如，为了对两个内容段的相似度测量进行检索，单单考虑对应模式的数量是不够的，还要考虑每个模式发生的概率。此外，还要考虑模式之间的关联性。例如，如果两个模式总是同时同现，则它们实质上仅包括单个模式的信息。

该影响进而会不利于模式识别系统的可扩展性和精度。即，当处理模式识别系统的跨多个机器的不同模式时，则大部分处理“不普遍”模式的机器会保持闲置，而少数处理“普遍”模式的机器则会超负载访问。同时由于模式之间的关联性，也不可能根据它们的先验概率进行模式处理的分布，其中模式之间的关联性无法进行假设。此外，通常扩展模式识别系统优选应该避免模式空间的重复，并且不需要使每个机器保留一份模式的拷贝。

在一些示例中，手动将多个符号，如模式，减少为更少的容易识别的可控符号。例如，就像一组合成和弦的音符。和弦是两个或两个以上用来演奏的音符，或者其他听起来像同时演奏的组合。然而，由于和弦本身具有重复性，因此为了减少提供给演奏者的音符数量，将音符序列简化为和弦符号，用来代表多个音符。因此，标记为C7的和弦表示演奏者演奏主音符A、第三C小调C以及纯五度E，从而它们听起来像是同时演奏的。人们可以容易地将和弦符号译为其指代的特定符号。类似地，可以根据特定的规则，手动构建两组符号的映射，该规则可以添加、删除或者根据需要进行修改。

为模式识别提供一种有效的技术方案，克服现有技术的缺陷—特别是需要人工干预识别过程的缺陷—是非常有益的。

发明内容

此处公开的一些实施例公开了一种基于符号空间的模式压缩的方法。该方法包括接收输入序列，该输入序列具有第一长度，并且包括多个符号；提取输入序列中的所有的共同模式，其中共同模式包括至少两个符号；生成对应于所有共同模式的提取的输出序列，其中输出序列具有第二长度，其中第二长度要短于第一长度；在存储器中存储输出序列，作为数据层，其中输出序列作为后续生成数据层的新的输入序列。

此处公开的一些实施例还包括基于符号空间的模式压缩的装置。该装置包括处理单元；连接到该处理单元的接口，该接口配置为接收输入序列，该输入序列具有第一长度并且包括多个符号；以及连接到处理单元的存储器，并配置为在存储器中存储多个指令，当处理单元执行该指令时表现为：提取输入序列中所有的共同模式，其中共同模式包括至少两个符号；生成与所有共同模式对应的输出序列，其中输出序列具有第二长度，第二长度要短于第一长度；在存储器中存储输出序列，作为数据层；并且提供输出序列，作为后续生成数据层的新的输入序列。

此处公开的一些实施例还包括大数据存储系统。该系统包括用于存储由Cortex函数依次生成，对应于输入序列的多个数据层的存储器单元，其中每个数据层包括在该数据层中使用的符号集合，其中每个生成的数据层的符号空间小于任何后续生成的数据层的符号空间，其中每一个生成的数据层都比任何后续生成的数据层更不恒定、更不具有重复性、更相关并且更不均衡。

附图说明

在说明书结束时，权利要求书会特别指出并明确声明本文公开的主题。上述和本发明的其他对象、特征及优势可以通过下文详细描述并结合附图而明显。

图1所示为根据一实施例的具有第一符号空间的作为用于处理的输入的初始符号序列；

图2所示为根据一实施例的用于映射输入序列并确定符号序列的替换符号的第一等级表；

图3所示为根据一实施例，由大于第一符号空间的第二符号空间构成的表示减少数量的符号的符号序列；

图4所示为根据一实施例的用于映射输入序列并确定符号序列的替换符号的第二等级表；

图5所示为根据一实施例，由大于第二符号空间的第三符号空间构成的表示减少数量的符号的序列；

图6所示为根据另一实施例的用于映射输入序列并确定符号序列的替换符号的第三等级表；

图7所示为根据一实施例，由大于第三符号空间的第四符号空间构成的表示减少数量的符号的序列；

图8A-8D分别表示图像符号，即线、正方形、圆以及三角形的简图，并根据一实施例应用；

图9A和9B为根据一实施例，由基本符号构成的更高等级的图像符号，分别为“房子”和“椅子”；

图10A-10D分别为基本符号，即线、正方形、圆及三角形，每一个基本符号均具有对应的连接端口；

图11A-11C为根据一实施例，分别由基本符号构成的更高等级的图像符号，“男人”、“女人”和“狗”。

图12为根据一实施例，描述数据层的创建的流程图，该数据层响应输入符号的输入序列，该输入序列用于构建基于符号空间的模式压缩；

图13为根据一实施例，用于创建数据层的系统，该系统响应输入符号的输入序列，该输入序列用于构建基于符号空间的模式压缩。

具体实施方式

需要重要说明一点，文中公开的实施例仅是本申请创新性思想的多个有益应用的示例。通常，本申请说明书中的陈述并不一定限制各种不同的要求保护的发明中的任一个。此外，一些说明适用于一些发明特征，但不适于其他特征。通常，除非特别指出，单数形式的要素也可以是复数形式的，反之亦然，均不丧失其一般性。在附图的多个视图中，相同的数字表示相同的部分。

此处公开的多个实施例允许将自然信号以及/或者从自然信号提取的特征映射到具有重复性和恒定性的高维空间中的压缩形式。特别地，对于给定的输入空间，分别构建输入数据的多个数据层(Cortex)，该输入数据由更多的符号表示，即至少比紧接着的之前序列的符号多一个符号，但是总长度要更短，即长度要小于紧接着的之前符号序列的长度。

因此，通过符号空间可以以一种更紧凑的方式表达信息，并且更容易组织。输入数据可以是图像、视频、文字、声音或者其他类型可以映射到多个数据层的数据。在一实施例中，本公开技术可以描述为一种可以通过与更高数据层的“理想桌子”比较，而确定什么是“桌子”的能力。特别地，生成模式空间，该模式空间足够大，以至于跨模式识别系统的多个机器(或处理器)，每个机器处理模式空间的不同范围。该模式空间包括一个或多个模式。

根据一实施例，输入“模式”由设计为用于寻找内容段中的“模式”的装置(或系统)接收。该输入模式被笼统地限定为内容段一些特征的任意表示。然而应该说明，接收到的“模式”还涉及这些模式代表什么以及这些模式的位置的信息。在本文中，这些模式的集合称为“描述符”。内容段可以通过一个或多个“描述符”表示。例如，如果内容段为2D图像，则模式会表明在图像中探测到的特定形状和颜色。

根据公开实施例，接收到的输入模式的模式空间转化为更大的模式空间，但是如下文进一步详细所描述的，更均衡、非相关、可重复以及恒定。特别地，在每一个描述符中，用新的模式替换初始输入模式，该新模式表示初始模式空间的组合模式。因此，首先利用本公开技术使模式空间更大，从而提高可扩展性；第二，公开技术为了更好的精确度而使模式空间变平及不相关；第三，本技术通过包括大量的关于来自单个区域的内容段的概率的信息来提高一致性和重复性。

下文为根据一实施例操作本公开技术(由下文描述的系统和方法实现)的一般描述。Cortex为函数F：S₀→S_n，其中对于任何k-{k＝0,1,……n},S_k为包括一个或多个模式的模式空间。输入模式定义为初始模式空间S₀；每一个下方的符号空间，即下一层Cortex，由“迭代函数F_k”F_k：S_k→S_k+1定义并构成，该函数根据一个或多个预定义的转换规则将S_k中的任何一组模式转换为S_k+1中的一组模式。任何“迭代函数”的转换规则均是根据来自某区域的大量模式的集合(如内容段)的模式分布而生成的。例如，如果兴趣区域为“2D自然图像”，则S_k中生成较大的N个描述符，标识为S₀……S_N。在这些示例中，内容段包括2D自然图像。

根据一实施例，用于构建Cortex的数据层F_k的迭代根据那些N个描述符的模式分布确定，并且需要多个步骤。第一，S_k+1初始化为S_k的拷贝。然后，S₀……S_N用于构建S_k中模式的共同组合的集合，用表示，其中为子集函数。然后，对于每个在S₁……S_N中概率大于第一阈值T₁的集合c_i{i＝1,2……N}，为S_k+1添加新的标签，从而增加一个空间。对于S_k中的每一个在{S₁……S_N}的概率大于第二阈值T₂的“初始标签”，该各个“初始标签”要从S_k+1中删除。最后，对于S_k中的每一个组合c_i数目大于第三阈值T₃，该各个“初始标签”要从S_k+1中删除，其中各个“初始标签”包括在上述组合c_i中。通常阈值T₁、T₂和T₃为表征某种概率的数值，其示例会在本文中讨论。

完成该过程时，可以获得数据层Fk的一致定义，其中S_k+1中的每个模式要么是S_k的模式，或者明确定义为S_k中的模式的集合，而对该集合的检测表明了是否应该包括该新的模式。结果就是，S_k+1为更大的签名空间，其中非常共通的模式被移除并且/或者被其他模式的组合所替代。

需要谨慎地调整阈值参数T₁、T₂和T₃，从而不会丢失有价值的模式，同时避免包含“噪声”模式。这种等级划分的过程可以重复任何需要的次数，只要可以缩短长度并增加唯一符号的数量，可以选择任何的阈值。每一次迭代都生成一个比紧接着的前一数据层形式更紧凑的数据层。即各个输入模式的多个符号映射到单个符号中。

在一实施例中，输入模式或数据对于一领域是唯一的，如英文文本、人脸、经典音乐等。在另一实施例中，可以使用来自多个区域的数据的任意组合。根据一实施例，如果符号具有高度相关性，它们会结合。然而，即使符号并不具备相关性，但是同时出现，即不相关但具有共同出现的倾向，也可以将它们组合。

应该理解，本文描述的过程至少具有两个重要的结果。首先，该过程是可扩展的，即在执行完文中描述的过程之后，模式空间大而均衡，因此，模式空间可以均匀地跨多个机器，每一个机器处理模式空间的一个子范围。因此，可以利用“路由”措施用于查询，而非查询复制。

本文公开的过程的另一重要结果就是其精度。即在数据层迭代构建的过程中，一组“现实世界”数据S₁……S_N作为必要统计的基础。这意味着通过应用此处公开的技术，对随机样本中不普遍(从而更重要)的模式给予更多的权重。因此，假定输入内容段来自同一区域，生成的数据层用于将“噪声”模式与有价值的“探测”模式进行分离。此外，根据此处公开过程生成的数据层提供了一种功能，该功能与人脑将模式识别为更高一层概念的能力的功能类似。

需要注意的是，公开的模式识别过程在大数据分析中是尤其有益的。通常大数据是指庞大并且复杂，利用现有数据库管理工具或者传统数据处理应用工具不能够分析的数据组集合，例如现有技术讨论的那些。如上文所述，该公开过程可使模式空间大而均衡，从而该模式空间可以均匀地跨多个机器，其中每个机器处理模式空间的子范围。因此，可以有效地利用该公开过程，用于大数据分析。

以下为生成数据层过程的操作的两个非限制性示例。在第一个非限制性示例中，如图1所示，显示由500个符号组成的序列的初始集，其中具有4个不同的符号：“R”、“G”、“B”和“Y”。采用此处描述的过程，即确定符号、模式或者序列，并应用阈值确定哪个符号序列需要用另一符号代替，形成了图2所示的表。在本示例中，指代三个或两个符号的组合符号序列由它们在输入序列中出现的次数确定。应该说明一点，在图2中虽然没有显示所有的序列，但是已经考虑了所有序列的可能性。最长的序列是数据本身；它只显示一次，并且低于要求的重复阈值。

根据一示例性实施例，图2所示的第一等级表格仅包括出现次数超出第一阈值T1的序列，例如阈值等于或者大于10。在超出阈值T1的序列中，仅具有更长序列的序列，如果它包含在表的序列内，可用于符号替换。例如，序列“BYY”和“YY”为相关的，然而，较长序列要比较短序列优选考虑。因此，如图2所描述的，虽然序列“YY”在输入序列中出现了28次，但它只独立出现了8次，而序列“BYY”独立出现了13次。由于阈值确定为等于或者大于10，“YY”并没有由替换符号代替，而序列“BYY”被符号“A”代替。对数据层生成过程步骤的第一次迭代之后的序列如图3所示。图3所示的序列增加了符号空间中的符号数量，从4个符号增加到17个符号(A、C、D、E、F、H、I、J、K、L、M、N、O、Y、R、G、B)，并且序列中符号的个数也从初始序列的500个相应地减少到随后序列的283个。

现在继续过程，执行另一迭代，通过扩展符号空间进一步减少序列中符号的数量。对于下一次迭代，输入序列(如图3所示)包括减少的283个符号的符号序列。图4所示为利用等于或大于5的阈值，生成的第二个等级表格。结果，某些符号序列被替换为对应的单个符号，从而将输出序列的数量符号减少为262个，符号空间为20(A、C、D、E、F、H、I、J、K、L、M、N、O、Y、R、G、B、P、S、T)。第二次迭代的最终输出结果如图5所示。

图6所示为公开过程执行的另一迭代，其中阈值等于或大于3，图7所示为最终缩短的符号序列。从图6所示的“替换符号”表格中罗列的符号可以看出，符号空间已经增加到37个符号，输出符号序列(图7)的长度减少到221个符号，即少于初始为500的初始长度的一半。需要注意的是，每一次迭代生成的序列组(如图3、5和7)均为Cortex层的数据层(Cortex的数据层)。

因此，根据本发明公开实施例，参考上述示例的数据层的构建，需要理解在输入数据层为具有500个符号，使用4个符号空间的符号序列。在第二数据层，在第一数据层处理之后，具有包含283个符号，利用17个符号空间的符号序列。在第三数据层，在第二数据层处理之后，具有包含262个符号，利用20个符号空间的符号序列。最后，在第四数据层，在第三数据层处理之后，具有包含221个符号，利用37个符号空间的符号序列。

在一实施例中，符号可以由签名代替，如美国专利8,112,376、8,266,185、8,312,031以及8,326,775以及共同待审的美国专利申请12/084,150和12/507,489所描述的，均指定共同的代理人，并以引用形式将其全文引用于文中。

在第二个公开数据层生成过程的操作的非限制性示例中，根据实施例应用图8A-8D分别显示的四个图像符号，线810、正方形820、圆830以及三角形840。基本图像符号810、820、830和840的组合会生成更高等级的图像符号，实施例应用在图9A和9B中分别显示的房子910或椅子920。房子910的图像符号由正方形820-1及三角形840-1以一种特定的方式组合构成的，作为符号图像“房子”被识别。类似地，椅子920的图像符号由4个符号，线810-1、810-2、810-3及810-4以特定的方式组合构成的，作为符号图像“椅子”被识别。

根据一实施例，四个基本图像符号810、820、830及840中的任何一个在一连接端口与另一个基本图像符号810、820、830或840相连。对连接端口进行示例性及非限制性地指定，分别如图10A到10D所示，对每一个端口进行编号，从而与其他的端口进行区分。例如，但是不作为限制目的，线1010具有3个端口，分别编号为1、2和3；而正方形1020具有8个端口，分别编号为1、2、3、4、5、6、7和8，等等。

应该理解，每个基本图像符号1010、1020、1030及1040分配的连接端口的数量仅为示例，并且每个图像符号可以包括更少或者更多的连接端口。每个图像符号例如可由一标识符命名，例如线具有符号“A”、正方形具有符号“B”、圆具有符号“C”以及三角形具有符号“D”。因此图9A所示的“房子”的高等级图像可以简洁地描述为：

D(4)<0°>B(2)

这意味着图像符号“D”和图像符号“B”分别在端口“4”和“2”处连接，相对方向为0°。类似地，因此图9B所示的高等级图像“椅子”可以简洁地利用下述标记描述：

A(3)<[0°>A(1),90°>A(1),(3)<90°>A(1)]

这意味着图像符号“A”通过端口3以0°的相对方向连接另一图像符号“A”的端口1，并以90°的相对方向连接另一图像符号“A”的端口1，而该图像符号通过其端口3以90°的相对方位连接另一图像符号“A”的端口1。

根据一实施例，由于数据层(Cortex)，从而模式识别与析取是可行的。图11A、11B、11C描述了三个高等级符号，“男人”1110、“女人”1120、“狗”1130，每一个符号均包括图10所示基本图像符号。因此，利用上述标记，“男人”1110的符号可以描述为：

C(6)<90°>A(1),(2)<0°>A(2)

“女人”1120的符号可以描述为:

C(6)<90°>A(1),(3)<0°>D(1)

以及，“狗”1130的符号可以描述为：

C(6)<90°>A(1),(2)<0°>A(1),(3)<90°>A(2)

根据一实施例，提取共同模式，其中包括圆“C”通过连接端口‘6’以90°的相对方向连接线“A”符号的端口‘1’。因此，提取出来的共同模式可以描述为：

C(6)<90°>A(1)

然后，识别的模式在数据层内接收符号。例如符号Ω替换提取出来的共同模式C(6)<90°>A(1)。因此，符号“男人”1110可以在现数据层描述为：

Ω(2)<0°>A(2)

符号“女人”1120可以在现数据层描述为：

Ω(3)<0°>D(1)

以及，符号“狗”1130可以在现数据层描述为：

Ω(2)<0°>A(1),(3)<90°>A(2)

因此，利用已公开的过程，数据层中符号的数量在增加。然而，数据组本身更短。在一实施例中，数据层至少包括在紧接着的前一数据层中使用的符号的集合。此外，在上述示例中，C(6)<90°>A(1)为共同模式。这意味着组合C(6)<90°>A(1)的概率要大于第一阈值T₁。因此，添加新的标签Ω到S_k+1，因此，使空间加一。现在的概率为，C和A组合中的每一个元素大于第二阈值T₂，因此，每个“最初标签”(C和A)将从S_k+1中移除。因此，可以理解为，在公开过程中应用的阈值是根据元素会在下一数据层中发现的概率而定的。

图12所示为示例性并非限制性的流程图1200，其描述了根据一实施例，输入符号的输入序列的数据层的构建。在S2010中，接收包括符号序列的输入。该符号可以是字符、图像、声音、视频以及其他序列，包括信号形式等。

在一实施例中，序列包括用于多媒体内容元素的一组签名。这些签名例如在上述引用的美国专利8,112,376、8,266,185、8,312,031以及8,326,775，以及共同待审的专利申请12/084,150和12/507,489中讨论过。

在步骤S1220中，确定所有的符号组合，即出现频率(出现次数)高于预设阈值的两个或两个以上符号。在步骤S1230中，删除在S1220中所识别的符号组合的包括的和导出的组合。在一实施例中，还进一步需要另一阈值(如上述讨论的T₂)，从而进一步过滤使用过的结果符号组合。例如，如图2所示，符号序列‘YYR’在输入序列(图1)中被确认，但却不包括在结果的数据层中。

在S1240中，剩余的每个符号组合被唯一的新的符号替代。在一实施例中，剩余的符号组合为那些在输入序列中出现次数据超出预设阈值的符号组合，该预设阈值用于过滤符号组合。在S1250中，符号的结果序列被存储在存储器中，作为输入数据层之后的数据层。

在S1260中，检查对于最近生成的数据层是否导出了新的数据层，如果是，则继续执行S1210，其中在S1250中存储在存储器中的符号序列作为新的输入符号序列；否则终止执行。

图13所示为根据一实施例，用于构建输入符号的输入序列的数据层的示例性和非限制性系统1300。该系统1300包括处理单元(PU)1310，包括一个或多个处理单元，如计算核心。PU1310可通信地与存储器1320相连。存储器1320可包括易失性及非易失性存储器，并且还可与PU1310接近或者远离。存储器1320在存储部分1325中包括指令，当PU1310执行该存储器部分时，它至少会执行上述数据层生成的过程，例如，流程图1200。

可以通过与PU1310通信连接的输入/输出接口1330从外部资源，或者从存储器1320提供输入符号序列。生成数据层的输入源包括但不限于感官资源，如声音、视频、触觉、味觉、文字等等。此外，还可能是不同输入数据源的组合。

在一实施例中，系统1300还包括签名生成器1340，其可通信地连接到PU1310以及/或者存储器1320。该签名生成器1340可生成由一个或多个连接到输入/输出接口1330的资源提供的数据的签名。生成的签名然后由PU1310处理，生成数据层。签名生成器1340的示例性实施及其功能至少在上述引用的美国专利8,112,376、8,266,185、8,312,031以及8,326,775，和共同待审的美国专利申请12/084,150和12/507,489可以找到。

数据层保持有多个特性。更高等级的数据层表示具有更大的符号空间，即随着新的层生成，空间也会增加。数据层还使符号更接近的概率增加，同时符号之间的关联性减小。在分层过程之前互相接近的符号在过程执行完之后依然接近。

根据另一实施例，数据层保持恒定，即两符号相辅相成，保护恒定的属性。例如，如果输入数据(符号序列)为人脸，则对于相同的脸在睁眼和闭眼时，生成的数据层是不变的。生成的数据层包括共同模式，它是来自于不同资源的输入模式的组合。数据层的输出为来自于用指数数据集表示的多个资源的信息的融合。

根据另一实施例，数据层的所有属性都是重要的。即，例如声音资源与视频相比太过显著，则该层通过生成相关共同模式压制声音模式。此外，如果两数据资源不相关，该层生成非相关融合形式。

本文公开的多个实施例可以作为硬件、固件、软件或者其组合实现。此外，优选地，软件作为程序存储单元或者计算机可读介质上的应用程序执行。该应用程序可以上传到由任何合适结构构成的机器上，或者在该机器上执行。优选地，机器在一具有如一个或多个中央处理器(“CPU”)、存储器以及输入/输出接口的硬件的计算机平台上执行。计算机平台还包括操作系统和微指令代码。此处描述的多个过程和函数可以是可由CPU执行的微指令代码的一部分，或者是应用程序的一部分，或者上述组合，不管该计算机或处理器是否明确显示。此外，多个其他外围单元可以连接到计算机平台，如其他数据存储单元和打印单元。此外，非瞬时性电脑可读介质为除瞬时传播信号之外的任何计算机可读介质。

本文列举的所有示例和条件性用语都是为示范目的，有助于读者理解本发明实施例和发明者为促进本领域技术而提出的思想，应该理解为不将本发明限制在特别列举的示例和情况中。此外，此处所有列举思想、方面及本发明实施例，以及其特定示例的陈述都包括其结构和功能的等同变型。此外，这些等同变型包括现有等同技术，还包括未来发展的等同技术，即不管结构如何，任何实现相同功能的元素。

Claims

1.一种基于符号空间的模式压缩的装置，包括：

处理单元；

连接到该处理单元的接口，该接口配置为接收输入序列，该输入序列具有第一长度并且包括多个符号；以及

连接到处理单元的存储器，并配置为在存储器中存储多个指令，当处理单元执行该指令时，该指令执行：

输入序列中所有的共同模式的提取，其中共同模式包括至少两个符号；

输出序列的生成，与所有的共同模式的提取对应，其中输出序列具有第二长度，第二长度要短于第一长度；

在存储器中存储输出序列，作为数据层；并且

提供输出序列，作为用于后续生成数据层的新的输入序列。

2.根据权利要求1所述的装置，其中输出序列的生成还包括：

移除长度低于预设阈值的共同模式。

3.根据权利要求2所述的装置，其中输出序列的生成还包括：

当第二共同模式长于第一共同模式时，移除包含在第二共同模式中的第一共同模式。

4.根据权利要求1所述的装置，其中多个符号中的每个符号为下述任一种：字符、图像、声音信号、视频信号以及有形形式的信号表示。

5.根据权利要求1所述的装置，还包括：

签名生成器，其可通信地连接到处理单元以及存储器，其中该签名引擎配置为生成对应于至少一个符号的至少一个签名，其中由签名生成器生成的签名作为输入序列由该装置处理。

6.根据权利要求1所述的装置，其中每个生成的数据层包括使用于该数据层中的符号的集合。

7.根据权利要求6所述的装置，其中生成的数据层的符号空间小于任何后续生成的数据层的符号空间。

8.根据权利要求6所述的装置，其中生成的数据层比任何后续生成的数据层更不恒定。

9.根据权利要求6所述的装置，其中生成的数据层比任何后续生成的数据层更不重复。

10.根据权利要求6所述的装置，其中生成的数据层比任何后续生成的数据层更相关。

11.根据权利要求6所述的装置，其中生成的数据层比任何后续生成的数据层更不均衡。

12.一种基于符号空间的模式压缩的计算机化方法，包括：

接收输入序列，该输入序列具有第一长度，并且包括多个符号；

提取输入序列中的所有共同模式，其中共同模式包括至少两个符号；

生成对应于所有共同模式的提取的输出序列，其中输出序列具有第二长度，其中第二长度要短于第一长度；并且

在存储器中存储输出序列，作为数据层，其中该输出序列作为后续生成数据层的新的输入序列。

13.根据权利要求12所述的方法，其中生成输出矢量还包括：

移除长度低于预设阈值的共同模式。

14.根据权利要求13所述的方法，其中生成输出序列还包括：

15.根据权利要求12所述的方法，其中符号为下述任一种：字符、图像、声音信号、视频信号以及有形形式的信号表示。

16.根据权利要求12所述的方法，还包括：

生成对应于至少一个符号的至少一个签名，其中该至少一个签名作为输入序列处理。

17.根据权利要求12所述的方法，其中每个生成的数据层包括使用于该数据层中的符号的集合。

18.根据权利要求17所述的方法，其中生成的数据层的符号空间小于任何后续生成的数据层的符号空间。

19.根据权利要求17所述的方法，其中生成的数据层比任何后续生成的数据层更不恒定。

20.根据权利要求17所述的方法，其中生成的数据层比任何后续生成的数据层更不重复。

21.根据权利要求17所述的方法，其中生成的数据层比任何后续生成的数据层更相关。

22.根据权利要求17所述的方法，其中生成的数据层比任何后续生成的数据层更不均衡。