CN105144200A

CN105144200A - 用于处理非结构化数字的基于内容的检索引擎

Info

Publication number: CN105144200A
Application number: CN201480021662.5A
Authority: CN
Inventors: 哈罗德·特雷斯; 琳恩·特雷斯; 肖恩·赫雷拉
Original assignee: Datafission Corp
Current assignee: Datafission Corp
Priority date: 2013-04-27
Filing date: 2014-04-27
Publication date: 2015-12-09
Also published as: EP2989596A2; WO2014176580A3; EP2989596A4; WO2014176580A2; US20140324879A1

Abstract

公开了用于接收和索引原生数字数据、产生用于后续存储的签名矢量，以及在数字数据的数据库中检索此类原生数字数据的系统及方法。可将原生数字数据转换成相关的转换数据集。此类转换可包括类熵转换和/或空间频率转换。随后可将所述原生和相关的转换数据集划分成谱分量，并且那些谱分量可具有应用于其以产生签名矢量的统计矩。还公开了用于处理非图像数字数据的其他系统和方法。可将非图像数字数据转换成振幅对照时间的数据集，并且随后可将谱图应用于此类数据集。随后可如所描述地处理此类转换数据集。

Description

用于处理非结构化数字的基于内容的检索引擎

背景技术

数字宇宙(DU)可被解释和/或定义为涵盖所收集、产生、处理、通信和存储的世界上所有数字数据的总和。DU的大小和生长速率以指数速率持续增长，到2020年DU的估计大小将增长到超过40泽字节。此数据的大部分由“非结构化数据”组成。非结构化数据以多种形式出现，包括：图像、视频、音频、通信、网络流量、来自各种传感器的数据(包括物联网和基于Web服务的物联网)、恶意软件、文本等等。

与适合行/列格式的结构化数据相反，非结构化数据通常存储在不透明容器中——例如，诸如原始二进制数据、压缩数据、加密数据，或者自由形式数据。不仅了解DU的大小和生长速率是重要的，而且了解数据的分布也是重要的，所述数据被估计为大约88％的视频和图像数据；10％的通信、传感器、音频和音乐数据；以及2％的文本。还估计到所述2％的文本DU中仅3-5％是目前编入索引并且制作为可由主要检索引擎(例如，Google、Bing、Yahoo、Ask、AOL等等)检索的。

互联网检索引擎和企业检索引擎是用于访问DU数据的存储以支持主要用途的主要机制，所述主要用途包括商务、商业、教育、政府、社区和机构，以及个人用途。经由基于文本的关键词和元数据标记进行文本检索是到目前为止最流行的检索DU数据的方法。上述方法只能做到这种程度，因为所述2％的(文本)DU中仅约3-5％是编入索引并且制作为可检索的。用元数据标记检索是有用的，但是因为并非所有非结构化数据具有与其相关联的元标记，所以可能希望具有可处理此类非结构化和无标记数据的技术。

通常，可以先使用手动作业(例如，众包、喜欢/不喜欢等等)来产生标记，然后才可由传统的检索引擎和数据库使用所述标记，此过程费时、昂贵并且覆盖范围有限。与文本元数据检索技术已经具有的价值一样，发现数据内容中和数据内容之间的链接、连接和关联的能力可具有更高价值。社交媒体公司(例如，Facebook、Linkedln、Twitter等等)的产生是此技术的例子。额外使用跨数据集和数据类型的链接还允许对数据应用深度分析以提取非显而易见的关系、模式和趋势(例如，广告、推荐引擎、商业智能、度量、网络流量分析等等)。因此，可能希望使非结构化DU的内容为可检索的。

发明内容

下文呈现了对所述创新的简要总结，以便提供对本文所描述的一些方面的基本理解。此发明内容并非是对所要求保护的主题的广泛概述。本发明内容既非旨在识别所要求保护的主题的关键或者决定性要素，也非旨在详细描述所述创新主题的范围。本发明内容的唯一目的是以简化形式呈现所要求保护主题的一些概念，以作为稍后提供的更详细描述的序言。

在一个实施例中，公开了一种用于检索数字数据的系统，所述系统包括：索引模块，所述索引模块能够接收原生数字数据集，所述原生数字数据集包括谱分布；签名生成模块，所述签名生成模块能够根据所述原生数字数据集产生一个或多个转换数据集以及根据所述原生数字数据集和所述一个或多个转换数据集产生签名矢量，所述签名矢量包括针对所述原生数字数据集和所述一个或多个转换数据集中的每一者的谱分解和统计分解；TOC数据库，所述TOC数据库能够存储所述签名矢量；以及检索模块，所述检索模块能够接收输入签名矢量并且返回大体上接近于所述输入签名矢量的一组签名矢量，其中所述输入签名矢量表示将利用所述TOC数据库检索的所关注对象。

在另一实施例中，公开了一种用于根据原生数字数据集产生签名矢量的方法，所述方法包括：接收原生数字数据集；应用熵转换至所述原生数字数据集以产生熵数据集；应用空间频率转换至所述原生数字数据集以产生空间频率数据集；将所述原生数字数据集、所述熵数据集和所述空间频率数据集中的每一者划分成一组谱分量数据集；以及应用一组统计矩至所述谱分量数据集以产生用于所述原生数字数据集的签名矢量。

当结合提供在此申请案中的附图阅读时，在以下实施方式中提供了本发明系统的其他特征和方面。

附图说明

在所提及的附图图式中示出了示例性实施例。旨在将本文所公开的实施例和图式视为说明性而非限制性的。

图1是如根据本申请案的原理制造的系统和用于所述系统的操作的示例性环境的一个实施例。

图2是索引模块和所述索引模块在示例性环境情况中的操作的一个实施例。

图3是如根据本申请案的原理制造的签名和目录(TableofContent,TOC)模块的一个实施例。

图4是如根据本申请案的原理制造的实体和关键词索引表(KeywordIndexTable，KIT)模块的一个实施例。

图5是检索模块和所述检索模块依据使用者的检索请求的操作的一个实施例。

图6是检索模块及所述检索模块返回检索结果至使用者的操作的一个实施例。

图7是如根据本申请案的原理制造的实例查询模块的一个实施例。

图8是分析模块和所述分析模块在示例性环境情况中的操作的一个实施例。

图9是如根据本申请案的原理制造的系统的另一实施例。

图10是如可能填入图9所示的系统的若干示例性模块的视图。

图11A到图11C示出了处理一个图像数据帧的一个实施例。

图12A到图12C和图13A到图13C示出如根据本申请案的原理实行的对其他图像数据帧的处理。

图14是非结构化数据分层的一个实施例，所述分层可用来处理非结构化数据。

图15和图16是检索视频数据集中的图像数据的示例性实施例。

图17是检索音频数据集中的声音数据的一个示例性实施例。

图18是高等级群集的一个示例性实施例。

图19到图21是使用检索锥和/或检索框构造来帮助检索过程的示例性实施例。

图22示出了如何用本发明的系统和技术处理非图像数据集以产生签名的一个实施例。

图23示出了原生数据集的一个实施例，所述原生数据集被转换成互补数据集并且经处理以产生高维的签名。

图24示出了如根据本申请案的原理制造的合成性地面实况产生器的一个实施例。

具体实施方式

如本文所用，术语“部件”、“系统”、“界面”、“模块”等等旨在代表与计算机有关的实体，为硬件、软件(例如，执行中的软件)和/或固件。例如，部件可为在处理器上运行的处理、计算机节点、计算机核心、计算节点群集、对象、可执行档、程序、处理器和/或计算机。举例而言，在服务器上运行的应用程序和所述服务器两者皆可为部件。一个或多个部件可以驻留在过程内，并且部件可以局限在一个计算机上和/或分布在两个或更多个计算机之间。

参考附图描述了所要求保护的主题，其中贯穿全文以相同的附图标记用于指代相同的元件。在以下描述中，为了解说的目的，陈述了众多具体细节来提供对创新主题的彻底理解。然而可为明显的是，在没有这些具体细节的情况下也可实践所要求保护的主题。在其他情况中，以方框图形式示出了熟知的结构和装置，以帮助描述创新主题。

概论

为了在针对具体条目、想法和/或主题检索DU时获得任何有用的结果，可能需要将一些结构和/或次序引入DU本身。例如，可能需要基于数据内容对非结构化数据和未加标签数据使用自动产生元数据标记的方法和算法。因此，本文公开的各个方面描述了用于产生计算机可读代码和计算机界面，以便采集、索引化、检索、链接和/或分析非结构化数据存储的过程、系统和/或方法的实施例。一个实施例可使用包括以下的模块和算法：(1)能够产生非结构化数据的信息内容的唯一签名(例如，数字指纹)；以及(2)能够比较签名来确定高维的信息空间中的度量距离——从而确定两个实体是如何相关或无关的。基于这些算法，用于检索、链接和分析非结构化数据的方法可用于建立用于以下用途的过程和系统：(1)将非结构化数据索引化为可检索的索引表，(2)检索非结构化数据，(3)链接/关联非结构化数据，(4)建立用于非结构化数据的深度分析引擎，以及(5)广义编辑。

在本文公开的若干可能的实施例中，将这些方法与数据管理、并行/事务处理计算和并行计算硬件一起实体化成计算机可读代码可提供用于建立非结构化数据库进程“服务器”的基准。此外，所述服务器可使用用于与用户和其他机器通信的机制，因此可以定义“客户端”界面来处理用户到机器的通信和机器到机器的通信。在若干实施例中，将这些组合在一起可提供用于以下用途的平台(或者框架)的基准：(1)建立广义非结构化数据检索引擎，(2)建立用于发现非结构化数据(例如，具体来说，图像、视频和音频)内和非结构化数据(例如，具体来说，图像、视频和音频)间已发现链接的社交网络引擎，(3)建立用于处理非结构化数据的深度分析应用程序，以及(4)建立用于添加、删除、替换表示特征和/或对象的信号和/或模式的广义编辑应用程序。

虽然本文所公开和论述的许多实施例是在计算、通信和数据流的客户端/服务器模型的情境中实行的，但是可以理解的是，本文所公开和描述的方法和技术将在许多其他计算环境中起作用。例如，可在单一的独立计算机和/或计算系统上——或者在此类计算机的网络(例如，分布式网络、并行网络或者其他网络)中进行采集、索引化和链接。其他计算环境也可能用于存放和/或执行本申请案的方法和技术——并且所述客户端/服务器模型仅仅是包含在本申请案的范围中的许多模型中的一个。

一个实施例

图1示出如根据本申请案的原理制造的合适体系结构的一个可能的实施例。如可看出的，在本文描述的许多模块和技术的控制下，服务器106可经由APIs104与一个或多个客户端102通信，以执行诸如以下任务——例如，产生索引表108、检索索引表110和/或产生/分析图型和/或网络112。

下文是对可由此类合适的体系结构使用的一些模块和/或处理的简要描述：

数据采集：可从任何实时的数字流、存储在存储介质上的归档数据、IP连接的装置和移动/无线装置采集数据。还可通过经由模拟-数字转换器运行模拟装置来从模拟装置采集数据。可采集数据的实例包括但不限于图像、视频、文本、音频和网络流量。

签名生成：将所采集的数据经由自然细分或者人工细分定义划分为数据帧。使用多元统计和信息论测度将数据帧转换成签名，并且将签名存储到可检索的数据库中。分层的子帧实体的签名是通过递归地细分数据帧而产生的，并且被存储在数据库中。针对数据帧的数据库条目由名称、签名、指回到原始数据的元数据指针组成，并且任何描述所述原始数据的元数据都被存储在数据库中。描述所述原始数据的元数据可包括但不限于作者、采集时间/日期、空间数据(纬度/经度)，以及描述数据的大小(帧速、帧大小、采样率、压缩方案等等)。

非结构化数据的索引化：数据汇总表，也称为目录，是使用顺序扫描签名以基于信息内容的变化来确定间断点的算法创建的。基于这些间断点，目录的每一条目表示一个分段，所述分段是具有类似信息内容的大量数据帧。目录分段条目由所述分段的平均签名、指向分段起点处的指针、指向分段终点处的指针、分段的长度、指回到原始数据的路径指针，以及分段的图标组成。所述分段数据存储在数据库中。分层的子帧实体的签名是通过递归地细分目录的数据帧而产生的，并且被存储在数据库中。针对一帧的数据库条目由名称、签名、指回到原始数据的元数据指针(例如，文件路径、URI、URL等等)组成，并且任何描述所述原始数据的元数据都被存储在数据库中。如下文所提及的，可使用这些索引表和汇总表来形成数据简化和数据压缩算法的基准。

非结构化的检索方法：所述检索算法基于实例查询范式，其中签名比较算法比较检索标准的签名和签名数据的存储数据库并且返回有序的结果列表。随后可使用各种默认标准或者指定标准来对此有序列表进行分级。还可将所述有序的结果列表传递给其他算法，所述其他算法基于其他默认标准或指定标准来对所述有序的结果列表进行重新定序、重新分级和重新排序。

非结构化的检索标准：检索查询，也称为检索标准，是与已索引化并且存储在数据库中的内容的签名进行比对的正在被检索的内容的签名的实例。检索标准的实例是但并不限于图像、经裁剪图像、子图像、视频剪辑、音频剪辑、文本串、二进制文件，以及网络数据的签名。检索标准可由用布尔算子、逻辑算子和/或条件算子(诸如但不限于与/或/非、大于、小于等等)连接的复合检索标准组成。采集表示检索标准的非结构化数据，并且产生签名以及将所述签名存储到数据库中，所述数据库将由后续的检索算法步骤和阶段再调用和参考。

非结构化的检索方法和算法：待检索的数据库的范围可为但不限于索引化数据库的所有子集或者选定子集。将所述检索标准的签名与来自经索引化和选定的数据库的签名的子集进行比较，所述比较将产生成对的距离测度和指回到数据库的路径的逆向指针的有序集合。该有序的签名集合被返回，以及随后被分级或者被传递给对结果进行分级的后续处理算法。

链边图(关键词到实体到帧边图)：链接是由高维信息空间中的两个(签名)顶点限定的，其中所述两个顶点之间具有连接边缘。帧和实体之间链接的数据库是通过将帧和子帧实体的签名分箱到倒排索引表中而产生的。所述倒排索引表的每一箱位包含一组具有类似信息内容的子帧实体，所述信息内容定义为高维距离测度。箱位定义可重叠并且实体可包含于多个箱位中。对每一箱位的签名取平均，所述箱位中最接近所述平均值的签名的实体被识别为该箱位的关键词。将链接定义为连接关键词到实体到帧。可将关键词签名合并到被称为关键词签名词典的数据库中，并且用于定义签名数据的基本集。可将链接的集合形成为图型(或者网络)，所述图型表示签名数据以及签名数据所表示的对象的连通性。实体、关键词、帧和数据源(例如，图像、视频、音频、通信等等)之间的链接关联是通过使用图检索引擎和图分析算法分析此边缘图而识别和/或发现的。

社交网络：可将元数据附接到链边图来定义社交网络或者社交图谱。元数据的实例可包括但不限于人名、地名、空间数据(例如，纬度/经度)，以及其他描述性元数据。

数据简化/压缩：与索引化、汇总和链边图算法相关联的签名数据结构和数据库的组合表示数据简化策略。通过将关键词和子帧实体逆向索引化为帧，可产生有损耗或者无损耗的数据重构算法。

界面：通过经由移动网络界面或者经由外部应用程序将网络服务调用嵌入另一应用程序中，来经由网络服务器提供客户端/服务器网络通信。用于索引化处理的界面允许用户输入文件以从客户端或者从服务器加载，以及从文件名或者从包含一列文件名的文件加载。按照给定的名称将索引存储在数据库中，除非给定的名称不是有效的Linux名称；而在给定的名称不是有效的Linux名称的情况下，将调节所述名称以使其有效。

除图像文件和视频文件之外，用户可指定音频文件和所有源文件进行加载和索引。用户还可指定开始和结束时间、将帧分割的具体大小、是否保持原始文件、处理器的数目，以及其他选项或者参数。可经由XML响应来查看或者接收目录的分段。用于检索过程的界面允许用户从待检索的数据库选择图像，以及从待检索的数据库选择媒体文件。可用多个图像和多个媒体文件来实行这些检索。这些检索可检索一个媒体数据库、若干个或者所有数据库。可在所述检索中使用布尔算子或、与、非，以及这些布尔算子的任何组合。用户还可指定返回结果的数目、处理器的数目，以及其他选项或者参数。批量检索允许用户以批量模式提交检索。可经由XML响应来查看或者接收检索的结果。所述结果可按照他们的分级、帧编号或者时间段来排序。

其他界面选项包括按任何尺寸剪裁图像和旋转该图像、从视频中提取特定帧、播放视频或者视频片段、显示描述所述视频的元数据、放大图像、用口令登录的能力，通过创建数据库、重命名数据库和文件、移动文件、删除数据库和文件、显示任务状态来管理数据库的能力，以及取消任务的能力。

并行计算：所述索引化过程利用了分布式并行计算/共享式并行计算、存储器，以及通信硬件和并行化算法。所述检索过程和图型分析利用了<键，值>对、基于事务的并行计算硬件，以及用于进行成对距离比较的算法。

数据库管理：用于索引化、检索和图型分析的数据库管理利用了用于存储和操纵签名数据和元数据的SQL和NoSQL数据库。

应用：许多非结构化检索和社交网络分析的应用是可能的。以下列表包含可能应用的示例性列表，但是所述应用并不限于以下列表：

(1)基于内容的非结构化数据检索引擎：检索任何事物。

(2)基于内容的非结构化数据社交网络引擎：使所有数据连接和关联。图型检索。

(3)非结构化数据(服务广告、商业智能)的深度分析。

(4)产品检索：消费者无法购买他们不能查找到的产品。

(5)IPTV检索：观众无法观看他们不能查找到的电视节目。

(6)体育检索：查找喜欢的运动员、运动员的组合、或者进行指定活动(诸如触地得分、投篮得分、或者击出全垒打)的运动员。

(7)数字权限管理：查找水印、内容侵犯、版权侵犯等等。

(8)监控：查找空中、地面音频/视频/网络监控中的人、车辆、地点、活动、事件。

(9)生活模式：通过分析基于高维信息的检索空间中的几何模型和结构，使用所附接的元数据来分类和/或识别活动和事件。

(10)数字数据编辑器：在非结构化数据流、归档和文件中的检索和替换功能。例如：(1)检索数字视频中人工因素的签名并且在前景和/或背景中替换这些人工因素；和/或(2)检索恶意软件(如病毒)的未知模式并且删除/替换所述恶意软件。这将通过检索数字关键词模式并且用其他数字关键词取代发现的数字关键词，而经由关键词取代来自动完成。

常用术语表

为了帮助阅读和理解本文描述的若干概念，下文是常用缩写和他们的相关含义的表格，以在使用此类缩写时帮助读者。将了解这些缩写并非旨在限制本发明的范围——而是给出作为可利用来描述本发明的各种实施例。在其他实体、对象和/或含义可能的情况下，本发明的范围涵盖所述其他实体、对象和/或含义。

表1-缩写表

接下来继续描述本发明系统的一个可能实施例，图2到图4描述了合适的系统可利用的若干模块和/或过程。

一个索引化实施例

图2，如图所示，描述了一个可能的索引模块/过程。如可看到的，客户端(和/或单独用户)可通过导入被编译作为文件和/或文件列表(208)的文件(210)来开始非结构化数据的索引化过程，所述文件和/或文件列表(208)可从各个界面(本端界面、远端界面、网络界面等等)(202)、嵌入数据(204)和/或移动或其他界面(206)编译。此外，可显示(226)目录并且可返回(228)XML。

在所述服务器(和/或独立的控制器)处，服务器/控制器可产生唯一的签名和目录(TOC)(212)；可将数字数据分解成数据帧(或者任何其他合适的分组)(214)；可将数据分解(或者以另外方式组织)成实体(216)；可将实体分箱并且可产生关键词(218)；可进行数据简化(220)——例如，当产生签名和TOC时，分解数据或者对数据进行分箱。在各个步骤处，可将帧、实体、关键词、签名和其他数据存储在数据库和/或计算机可读索引表中(222)。此外，可进行和存储关键词到实体的映射(224)。

图3示出了产生签名和TOC并且适当地存储签名和TOC的模块的一个实施例。在302处，服务器/控制器可获取输入的非结构化数据并且将所述非结构化数据分解成数据帧。在一个实施例中，此类数据帧可适合于正被输入的数据类型。例如，如果数据是视频，那么数据帧可为包括所述视频数据的独立图像帧。可对不同类型的非结构化数据(例如，音频、文本、原始二进制数据文件等等)应用类似的数据分帧。在另一实施例中，服务器/控制器可做出关于如何对非结构化数据进行分帧的一些决定和/或说明。.

在304处，服务器/控制器可产生每一数据帧的签名的特征矢量部件。在306处，可将此类数据帧签名存储到计算机可读索引表或者数据库314中。在308处，服务器/控制器可进行分析来将数据帧的签名的运行分解成多个序列——此类分析可为运行时间序列分析。

在一个实施例中，用于识别序列的界限(即，开始和结束)的算法可通过以下方式来辨识：比较已知点处的签名与所述运行的滑动平均签名。当计算距离度量(在例如706处)并且在给定签名和滑动平均值之间的度量距离超过限定阈值时，可界定序列的界限，其中所述阈值可为输入变量。用于所述序列的TOC数据库条目可包括关于开始、结束、最平均的序列帧和心跳帧的签名；加上表示与开始、结束、最平均的数据帧和心跳帧有关的数据帧编号和时间的元数据。最平均的数据帧可被识别作为所述序列的签名，所述签名具有实质上最接近所述序列的平均签名的距离度量。心跳数据帧可为在有规则间隔处选择的帧，其中所述间隔是输入变量。在310处，服务器/控制器可将序列与给出的TOC条目相关联——以及在312处，服务器/控制器可将签名、每一序列的开始/结束点存储到索引表和/或数据库中。

图4示出了可产生实体并建立关键词索引表(KIT)的模块。在402处，服务器/控制器可以任何合适的方式将数据帧分解成实体——例如，可能通过使用可表示空间、时间，或者空间和时间的组合的滑动交叠窗口。针对每一实体，服务器/控制器可在404处产生签名。在406处，服务器/控制器可查询关于签名是否在所述词典中——并且如果在的话，可在410处将新的列添加至行中并存储所述签名。否则，在步骤408处，可将行添加至所述词典中并且可将所述签名存储在索引表/数据库412中。

一个检索实施例

图5和图6示出了一个实施例，藉由此实施例，用户/客户端做出检索请求并且其中所述控制器/服务器返回此类检索的结果。如前所述，在514/614处，用户/客户端可以大量不同的方式来输入想要检索的所关注对象508/608——所述方式为例如，各种到控制器/服务器的界面连接502/602、嵌入504/604和/或移动界面连接506/606。在514处，所显示的任何先前检索结果510或者所返回的XML数据512可与控制器/服务器共享。

在514处，控制器/服务器可产生或者以另外方式获得所关注对象和帧的签名，可在522处检索和比较实体和关键词签名。在516处，可用检索模块进行和/或增进此比较——所述检索模块为例如按例查询(QBE)。在520处，此处理可在独立的控制器上进行——或者可在并行分布式或者基于事务的计算机环境中共享。在518处可重新存储此检索的结果。

当所述处理完成时，可在620处将检索结果共享和显示返回给用户/客户端，并且在622处可返回XML。

按例查询(QBE)模块

图7示出了可由服务器/控制器执行的按例查询(QBE)模块的一个实施例。在702处，服务器/控制器可读取由用户/客户端提供或者由另一来源或者模块提供的查询实例。服务器/控制器可获取那个实例并且在704处产生那个查询实例的签名。在706处可计算从查询签名到存储在数据库和/或索引表708中的其他签名的距离。

在710处，根据这些距离，服务器/控制器可对这些距离排序并且选择顶部的“N个”结果以及返回经分级的检索结果，其中“N”是输入参数。此分级列表可用于产生检索引擎结果页面(SERP)来作为易被用户采集的数据形式——随后在714处将所述SERP发送给用户/客户端。

链接和社交网络分析

为了完成如根据本申请案的原理制造的系统的一般体系结构和运行，图8示出了可由所述服务器/控制器执行的一个额外处理模块——即进行对链接和社交网络的深度分析。如前所述，用户/客户端可经由多个界面(例如，802、804和806)请求分析链接和社交网络。这些链接和社交网络可包括可由用户/客户端在808处输入的所关注对象的集合。此外，还可将先前显示的链接/社交网络分析(810)的任何结果和所返回的XML(812)输入服务器/控制器。

在814处，例如，使用帧、实体和关键词签名——来产生和/或存储和比较针对所关注对象的各种输入的签名，还可在822处检索和比较所述签名。可在816处进行链接关联和分析——以及在818处进行深度分析。这些分析可输入为包括可在820处由服务器/控制器进行的社交网络分析。

另一实施例

图9和图10示出了可适用于本申请案的目的的系统和模块组的另一实施例。

图9示出了一个可能的合适系统的高层体系结构实施例。如可看到的，平台被示出为客户端/服务器处理模型。应了解的是，许多其他处理模型也是可能的并且设想处于本申请案的范围中。例如，如在上文的论述中，代替客户端/服务器模型，替代性的实施例可——以任何可能提供检索的方式——包括独立的控制器和/或处理器、分布式控制器和/或处理器、并行控制器和/或处理器。

继续参看图9的实施例，用户/客户端可经由一组界面902——例如，网页浏览器、RESTFul界面等等——访问如本文所描述的检索和/或分析处理。可如图所示地(或者以任何其他合适的方式)执行处理流程。用户/客户端可请求某些数据——例如，结构化数据、非结构化数据、视频、图像、音频、文本等等——的索引。服务器/控制器可产生TOC912(如本文所描述的)并且将所述TOC存储在一组索引表和/或数据库中920。可将TOC显示返回给用户/客户端906。随着检索被适当地表达，可检索所述数据库(914)。还可应用额外的处理(如本文所描述的)(916)。当完成时，可将检索结果返回给用户/客户端(910)。

参看图10的实施例，用户/客户端可使用媒体采集和索引化1004，经由界面——例如，网页浏览器、RESTFul界面等等——将外部产生的模型数据(例如，老化、模糊、表达、三维模型等等)引入到检索空间SiDb1006中。用户/客户端可请求检索1008——例如，有或者没有大量条件和/或属性。例如，检索条件、约束和/或属性可包括以下中的一个或多个：老化、模糊、表达、三维模型等等。参看图9的实施例，用户/客户端可请求某些数据——例如，结构化数据、非结构化数据、视频、图像、音频、文本等等的索引。服务器/控制器可产生TOC912(如本文所描述的)并且将所述TOC存储在一组索引表和/或数据库中920。可将TOC显示返回给用户/客户端906。

图10示出了合适的系统1000和处理流程的另一实施例。在高层处，处理可进行如下：数据是从许多可能的来源——例如，成像传感器(1002)、视频源、图像源、音频源、文本源外部模型数据(1010)、合成产生的数据(1014)等等输入的。可采集和/或索引化此数据和/或媒体(1004)。可将经处理的数据存储在数据库(1006)中——例如存储为多种格式和结构，例如TOC、KIT等等。可对此数据进行检索(1008)——例如，如有监督或者无监督的检索等等。

按例查询的监督检索(1008)随着用户/客户端检索查询被采集/索引化(1004)进入检索空间SiDb(1006)中而进行。所述检索标准可为任何形式(例如，图像、经裁剪的图像、视频剪辑、音频剪辑、恶意软件等等)。随后用相似性检索部件(SSEC)(1012)将所述检索标准的索引化签名与先前索引化/存储的数据(1006)进行比较以产生结果分级列表，将所述结果分级列表传递到无监督的检索识别部件(RSEC)(1012)，所述RSEC(1012)根据基于识别的签名比较测度对所述结果进行重新分级，以产生检索结果的最终分级列表，将所述最终分级列表经由网页浏览器或RESTFul界面(1016和1018)返回给用户/客户端。

针对额外的采集和/或索引处理，可应用许多不同的模块(如虚线下方所示出的)。例如，可应用若干外部数据模型——例如，可应用A-PIE模型(1010)和合成模型(1014)。可应用和调整某些约束和条件——例如所关注对象的老化、所述对象的位姿、表达、取向、光照是可能的。额外的模块可包括三维建模、计算机产生的(CG)逆反、合成性图像。此外，建模可包括进行高分辨度的处理。

对于额外的检索处理，可存在多个检索选项(1012)——例如，相似性检索(SSEC)和/或识别检索(RSEC)。SSEC用于基于来自存储在SiDb(1006)中的签名的相似性签名比较度量生成检索结果的分级列表。可任选地将所述相似性检索结果传递到RSEC，以及使用另外的签名比较度量来将相似性结果重新分级成为新的检索结果分级列表。此可进一步包括同样可适用于其他条件和/或约束——例如、模糊、遮挡、大小、分辨度、信噪比(SNR)等等——的实况产生器、度量矢量(1014)。

这些处理还可包括一组分析人员模块(1016)以帮助检索和数据呈现。例如，数据可经受各个处理模块——例如、老化、位姿、光照、表达、三维建模、高分辨度模型、模糊、遮挡、大小、分辨度、信噪比等等——的处理。此外，可应用这些相同处理模块中的一些模块来促进可视化和深度分析(1018)，如本文进一步描述的。

签名生成的一个实施例

现将描述进行关于非结构化或者结构化的数据的签名生成的一个实施例。如本文所提及的，签名是可从此类输入数据计算、推导或者以另外方式产生的测度。签名可使得检索模块或程序具有查找和/或区分一条数据和/或信息与另一条数据和/或信息的能力。在一个实施例中，签名为可基于信息理论功能和统计分析的多变量测度。

在本领域中，诸如在以下文献中已经做出了一些尝试来进行熟知的“稀疏表示”作为数据处理形式：

(1)授予RAICHELGAUZ等人的美国专利申请案20140082211，公开于2014年3月20日，标题为“SYSTEMANDMETHODFORGENERATIONOFCONCEPTSTRUCTURESBASEDONSUB-CONCEPTS(用于基于子概念生成概念结构的系统和方法”；

(2)授予LUO等人的美国专利申请案20140086480，公开于2014年3月27日，标题为“SIGNALPROCESSINGAPPARATUS,SIGNALPROCESSINGMETHOD,OUTPUTAPPARATUS,OUTPUTMETHOD,ANDPROGRAM(信号处理设备、信号处理方法、输出设备、输出方法，以及程序)”；

(3)授予Brumby等人的美国专利申请案20140072209，公开于2014年3月13日，标题为“IMAGEFUSIONUSINGSPARSEOVERCOMPLETEFEATUREDICTIONARIES(使用稀疏的过完备特征词典进行图像融合)”；

(4)授予WANG等人的美国专利申请案20140072184，公开于2014年3月13日，标题为“AUTOMATEDIMAGEIDENTIFICATIONMETHOD(自动化图像识别方法)”；

(5)授予Depalov等人的美国专利申请案20140037210，公开于2014年2月6日，标题为“SYMBOLCOMPRESSIONUSINGCONDITIONALENTROPYESTIMATION(使用条件熵评估进行符号压缩)”；

(6)授予Aharon等人的美国专利申请案20140037199，公开于2014年2月6日，标题为“SYSTEMANDMETHODFORDESIGNINGOFDICTIONARIESFORSPARSEREPRESENTATION(用于设计稀疏表示词典的系统和方法)”；

(7)授予Tompkins等人的美国专利申请案20130185033，公开于2013年7月18日，标题为“UNCERTAINTYESTIMATIONFORLARGE-SCALENONLINEARINVERSEPROBLEMSUSINGGEOMETRICSAMPLINGANDCOVARIANCE-FREEMODELCOMPRESSION(使用几何取样和无协方差的模型压缩，对大规模非线性反问题进行不确定性估计)”；以及

(8)授予Neely等人的美国专利申请案20120259895，公开于2012年10月11日，标题为“CONVERTINGVIDEOMETADATATOPROPOSITIONALGRAPHSFORUSEINANANALOGICALREASONINGSYSTEM(将视频元数据转换成命题图型以用于类比推理系统)”。

-因此所有这些专利以引用方式全文并入本文。

在本文公开的若干实施例中，签名可包括以下属性中的一个或若干个：

1.签名可为高维的多变量统计特征矢量表示，所述表示定量地以紧凑形式捕获非结构化数据的信息内容，并且所述签名用于区分一条信息与另一条信息。

2.签名可表示简化形式的非结构化数据对象：

a.非结构化数据＝图像、视频、音频、二进制数据、电子网络流量、传感器数据、通信数据、文本、loT/WoT、任何原始二进制数据(例如，数字宇宙中的所有事物)

b.非结构化数据对象＝图像(例如，人、车辆、地点、事物)、音频剪辑(例如，语音、音乐、汽艇、舰船、潜艇)、源代码、恶意软件/病毒、库、可执行档、网络流量、硬盘驱动器、移动电话、RFID，或者任何其他条二进制数据

3.签名可用于量化和比较数据的“信息内容”：

a.所述平台支持三种主要算法运算：产生签名、比较签名、链接/相互对照签名。

4.签名可相对于以下不变：

a.旋转、大小、(时间/空间)平移

b.此外，签名在某种程度上可相对于以下不变：分辨度、噪音、光照、视角

5.签名可为N维特征矢量：

a.签名的主要结构部件捕获信号特性、信息内容、空间频率、时间频率。也可添加其他特性。

b.可将签名投影到高维空间中并且在那个N维空间中占据一个位置。

c.可对签名的集合群集化、检索、链接等等。

d.签名跨越不同的数据类型(即，数据融合)、语言障碍等等。

e.时间和地球空间可为与所述签名相关联的元数据，并且被用于过滤所述数据。

f.签名(一般说来)对于数据重构是有损的，但是仍然保持信息内容。

仅作为一个实例，考虑如图11A中所示出的处理人脸的情形。假设希望在图11A中生成示出一帧图像数据——即受欢迎的新闻类节目的一位女性新闻记者——的的面部的签名。她的面部可为想要在一组图像和/或视频——或许为数小时或更长时间的相关和/或无关视频——中检索的所关注对象。图11中的图像可被称为“原生”图像或数据——因为所述图像或数据倾向于为自然地输入到本发明的系统以供采集的数据。这些原生数据可转换为其他互补数据集，以帮助生成/产生包括足够细节的签名，从而允许在后续检索中捕获有意义的区别特征。

还应了解的是，可将生成签名的系统、方法和技术应用于一定范围和/或分层结构的数据——以使得可针对可能输入的原生数据的特定子集和/或所需子集生成签名。例如，图14示出了可使用签名生成算法生成的签名数据的此类分层结构(1400)的一个实施例。可输入视频片段1404——以及可针对此类视频片段生成签名。个别帧1406可为所关注的——以及可生成此类帧的签名。此外，子帧1408——或者个别的特征(例如，经裁剪的部分等等)可为所关注的——并且可生成他们的签名。

仅针对此类粒度的一些实例，图15和图16示出使用大量数据对所关注特征进行检索的两个实例。图15示出了对可乐罐进行的示例性检索(1502)和四个检索结果(1504a-1504d)，其中相似性匹配说明了大小、旋转、取向、纵横比、遮挡、和照明不变性的组合。

在另一实例中，图16示出了针对橄榄球运动员(#22)和橄榄球的示例性检索结果(1602a-1602d)，其中所述检索标准使用“与”布尔子句，从而使得需要在所述帧中呈现的所述橄榄球运动员和橄榄球被视为具有高分级的相似性匹配。所述检索结果(1602a、1602b、1602c、1602d)示出了相似性匹配，所述相似性匹配说明了大小、旋转、取向、外观、遮挡和照明不变性的组合。

在任一层分层结构，图14中的高等级群集1402可在可生成的相同和/或类似等级的签名中生成。在一个实施例中，可以高度可视化方式——如在图18中示出的——呈现高等级群集。群集的曲线图1800可示出各个群集1802到1806。对于一个实例，这些群集表示可包括场景的帧——例如，共享许多类似特性并且因此“群聚”到一起的帧。在图像情境中，图18示出了检索空间(1800)中的签名分布。不同的团点(例如，1802、1804、1806)示出了形成团点的签名的群集，其中与每一团点中的数据帧相关联的签名表示具有类似的(信息)签名内容的数据(图像、(经裁剪的)图像、视频剪辑、音频剪辑等等)的帧。所述签名内容的变化源可与大小、取向、外观、遮挡、照明、噪音等等相关。

在其他实施例中，这些群集可表示数字数据——例如，计算机系统上的应用程序，并且可取决于所述群集的静态构成和/或动态行为的一些特性，而将恶意软件可视地识别为不同的群集。

利用多重转换使用的实施例

在一个实施例中，签名生成模块可用于生成复合签名——例如，任何类型的结构化或非结构化数据的60维签名。仅出于说明的目的，考虑将图11A中给出的原生图像的实例作为所关注数据来生成签名。代替依赖于仅处理原生数据集，本申请案的许多实施例应用一个或多个转换来产生与原生数据集一起处理的其他数据集——以便补充原生数据集的处理。

图11B和图11C是对图11A的原生图像数据进行转换的两个实施例。图11B示出了已经使用香农熵转换进行转换之后的原生图像数据。图11C示出了已经使用拉普拉斯差分(DoL)转换进行转换之后的原生图像数据。将了解的是，可利用其他转换替代这些转换——或者补充这些转换。例如，合适转换的其他实例可包括：谱频率、HSI(色调、饱和度和强度)、DoG(高斯差分)、HoG(方向梯度直方图)。其他转换也可满足要求。可能需要的是，无论利用何种转换，所述转换都帮助区分特征——区分一个特征与另一个特征——并且特别地，帮助人类感知系统的转换是合适的。

香农熵转换的使用倾向于对原生图像数据进行对数处理。此转换实质上倾向于模拟人类感知数据处理——例如，其中人类视觉系统和人类听觉系统具有对数响应曲线。对原生数据集应用类熵转换可倾向于帮助识别人类倾向于注意的特征，使所述特征更易与噪音区别开来。类似于类熵转换的使用，DoL转换的使用倾向于使得更易在图像中区分边缘、拐角、弯曲等等。

在图11A至图11C中的三个图像的实例中，每一图像可贡献复合签名的一部分。用于产生图11B的转换使用所述数据的对数函数来将签名特征从噪音中带离。用于产生图11C的转换增强了与由人类视觉系统使用的那些特征类似的特征(例如，边缘、弯曲和拐角)。

用于生成所需数据集的签名的一个实施例可如下进行：

1.可将原生数据集输入系统。

2.可使用各种转换——例如，香农熵、类熵转换、DoL等等将原生数据集转换成新的数据集。

3.可处理所述原生数据集和经转换的数据集，通过将每一数据集分解和/或划分成其谱分量并且计算两个低阶统计矩和三个较高阶统计矩来计算特征矢量部件。

4.对于不是图像数据(例如，音频、文本、恶意软件等等)的输入数据，可将输入数据转换成谱图并表示为新的原生数据集(例如，类似于可具有谱分量的图像数据)。FFT可用于将数据转换成频率对照时间谱图。时间可为帧数据中的相对位置。随后可类似于上述步骤1-3进行处理。

如上文所提及的，若干实施例利用至多达5个统计矩。这些矩可包括平均、方差、斜交、峰度和高斜交，如在本领域中已知的。

返回到图11A至图11C的实例，可用如下的类熵转换来转换图11A的原生数据集：

1.可将所述原生图像放入直方图：

H i s t o g r a m = {Bin}_{j} = Σ_{i = i}^{n} ({Bin}_{x_{i}} + 1), w h e r e {Bin}_{j = 0.255},

其中Binj＝0.255

2.每一直方图可归一化为概率分布函数(ProbabilityDistributionFunction；PDF)；

PDF_j＝Bin_j/n，j＝0，255

3.用P*logP值替代每一数据点：

x_{i} = {PDF}_{x_{i}} * \log_{8} {PDF}_{x_{i}}, i = 1, n

4.此后，可如所述地用4个谱分量和5个统计矩处理此经转换的集合。

返回到图11A至图11C的实例，可用类DoL转换或者任何其他合适的空间频率转换(例如，高斯差分(DoG)等等)来如下式所述地转换图11A的原生数据集：

I_{x_{i}} - L a p l a c i a n D O L = I_{x_{i}} - Σ_{j = 1}^{m} x_{j}

其中m＝最近邻的数目。此后，可如所述地用4个谱分量和5个统计矩处理此经转换的集合。

图23示出原生数据集和两个关联的转换数据集为随后如所公开地进行处理——例如，以产生60维签名矢量。

签名信息矢量的一个实施例

以下是在完成对图11A的原生数据集和图11B和图11C的两个转换数据集的处理之后可能生成的示例性签名信息矢量：

签名信息矢量：00001510000060V:20#E:20#S:20#66.2657.480.662.450.1191.7491.300.691.980.1754.7951.541.023.720.1553.1850.711.234.350.1435.4864.872.9910.280.0059.9694.991.352.910.0042.9680.052.246.120.0042.5680.252.256.120.0018.7330.633.0413.100.2019.4333.173.0913.800.2218.9031.743.0513.200.2018.8429.102.9112.580.19

在本实施例中，基于对在图11A到图11C中示出的数据进行的这些转换而生成的复合签名被表示为具有60列的行矢量，所述行矢量包含各自具有20个数字的三个群组，其中每一20个数字的连续群组与在图11A至图11C中示出的转换相关联。将每一20个数字的群组分解为各自具有五个统计矩(平均、方差、斜交、峰度、高斜交)的四个群组(谱分量——对于这些实例是灰色、红色、绿色、蓝色)——例如，对于每一签名特征矢量，3个转换群组*4个谱分量*5个统计矩＝3*20＝60个签名特征。

与图11A到图11C相关联的完成复合签名是“66.2657.480.662.450.1191.7491.300.691.980.1754.7951.541.023.720.1553.1850.711.234.350.1435.4864.872.9910.280.0059.9694.991.352.910.0042.9680.052.246.120.0042.5680.252.256.120.0018.7330.633.0413.100.2019.4333.173.0913.800.2218.9031.743.0513.200.2018.8429.102.9112.580.19”。应注意的是，所述数字的分辨度已经舍入到小数点后两位以包含到此文件中；所述应用程序利用以二元实数表示的所有可用的小数，其中：

(1)第一20个数字(“66.2657.480.662.450.1191.7491.300.691.980.1754.7951.541.023.720.1553.1850.711.234.350.14”)是与“原生统计”相关联的

(2)第二20个数字(“35.4864.872.9910.280.0059.9694.991.352.910.0042.9680.052.246.120.0042.5680.252.256.120.00”)是与“熵”相关联的

(3)以及第三20个数字(“18.7330.633.0413.100.2019.4333.173.0913.800.2218.9031.743.0513.200.2018.8429.102.9112.580.19”)是与“空间频率”相关联的，

将了解到，例如，在多谱数据或者高谱数据中——可使用除了4以外的任何其他数目的合适谱分量。此外，将了解的是，可利用除了5以外的任何数目的统计测度和/或矩。此外，其他实施例可利用对原生数据集的其他和/或不同转换。

在操作中，系统采集大量的数据集，并且生成和存储签名。例如，图12A至图12C和图13A至图13C可包括不同的如所描述地转换和处理的数据集，，并且存储它们的签名以用于后续检索。事实上，图12A至图12C和图13A至图13C示出了图像可经初始裁剪以便集注于所关注对象。

非图像数据的签名生成

可将任何类型的数字化二进制数据转换成数据帧，随后可将所述数据帧转换成签名。图22示出了可根据本申请案的原理处理的这些各种类别的数据。

图像：图像可用作数据帧。可使用本文描述的算法来生成针对每一数据帧和分层子数据帧的签名。

视频：可将视频分解成数据帧的序列。可使用本文描述的算法来生成针对每一数据帧和分层子数据帧的签名。

音频：可将音频表示为振幅对照时间的数字信号。短时FFT(STFT)(或者任何其他合适的傅里叶转换)算法可用于使用滑动交叠窗口来将信号转换成谱图序列。所述谱图随后可用作数据帧。可使用本文描述的算法来产生针对每一数据帧和分层子数据帧的签名。图17示出了当对指定音频信号进行检索时检索结果的一个实例，其中此音频录制器包含在1702中约4.0-5.0秒和约7.5-8.5秒之间来自猫头鹰的两声枭叫。本文所描述的签名生成技术可产生音频数据的谱图1704。此类谱图和/或签名可形成检索标准，并且分级检索结果的矩阵示出于1706中。

原始二进制数据：原始二进制数据可表示为振幅对照时间的数字信号，其中数据中的相对位置代替了时间。短时FFT(STFT)算法可随后用于使用滑动交叠窗口来将信号转换成谱图序列。所述谱图随后可用作数据帧。可使用本文描述的算法来产生针对每一数据帧和分层子数据帧的签名。

文本：文本可表示为振幅对照时间的数字信号，其中文本数据的二进制表示中的相对位置代替了时间。短时FFT(STFT)算法可随后用于使用滑动交叠窗口来将信号转换成谱图序列。所述谱图随后可用作数据帧。可使用本文描述的算法来产生针对每一数据帧和分层子数据帧的签名。

目录(TOC)生成实施例

一旦生成签名，就可将签名存储和/或索引化于目录(TOC)中。在一个实施例中，可将TOC解释为非结构化数据的时间汇总，所述时间汇总通过使用在以下工作流程中描述的时间序列分析算法而挤压掉了时间、空间和所述签名的信息内容的冗余。

所述TOC可类似于典型书本中的章节索引，其中所述书本的内容被汇总到公共内容的片段中。TOC片段可类似于书本的章节。所述片段可沿着时间轴从数据的起点到终点顺序地前进，其中所述时间轴可为实际的人类时间或者可为使用所述数据内的相对位置生成的时间轴。

TOC可被创建作为索引化过程的组成部分，并且是构成所述检索空间表示的三种主要数据结构中的一种，其中签名和KIT(如本文所描述的)可以是另外两种主要数据结构。所述TOC汇总非结构化数据的唯一空间/时间信息内容。所述TOC是通过进行对签名的时间序列分析建立的。KIT是从TOC条目推导的。

下文是描述TOC的生成的一个实施例：

1.可将签名按照数据帧编号排序到时间序列中。

2.可以分析时间序列以通过计算和比较连续签名的签名比较度量和滑动平均签名的签名比较度量来查找间断点。可以通过顺序地递增片段计数器来标记间断点。

3.可以通过注释相继间断点之间的开始数据帧编号和结束数据帧编号来形成片段。可以通过平均每一片段中的数据帧的签名来计算片段签名。可使用签名比较度量来将片段关键帧定位成最接近平均片段签名的数据帧签名。可形成片段信息矢量，所述片段信息矢量包括：开始数据帧、结束数据帧、片段中的帧数量、片段关键帧，和原始数据中的数据帧的URI。

4.片段信息矢量的集合被称为TOC数据结构。

5.可将TOC存储到SiDb中以进入目标数据库。

关键词索引表(KIT)实施例

如所提及的，KIT可用作存储在SiDb数据库中的主要数据结构中的一种主要数据结构。KIT的结构看上去在结构方面非常类似于典型书本后面的索引表，所述索引表相互对照关键词和关键词在文档中的位置，其中大部分左侧的条目可被称为“关键词”并且列条目可被称为“实体”。

KIT可被构造作为倒排索引表，所述倒排索引表也被称为稀疏表示词典，是由索引化过程使用稀疏表示算法创建的。KIT的大小(即，条目的数目和需要存储量)可根据非结构化数据中包含的唯一信息内容(例如，主题数目)而比例化，而不是根据数据容量或者图像/帧数目。

产生KIT可作为索引化过程来进行，所述索引化过程使用滑动交叠空间/时间窗口来分层分解帧数据，所述窗口扫过所述帧，其中每一窗口被称作“实体”。此步骤可发出“文档指向实体”的数据结构。当该数据结构被“反向”时，为了产生倒排索引表，所述步骤可发出“实体指回文档”的新数据结构，所述数据结构被用作主要的可检索数据结构来支持关键字检索。可通过根据签名比较度量对实体进行“分箱”来将实体过滤成一组“唯一的”实体(称为关键字)，其中关键词表示实体的“箱位”。

在一个实施例中，关键词可表示检索空间中截断的高维锥，其中检索空间的维数是由与KIT词典的任何给定行上的关键词相关联的实体限定的。与每一关键词相关联的实体可为具有包含在关键词-锥内的(坐标)签名的实体。每一关键词为KIT词典中新的一行，其中每一行上的列条目是包含在关键词-锥中的实体。KIT的一行上的关键词的签名是所述行内的最大平均(签名)实体。此可以采用迭代算法来实现最佳的KIT。

当组合来自KIT的所有关键词时，所述关键词可形成跨越非结构化数据集的信息内容的半正交信息基准矢量，其中可通过将实体重新组合变回帧数据来从KIT重构原始数据集的信息内容。基准矢量可为半正交的，这是因为用于生成KIT的箱位可交叠。

以下可为用于生成KIT的一个实施例：

1.KIT可为行-列数据结构，其中行的第一实体表示唯一的关键词，而列条目是在非结构化数据中连续出现的实体，所述非结构化数据可基于签名比较度量而与关键词相关联。KIT可通过循环TOC片段关键帧而形成：

a.可使用滑动交叠子帧窗口来以连续较小的空间/时间比例分解每一片段关键帧。每一子帧窗口被称为实体。

b.每一实体内的帧数据可用于生成实体签名。

c.使用签名比较度量来比较每一新的实体签名与所有的KIT词典签名，并且仅当所述新的实体签名是唯一的(例如，如果其已不存在于该词典中)，才将该新的实体签名存储作为所述KIT中的关键词。应注意的是，起初所述KIT词典可为空的，所以第一实体被作为第一关键词放入所述KIT中。如果实体是作为KIT中的关键词存在，则将所述实体作为新的列条目添加到与所述关键词相关联的行中。

2.针对KIT词典的每一行的KIT信息矢量可形成为包含关键词的签名/名称、实体的签名/名称、关键词/实体的几何结构。

3.可将KIT信息矢量的集合存储到被称为KIT词典的数据结构中。

4.可将KIT词典存储到SiDb中以进入目标数据库。

检索实施例

如所提及的，在非结构化数据中检索所关注对象可作为所关注对象的签名与存储在数据库中的那些签名的距离和/或度量的比较来进行。

在一个实施例中，监督检索可以进行为QBE检索。QBE查询经采集、索引化和存储。可比较所述查询的签名与存储在SiDb中的签名的指定子集，并且可返回分级结果的结果检索页面。QBE查询可为通过使用移动装置、桌面计算机、记录装置、传感器、归档数据、监视列表等等而由用户指定(即，人机界面)或者由机器生成(机机界面)。

一些示例性应用可包括：(1)通用化按例查询(例如，查找任何事物)；(2)生活模式(复合或复杂检索，使用“与”，“或”和“非”)和/或(3)数字版权管理，隐写术。应了解的是，许多其他可能的检索应用和实施例也是可能的。

检索处理和/或检索模块的一个实施例可如下进行：

1.采集检索查询数据。

2.生成签名、TOC和KIT。

3.存储到SiDb中。

4.选择目标签名数据库，以比较任何指定签名和/或“所有”签名。

5.将源签名和SiDb中的目标签名进行比较，以通过使用签名比较度量生成[距离度量，签名]关键-值对。

6.基于距离度量对关键-值对进行排序；从最小到最大。

7.选择所排序的前N个关键-值对作为分级检索结果。

8.将前N个分级结果格式化为SERP。

9.将SERP返回作为：

a)HTTP网页结果。

b)发布的REST服务SERP。

无监督检索的实施例

在采用无监督检索的若干实施例中，可将自动指定的关键词表(例如，被称为稀疏表示词典)生成为倒排索引表。倒排索引表可为行/列<关键，值>对的矩阵，其中“关键”为关键词签名，“值”为与行中的关键词相关联的实体的列表。行的关键词是实体签名，基于签名比较度量，所述实体签名最接近行中实体签名的平均值。在给定行上的关键词和实体共享类似的信息内容，并在技术上是可互换的。一些示例性应用可包括：(1)社交网络分析(用于所有事物的Facebook和Linkedin)；(2)生活模式；(3)链接分析：查找圈主(ringleader)、想法领导人(thoughtleader)，组织者；和/或(4)多源数据融合。

处理的一个可能的实施例可如下进行：

1)索引化工作流程

■采集数据

■生成签名

■生成TOC

■生成KIT

■将签名存储到签名数据库(SiDb)中

2)无监督的检索工作流程

■从SiDb检索KIT

■返回KIT作为检索引擎结果页面(SERP)

用于比较签名的实施例

在许多实施例中，可计算两个签名特征矢量之间的距离。可基于距离度量来以成对形式比较签名。例如，存在针对度量距离测度的3个可能选项，如下文所给出的。

1)L^l-norm(例如，出租车或者曼哈顿距离)：

sum(|X(j)-X(i)|)

2)L^2-norm(例如，欧几里德距离)：

sqrt(sum((X(j)-X(i))*(X(j)-X(i))))

3)余弦距离：

angle＝arccos(dot(X(j)，X(i))/(|X(j)|*|X(i)|)

将了解的是，其他距离公式和/或度量也可适用于本申请案的目的。

检索空间的实施例

图19示出了作为检索空间(1900)的检索结果和与检索结果的原型分级列表相关联的签名分布。如可看出的，矢量A(1902)示出了与示例性检索标准相关联的签名特征矢量，并且矢量B(1)，B(2)至B(N)(1904、1906至1908)示出了最接近的N个检索结果的签名特征矢量，其中分级可由高维度量距离测度决定。

图20和图21示出了两个可包含高维距离度量的示例性测度。在一个实施例中，图20表示检索锥，图21描述了超盒，所述超盒围绕检索标准，被用作高维空间的子集，以使得基本上只有包含在锥和/或超盒内的签名可被视为候选相似性匹配。可使用此类算法减少候选相似性匹配的总数，从而减少误报率(falsepositives)，并减少检索过程的后续阶段的计算处理成本。

在另一实施例中，图21示出了检索空间度量(2000)的计算。最终距离测度(2006)的计算被用于比较两个签名特征矢量(2002和2004)。返回参看图19，可通过计算度量距离(2006)来比较签名特征矢量A与所有的签名特征矢量B。此度量距离测度集合可随后根据量级(从最小到最大)进行分级，并可作为检索结果分级列表返回。

合成性地面实况产生器的实施例

在许多实施例中，合成性地面实况产生器(SGTG)可被用于提供附加验证，确认和不确定性量化能力来探索沿度量矢量的所有可能的非结构化数据组合，所述度量矢量跨越与非结构化数据相关联的信息空间。在一个实施例中，SGTG可为测试工具，所述测试工具执行以下多组单元测试：生成合成性数据、将所述合成性数据输入检索引擎平台，执行检索引擎算法，以及评估结果来量化检索引擎平台对给定数据集的执行效果有多好。SGTG环路在图10中被示出为环路1014，1006，1008和1012。合适的应用可包括：(1)全面探索参数化签名检索空间，来评估检索平台算法的准确度，以及(2)基于采集数据的品质，分辨度，噪音等级等提供置信水平的测度。

图24示出了运行中的SGTG的一个可能实施例。首先输入数据集(例如，开始时的图片)，所述数据集可关于各种不同特性被“测试”和/或转换——例如，大小变化，模糊和/或遮挡。随着原生和/或原始数据集在任何给定轴上变化，可生成新的签名以及对照数据库测试所述新签名。任何倾向于在这些特性方面不变的特征可趋向于帮助在数据库中定位所关注对象。图15的检索实例的稳健性展示了由SGTG所表现和量化的用于场景条件的系统变化(如大小变化，模糊度，遮挡程度)的能力，图15示出了对可乐罐1502的检索和检索匹配，所述检索匹配包括大小变化1504c和1504d，旋转1504a和1504b，和被人手遮挡1504c和1504d。

作为网络服务的检索实施例

在一个实施例中，本申请案的系统和方式可作为网络服务提供。此类网络服务可通过使用客户端/服务器体系结构来提供人机或机机界面给检索引擎平台。网络服务还可为面向服务的体系结构(SoA)，软件即服务(SaaS)，平台即服务(PaaS)和计算即服务(CaaS)提供基础。客户端可为瘦客户端、胖客户端，或者富客户端。网络服务体系结构的结构可为LAMPP：Linux，Apache，MySQL，PHP，Python——例如，所述结构调用检索引擎平台算法来输入信息，计算结果和返回结果作为SERP。网络服务器可大量使用HTML5，PHP，JAVASCRIPT和Python。

一些示例性应用可包括：(1)通用化的监督检索引擎(例如，类似Google的检索引擎，用于在所有事物中检索任何事物)；(2)通用化的无监督检索引擎(即，用于所有事物的Facebook/Linkedin社交网络/链接分析引擎)；和/或(3)通用化对象编辑。

合适的网络服务过程的一个实施例可如下进行：

1)从基于万维网的客户端，可存在以下处理：

■采集数据

■基于输入请求处理数据

■索引

■监督检索

■基于输入请求输出结果

■TOCSERP

■KITSERP

■检索SERP

2)从RESTFul客户端，可存在以下处理：

■采集数据

■基于输入请求处理数据

■索引

■监督检索

■基于输入请求输出结果

■TOCSERP

■KITSERP

■检索SERP

如上所述的内容包括创新主题的实例。当然不可能为了描述所要求保护的主题的目的而描述部件或者方法的每一可想象组合，但是本领域内的一般技术人员可认识到本创新主题的许多另外的组合和变更是可能的。因此，所要求保护的主题旨在包含落入所附权利要求书的精神和范围中的所有此类改变、修改和变化。

具体地并且与由上述部件、器件、电路、系统等等实行的各种功能有关，除非另有陈述，否则用于描述此类部件的术语(包括对“平均(mean)”的提及)旨在对应于实行所描述部件的指定功能的任何部件(例如，功能等效物)，即使所述部件在结构上并非与所公开的结构等效亦是如此，所述部件实行在本文所要求保护主题的示例性方面中所说明的功能。在这方面，还将认识到，所述创新包括系统和计算机可读介质，所述系统和计算机可读介质具有用于实行所要求保护主题的各种方法的动作和/或事件的电脑可执行指令。

此外，虽然可能已经根据若干实施方式中的仅一个实施方式公开了本创新主题的具体特征，但是此特征可按照需要以及对于任何给定或者具体应用有利地与其他实施方式的一个或多个其他特征组合。此外，在术语“包括”(includes)和“包括”(including)及其变体在实施方式或权利要求书中所使用的程度上，这些术语旨在以与术语“包含(comprising)”类似的方式为包容性的。

Claims

1.一种用于检索数字数据的系统，包括：

索引模块，所述索引模块能够接收原生数字数据集，所述原生数字数据集包括谱分布；

签名生成模块，所述签名生成模块能够根据所述原生数字数据集产生一个或多个转换数据集，以及根据所述原生数字数据集和所述一个或多个转换数据集产生签名矢量，所述签名矢量包括针对所述原生数字数据集和所述一个或多个转换数据集中的每一者的谱分解和统计分解；

TOC数据库，所述TOC数据库能够存储所述签名矢量；以及

检索模块，所述检索模块能够接收输入签名矢量并且返回大体上接近于所述输入签名矢量的一组签名矢量，其中所述输入签名矢量表示将利用所述TOC数据库检索的所关注对象。

2.根据权利要求1所述的系统，其中所述索引模块还包括：

非结构化数据索引模块，所述非结构化数据索引模块能够接收非结构化的原生数字数据集和生成一组相关数据片段，所述相关数据片段包括大体上类似的信息内容。

3.根据权利要求2所述的系统，其中所述相关数据片段是通过扫描所述非结构化的原生数字数据的签名矢量和确定间断点来决定的，所述间断点标示相关数据片段的结束。

4.根据权利要求1所述的系统，其中所述索引模块还包括：

非图像数字数据索引模块，所述非图像数字数据索引模块能够接收非图像数字数据并且能够根据所述非图像数字数据生成相关的谱图；以及能够根据所述相关谱图生成所述非图像数字数据的签名矢量。

5.根据权利要求4所述的系统，其中所述非图像数字数据索引模块还能够根据所述非图像数字数据生成振幅对照时间的数字信号；以及能够将傅里叶转换应用至所述振幅对照时间的数字信号来生成谱图。

6.根据权利要求5所述的系统，其中所述非图像数字数据包括群组中的一者，所述群组包括：音频、文本、二进制数据、恶意软件。

7.根据权利要求1所述的系统，其中所述签名生成模块还能够将类熵转换应用至所述原生数字数据集。

8.根据权利要求7所述的系统，其中所述类熵转换还包括香农熵转换。

9.根据权利要求7所述的系统，其中所述签名生成模块还能够将空间频率转换应用至所述原生数字数据集。

10.根据权利要求9所述的系统，其中所述空间频率转换包括群组中的一者，所述群组包括：谱频率、HSI(色调、饱和度，以及强度)、DoG(高斯差分)、DoL(拉普拉斯差分)、HoG(方向梯度直方图)。

11.根据权利要求10所述的系统，其中所述签名生成模块还能够将N个统计矩中的多个应用至每一个原生数字数据集和每一个转换数据集的谱分量的M个分区中的多个，以生成签名矢量。

12.根据权利要求11所述的系统，其中所述统计矩还包括群组中的一者，所述群组包括：平均、方差、斜交、峰度和高斜交。

13.根据权利要求1所述的系统，其中所述TOC数据库还能够将所述签名矢量按照数据帧编号排序成时间序列；分析所述时间序列以查找间断点；通过注释在所述间断点之间的开始数据帧编号和结束数据帧编号来形成数据帧片段；形成片段矢量并且将所述片段矢量存储到所述TOC数据库中。

14.根据权利要求1所述的系统，其中所述系统还包括：

合成性地面实况产生器(SGTG)，所述SGTG能够生成合成性数据；将所述合成性数据输入到所述检索模块中和评估针对所述合成性数据的检索结果。

15.根据权利要求14所述的系统，其中所述合成性数据包括根据特性的原始数据集转换。

16.根据权利要求15所述的系统，其中所述特性包括群组中的一者，所述群组包括：大小、模糊、遮挡、老化、位姿和表达。

17.一种用于根据原生数字数据集生成签名矢量的方法，所述方法包括：

接收原生数字数据集；

将熵转换应用至所述原生数字数据集以产生熵数据集；

将空间频率转换应用至所述原生数字数据集以产生空间频率数据集；

将所述原生数字数据集、所述熵数据集和所述空间频率数据集中的每一者划分成一组谱分量数据集；以及

将一组统计矩应用至所述谱分量数据集以产生用于所述原生数字数据集的签名矢量。

18.根据权利要求17所述的方法，其中如果所述接收到的数字数据集是非图像数字数据，那么产生振幅对照时间的数据集并且根据所述振幅对照时间的数据集生成谱图，从而产生原生数字数据集。

19.根据权利要求17所述的方法，其中所述熵转换包括香农熵转换。

20.根据权利要求17所述的方法，其中所述空间频率转换包括群组中的一者，所述群组包括：谱频率、HSI(色调、饱和度，以及强度)、DoG(高斯差分)、DoL(拉普拉斯差分)、HoG(方向梯度直方图)。

21.根据权利要求17所述的方法，其中所述统计矩的集合还包括群组中的一者，所述群组包括：平均、方差、斜交、峰度和高斜交。

22.根据权利要求17所述的方法，其中所述方法还包括：

将所述签名矢量按照数据帧编号排序成时间序列；

分析所述时间序列以查找间断点；

通过注释在所述间断点之间的开始数据帧编号和结束数据帧编号来形成数据帧片段；以及

根据所述片段形成片段矢量。