CN106062745A - 用于安全的信息存储的方法和装置 - Google Patents
用于安全的信息存储的方法和装置 Download PDFInfo
- Publication number
- CN106062745A CN106062745A CN201480076676.7A CN201480076676A CN106062745A CN 106062745 A CN106062745 A CN 106062745A CN 201480076676 A CN201480076676 A CN 201480076676A CN 106062745 A CN106062745 A CN 106062745A
- Authority
- CN
- China
- Prior art keywords
- content
- files
- experience matrix
- cited
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/144—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
- G06F16/8365—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种在其中基于内容来构建(210)经验矩阵(152、EX1)的方法、装置和计算机程序。使用所构建的经验矩阵(152、EX1)来对所述内容进行搜索(220)。标识出(230)对潜在包括所搜索的内容的一个或多个文件的引用。对所引用的一个或多个文件进行解密(230)以便验证所搜索的内容是否出现在所应用的一个或多个文件中。
Description
技术领域
本申请概括地涉及安全的信息存储。
背景技术
本章节说明了有用的背景信息,但并不承认本文中描述的任何技术代表现有技术。
现代人拥有数量渐增的数字内容。在一些数字内容越发平凡的同时,数字数据处理和智能合并的发展已使得能够实现用于损害数字信息的用户的隐私性的非常完善的方法。进一步地,各种政府实体的情报泄露已进一步说明了可如何在即使开展了使其保密的工作的情况下仍发生泄密。意料中的是,存在对于对数字内容进行受用户控制的加密的渐增的需求,从而使得内容从不以未经加密的形式被暴露给任何第三方。因此,立即利用强密码对所有新内容进行加密是诱人的,尤其是大部分的新数字内容仅用于可能的稍后使用。
然而,作为消极面,对用户的内容进行加密可迫使高效地组织内容,从而使得任意一份信息甚至在数年后仍然可能被找到。可选地或者附加地,可以使用搜索工具。在某些(通常弱的)加密方法(诸如从字符到其它字符的恒定映射)中,给定的文本字符串一致地转换成某个其它字符串。在这样的情况下,还可以首先经由对搜索项进行类似的加密并且利用那些来执行搜索,从而对经加密的文本执行搜索。在强加密中,一份给定的内容以非恒定的方式发生改变,并且经加密的内容应当在搜索过程中被解密,或者应当在该内容的加密之前根据内容来创建搜索索引。这样的索引不幸地引起安全性风险,因为它们不必要地泄露了它们的目标文件的信息中的一些信息,并且这样的索引文件的生成是耗费时间和资源的。此外,当被用户存储的内容的数量增大时,特别是对于手持型设备,这样的索引文件的处理的计算成本可能变得昂贵。
发明内容
在权利要求中阐述了本发明的示例的各种方面。
根据本发明的第一示例方面,提供了一种方法,包括:
基于内容来构建经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索;
标识出对潜在包括所搜索的内容的一个或多个文件的引用;以及
随后对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中。
可以通过对所引用的一个或多个文件进行完整解密来实施所述解密。可选地,可以对所引用的一个或多个文件的仅一些部分进行解密,以便使用户能够理解关于所述搜索而言所引用的文件的上下文。
所述方法可以进一步包括:接收对一个或多个搜索项的标识。接收对所述一个或多个搜索项的标识可以包括:从用户输入所述一个或多个搜索项。所述搜索项可以包括以下各项中的任一项:文本;数字;标点符号;布尔搜索命令;字母数字字符串;以及其任意组合。
所述经验矩阵可以包括多个稀疏向量。
所述经验矩阵可以是随机索引矩阵。
所述矩阵可以包括针对包括所述内容的多个文件中的每个文件的一行。
所述经验矩阵可以包括自然语言字词。所述经验矩阵可以包括采用一种或多种人类语言的自然语言字词的字典。可选地或者附加地,所述经验矩阵可以包括任意一行或多行的指针或者属性:时间;位置;传感器数据;消息;联系人;统一资源定位符;图像;视频;音频;情绪;以及颜色。
所述方法可以进一步包括:根据所述经验矩阵对所述内容进行语义学习。
对稀疏向量的使用可被配置为维持所述矩阵是几乎恒定尺寸的,从而使得当所述内容增加数百个文件时搜索内容的存储器消耗不显著增加。
所述稀疏向量可以包括至多10%的非零元素。每个稀疏向量的元素的和可以是零。
可以在构建所述经验矩阵之后对所述内容进行加密。
可以实施对所述经验矩阵的构建,以使得能够使用预测性经验索引算法来对所述经验矩阵进行搜索。所述预测性经验索引算法可以是Kanerva的随机索引算法。
可以在保持所述内容被加密的同时实施对所述内容的搜索。可以在使用所构建的随机索引矩阵完成所述搜索之后对所引用的一个或多个文件进行解密。
可以在构建所述经验矩阵之后或者之时对所述经验矩阵进行加密。
可以对所述经验矩阵进行解密以便对所述内容进行搜索。
根据本发明的第二示例方面,提供了一种装置,其包括被配置为执行以下操作的处理器:
基于内容来构建经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索;以及
标识出对潜在包括所搜索的内容的一个或多个文件的引用。
所述处理器可被进一步配置为:对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中。
根据本发明的第三示例方面,提供了一种装置,所述装置包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器;
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起促使所述装置至少实施以下操作:
基于内容来构建经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索;以及
标识出对潜在包括所搜索的内容的一个或多个文件的引用。
所述至少一个存储器和所述计算机程序代码可被进一步配置为与所述至少一个处理器一起促使所述装置实施以下操作:对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中。
根据本发明的第四示例方面,提供了一种计算机程序,其包括当所述计算机程序被运行在处理器上时:
用于基于内容来构建经验矩阵的代码;
用于使用所构建的经验矩阵来对所述内容进行搜索的代码;以及
用于标识出对潜在包括所搜索的内容的一个或多个文件的引用的代码。
所述计算机程序可以进一步包括当所述计算机程序被运行在所述处理器上时:用于对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中的代码。
所述计算机程序可被存储在计算机可读存储介质上。所述存储介质可以是非瞬态的。任何前述存储介质均可包括数字数据存储器,诸如数据光盘或者磁盘、光存储器、磁存储器、全息存储器、光磁存储器、相变存储器、电阻式随机访问存储器、磁性随机访问存储器、固体电解质存储器、铁电随机访问存储器、有机存储器或者聚合物存储器。所述存储介质可被形成到不具有除储存型存储器之外的其它基本功能的设备中,或者它可以作为具有其它功能的设备的一部分被形成,包括但不限于计算机、芯片集和电子设备的子组件的存储器。
已在前述内容中说明了本发明的不同的无约束力的示例方面和实施例。前述内容中的实施例仅用于阐明所选择的可以在实现本发明时被使用的方面或者步骤。可以仅参考本发明的特定示例方面来呈现某些实施例。应当认识到,对应实施例也可以应用于其它示例方面。
附图说明
为了更完整地理解本发明的示例实施例,现在参考下面结合附图进行的描述,其中:
图1示出了本发明的示例实施例的装置的框图;
图2示出了说明本发明的示例实施例的过程的流程图;
图3示出了被配置为通过使用经验矩阵来收集和处理数据的系统,
图4示出了包括字词散列表和一组基本稀疏向量的稀疏向量供应器,
图5示出了包括一组基本稀疏向量的稀疏向量供应器,以及
图6示出了包括被配置为生成基本稀疏向量的随机数生成器的稀疏向量供应器。
具体实施方式
通过参考图1至图6来理解本发明的示例实施例及其潜在的优点。
图1示出了本发明的示例实施例的装置100的框图。所述装置在某些实施例中是小型电子设备,诸如移动电话、手持型游戏设备、电子数字助理和/或数字书。装置100包括处理器110、用于由处理器用来控制装置100的操作的存储器120,以及用于存储诸如软件124这样的长期数据的非易失性存储器122,软件124包括操作系统和计算机可执行应用。装置100进一步包括用于用户交互的用户接口130、用于与内部和外部实体(诸如一个或多个海量存储器和联网实体)通信的输入/输出系统140。此外,装置100自身包括或者被配置为访问包括经验矩阵152的被远程放置的数据库150。
图2示出了说明本发明的示例实施例的过程的流程图。所述过程包括:
基于内容来构建210经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索220;以及
标识出230对潜在包括所搜索的内容的一个或多个文件的引用,以及随后对所引用的一个或多个文件进行解密,以便视情况验证所搜索的内容是否出现在所引用的一个或多个文件中。
在示例实施例中,经验矩阵包括多个稀疏向量。
在示例实施例中,经验矩阵是随机索引矩阵。
在示例实施例中,经验矩阵包括针对包括内容的多个文件中的每个文件的一行。
在示例实施例中,所述过程进一步包括:根据经验矩阵对内容进行语义学习。
在示例实施例中,经验矩阵包括自然语言字词。在示例实施例中,经验矩阵包括采用一种或多种人类语言的自然语言字词的字典。在示例实施例中,经验矩阵包括任意一行或多行的指针或者属性:时间;位置;传感器数据;消息;联系人;统一资源定位符;图像;视频;音频;情绪;和颜色。在示例实施例中,可以在通过经验矩阵对文档进行的语义学习中使用这样的进一步的一行或多行。
在示例实施例中,对稀疏向量的使用被配置为维持矩阵是几乎恒定尺寸的,从而使得当内容增加数百个文件时,对内容进行搜索的存储器消耗不显著增加。
在示例实施例中,稀疏向量包括至多10%的非零元素。在示例实施例中,每个稀疏向量的元素的和是零。
在示例实施例中,所述过程进一步包括:在构建经验矩阵之后对内容进行加密212。
在示例实施例中,实施对经验矩阵的构建210以使得能够使用预测性经验索引算法来对经验矩阵进行搜索。
在示例实施例中,所述过程进一步包括:接收一个或多个搜索项的标识215。接收一个或多个搜索项的标识可以包括从用户输入一个或多个搜索项。搜索项可以包括以下各项中的任一项:文本;数字;标点符号;布尔搜索命令;字母数字字符串;以及其任意组合。
在示例实施例中,在保持内容被加密的同时实施对内容的搜索220。
在示例实施例中,所述过程进一步包括:在使用所构建的随机索引矩阵完成搜索之后,对所引用的一个或多个文件进行解密230。在示例实施例中,通过对所引用的一个或多个文件进行完整解密来实施解密。可选地,可以对所引用的一个或多个文件的仅一些部分进行解密,以使用户能够理解关于搜索而言所引用的文件的上下文。
在示例实施例中,所述过程进一步包括:在构建经验矩阵之后或者之时对经验矩阵进行加密214。
在示例实施例中,对经验矩阵进行解密216以便对内容进行搜索。
在示例实施例中,当新文件被添加时更新218经验矩阵。在示例实施例中,当文件被删除或者更新时也更新218经验矩阵。例如,当新文件被添加时,通过添加针对新的一行的随机索引RI,将对应的新的一行添加到经验矩阵。在内容是文本的情况下,普通语言(plain language)字词和其它关系被激活以便引用字词。
在示例实施例中,具有随机索引的经验矩阵或者RI矩阵含有:
-代表不同的自然语言字词(诸如狗、猫和老鼠)的一行;
-作为一行的对每个文件的引用,所述文件诸如字词处理器文件、呈现文件、电子邮件消息、已下载的web页面、地址簿联系人等。
概括地说,对于语义学习,可以存在用于在搜索中使用的文档的任意类型的特性(例如,属性或者指针)。这样的特性可以例如包括以下各项中的任一项:颜色、颜色分布、情绪、时间、位置、移动、统一资源定位符、图像、音频、视频。这样的特性可以通过由文档分析器(图3中的DAZ1)进行的文档分析来获得。例如,可听和/或可见的内容的类型可以基于它的节奏和其它可以自动检测的项目而被确定,并且在某些情况下,文件易于包括元数据,所述元数据就其本身而言可以用于确定与正在讨论的内容可能涉及的情绪有关的进一步的属性。
所述引用例如是对相应的经加密文件的引用,其例如被格式化为文件://3406972346239;消息://349562349562;指向文件内的精确位置(例如,指向邮箱文件内的电子邮件消息)的指针;或者联系人://356908704952。
RI矩阵的列是稀疏向量。因此,RI矩阵提供了快速搜索时间,基本上恒定(当向内容添加新文件时仅稍微改变)的或者非渐增的存储器使用,以及高效的处理和少量的能量需求并且适于在资源受限设备中使用。
下面参考图3至图6呈现了关于经验矩阵及其用于对数据的预测性搜索的某些示例。
图3示出了用于处理共生数据(例如,来自将被建立索引的文档的数据)的子系统400。子系统400被设置为将共生数据存储在经验矩阵EX1中。子系统400被配置为基于存储在经验矩阵EX1中的共生数据来提供预测(即,搜索结果)。
子系统400包括用于接收和存储字词的缓冲器BUF1、用于将字词收集到包(bag)中的收集单元WRU1、用于存储包的字词的存储器MEM1、用于提供基本稀疏向量的稀疏向量供应器SUP1、用于存储词汇表VOC1的存储器MEM3(词汇表被存储在存储器MEM3中)、用于修改经验矩阵EX1的向量和/或用于形成查询向量QV1的合并单元LCU1、用于存储经验矩阵EX1的存储器MEM2(经验矩阵EX1被存储在存储器MEM2中)、用于存储查询向量QV1的存储器MEM4和/或用于将查询向量QV1与经验矩阵EX1的向量进行比较的差异分析单元DAU1。子系统400进一步包括文档分析器DAZ1。文档分析器DAZ1在一示例实施例中是基于软件的功能体(在另一示例实施例中是硬件加速体)。文档分析器DAZ1被配置为例如通过以下操作中的任意操作对从客户端C1接收的文件进行自动分析:
-识别出现在图像或者视频文件中的物体(例如,车辆、动物、人、风景、建筑物);
-识别出现在图像或者视频文件中的脸;
-标识图像或者视频的环境光温度;
-从图像或者视频文件中标识出可能相关联的情绪(例如,检测嘴角的方向、标识眼泪和检测视频图像中的事件的发展速度);
-通过语音检测识别一个或多个人;
-标识文本的语调(例如,通过语料库分析和/或确定句子的平均长度和/或对标点的使用)。
在示例实施例中,子系统400包括用于存储查询Q1和/或搜索结果OUT1的缓冲器BUF2和/或缓冲器BUF3。例如从用户客户端C1(例如是运行在装置100上的软件的客户端机器)接收字词。可以由收集器单元WRU1将字词收集成各个包。将包的字词收集或者临时存储在存储器MEM1中。从存储器MEM1向稀疏向量供应器SUP1传送每个包的内容。稀疏向量供应器SUP1被配置为提供基本稀疏向量来更新经验矩阵EX1。
将每个包的内容和基本稀疏向量传送到被配置为(例如,通过形成线性合并)修改经验矩阵EX1的向量的合并单元LCU1。合并单元LCU1被配置为将基本稀疏向量添加到由每个包的字词指定的目标向量。在示例实施例中,合并单元LCU1被安排为在硬件级执行对向量的求和。合并单元LCU1的电气和/或光学电路被安排为同时修改与单一包的字词相关联的若干目标向量。这可以允许高数据处理速率。在另一示例实施例中,应用基于软件的处理。
经验矩阵EX1被存储在存储器MEM2中。字词是通过使用被存储在存储器MEM3中的词汇表VOC1而与经验矩阵EX1的向量相关联的。此外,向量供应器SUP1被配置为使用词汇表VOC1(或者不同的词汇表),例如以便提供与包的字词相关联的基本稀疏向量。
子系统400包括合并单元LCU1或者被配置为基于查询Q1的字词形成查询向量QV1的另一合并单元。查询向量QV1被形成作为经验矩阵EX1的向量的线性合并。通过使用词汇表VOC1找到经验矩阵EX1的相关向量的位置。查询向量QV1被存储在存储器MEM4中。
差异分析单元DAU1可被配置为将查询向量QV1与经验矩阵EX1的向量进行比较。例如,差异分析单元DAU1被安排为确定经验矩阵EX1的向量与查询向量QV1之间的差异。差异分析单元DAU1被进一步安排为对针对若干向量所确定的差异进行排序。差异分析单元DAU1被配置为基于所述比较提供搜索结果OUT1。此外,可以提供定量的指示,诸如关于一个或多个搜索准则有多么恰当地与被搜索的内容相匹配的排名或者其它指示。定量的指示可以是百分比。可以例如直接从计算两个稀疏向量之间的欧几里德距离中获得定量的指示。可以从搜索结果中排除查询字词Q1、Q2本身。
在示例实施例中,差异分析单元DAU1被安排为在硬件级对向量进行比较。合并单元LCU1的电气和/或光学电路可被安排为同时确定经验矩阵EX1的若干向量的定量差异描述符(DV)。这可以允许高数据处理速率。在另一示例实施例中,应用基于软件的处理。
子系统400包括用于控制子系统400的操作的控制单元CNT。控制单元CNT1包括一个或多个数据处理器。子系统400包括用于存储程序代码PROG1的存储器MEM5。程序代码PROG1可用于实现例如图2的过程。例如从客户端C1接收字词。将搜索结果OUT1传送给客户端C1。客户端C1还可以从缓冲器BUF1检索系统字词,例如以便形成查询Q1。
参考图3和图4,稀疏向量供应器SUP1可以例如通过从存储器(表)中检索先前生成的稀疏向量和/或通过实时地生成稀疏向量来提供稀疏向量。稀疏向量供应器SUP1包括用于存储与词汇表VOC1的字词相关联的基本稀疏向量a1,a2,…an的存储器。基本稀疏向量a1,a2,…an形成基本稀疏矩阵RM1。基本稀疏向量a1,a2,…an可以在先前被存储在稀疏向量供应器SUP1的存储器中。可选地或者附加地,可以当字词在包中第一次被使用时实时地生成与所述字词相关联的单独的基本稀疏向量。例如由随机数生成器来生成基本稀疏向量。参考图3和图5,稀疏向量供应器SUP1可以包括用于存储多个先前所确定的基本稀疏向量b1,b2,…的存储器(未示出)。当新的包到达时,生成触发信号,并且改变计数器的计数值。因而,从由计数器所指示的存储器的位置检索下一基本稀疏向量。因而,将为每个包指派不同的基本稀疏向量。相同的基本稀疏向量可以代表所述包的每个字词。
参考图6,可以由随机数生成器RVGU1在每当新的包到达时生成新的基本稀疏向量bk。因而,将为每个包指派不同的基本稀疏向量(生成两个相同的稀疏向量的概率将是可以忽略的)。相同的基本稀疏向量可以代表所述包的每个字词。
在决不限制出现在下面的权利要求的范围、理解或者应用的情况下,本文中公开的示例实施例中的一个或多个示例实施例的技术效果在于,当更多文件被添加到正在被搜索的内容时,需要基本恒定量的存储器。本文中公开的示例实施例中的一个或多个示例实施例的另一技术效果在于,当更多文件被添加到正在被搜索的内容时,需要基本恒定量的处理。本文中公开的示例实施例中的一个或多个示例实施例的另一技术效果在于,诸如文件和电子邮件这样的内容可以在对其实施搜索的同时持续以加密形式被存储在存储设备上。本文中公开的示例实施例中的一个或多个实例实施例的另一技术效果在于,可以极大地增强对特别是大型文件(诸如经加密的电子邮件邮箱文件)的处理。本文中公开的示例实施例中的一个或多个示例实施例的另一技术效果在于,可以增强对加密的内容的处理:例如,如果太难而不能搜索诸如邮箱这样的大型加密文件内所存储的电子邮件的话,用户可以避免使用经加密的电子邮件。本文中公开的示例实施例中的一个或多个示例实施例的另一技术效果在于,为了获得搜索命中,不需要对整个内容进行解密。本文中公开的示例实施例中的一个或多个示例实施例的另一技术效果在于,还可以估计搜索命中的概率。本文中公开的示例实施例中的一个或多个示例实施例的另一技术效果在于,将随机索引用于搜索可以返回常规的逐字词匹配(非语义)的结果以及(由于语义学习所导致的)语义结果这二者。例如:在常规的搜索情况中,如果搜索“狗”,那么如果内容中的文档含有字词“狗”的话,则该文档被标识出来。此外,在语义搜索中,不需要精确的字词到字词匹配:系统可以通过从所添加的文档中进行学习来调整自身。例如,第一文档可以概括地描述动物而不具有任何对狗的明确引用,而第二文档可以定义狗是动物。基于该信息,系统可以通过学习进行调整,从而使得当搜索狗时,第二文档被标识,并且第一文档也被标识。在示例实施例中,同时产生这两种类型的搜索结果(明确匹配和语义命中)。
可以用软件、硬件、应用逻辑或者软件、硬件和应用个逻辑的组合来实现本发明的实施例。软件、应用逻辑和/或硬件可以驻留在持久存储器、工作存储器或者诸如USB棒这样的可转移存储器上。在示例实施例中,应用逻辑、软件或者指令集被维护在各种常规计算机可读介质中的任一种计算机可读介质上。在本文档的上下文中,“计算机可读介质”可以是任何可以含有、存储、传送、传播或者传输经由或者结合诸如计算机这样的指令执行系统、装置或者设备来使用的指令的非瞬态介质或者构件,其中,在图1中描述和描绘了计算机的一个示例。计算机可读介质可以包括计算机可读存储介质,计算机可读存储介质可以是任何可以含有或者存储经由或者结合诸如计算机这样的指令执行系统、装置或者设备来使用的指令的介质或者构件。
如果需要,则可以按照不同的次序和/或彼此并发地实施本文中讨论的不同功能。此外,如果需要,则前面描述的功能中的一个或多个功能可以是可选的,或者可以被合并。
尽管在独立权利要求中阐述了本发明的各种方面,但是本发明的其它方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其它组合,而不是仅在权利要求中被明确阐述的组合。
在本文中还应当指出,尽管前述内容描述了本发明的示例实施例,但是这些描述不应当在限制性的意义上被看待。相反,存在可以进行的若干变型和修改,而不脱离如在所附权利要求中定义的本发明的范围。
Claims (20)
1.一种方法,其包括:
基于内容来构建经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索;
标识出对潜在包括所搜索的内容的一个或多个文件的引用;以及
对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中。
2.根据权利要求1所述的方法,其中,所述经验矩阵包括多个稀疏向量。
3.根据权利要求2所述的方法,其中,所述稀疏向量包括至多10%的非零元素。
4.根据权利要求2或3所述的方法,其中,每个稀疏向量的元素的和可以是零。
5.根据前述权利要求中任一项所述的方法,其中,通过对所引用的一个或多个文件进行完整解密来实施所述解密。
6.根据权利要求1到5中任一项所述的方法,其中,对所引用的一个或多个文件的仅一些部分进行解密,以使用户能够理解关于所述搜索而言所引用的文件的上下文。
7.根据前述权利要求中任一项所述的方法,其进一步包括:接收对一个或多个搜索项的标识。
8.根据权利要求7所述的方法,其中,接收对所述一个或多个搜索项的标识包括:从用户输入所述一个或多个搜索项。
9.根据前述权利要求中任一项所述的方法,其中,所述经验矩阵是随机索引矩阵。
10.根据前述权利要求中任一项所述的方法,其中,所述矩阵包括针对包括所述内容的多个文件中的每个文件的一行。
11.根据前述权利要求中任一项所述的方法,其进一步包括:在构建所述经验矩阵之后对所述内容进行加密。
12.根据前述权利要求中任一项所述的方法,其中,使用预测性经验索引算法来实施对所述经验矩阵的构建。
13.根据前述权利要求中任一项所述的方法,其进一步包括:在完成使用所构建的经验矩阵来对所述内容进行搜索之后,对所引用的一个或多个文件进行解密。
14.根据前述权利要求中任一项所述的方法,其进一步包括:在构建所述经验矩阵之后或者之时对所述经验矩阵进行加密。
15.根据前述权利要求中任一项所述的方法,其进一步包括:对所述经验矩阵进行解密以便对所述内容进行搜索。
16.一种装置,其包括:
被配置为执行以下操作的处理器:
基于内容来构建经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索;
标识出对潜在包括所搜索的内容的一个或多个文件的引用;以及
对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中。
17.根据权利要求16所述的装置,其中,所述处理器被进一步配置为实施根据权利要求2至15中任一项所述的方法。
18.一种装置,其包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器;
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起促使所述装置实施至少以下操作:
基于内容构建经验矩阵;
使用所构建的经验矩阵来对所述内容进行搜索;
标识出对潜在包括所搜索的内容的一个或多个文件的引用;以及
对所引用的一个或多个文件进行解密,以便验证所搜索的内容是否出现在所引用的一个或多个文件中。
19.一种计算机程序,其包括当所述计算机程序被运行在处理器上时:
用于基于内容来构建经验矩阵的代码;
用于使用所构建的经验矩阵来对所述内容进行搜索的代码;
用于标识出对潜在包括所搜索的内容的一个或多个文件的引用的代码;以及
用于对所引用的一个或多个文件进行解密以便验证所搜索的内容是否出现在所引用的一个或多个文件中的代码。
20.根据权利要求19所述的计算机程序,其进一步包括当所述计算机程序被运行在所述处理器上时:
用于实施根据权利要求2至15中任一项所述的方法的代码。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/FI2014/050156 WO2015132446A1 (en) | 2014-03-04 | 2014-03-04 | Method and apparatus for secured information storage |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106062745A true CN106062745A (zh) | 2016-10-26 |
Family
ID=54054618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480076676.7A Pending CN106062745A (zh) | 2014-03-04 | 2014-03-04 | 用于安全的信息存储的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170169079A1 (zh) |
EP (1) | EP3114577A4 (zh) |
CN (1) | CN106062745A (zh) |
WO (1) | WO2015132446A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10496631B2 (en) * | 2017-03-10 | 2019-12-03 | Symphony Communication Services Holdings Llc | Secure information retrieval and update |
US11200336B2 (en) | 2018-12-13 | 2021-12-14 | Comcast Cable Communications, Llc | User identification system and method for fraud detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079070A (zh) * | 2006-05-26 | 2007-11-28 | 国际商业机器公司 | 用于响应于对信息的查询的计算机和方法 |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
US20120078914A1 (en) * | 2010-09-29 | 2012-03-29 | Microsoft Corporation | Searchable symmetric encryption with dynamic updating |
US20120159180A1 (en) * | 2010-12-17 | 2012-06-21 | Microsoft Corporation | Server-side Encrypted Pattern Matching |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6751628B2 (en) * | 2001-01-11 | 2004-06-15 | Dolphin Search | Process and system for sparse vector and matrix representation of document indexing and retrieval |
US7484092B2 (en) * | 2001-03-12 | 2009-01-27 | Arcot Systems, Inc. | Techniques for searching encrypted files |
US8166039B1 (en) * | 2003-11-17 | 2012-04-24 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for encoding document ranking vectors |
US9275129B2 (en) * | 2006-01-23 | 2016-03-01 | Symantec Corporation | Methods and systems to efficiently find similar and near-duplicate emails and files |
US8972723B2 (en) * | 2010-07-14 | 2015-03-03 | Sandisk Technologies Inc. | Storage device and method for providing a partially-encrypted content file to a host device |
US20130159100A1 (en) * | 2011-12-19 | 2013-06-20 | Rajat Raina | Selecting advertisements for users of a social networking system using collaborative filtering |
WO2013124520A1 (en) * | 2012-02-22 | 2013-08-29 | Nokia Corporation | Adaptive system |
-
2014
- 2014-03-04 US US15/116,132 patent/US20170169079A1/en not_active Abandoned
- 2014-03-04 EP EP14884794.0A patent/EP3114577A4/en not_active Withdrawn
- 2014-03-04 CN CN201480076676.7A patent/CN106062745A/zh active Pending
- 2014-03-04 WO PCT/FI2014/050156 patent/WO2015132446A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079070A (zh) * | 2006-05-26 | 2007-11-28 | 国际商业机器公司 | 用于响应于对信息的查询的计算机和方法 |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
US20120078914A1 (en) * | 2010-09-29 | 2012-03-29 | Microsoft Corporation | Searchable symmetric encryption with dynamic updating |
US20120159180A1 (en) * | 2010-12-17 | 2012-06-21 | Microsoft Corporation | Server-side Encrypted Pattern Matching |
Non-Patent Citations (2)
Title |
---|
MOHAMMAD SAIFUL ISLAM等: "access pattern disclosure on searchable encryptiom: ramification, attack and mitigation", 《INTERNETSOCIETY网站》 * |
苏新宁等: "《信息检索理论与技术》", 30 September 2004, 科学技术文献出版社 * |
Also Published As
Publication number | Publication date |
---|---|
US20170169079A1 (en) | 2017-06-15 |
EP3114577A4 (en) | 2017-10-18 |
EP3114577A1 (en) | 2017-01-11 |
WO2015132446A1 (en) | 2015-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11288444B2 (en) | Optimization techniques for artificial intelligence | |
US11593364B2 (en) | Systems and methods for question-and-answer searching using a cache | |
US20190377788A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
EP3180742B1 (en) | Generating and using a knowledge-enhanced model | |
US10366327B2 (en) | Generating vector representations of documents | |
AU2014201827B2 (en) | Scoring concept terms using a deep network | |
JP2018517959A (ja) | ビデオのための代表ビデオフレームの選択 | |
Wilson et al. | Linguistic steganography on twitter: hierarchical language modeling with manual interaction | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN110781666B (zh) | 基于生成式对抗网络的自然语言处理文本建模 | |
KR20160056994A (ko) | 이모티콘 추천 방법 및 이모티콘을 추천하는 사용자 단말 | |
CN110020134B (zh) | 一种知识服务信息的推送方法、系统、存储介质和处理器 | |
CN113869063A (zh) | 数据推荐方法、装置、电子设备及存储介质 | |
CN106062745A (zh) | 用于安全的信息存储的方法和装置 | |
CN110442767B (zh) | 一种确定内容互动平台标签的方法、装置及可读存储介质 | |
KR20210146832A (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP6712521B2 (ja) | 検索式提示システム、検索式提示方法、およびプログラム | |
CN116992874B (zh) | 一种文本引用审核溯源方法、系统、装置和存储介质 | |
CN117574410B (zh) | 风险数据检测方法及装置 | |
US11354574B2 (en) | Increasing security of neural networks by discretizing neural network inputs | |
Mitsui | Beyond Query Logs: Recommendation and Evaluation | |
Eunaicy et al. | A SEMWORD based Semantic Secure Content Retrieval System in E-learning | |
CN115766517A (zh) | 信息校验方法、装置、电子设备及存储介质 | |
CN116702771A (zh) | 一种文本检测方法、装置、设备、介质及系统 | |
CN114637851A (zh) | 文本分类模型的训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161026 |
|
WD01 | Invention patent application deemed withdrawn after publication |