CN104102748A - 文件映射方法及装置和文件推荐方法及装置 - Google Patents

文件映射方法及装置和文件推荐方法及装置 Download PDF

Info

Publication number
CN104102748A
CN104102748A CN201410390122.6A CN201410390122A CN104102748A CN 104102748 A CN104102748 A CN 104102748A CN 201410390122 A CN201410390122 A CN 201410390122A CN 104102748 A CN104102748 A CN 104102748A
Authority
CN
China
Prior art keywords
file
identification
user
node
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410390122.6A
Other languages
English (en)
Other versions
CN104102748B (zh
Inventor
王淑玲
张云勇
房秉毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201410390122.6A priority Critical patent/CN104102748B/zh
Publication of CN104102748A publication Critical patent/CN104102748A/zh
Application granted granted Critical
Publication of CN104102748B publication Critical patent/CN104102748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件映射方法及装置和文件推荐方法及装置,包括利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;将文件标识的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中预设条件为海明码距离的大小与文件是否相似之间的对应关系。本发明通过在文件标识中融入文件内容信息以及利用纠错码,实现了将相似的文件存储到了物理上相同或临近的节点。这样,在本发明文件推荐方法中,由于相似的文件存储到了物理上相同或临近的节点,因此仅仅需要判断与用户兴趣相似的文件及临近的其他文件是否为用户感兴趣的文件即可,而不需要对整个系统中的所有文件进行逐一判断,从而提高了文件推荐的效率。

Description

文件映射方法及装置和文件推荐方法及装置
技术领域
本发明涉及文件共享技术,尤指一种文件映射方法及装置和文件推荐方法及装置。
背景技术
通过网盘等用于文件共享的应用系统,用户在贡献自身文件资源的同时,也能获取别人贡献的资源。在目前的文件共享应用系统中,用户登陆后,系统会根据用户贡献的文件、文件下载历史等信息,为用户推荐其可能感兴趣的文件列表。
在现有文件共享应用系统中,文件由文件标识id和用于表达文件主题内容的元数据来表示。其中,文件标识id一般随机生成;元数据包括一系列的、表征文件内容的关键字。
为了能给用户推荐其感兴趣的文件,文件共享应用系统需要维护用户的搜索和共享历史,记录用户搜索和分享过的文件的关键字,举例来看,假设为某用户维护的关键字为{网络,计算机,系统结构}。那么,当系统在判断是否要为该用户推荐文件A(表述为{ida,K={k1,k2,....}})时,首先需要计算为该用户维护的关键字{网络,计算机,系统结构}和文件A的关键字集合K的相似度;如果某个ki与该用户的关键字匹配,则判断出文件A为该用户感兴趣的文件。
现有的文件标识id中不包含文件的内容信息。文件标识id采用随机生成的方式产生,也就是说,文件标识id是一串没有具体含义的记号,无法表征文件的特征。在现有给用户推荐其感兴趣的文件的方法中,当需要判断文件是否为用户感兴趣的文件时,需要通过文件标识id这个记号获取文件的元数据信息,再从元数据中提取出文件的关键字信息,然后再按照上述方法判断是否适合推荐。
而在文件共享系统中,文件不呈现聚集性的特征,文件的存储位置由文件标识id的散列函数来决定。由于文件标识id不具备任何含义,因此,相似文件的实际映射位置可能会大相径庭,基于这种文件映射方式,当为用户推荐其感兴趣的文件时,需要对共享文件系统中所有的文件进行扫描,并比对文件的关键字集合与用户的关键字集合,从而判断出某一文件是否是用户感兴趣的。这显然给文件推荐的实现带来了一定的困难,而且大大降低了文件推荐的效率。
发明内容
为了解决上述技术问题,本发明提供了一种文件映射方法及装置和文件推荐方法及装置,能够使得文件的存储呈现聚集性的特征,提高文件推荐效率。
为了达到本发明目的,本发明提供了一种文件映射方法,包括:利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;
将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。
所述文件的关键字包括s个,s为大于1的自然数;所述生成文件标识包括:
计算所述s个关键字的一致性哈希在布鲁姆过滤器中的s次插入操作。
所述将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点包括:
利用纠错码建立所述节点的节点标识至纠错节点标识的一一映射关系;
在所有的纠错节点标识中,选择一个与所述文件标识海明码距离最小的、并且值最小的纠错节点标识,将所述文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。
本发明还提供了一种文件映射装置,至少包括第一生成模块和映射模块,其中,
第一生成模块,用于对文件的关键字进行哈希运算,利用布鲁姆过滤器对经过哈希运算的关键字进行处理后生成文件标识。
映射模块,用于获取文件标识间的海明码距离,并将获得的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。
本发明又提供了一种文件推荐方法,包括:
对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;
利用纠错码确定生成的用户的兴趣向量表征的文件的存储位置;
根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。
所述生成用户的兴趣向量包括:所述与用户兴趣相关的各关键字分别经过哈希运算后的结果组成的、长度为所述与用户兴趣相关的关键字个数的兴趣向量U。
所述确定生成的用户的兴趣向量表征的文件的存储位置包括:
利用布鲁姆过滤器对经过哈希运算的用户兴趣相关的关键字进行处理后生成表征用户兴趣的文件的文件标识;
利用纠错码建立所述节点的节点标识至纠错节点标识的一一映射关系;
在所有的纠错节点标识中,选择一个与所述表征用户兴趣的文件的文件标识的海明码距离最小的、并且值最小的纠错节点标识,将所述表征用户兴趣的文件的文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。
所述确定用户感兴趣的文件包括:
计算所述用户的兴趣向量U和所述确定出的存储位置上的文件的文件标识的海明码距离,当海明码距离小于或等于预先设置的距离阈值时,确定二者相似度高,且该文件标识对应的文件为用户感兴趣的文件。
本发明再提供了一种文件推荐装置,至少包括第二生成模块、处理模块和确定模块,其中,
第二生成模块,用于对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;
处理模块,用于利用纠错码概念确定生成的用户的兴趣向量表征的文件的存储位置;
确定模块,用于根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。
与现有技术相比,本发明包括利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;将文件标识的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。本发明通过在文件标识中融入文件内容信息以及利用纠错码,实现了将相似的文件存储到了物理上相同或临近的节点。这样,在本发明文件推荐方法中,由于相似的文件存储到了物理上相同或临近的节点,因此仅仅需要判断与用户兴趣相似的文件及临近的其他文件是否为用户感兴趣的文件即可,而不需要对整个系统中的所有文件进行逐一判断,这样显然提高了文件推荐的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明文件映射方法的流程图;
图2为本发明文件映射装置的组成结构示意图;
图3为本发明文件推荐方法的流程图;
图4为本发明文件推荐装置的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明文件映射方法的流程图,如图1所示,包括:
步骤100:利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。
文件内容通常由一系列的关键字来表征。因此,具有多个相同关键字的两个文件可定义为相似文件。对于由关键字集合K={k1,k2,...,ki,...,ks}表示的文件,按照本步骤的方法,文件标识的生成就是:计算s个关键字的一致性哈希在布鲁姆过滤器中的s次插入操作,s为大于1的自然数,可通过公式(1)表示为:
id=0 ∪h{k1}∪h{k2}∪...∪h{ks}   (1)
在公式(1)中,0表示布鲁姆过滤器的初始状态,是长度为n的0向量。h{ks}为关键字ks经过哈希运算后的结果,其值为长度为n的向量Us。∪表示布鲁姆过滤器中定义的插入操作。公式(2)表示了对某关键字ks的插入操作,即是对∪运算的定义,公式(2)中的运算符“|”表示或运算,Ut表示另一个参与插入操作的向量:
Ut ∪ Us = < u1t|u1s,u2t|u2s,...,unt|uns>(2)
可见,通过本发明公式(1)生成的文件标识id表征了文件内容。也就是说,任何两个共享了较多关键字的文件,其文件标识id较为相似。而且,本领域技术人员容易知道,文件标识id较为相似的文件间,其文件标识id的海明码距离较小。其中,海明码距离的大小与文件是否相似之间的关系是根据实际情况预先设置的预设条件,这里并不做限定,只要文件标识id之间的海明码距离满足预设条件的文件就认为是相似的文件,其海明码距离也是较小的。海明码距离的计算属于本领域技术人员的公知技术,具体实现并不用于限定本发明的保护范围,这里不再赘述。
在本发明的文件标识生成中,通过引入布鲁姆过滤器,将表征文件内容的关键字信息融入到了文件标识中。
步骤101:将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中,预设条件为海明码距离的大小与文件是否相似之间的对应关系。
在文件共享系统中,已有结论表明用户的兴趣较为稳定,即用户共享的资源和希望获取的资源具有相似性。如果能够将相似文件存储在物理上相同或相邻的节点上,那么当用户贡献了某个文件资源时,依据兴趣稳定论,用户感兴趣的文件资源与该文件实际存储位置相同或临近。
在现有类似于Dynamo的系统中,文件被映射到比文件标识id大的第一个节点上(节点id随机生成),可表示为:id–>successor(id)。文件标识id的相似性是由海明码距离表示的,但是,海明码距离小的两个文件,并不意味着文件标识id的值的大小接近。比如:文件标识id分别为1011111和0011111的两个文件,它们之间的海明码距离为2,但是文件标识id的值却相差64。也就是说,按照现有通常的文件映射方式,具备相似文件标识id的文件也是不能被映射至物理上相同或相邻的节点上的。
现代通信理论提出的纠错码(error code)概念,即在一串长为k的码字后增加长为(n-k)的纠错码,当长为k的码字发生传输错误时,可以根据(n-k)位的纠错码将其纠正。针对纠错码,目前已有结论证明,对于长度为k的码字空间,总是能找到一个矩阵Gk*n,使得这一码字空间能扩展为长度为n的码字空间。也即以下公式(3)表示的条件成立。
Gk*n=(I|A),使得V={v|v=u.G,u=<u1,u2,...,uk>,ui=0or1} (3)
且在公式(3)中,任意的v1、v2∈V,v1.v2∈V,即V为一个大小为2k的空间。公式(3)的具体实现内容可以参见彭代渊编著的《信息论与编码理论》的第八章中的内容,是本领域技术人员容易理解的,这里不再赘述。
通过公式(3),利用纠错码建立k维空间的节点标识node_id至n维空间的纠错节点标识node_err_id的一一映射关系,也就是说,本步骤利用纠错码,为每个物理节点定义了n维的纠错节点标识node_err_id,并且纠错节点标识node_err_id与节点标识node_id是一一对应的关系。
在文件存储系统中,将文件存储到物理节点的过程,其实就是文件标识id与节点标识node_id之间的映射过程,本步骤具体包括:
利用纠错码建立节点的节点标识node_id至纠错节点标识node_err_id的一一映射关系;在所有的纠错节点标识node_err_id中,选择一个与文件标识id海明码距离最小的、并且值最小的纠错节点标识node_err_id,,将所述文件标识id存储在与该纠错节点标识node_err_id对应的节点标识node_id表示的物理节点上。
这样实现了尽量地将相似文件映射至同一个纠错节点标识node_err_id上,并且,文件标识id唯一地映射到了纠错节点标识node_err_id上。而且,由于纠错节点标识node_err_id和节点标识node_id之间是一个一一映射的过程,由公式(3)可见,纠错节点标识node_err_id有唯一的节点标识node_id与其对应,这样,实现了文件标识id存储在节点标识node_id表示的物理节点上。
通过本发明图1所示的方法,通过在文件标识id中融入文件内容信息以及利用纠错码概念,实现了将相似的文件存储到了物理上相同或临近的节点。
图2为本发明文件映射装置的组成结构示意图,如图2所示,至少包括第一生成模块和映射模块,其中,
第一生成模块,用于对文件的关键字进行哈希运算,利用布鲁姆过滤器对经过哈希运算的关键字进行处理后生成文件标识。
映射模块,用于获取文件标识间的海明码距离,并将获得的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中预设条件为海明码距离的大小与文件是否相似之间的对应关系。
图3为本发明文件推荐方法的流程图,如图3所示,包括:
步骤300:对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量。
为了能给用户推荐其感兴趣的文件,文件共享应用系统会维护用户的搜索和共享历史,记录用户搜索和分享过的文件的关键字,比如某用户维护的关键字为{网络,计算机,系统结构}等。
本步骤中的获得用户的兴趣向量U包括:与用户兴趣相关的关键字个数的各关键字分别经过哈希运算后的结果组成的、长度为与用户兴趣相关的关键字个数的的兴趣向量U,具体实现属于本领域技术人员按照本发明的记载容易实现的,这里不再赘述。
步骤301:利用纠错码确定生成的用户的兴趣向量表征的文件的存储位置。本步骤的具体实现就是按照图1所示的步骤101的方法进行实现即可,包括:利用布鲁姆过滤器对经过哈希运算的用户兴趣相关的关键字进行处理后生成表征用户兴趣的文件的文件标识;
利用纠错码建立节点的节点标识node_id至纠错节点标识node_err_id的一一映射关系;
在所有的纠错节点标识node_err_id中,选择一个与所述表征用户兴趣的文件的文件标识的海明码距离最小的、并且值最小的纠错节点标识node_err_id,将所述表征用户兴趣的文件的文件标识存储在与该纠错节点标识node_err_id对应的节点标识node_id表示的物理节点上。
步骤302:根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。
本步骤中,计算用户的兴趣向量U和由步骤301所确定的存储位置上的文件的文件标识id的海明码距离,当海明码距离小于或等于预先设置的距离阈值时,确定二者相似度高,且该文件标识对应的文件为用户感兴趣的文件。其中,距离阈值是根据实际应用环境确定的,属于本领域技术人员知道的,这里不再赘述。
由于本发明中,通过在文件标识中融入文件内容信息以及利用纠错码概念,实现了将相似的文件存储到了物理上相同或临近的节点。因此,在本发明图3所示的文件推荐方法中,仅仅需要判断与用户兴趣相似的文件及临近的其他文件是否为用户感兴趣的文件即可,而不需要对整个系统中的所有文件进行逐一判断,这样显然提高了文件推荐的效率。
图4为本发明文件推荐装置的组成结构示意图,如图4所示,至少包括第二生成模块、处理模块和确定模块,其中,
第二生成模块,用于对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;
处理模块,用于利用纠错码概念确定生成的用户的兴趣向量表征的文件的存储位置。
确定模块,用于根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种文件映射方法,其特征在于,包括:利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识;
将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。
2.根据权利要求1所述的文件映射方法,其特征在于,所述文件的关键字包括s个,s为大于1的自然数;所述生成文件标识包括:
计算所述s个关键字的一致性哈希在布鲁姆过滤器中的s次插入操作。
3.根据权利要求1或2所述的文件映射方法,其特征在于,所述将文件标识间海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点包括:
利用纠错码建立所述节点的节点标识至纠错节点标识的一一映射关系;
在所有的纠错节点标识中,选择一个与所述文件标识海明码距离最小的、并且值最小的纠错节点标识,将所述文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。
4.一种文件映射装置,其特征在于,至少包括第一生成模块和映射模块,其中,
第一生成模块,用于对文件的关键字进行哈希运算,利用布鲁姆过滤器对经过哈希运算的关键字进行处理后生成文件标识;
映射模块,用于获取文件标识间的海明码距离,并将获得的海明码距离满足预设条件的文件,利用纠错码存储到物理上相同或临近的节点,其中所述预设条件为海明码距离的大小与文件是否相似之间的对应关系。
5.一种文件推荐方法,其特征在于,包括:
对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;
利用纠错码确定生成的用户的兴趣向量表征的文件的存储位置;
根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。
6.根据权利要求5所述的文件推荐方法,其特征在于,所述生成用户的兴趣向量包括:所述与用户兴趣相关的各关键字分别经过哈希运算后的结果组成的、长度为所述与用户兴趣相关的关键字个数的兴趣向量U。
7.根据权利要求5所述的文件推荐方法,其特征在于,所述确定生成的用户的兴趣向量表征的文件的存储位置包括:
利用布鲁姆过滤器对经过哈希运算的用户兴趣相关的关键字进行处理后生成表征用户兴趣的文件的文件标识;
利用纠错码建立所述节点的节点标识至纠错节点标识的一一映射关系;
在所有的纠错节点标识中,选择一个与所述表征用户兴趣的文件的文件标识的海明码距离最小的、并且值最小的纠错节点标识,将所述表征用户兴趣的文件的文件标识存储在与该纠错节点标识对应的节点标识表示的物理节点上。
8.根据权利要求5~7任一项所述的文件推荐方法,其特征在于,所述确定用户感兴趣的文件包括:
计算所述用户的兴趣向量U和所述确定出的存储位置上的文件的文件标识的海明码距离,当海明码距离小于或等于预先设置的距离阈值时,确定二者相似度高,且该文件标识对应的文件为用户感兴趣的文件。
9.一种文件推荐装置,其特征在于,至少包括第二生成模块、处理模块和确定模块,其中,
第二生成模块,用于对与用户兴趣相关的关键字进行哈希运算并生成用户的兴趣向量;
处理模块,用于利用纠错码概念确定生成的用户的兴趣向量表征的文件的存储位置;
确定模块,用于根据生成的用户的兴趣向量和存储位置上的文件标识的相似度,确定用户感兴趣的文件,其中,文件标识为利用布鲁姆过滤器对经过哈希运算的文件的关键字进行处理后生成文件标识。
CN201410390122.6A 2014-08-08 2014-08-08 文件映射方法及装置和文件推荐方法及装置 Active CN104102748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410390122.6A CN104102748B (zh) 2014-08-08 2014-08-08 文件映射方法及装置和文件推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410390122.6A CN104102748B (zh) 2014-08-08 2014-08-08 文件映射方法及装置和文件推荐方法及装置

Publications (2)

Publication Number Publication Date
CN104102748A true CN104102748A (zh) 2014-10-15
CN104102748B CN104102748B (zh) 2017-12-22

Family

ID=51670901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410390122.6A Active CN104102748B (zh) 2014-08-08 2014-08-08 文件映射方法及装置和文件推荐方法及装置

Country Status (1)

Country Link
CN (1) CN104102748B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796478A (zh) * 2015-04-24 2015-07-22 中国联合网络通信集团有限公司 一种资源推荐方法及装置
CN106970930A (zh) * 2016-10-10 2017-07-21 阿里巴巴集团控股有限公司 消息发送确定方法及装置、数据表创建方法及装置
CN107391542A (zh) * 2017-05-16 2017-11-24 浙江工业大学 一种基于文件知识图谱的开源软件社区专家推荐方法
CN109063105A (zh) * 2018-07-27 2018-12-21 北京字节跳动网络技术有限公司 文件存储方法、装置、计算机设备和存储介质
CN110083775A (zh) * 2019-05-13 2019-08-02 北京顺丰同城科技有限公司 一种推荐资源的配置方法及配置装置

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
CN1378158A (zh) * 2001-03-29 2002-11-06 国际商业机器公司 应用于操作系统的文件分类管理系统及方法
US20050086268A1 (en) * 2001-12-19 2005-04-21 Rogers Mark F. Idea service for automatic file naming and storing
US20060230009A1 (en) * 2005-04-12 2006-10-12 Mcneely Randall W System for the automatic categorization of documents
US20060259516A1 (en) * 2005-05-11 2006-11-16 Stakutis Christopher J Nondisruptive method for encoding file meta-data into a file name
US20090192979A1 (en) * 2008-01-30 2009-07-30 Commvault Systems, Inc. Systems and methods for probabilistic data classification
US7610285B1 (en) * 2005-09-21 2009-10-27 Stored IQ System and method for classifying objects
CN101963982A (zh) * 2010-09-27 2011-02-02 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
US20110075891A1 (en) * 2009-09-29 2011-03-31 Fujifilm Corporation Image classifying device, image classifying system, image classifying method, and recording medium
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102722554A (zh) * 2012-05-28 2012-10-10 中国人民解放军信息工程大学 位置敏感哈希随机性减弱方法
CN102915347A (zh) * 2012-09-26 2013-02-06 中国信息安全测评中心 一种分布式数据流聚类方法及系统
US8392472B1 (en) * 2009-11-05 2013-03-05 Adobe Systems Incorporated Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
US8560579B1 (en) * 2011-12-21 2013-10-15 Google Inc. Systems and methods for managing a network by generating files in a virtual file system
US20140025636A1 (en) * 2012-07-19 2014-01-23 Appsense Limited Systems and methods for providing metadata enhanced filenames
US8650166B1 (en) * 2011-07-11 2014-02-11 Symantec Corporation Systems and methods for classifying files
CN103605708A (zh) * 2013-11-11 2014-02-26 中国科学院计算技术研究所 Kad网络中由关键词哈希值推测关键词的方法及系统
CN103744934A (zh) * 2013-12-30 2014-04-23 南京大学 一种基于位置敏感哈希的分布式索引方法
US20140156665A1 (en) * 2012-12-03 2014-06-05 Adobe Systems Incorporated Automatic document classification via content analysis at storage time

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1378158A (zh) * 2001-03-29 2002-11-06 国际商业机器公司 应用于操作系统的文件分类管理系统及方法
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
US20050086268A1 (en) * 2001-12-19 2005-04-21 Rogers Mark F. Idea service for automatic file naming and storing
US20060230009A1 (en) * 2005-04-12 2006-10-12 Mcneely Randall W System for the automatic categorization of documents
US20060259516A1 (en) * 2005-05-11 2006-11-16 Stakutis Christopher J Nondisruptive method for encoding file meta-data into a file name
US7610285B1 (en) * 2005-09-21 2009-10-27 Stored IQ System and method for classifying objects
US20090192979A1 (en) * 2008-01-30 2009-07-30 Commvault Systems, Inc. Systems and methods for probabilistic data classification
US20110075891A1 (en) * 2009-09-29 2011-03-31 Fujifilm Corporation Image classifying device, image classifying system, image classifying method, and recording medium
US8392472B1 (en) * 2009-11-05 2013-03-05 Adobe Systems Incorporated Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
CN101963982A (zh) * 2010-09-27 2011-02-02 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
US8650166B1 (en) * 2011-07-11 2014-02-11 Symantec Corporation Systems and methods for classifying files
US8560579B1 (en) * 2011-12-21 2013-10-15 Google Inc. Systems and methods for managing a network by generating files in a virtual file system
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102722554A (zh) * 2012-05-28 2012-10-10 中国人民解放军信息工程大学 位置敏感哈希随机性减弱方法
US20140025636A1 (en) * 2012-07-19 2014-01-23 Appsense Limited Systems and methods for providing metadata enhanced filenames
CN102915347A (zh) * 2012-09-26 2013-02-06 中国信息安全测评中心 一种分布式数据流聚类方法及系统
US20140156665A1 (en) * 2012-12-03 2014-06-05 Adobe Systems Incorporated Automatic document classification via content analysis at storage time
CN103605708A (zh) * 2013-11-11 2014-02-26 中国科学院计算技术研究所 Kad网络中由关键词哈希值推测关键词的方法及系统
CN103744934A (zh) * 2013-12-30 2014-04-23 南京大学 一种基于位置敏感哈希的分布式索引方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796478A (zh) * 2015-04-24 2015-07-22 中国联合网络通信集团有限公司 一种资源推荐方法及装置
CN104796478B (zh) * 2015-04-24 2019-03-15 中国联合网络通信集团有限公司 一种资源推荐方法及装置
CN106970930A (zh) * 2016-10-10 2017-07-21 阿里巴巴集团控股有限公司 消息发送确定方法及装置、数据表创建方法及装置
CN107391542A (zh) * 2017-05-16 2017-11-24 浙江工业大学 一种基于文件知识图谱的开源软件社区专家推荐方法
CN107391542B (zh) * 2017-05-16 2021-01-01 浙江工业大学 一种基于文件知识图谱的开源软件社区专家推荐方法
CN109063105A (zh) * 2018-07-27 2018-12-21 北京字节跳动网络技术有限公司 文件存储方法、装置、计算机设备和存储介质
CN110083775A (zh) * 2019-05-13 2019-08-02 北京顺丰同城科技有限公司 一种推荐资源的配置方法及配置装置

Also Published As

Publication number Publication date
CN104102748B (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
Fu et al. Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement
CN104102748A (zh) 文件映射方法及装置和文件推荐方法及装置
US11157652B2 (en) Obfuscation and deletion of personal data in a loosely-coupled distributed system
EP3497625A1 (en) Aggregate features for machine learning
CN105447113B (zh) 一种基于大数据的信息分析方法
CN108959370B (zh) 一种基于知识图谱中实体相似度的社区发现方法及装置
Roldán et al. Multidimensional Fixed‐Point Theorems in Partially Ordered Complete Partial Metric Spaces under (ψ, φ)‐Contractivity Conditions
CN104317823B (zh) 一种利用数据指纹进行数据检测的方法
Zhong et al. Efficient dynamic multi-keyword fuzzy search over encrypted cloud data
Awad et al. Chaotic searchable encryption for mobile cloud storage
CN107391557B (zh) 针对设置链外勘误表的区块链串行查询方法及系统
CN106445643B (zh) 克隆、升级虚拟机的方法及设备
CN111984732B (zh) 在区块链上实现去中心化检索的方法、节点及区块链网络
CN111095210A (zh) 基于纠错编码存储共享的区块链数据
CN105447166A (zh) 一种基于关键字查找信息的方法及系统
CN107463596B (zh) 针对设置链外勘误表的区块链并行查询方法及系统
US10673713B2 (en) Communication control device, communication device, and computer program product for dynamic group management
CN102073733A (zh) 哈希表管理方法及装置
Çevik On continuity of functions between vector metric spaces
CN109101232B (zh) 一种产品开发的方法、装置、计算机设备及存储介质
CN106569986B (zh) 字符串替换方法和装置
CN111814052A (zh) 移动互联网用户管理方法、装置、服务器及可读存储介质
CN113656466A (zh) 保单数据查询方法、装置、设备及存储介质
CN114385080A (zh) 一种区块链数据的存储方法及系统
CN104239307A (zh) 用户信息存储方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant