CN115099795B

CN115099795B - 企业内部数字资源管理方法及系统

Info

Publication number: CN115099795B
Application number: CN202211037138.XA
Authority: CN
Inventors: 李倩倩
Original assignee: Jiangsu Qingshan Software Co ltd
Current assignee: Jiangsu Qingshan Software Co ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-11
Anticipated expiration: 2042-08-29
Also published as: CN115099795A

Abstract

本发明涉及企业数字管理领域，具体涉及一种企业内部数字资源管理方法及系统，通过对企业内部的数字资源文件的特征标识和场景信息，获取上传行为码，以及数字资源文件的文本特征码，判断数字资源文件的敏感度以及关注度，从而实现数字资源文件的推荐。即本发明的方案能够实时对数字资源文件精确有效地分析得出关注度不同的数字资源文件，能够对高关注度的数字资源文件的不同子簇生成推荐文件列表，进行数字资源文件的推荐，使得企业内部数字资源文件能够科学、细致、人性化地被管理。

Description

企业内部数字资源管理方法及系统

技术领域

本发明涉及企业数字管理领域，具体为企业内部数字资源管理方法及系统。

背景技术

当企业文件在共享区被共享，一般的推荐访问系统是仅考虑访问频次，但是无法从文件的变动等角度考虑。因此经常会遇到一个文件被简单修改后迟迟不离开推荐的访问列表，当文档较多时，使用者难以区分何种文件需要关注，也可能在一段繁忙工作后，更重要的文件被排到更底部的推荐列表中。

因此如何分析并将企业数字资源的文件合适地推荐给使用者，使得企业内部数字资源能够科学、细致、人性化地被管理，是亟需要解决的问题。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种企业内部数字资源管理方法及系统，所采用的技术方案具体如下：

本发明提供的一种企业内部数字资源管理方法的技术方案，包括以下步骤：

获取企业内部在各采集时长内上传的数字资源文件的特征标识和场景信息，将所述特征标识以及场景信息进行编码合并处理，得到上传行为码，所述上传行为码包括当前上传行为码和历史上传行为码；

获取各采集时长内的各数字资源文件的文本词汇表，对所述文本词汇表中的所有词汇进行编码得到文本特征码；所述文本特征码包括当前特征码和历史特征码，所述采集时长包括历史采集时长和当前采集时长；

基于任意两两数字资源文件的历史特征码以及历史上传行为码，计算任意两两数字资源文件的邻域距离，基于各数字资源文件对应的邻域距离，计算局部变动域，将所有局部变动域记为历史变动域；进而得到所有数字资源文件对应的历史变动域；

获取任一数字资源文件，根据设定策略确定该数字资源文件的有效历史时长，得到各数字资源文件的有效历史时长以及对应的历史变动域；

根据各数字资源文件对应的当前上传行为码和当前特征码，计算每个数字资源文件的当前变动域；选取任意两数字资源文件在有效历史时长内的历史变动域，确定调节变动域，并计算两数字资源文件的聚类空间距离，基于各两两数字资源文件的聚类空间距离，对所有数字资源文件进行聚类，得到不同簇；

计算每个簇的平均当前变动域，按照平均当前变动域从大到小的优先级对不同簇进行排序，并按照优先级的高低，对每个簇内的当前变动域进行关注度的标注，生成高关注度对应的数字资源文件的推荐文件列表。

优选地，所述设定策略为：对获取的任一数字资源文件，设定初始历史观察时长，计算该初始历史观察时长中数字资源文件对应的场景信息经过编码后的汉明距离，计算初始历史观察时长以及汉明距离的和，作为该数字资源文件的有效历史时长；所述初始历史观察时长小于所述历史采集时长。

优选地，所述局部变动域的获取过程为：将其中任一数字资源文件对应的邻域距离按照从小到大排序，选取前k个邻域距离；将前k个邻域距离的均值作为各数字资源文件的局部变动域。

优选地，所述调节变动域是基于各数字资源文件的历史变动域中的最小值与最大值的比值对对应的数字资源文件的当前变动域进行调节得到的；所述聚类空间距离为两数字资源文件的调节变动域的差异的绝对值。

优选地，所述文本词汇表是基于文本词频统计的分词方法处理得到的。

本发明还提供一种企业内部数字资源管理系统，包括存储器和处理器，所述处理器执行所述存储器存储的上述一种企业内部数字资源管理方法的技术方案。

本发明的有益效果：

本发明的方案通过改良的目标函数将企业数字资源文件自动区分为三种访问关注度，从而更精确有效地分析得出关注度不同的数字资源文件，能够对高关注度的数字资源文件的不同子簇生成推荐文件列表，进行数字资源文件的推荐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的一种企业内部数字资源管理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的方案，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明的场景针对的是需要关注的数字资源文件通常是被改动的内部数字资源文件，因此本发明只关注第二次及更多次被访问的数字资源文件。需要说明的是，本发明中的数字资源文件是指企业内部数字管理系统中的文档或者文件，如以腾讯文档管理系统为例，某企业采用腾讯文档中保存的文件，但是该腾讯文档仅用于保存文件，其并不显示对修改后的文件的提示或者关注，这样就导致企业内部员工忽略该文件，不能得到及时的关注，这样就无法实现科学、人性化的管理，因此本发明提供了一种企业内部数字资源管理方法，用于能够根据数字资源文件的文件内容以及对应的属性信息，对数字资源文件进行分析，使得能够及时的被推荐。

具体地，请参阅图1所示，本发明提供的一种企业内部数字资源管理方法，包括以下步骤：

步骤1，获取企业内部在各采集时长内上传的数字资源文件的特征标识和场景信息，将所述特征标识以及场景信息进行编码合并处理，得到上传行为码，所述上传行为码包括当前采集时长的当前上传行为码和历史采集时长的历史上传行为码。

本实施例中的特征标识为用户浏览器指纹（包括UA、时区、地理位置）以及用户操作等。其中的“浏览器指纹”是一种通过浏览器对网站可见的配置和设置信息来跟踪Web浏览器的方法，浏览器指纹就像我们人手上的指纹一样，具有个体辨识度，只不过现阶段浏览器指纹辨别的是浏览器。获取浏览器具有辨识度的信息，进行一些计算得出一个值，那么这个值就是浏览器指纹。辨识度的信息可以是UA、时区、地理位置或者是你使用的语言等等，你所选取的信息决定了浏览器指纹的准确性。

对于浏览器指纹，其为企业内部浏览器，是由企业IT技术人员统一进行软件部署的，因此访问企业内部数字资源时，访问的方法是可以被指纹化并进行编码的，基于JavaScript技术对用户客户端的浏览器指纹做搜集，从而得到不同的浏览器指纹，对指纹进行分类。

具体地，对不同使用者对应的浏览器指纹进行ONE-Hot编码，得到各浏览器指纹对应的ONE-Hot编码

，

的维度由目标公司包括的浏览器指纹的数量确定；若目标公司包括M个浏览器指纹，包括未登记指纹、指纹1和指纹2等，那么

的维度为M。

需要说明的是，上述浏览器指纹技术可以基于Cookie进行哈希化编码，从而判别是否属于已经登记的指纹和未登记的指纹，浏览器指纹化技术是多样且公知的，因此不再赘述。

本实施例中的场景信息为企业内部不同的部门的ID信息，如未知部门、行政部门、技术部门1、技术部门2共N个部门，则具有N个不同的ID信息。对部门ID进行归一化处理和ONE-Hot编码得到各部门对应的ONE-Hot编码

，其中

的维度由部门数量而定，若目标企业包括N个部门，那么

的维度为N。

至此，将两个One-Hot编码合并成高维的上传行为码

。

上述中的

函数是将两个二进制编码合并成一个编码。

本实施例中获取的上传行为码的作用，具体以企业内部的一个部门的使用者为例，通常使用计算机上运行的相似种类浏览器，可以用来判别：

1）其修改数字资源文件的意图和行为是否相似；

2）其职能和职责是否相似；

3）若在职能和职责相似的情况下出现了数字资源文件中语义历史变动较大的情况，则意味着该数字资源文件被修改后在企业内部有访问全新的用户的推荐列表中尤为重视。

步骤2，获取各采集时长内的各数字资源文件的文本词汇表，对所述文本词汇表中的所有词汇进行编码得到文本特征码；所述文本特征码包括当前特征码和历史特征码，所述采集时长包括历史采集时长和当前采集时长。

具体地，本实施例中是基于文本词频统计的分词方法处理各采集时长内的企业内部所有数字资源文件，获取文本词汇表，并对所述文本词汇表中的所有词汇进行编码得到文本特征码；其中的文本特征码包括当前采集时长对应的当前特征码和历史采集时长对应的历史特征码。

本实施例中的文本词频统计的分词方法为基于词袋模型的文本词频统计，即对于企业内部所有数字资源文件，对其进行基于词袋模型的文本词频统计，词袋模型统计词频后，得到该企业数据资源文件中所有词的词频，此时对常见词汇和领域中因措辞而重复出现的词汇进行排除，得到文本词汇表。

目前有较多的领域常用词词库，实施者可以较为灵活地选择排除词汇。

上述中的词袋模型在数字资源文件进行处理时，通过统计每个词在对应数字资源文件中出现的次数，就可以得到对应数字资源文件的特征，即一种词向量；词袋模型主要通过TF-IDF（TF-IDF是term frequency–inverse document frequency的缩小，是一种用于信息检索与数据挖掘的常用加权技术）进行次特征值的计算，及时去除了常用词和领域词。但由于企业数字资源文件过多，因此词汇表很容易突破100万的大小。为了减少后期计算量，本发明使用HashingVectorizer，对文件词汇表编码为65536维的特征码。由于文本的稀疏性和语义的相似性，本实施例中进行哈希表示后的特征仍然能够很好代表哈希前的特征，兼顾了文本的准确性。

步骤3，基于任意两两数字资源文件的历史特征码以及历史上传行为码，计算任意两两数字资源文件的邻域距离，得到所有数字资源文件对应的邻域距离，计算局部变动域，将所有局部变动域记为历史变动域，进而得到所有数字资源文件对应的历史变动域。

其中的邻域距离为：

其中，

为数字资源文件p的历史特征码，

为数字资源文件q的历史特征码，

为数字资源文件p的历史上传行为码，

为数字资源文件q的历史上传行为码。

上述公式中，

为哈希特征表示的历史特征码之间的向量夹角相似度，即基于余弦相似度的距离，其值域是[1,3]。该项代表了编辑行为的距离缩放系数，从而形成一种共同表示数字资源文件操作时的内容及操作异常性的联合距离。其中

为上传行为码的相似距离，是一种汉明距离。

需要说明的是，由于数字资源文件的历史更改所包含的语义不是完全相似的，但可能近似属于同一种语义，因此当一个文件特征码属于同一种语义时，

能够代表数字资源文件的内容特征相似，因此在假设空间中距离被缩放至相近的距离上，即该项趋于1，反之被疏远到较远的距离。

进一步地，本实施例中还将其中任一数字资源文件对应的邻域距离按照从小到大排序，选取前k个邻域距离；将前k个邻域距离的均值作为各数字资源文件的局部变动域：

其中，

为选取的数字资源文件p对应的邻域距离按照从小到大排序之后的前k个邻域距离的集合，

为

集合中数字资源文件p与数字资源文件q之间的邻域距离。

至此，对历史观察时长中的每次的局部变动域进行记录，得到该数字资源文件p的历史变动域

，其中，

为初始局部变动域，

为第一次观察的局部变动域，…，

为第m次观察的局部变动域，其中，m+1为历史观察时长的总观察次数。

需要说明的是，数字资源文件p的第K可达距离

内，能够涵盖较多的数字资源文件q，因此在涵盖的空间内将涵盖的所有数字资源文件q构建成集合

。当每个数字资源文件的局部变动域越大时，数字资源文件p的语义和操作特征与周围文件的密集度越高，各数字资源文件的可达距离是相近的，各数字资源文件相似，即证明各数字资源文件正常。反之意味着密集度低，意味着存在数字资源文件异常。

对于异常的数字资源文件样本有两种情况：数字资源文件因语义变动较大而异常；数字资源文件因部门的不常见行为而异常。

上述步骤中，获取数字资源文件的局部变动域的原因是，由于一个数字资源文件被修改后，特征码在整个词向量空间中存在变动范围，若该变动范围较小，则认为无论多少字被修改，数字资源文件变动内容较小，反之较大。由于词向量空间构建时，词袋模型已经去除了常见词汇和重复的领域词汇，因此本方法对改动的语义的变化更为敏感，即对含义变更的修订更敏感，而其余的增、删改的操作不敏感；具体地：

例如一：数字资源文件中一段文本的原句为“两个分类器串联”，被改为“第一分类器和第二分类器串联”，则第一、第二属于因措辞而重复出现的词汇，文件特征码是基于词向量的哈希特征来确定的，因此改动后数字资源文件的历史特征码在哈希特征空间中的游走距离较近，也就是说特征码在整个词向量空间中的变动范围不大。

例如二：数字资源文件中一段文本的原句为“两个分类器串联”，被改为“第一编码器和第一解码器串联”，则由于分类器和编码器以及解码器的词不同，在文本中含义也不同，当发生诸如此类的修改时，词向量对改动的语义的变化更为敏感，即对含义变更的修订更敏感，进而特征码在整个词向量空间中的变动范围敏感。

需要说明的是，每个数字资源文件都含有当前特征码和历史特征码，也即本实施例中分析的每个数字资源文件都是采集的对应数字资源文件的历史状态和当前状态的相关数据，进而得到对应的历史信息和当前信息。

步骤4，获取任一数字资源文件，根据设定策略确定该数字资源文件的有效历史时长，得到各数字资源文件的有效历史时长以及对应的历史变动域。

上述中的设定策略为：

对获取的任一数字资源文件，设定初始历史观察时长，计算该初始历史观察时长中数字资源文件对应的场景信息经过编码后的汉明距离，计算初始历史观察时长以及汉明距离的和，作为该数字资源文件的有效历史时长；所述初始历史观察时长小于所述历史采集时长。

上述中的设定的初始历史观察时长

是从历史采集时长中截取的一段时长，其对应有相应的观察次数，各数字资源文件在该设定历史观察时长中也具有对应的场景信息，但是由于不同的数字资源文件受到不同的场景信息（部门）的影响，其变动范围也是明显不同的，如有的数字资源文件同时受到3个部门访问或修改等操作，有的数字资源文件受到2个部门访问或修改等操作，有的数字资源文件仅受到1个部门访问或修改等操作，从而导致ONE-Hot编码

的维度不同（其中

的维度由部门数量而定），进而导致对应的数字资源文件的汉明距离

也不同，从场景信息方面证明每个数字资源文件的关注敏感度，基于场景的关注敏感度结合初始历史观察时长，能够获取每个数字资源文件的有效历史时长（

）以及有效历史时长对应的历史变动域。

上述中的汉明距离为：

其中OR为所有

的One Hot编码的或运算，其中POPCNT为计算或运算后该向量中有多少个为1的值，

为数字资源文件中的第i个场景信息对应的ONE-Hot编码。

需要说明的是，本实施例中的有效历史时长一般是小于历史采集时长，但是若有效历史时长大于等于历史采集时长，则有效历史时长为历史采集时长。

本发明中各数字资源文件的观察长度由该数字资源文件的相关部门来提高对历史部门修改的敏感程度，从而更好地对关注程度进行分级；能够更好地对关注程度进行分级的原因是：此类方式能够自动确定一个数字资源文件的观察长度，从而通过相关部门数量来修正计算变动的历史范围，从而避免多个部门之间来回修改数字资源文件导致长期语义变动很大、从而无法发现历史变动域的变化特征的问题。

步骤5，根据各数字资源文件对应的当前上传行为码和当前特征码，计算每个数字资源文件的当前变动域；选取任意两数字资源文件在有效历史时长内的历史变动域，确定调节变动域，并计算两数字资源文件的聚类空间距离，基于各两两数字资源文件的聚类空间距离，对所有数字资源文件进行聚类，得到不同簇。

本实施例中，调节变动域是基于各数字资源文件的历史变动域中的最小值与最大值的比值对对应的数字资源文件的当前变动域进行调节得到的；所述聚类空间距离为两数字资源文件的调节变动域的差异的绝对值。

具体地，本实施例中的聚类空间距离为

其中，

为数字资源文件p的当前变动域，

为数字资源文件p在有效历史时长

中的历史变动域，

为数字资源文件q的当前变动域，

为数字资源文件q在有效历史时长

中的历史变动域。

公式中，

表示数字资源文件p在历史记录中，最小变动域占最大变动域之比，当比例较大时，认为数字资源文件最近的相对变动较大，反之认为数字资源文件最近的相对变动较小。

本实施例中采用DBSCAN算法对所有数字资源文件进行聚类，得到不同簇，基于获取的任意两数字资源文件的聚类空间距离，进行分类。

步骤6，计算每个簇的平均当前变动域，按照平均当前变动域从大到小的优先级对不同簇进行排序，并按照优先级的高低，对每个簇内的当前变动域进行关注度的标注，生成高关注度对应的数字资源文件的推荐文件列表。

本实施例中，每个簇的平均当前变动域为

其中，其中

是一个簇内的第j个数字资源文件当前的变动域，M为簇内的数字资源文件的总个数。

本实施例中，先根据每个簇的平均当前变动域对不同簇进行排序，然后根据每个簇内的数字资源文件的当前变动域进行排序，并将排序后簇内的前10%的数字资源文件标记为高关注程度、中间30%的数字资源文件为中关注程度。

需要说明的是，本发明中的数字资源文件的访问关注程度与计算机系统的存储分级、存储成本、访问人员有限的精力和巨量的数据关于的，因此可以被分为低关注程度，中关注程度，高关注程度。根据数字资源文件的历史变动域和数字资源文件的更新指数可以按照访问因素和内容因素被本发明的方法赋予三种不同的标签，即低关注程度0，中关注程度1，高关注程度2。

而由于DBSCAN无法对数字资源文件进行直接的分级，因此在无监督分类聚类的实践中，本发明使用DBSCAN算法，基于访问的三个客观的关注度模式提出一种分级自动策略：数字资源文件在企业工作流程中被大量产生，并经历访问、改写、归档后从热数据变为冷数据，因此高关注度面向的数字资源文件一般是被频繁变动并不断被重新提及的，鉴于企业内部工作流和员工的精力，高关注程度的数字资源文件不会过多。因此本发明基于10%的比例对企业的数字资源进行高关注程度的设计。中关注程度的数字资源文件是相对于低关注程度和高关注程度之间的定位，因此中关注程度相对于低关注程度而言更低，但为了保证企业数字资源文件不能被冷落为冷数据。因此，本发明中将中关注程度比例被设计为30%。而低关注程度的数字资源文件主要是一种改写后特征码变化不大，且上传行为较为常规的文件，主要存在于各种CRM流程或ERP流程的归档表单，或是常见的一次性报表、工单。因此设计低关注程度比例被设计为60%。

当然作为其他实施方式，实施者还可以动态调整中关注程度比例和低关注程度比例，从而平衡数字资源文件推荐时的非必要信息的数量。

通过这种改良好的新方法将其分成三组，由于数字资源文件的使用习惯不同，每一组的访问模式都不同，对于企业内部数字资源管理，目前现有技术能够做到的是智能推荐经常访问的数字资源文件，但无法区分数字资源文件内容和对应访问模式。本发明提供了一种数字资源文件的分析方法，并通过改良的目标函数将企业数字资源文件自动区分为三种访问关注度，从而更精确有效地分析得出关注度不同的数字资源文件。

本发明的方案能够对高关注度的数字资源文件的不同子簇生成推荐文件列表，进行数字资源文件的推荐。

本发明还提供了一种企业内部数字资源管理方法，包括存储器和处理器，所述处理器执行所述存储器存储的上述的一种企业内部数字资源管理方法的技术方案。

由于上述已对一种企业内部数字资源管理方法进行了详细的介绍，此处不再进行过多赘述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种企业内部数字资源管理方法，其特征在于，包括以下步骤：

计算每个簇的平均当前变动域，按照平均当前变动域从大到小的优先级对不同簇进行排序，并按照优先级的高低，对每个簇内的当前变动域进行关注度的标注，生成高关注度对应的数字资源文件的推荐文件列表；

所述特征标识为用户浏览器指纹以及用户操作；用户浏览器指纹包括UA、时区、地理位置；场景信息为企业内部不同的部门的ID信息；

其中的邻域距离为：

其中，

为数字资源文件p的历史特征码，

为数字资源文件q的历史特征码，

为数字资源文件p的历史上传行为码，

为数字资源文件q的历史上传行为码；

为哈希特征表示的历史特征码之间的向量夹角相似度，即基于余弦相似度的距离，代表了编辑行为的距离缩放系数，从而形成一种共同表示数字资源文件操作时的内容及操作异常性的联合距离

为上传行为码的相似距离，是一种汉明距离。

2.根据权利要求1所述的一种企业内部数字资源管理方法，其特征在于，所述设定策略为：对获取的任一数字资源文件，设定初始历史观察时长，计算该初始历史观察时长中数字资源文件对应的场景信息经过编码后的汉明距离，计算初始历史观察时长以及汉明距离的和，作为该数字资源文件的有效历史时长；所述初始历史观察时长小于所述历史采集时长。

3.根据权利要求1所述的一种企业内部数字资源管理方法，其特征在于，所述局部变动域的获取过程为：将其中任一数字资源文件对应的邻域距离按照从小到大排序，选取前k个邻域距离；将前k个邻域距离的均值作为各数字资源文件的局部变动域。

4.根据权利要求1所述的一种企业内部数字资源管理方法，其特征在于，所述调节变动域是基于各数字资源文件的历史变动域中的最小值与最大值的比值对对应的数字资源文件的当前变动域进行调节得到的；

所述聚类空间距离为两数字资源文件的调节变动域的差异的绝对值。

5.根据权利要求1所述的一种企业内部数字资源管理方法，其特征在于，所述文本词汇表是基于文本词频统计的分词方法处理得到的。

6.一种企业内部数字资源管理系统，包括存储器和处理器，其特征在于，所述处理器执行所述存储器存储的如权利要求1-5中任一项所述一种企业内部数字资源管理方法的程序。