CN112579535A

CN112579535A - 一种文件匹配方法、装置、电子设备及存储介质

Info

Publication number: CN112579535A
Application number: CN201910944699.XA
Authority: CN
Inventors: 焦张波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-03-30

Abstract

本申请涉及一种文件模板匹配方法、装置、电子设备及存储介质，其中方法包括：获取第一用户使用文件的第一历史记录；其中，所述第一历史记录包括至少一个文件；根据所述第一历史记录生成第一特征集；其中，所述第一特征集中包括至少一个第一特征；获取与所述第一特征集匹配的第二特征集；查询与所述第二特征集对应的文件。本申请实施例提供的上述技术方案与现有技术相比具有如下优点：可以帮助用户快速匹配到其所需的文件，而不用在众多文件中进行逐一挑选，有效降低文件筛选的繁琐性，能有效避免出现浪费时间的问题。

Description

一种文件匹配方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文件匹配方法、装置、电子设备及存储介质。

背景技术

随着计算机数据处理技术的发展，智能化办公越来越多的融入到人们的工作中来；在各种自定义报表系统中，用户会生成各种各样的报表，报表的内容多种多样，报表的格式也多种多样，有的报表设计好，有的设计不好，所以用户在使用的使用，也希望得到系统的推荐，能够看到同类型的优秀报表；但是，现有技术中的报表均需要用户自己进行选择，无法获得系统推荐，因此在众多的报表系统中进行选择极为繁琐，并且会浪费大量的时间。

针对相关技术中存在的诸多技术问题，目前尚未提供有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种文件匹配方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种文件匹配方法，包括：

获取第一用户使用文件的第一历史记录；其中，所述第一历史记录包括至少一个文件；

根据所述第一历史记录生成第一特征集；其中，所述第一特征集中包括至少一个第一特征；

获取与所述第一特征集匹配的第二特征集；

查询与所述第二特征集对应的文件。

进一步的，如前述的文件匹配方法，所述根据所述第一历史记录生成第一特征集，包括：

提取所述第一历史记录的文件中的第一特征；

根据所述第一特征得到待处理特征集；

对所述待处理特征集中的第一特征进行去重，生成所述第一特征集。

进一步的，所述第一历史记录的文件为多个，所述根据所述第一历史记录生成第一特征集，包括：

提取每个所述第一历史记录的文件中的第一特征；

根据所述第一特征得到待处理特征集；

确定所述待处理特征集中每个所述第一特征之间的共同属性；

基于所述共同属性对待处理特征集中的所述第一特征进行合并，得到所述第一特征对应的父特征；

将所述父特征添加进所述待处理特征集中，得到所述第一特征集。

进一步的，如前述的文件匹配方法，所述获取与所述第一特征集匹配的第二特征集，包括：

计算所述第一特征集与所述第二特征集的相似度；

当所述相似度符合预设条件时，确定所述第二特征集与所述第一特征集匹配，并获取与所述第一特征集匹配的第二特征集。

进一步的，如前述的文件匹配方法，所述相似度符合预设条件，包括：

所述相似度大于或等于预设阈值；或者

按照从大到小对各个相似度进行排序，前预设个数的相似度。

进一步的，如前述的文件匹配方法，查询与所述第二特征集对应的文件，包括：

确定所述第二特征集对应的第二用户；

获取所述第二用户使用过的报表模板；其中，所述报表模板为所述文件中的一种；

将所述第二用户使用过的报表模板推送给所述第一用户。

第二方面，本申请提供了一种文件匹配装置，包括：

获取模块，用于获取第一用户使用文件的第一历史记录；其中，所述第一历史记录包括至少一个文件；

提取模块，用于根据所述第一历史记录生成第一特征集；其中，所述第一特征集中包括至少一个第一特征；

匹配模块，用于获取与所述第一特征集匹配的第二特征集；

查询模块，用于查询与所述第二特征集对应的文件。

进一步的，如前述的文件匹配装置，所述提取模块，包括：

提取单元，用于提取所述第一历史记录的文件中的第一特征；

集合单元，用于根据所述第一特征得到待处理特征集；

去重单元，用于对所述待处理特征集中的第一特征进行去重，生成所述第一特征集。

第三方面，本申请提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现如第一方面中任一项所述的匹配方法。

第四方面，本申请提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面中任一项所述的匹配方法。

本申请实施例提供了一种文件模板匹配方法、装置、电子设备及存储介质，其中方法包括：获取第一用户使用文件的第一历史记录；其中，所述第一历史记录包括至少一个文件；根据所述第一历史记录生成第一特征集；其中，所述第一特征集中包括至少一个第一特征；获取与所述第一特征集匹配的第二特征集；查询与所述第二特征集对应的文件。本申请实施例提供的上述技术方案与现有技术相比具有如下优点：可以帮助用户快速匹配到其所需的文件，而不用在众多文件中进行逐一挑选，有效降低文件筛选的繁琐性，能有效避免出现浪费时间的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文件模板匹配方法的流程示意图；

图2为本申请实施例提供的又一种文件模板匹配方法的流程示意图；

图3为本申请实施例提供的又一种文件模板匹配方法的流程示意图；

图4为本申请实施例提供的又一种文件模板匹配方法的流程示意图；

图5为本申请实施例提供的又一种文件模板匹配方法的流程示意图；

图6为本申请实施例提供的一种文件模板匹配装置的功能模块示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种文件匹配方法，包括如下所述步骤S1至S4：

S1.获取第一用户使用文件的第一历史记录；其中，第一历史记录包括至少一个文件；

具体的，第一历史记录为第一用户在对文件进行编辑、查阅等操作之后的记录，且所述第一历史记录主要用于记录第一用户使用过哪些文件，进一步的，所述第一历史记录还可以通过第一用户对文件使用的程度进行文件的选择，例如：在其中一种选定策略中，当第一用户对文件A进行编辑等满足预设使用规则的操作之后则将文件A录入所述第一历史记录中，若第一用户只对文件B进行查阅，且查阅不属于预设使用规则，则不将文件B录入所述第一历史记录中；在另一种可选的策略中，无论用户对文件A进行包括编辑或查阅在内的任意使用，都录入所述第一历史记录中；

S2.根据第一历史记录生成第一特征集；其中，第一特征集中包括至少一个第一特征；

具体的，由于第一历史记录中包括的内容是文件，因此，所述第一特征集是根据文件得到的，且所述第一特征集中的第一特征可以是根据文本中特定位置的文字信息得到，举例来说：当为普通文档时，第一特征可以通过定位标题内容得到，当文件为表格时，第一特征可以是表格中的类别或特征指标，例如：油藏量、油藏类型、地质类型、经纬度等等；此外，也可以是根据文本中特定字符进行识别后得到，例如，统计文本中出现频率最高的词语，并由高至低按序得到N个高频词语，将得到的N个高频词语作为第一特征；

S3.获取与第一特征集匹配的第二特征集；

具体的，第一特征集即为第一用户的第一特征的集合；而第二特征集则是其他用户的特征的集合，也就是说，匹配不同用户间的特征的匹配度，得到与第一特征集中特征匹配的第二特征集；

S4.查询与第二特征集对应的文件；

也就是说，在得到第二特征集之后，目的是为了得到给第一用户进行精准的推荐，且所述与第二特征集对应的文件，一般即为：所述第二特征集所对应的用户使用过的文件；因此，为了实现该功能，会将各个用户对文件的使用记录都进行存储，否则无法实现精准匹配；

因此，本申请实施例提供的上述技术方案与现有技术相比具有如下优点：可以帮助用户快速匹配到其所需的文件，而不用在众多文件中进行逐一挑选，有效降低文件筛选的繁琐性，能有效避免出现浪费时间的问题。

如图2所示，在一些实施例中，如前述的文件匹配装置，所述步骤S2中的根据第一历史记录生成第一特征集，包括如下所述步骤S211 至S213：

S211.提取第一历史记录的文件中的第一特征；

也就是说，对第一历史记录中的每个文件都进行特征提取并得到第一特征；

S212.根据第一特征得到待处理特征集；

具体的，所述待处理特征集只是对步骤S21中提取得到的特征进行简单的综合，也就是说，当第一历史记录中存在文件1、文件2和文件3时；且文件1包括的第一特征有A1、B、C；文件2包括的第一特征有A2、B、D；文件3包括的第一特征有A3、E、C；则所述待处理特征集b[]中包括的元素(特征)则有：A1、B、C、A2、B、D、A3、 E、C；

S213.对待处理特征集中的第一特征进行去重，生成第一特征集；

具体的，由步骤S23中所提的例子可知，得到的集合b[]中，即包括一样的特征：例如两个B、两个C，也包括近似的特征：A1、A2和 A3，因此若通过该待处理特征集进行匹配，则会无端的浪费很多系统所不需要的处理任务(计算量等等)；影响数据处理的效率；

因此，需要对上述情况得到的所述待处理特征集中特征进行处理，以去除完全一致的特征或意思相近的特征；具体的，在根据本申请的一种应用中，在存在相同的第一特征时，可以对重复的第一特征进行删除，直至只剩下一个为止，也可以根据指标同名词表，对特征指标去重(其中，由于文本中的用语大多是；用户自定义的，所以类型很多，而且特征指标的名称由不同的用户抽象，所以同一个特征在不同的报表中可以有不同特征指标名称，这些特征指标经过整理，汇总到一起形成同义词表)。

实现：对于集合b[]，对比同义词表之后，采用标准的特征指标名称，替换之后，生成新的集合c[]，包括：A、B、C、D、E。

如图3所示，在一些实施例中，如前述的文件匹配方法，当第一历史记录的文件为多个时，所述步骤S2中的根据第一历史记录生成第一特征集，包括如下所述步骤S221至S225：包括：

S221.提取第一历史记录的文件中的第一特征；

也就是说，对第一历史记录中的每个文件进行特征提取并得到第一特征；

S222.根据第一特征得到待处理特征集；

具体的，同上所述，待处理特征集只是对步骤S21中提取得到的特征进行简单的综合，也就是说，当第一历史记录中存在文件1、文件 2和文件3时；且文件1包括的第一特征有A1、B、C；文件2包括的第一特征有A2、B、D；文件3包括的第一特征有A3、E、C；则所述待处理特征集b[]中包括的元素(特征)则有：A1、B、C、A2、B、D、 A3、E、C；你可以采用有别于图2所示包包显示的时间；

S223.确定待处理特征集中每个第一特征之间的共同属性；

在根据第一特征得到待处理特征集之后，可以进一步确定各个第一特征之间的共同属性。例如，上述多个第一特征分别为海淀区、西城区、东城区，则可以确定上述第一特征之间的共同属性为对应的行政级别为北京市的一个区。

S224.基于共同属性对待处理特征集中的第一特征进行合并，得到第一特征对应的父特征；

继续承接上述例子，将上述第一特征进行合并后，得到区所对应的父特征为北京市。

需要说明的是，上述合并包括直接对多个第一特征进行实体合并，也可以对多个第一特征进行概念上的合并，进而确定其上一层级的特征，也即父特征。

S225.将父特征添加进待处理特征集中，得到第一特征集。

将上述步骤S224确定的父特征添加进待处理特征集之后，得到第一特征集，也即，第一特征集与原有第一特征构成的集合相比，多出了新的父特征。

以下以一个完整的例子来进行举例说明，当集合c[]中包括特征海淀区、西城区、昌平城区时，可以根据对应关系得到上述三个区都是北京市下属的各个区，因此合并成为新指标-北京市，把合并之后生成的新的特征指标(北京市)添加到结合c[]中，形成集合d[]，因此集合 d[]中包括：海淀区、西城区、昌平城区和北京市；此外，还可以是上位概念，比如说，集合f[]包括：铜、铁、铝，且铜、铁、铝在预设的对应关系中是金属的下位概念，因此，若合并成员中的特征，得到父特征金属。

或者，保留所述待处理特征集中除所述子特征外的其余第一特征，并将所述待处理特征集中的子特征替换为所述父特征后，得到所述第一特征集；举例来说，同样当集合c[]中包括特征海淀区、西城区、昌平城区时，可以根据对应关系得到上述三个区都是北京市下属的各个区，因此合并成为新指标-北京市，把合并之后生成的新的特征指标(北京市)添加到结合c[]中，然后把海淀区、西城区、昌平城区进行删除，形成集合d[]，因此集合d[]中包括：北京市；而不再包括：海淀区、西城区、昌平城区了。

如图4所示，在一些实施例中，如前述的文件匹配装置，所述步骤S3中获取与第一特征集匹配的第二特征集，包括：

S31.计算第一特征集与第二特征集的相似度；

也就是说，在得到第一特征集之后，计算其与存储在云服务器中各个第二特征集之间的相似度；且各个第二特征集都对应有一个相似度；

S32.当所述相似度符合预设条件时，确定所述第二特征集与所述第一特征集匹配，并获取与所述第一特征集匹配的第二特征集。

其中一种可选的实现方法如下所示：对所有用户，都生成的集合 d[]，合并成为D表，表的样例如下，1表示用户有这个特征指标，0 表示没有。

第一用户：d[]＝|油藏量|油藏类型|海淀区|北京市|；

用户A：a|1|1|1|0；

用户B：b|1|1|1|1；

用户...；

用户N：n|1|1|1|1。

因此，由上可知，用户N及B与第一用户的相似度最高；且采用该方法能够使比对结果更加直观。

在一些实施例中，如前述的文件匹配方法，所述相似度符合预设条件，包括：

所述相似度大于或等于预设阈值；

具体的，所述预设阈值可以根据用户的使用情况进行选择，并且在按照当前的预设阈值进行相似度比对时，可能由于预设阈值太低或不存在使用价值时，对所述预设阈值进行调整；或者

也就是说，当存在多个第二特征集时，可以对各个第二特征集与第一特征集之间的相似度，并取相似高的前几个用户的第二特征集；具体的，采用该方法不需对预设阈值进行调整，只需对相似度由高至低或由低至高排列的所有第二特征集进行最高的N个进行保留；好事多进行。

找到相似度最高的用户的方法可以是：

实现：根据表D，找到相似度最多的用户，例如：用户a有d[|油藏量|油藏类型|海淀区]，用户b有d[|油藏量|油藏类型|海淀区|北京市|], 相似度很高。

如图5所示，在一些实施例中，如前述的文件匹配方法，所述步骤S4中查询与所述第二特征集对应的文件，包括如下所述步骤S41至 S43：

S41.确定所述第二特征集对应的第二用户；

也就是说，确定第二特征集是属于哪一个用户的；

S42.获取所述第二用户使用过的报表模板；其中，所述报表模板为所述文件中的一种；

具体的，在此实施例中，所述文件即为所述报表模板，因此若第二用户得到的是其对应的报表模板，则第一用户所需的也为报表模板；因此，进一步的，还可以判断第一用户使用的是什么类型的文档，并且可以在第一用户管控操作或系统自动识别的情况下，根据该文档的类型进行匹配，匹配得到适配度更高的模板；

S43.将所述第二用户使用过的报表模板推送给所述第一用户；

也就是说，在A表中查询相似用户b的历史记录，除重之后，将 A表生成报表集合E，并将E表所对应用户的所有使用过的报表模板推荐给用户a。

第二方面，本申请提供了一种文件匹配装置，包括：

获取模块1，用于获取第一用户使用文件的第一历史记录；其中，第一历史记录包括至少一个文件；

提取模块2，用于根据第一历史记录生成第一特征集；其中，第一特征集中包括至少一个第一特征；

匹配模块3，用于获取与第一特征集匹配的第二特征集；

查询模块4，用于查询与第二特征集对应的文件。

具体的，本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述，此处不再赘述。

在一些实施例中，如前述的文件匹配装置，所述提取模块2，包括：

提取单元，用于提取第一历史记录的文件中的第一特征；

集合单元，用于根据第一特征得到待处理特征集；

去重单元，用于对待处理特征集中的第一特征进行去重，生成第一特征集。

根据本申请的另一个实施例，还提供一种电子设备，包括：如图6 所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503 和通信总线1504，其中，处理器1501，通信接口1502，存储器1503 通过通信总线1504完成相互间的通信。

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的程序时，实现上述方法实施例的步骤。

上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述方法实施例的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文件匹配方法，其特征在于，包括：

获取与所述第一特征集匹配的第二特征集；

查询与所述第二特征集对应的文件。

2.根据权利要求1所述的文件匹配方法，其特征在于，所述根据所述第一历史记录生成第一特征集，包括：

提取所述第一历史记录的文件中的第一特征；

根据所述第一特征得到待处理特征集；

3.根据权利要求1所述的文件匹配方法，其特征在于，所述第一历史记录的文件为多个，所述根据所述第一历史记录生成第一特征集，包括：

提取每个所述第一历史记录的文件中的第一特征；

根据所述第一特征得到待处理特征集；

4.根据权利要求1所述的文件匹配方法，其特征在于，所述获取与所述第一特征集匹配的第二特征集，包括：

计算所述第一特征集与所述第二特征集的相似度；

5.根据权利要求4所述的文件匹配方法，其特征在于，所述相似度符合预设条件，包括：

所述相似度大于或等于预设阈值；或者

6.根据权利要求1所述的文件匹配方法，其特征在于，查询与所述第二特征集对应的文件，包括：

确定所述第二特征集对应的第二用户；

将所述第二用户使用过的报表模板推送给所述第一用户。

7.一种文件匹配装置，其特征在于，包括：

匹配模块，用于获取与所述第一特征集匹配的第二特征集；

查询模块，用于查询与所述第二特征集对应的文件。

8.根据权利要求7所述的文件匹配装置，其特征在于，所述提取模块，包括：

集合单元，用于根据所述第一特征得到待处理特征集；

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求1-6任一项所述的匹配方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-6任一项所述的匹配方法。