CN110390094B

CN110390094B - 对文档进行分类的方法、电子设备和计算机程序产品

Info

Publication number: CN110390094B
Application number: CN201810362310.6A
Authority: CN
Inventors: 刘威扬; 滕康; 刘原一; 张增杰; 张之剑
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2023-05-23
Anticipated expiration: 2038-04-20
Also published as: CN110390094A; US20190325212A1; US10860849B2

Abstract

本公开的实施例涉及用于对文档进行分类的方法、电子设备和计算机程序产品。该方法包括确定与文档类别相关联的一个或多个关键词和对应权重。该方法还包括至少基于一个或多个关键词在文档的字段中出现的频率以及权重，确定文档相对于一个或多个关键词的得分。此外，该方法还可以响应于文档的得分高于阈值，确定文档属于该文档类别。本公开的实施例可以实现对文档的自动分类。

Description

对文档进行分类的方法、电子设备和计算机程序产品

技术领域

本公开的实施例总体涉及数据分类，具体涉及用于对文档进行分类的方法、电子设备和计算机程序产品。

背景技术

虽然目前的搜索引擎将会从不同的存储服务器收集大量备份数据并且提供多种复杂且先进的搜索查询，但是仍然不方便终端用户对那些备份文档进行分类和定位。在某些情况下，终端用户甚至无法确切知道要搜索什么，以及应该使用什么样的关键词。终端用户只是想要通过浏览特定搜索结果集而通过智能指示来获得关于何种内容在备份内的一般概念。

为了缓解这种问题并且满足终端用户的需求，一个选项是让某个查看者在预览每个项目之后手动地对搜索结果集中的内容进行分类并且添加标签。然而，由于不同人可能具有不同的主观标准，所以终端用户添加标签是不准确的。此外，由于数量巨大不可能手动地给所有结果加标签，因而对于那些未加标签的结果，被忽视的可能性将大大增加。因此，这并不是理想的解决方案。

发明内容

本公开的实施例提供了用于对文档进行分类的方法、电子设备和计算机程序产品。

在本公开的第一方面，提供了一种对文档进行分类的方法。该方法包括确定与文档类别相关联的一个或多个关键词和对应权重。该方法还包括至少基于一个或多个关键词在文档的字段中出现的频率以及权重，确定文档相对于一个或多个关键词的得分。此外，该方法还可以响应于文档的得分高于阈值，确定文档属于该文档类别。

在本公开的第二方面，提供了一种电子设备。该电子设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时，使得电子设备执行以下动作：确定与文档类别相关联的一个或多个关键词和对应权重；至少基于一个或多个关键词在文档的字段中出现的频率以及权重，确定文档相对于一个或多个关键词的得分；以及响应于文档的得分高于阈值，确定文档属于该文档类别。

在本公开的第三方面，提供了计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使得机器执行根据本公开的第一方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了用于对文档进行分类的架构的示意图；

图2示出了根据本公开的一个实施例的对文档进行分类的方法的流程图；

图3示出了根据本公开的一个实施例的用于基于得分确定文档是否属于文档类别的方法的流程图；

图4示出了根据本公开的一个实施例的查询结果的示意图；

图5示出了根据本公开的一个实施例的用于对文档进行分类的装置的框图；以及

图6示出了可以用来实施本公开的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本文中，备份数据、备份文档和备份文件三者之间可互换使用。虽然在一些实施例中以备份数据或备份文档为例来说明本公开的原理，但是应当理解，本公开的原理还可以适用于任何其它数据或文档。

企业客户总是需要从大量备份数据中找出有价值的内容。已开发了一种可扩展、容错、索引化的搜索虚拟装置。这种搜索虚拟装置可以提供：简单熟悉的像谷歌那样的搜索界面；复杂且先进的搜索查询；跨服务器和跨平台的搜索；以及在搜索命中时预览、下载和恢复到原始位置和替代位置两者等动作的支持。这种搜索虚拟装置提供了一种强有力的方式来跨一个或多个存储服务器搜索备份数据，而不关心具体备份，然后恢复或下载搜索结果。所调度的收集活动用于聚集备份的元数据和/或内容，并且对这些元数据和/或内容编索引。然后这些元数据和/或内容被存储在数据保护搜索节点或集群内。

虽然目前的搜索引擎将会从不同的存储服务器收集大量备份数据并且提供多种复杂且先进的搜索查询，但是仍然不方便终端用户对那些备份文件进行分类和定位。在某些情况下，终端用户甚至无法确切知道要搜索什么，以及应该使用什么样的关键词。终端用户只是想要通过浏览特定搜索结果集而通过智能指示来获得关于何种内容在备份内的一般概念。

为了缓解这种问题并且满足终端用户的这一需求，一个选项是让某个查看者在预览每个项目之后手动地对搜索结果集中的内容进行分类并且添加标签。然而，这并不是理想的解决方案，因为：终端用户将需要付出过多努力来对大量项目添加标签；由于不同人可能具有不同的主观标准，所以终端用户添加标签是不准确的；不可能手动地给所有结果加标签，因而对于那些未加标签的结果，被忽视的可能性将大大增加。

本公开的实施例提供了一种对备份数据自动分类的新构思。利用本公开的方法，终端用户不需要手动对那些搜索结果进行分类(虽然这仍然可行)。搜索引擎将进行后端作业，该后端作业递归地运行以对具有高相关性的所有备份文档进行分类并添加标签。这不仅将释放人力，而且还提高分类的准确性。

图1示出了用于对文档进行分类的架构100的示意图。应当理解，仅出于示例性的目的描述架构100的结构和功能而不是暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。

如图1所示，架构100可以大体上包括搜索引擎110和服务器120。在服务器120上存储有文档121。例如，文档121可以是通过备份软件备份的数据。虽然仅示出一个文档121，但是可以理解，服务器120上可以存在多个文档121。搜索引擎110可以指任何搜索工具或搜索产品，其可以对服务器120上的文档121进行查询。虽然图1示出搜索引擎110未驻存在服务器120上，但是可以理解，搜索引擎110也可以运行在与文档121相同的服务器120上。备选地，搜索引擎110可以运行在与服务器120不同的客户端(未示出)上。下文中所描述的方法可以由搜索引擎110(例如，在后台)执行。

图2示出了根据本公开的一个实施例的对文档进行分类的方法200的流程图。例如，方法200可以由如图1所示的搜索引擎110来执行。例如，在安装搜索引擎110时，将会加载索引数据，并且然后可以执行图2的方法200。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。图2中的虚线框都是可选的。

在框210，搜索引擎110确定与文档类别相关联的一个或多个关键词和与每个关键词对应的权重。文档类别可以反映备份文档121的内容所涉及的领域。作为示例，文档类别可以是运动、经济、艺术、地理、宗教、健康、历史以及娱乐等。备选地，文档类别可以是“其他”，这表示文档121不与任何定义的文档类别相关。针对每个文档类别，可以存储包含关键词(k)和权重(w)两者的列表：{k1:w1,K2:w2,k3:w3,k4:w4…}。

在一些实施例中，一个或多个关键词和权重可以通过神经网络基于文本语料库事先训练得到。例如，可以使用浅的两层神经网络。该神经网络可以是用于产生词嵌入的一组相关模型。神经网络被训练以重构词的语境。神经网络采用大的文本语料库作为其输入，并且产生向量空间。该大的文本语料库可以从例如网站上的任何文章来获得。该向量空间通常是几百维的。语料库中的每个独特的词被分配以空间中的对应向量。将词向量定位在向量空间中，使得在语料库中共享共同语境的词在空间中定位为彼此紧密靠近。通过示例的方式，而非限制性地，在训练与特定文档类别相关联的关键词和对应权重时，可以使用开源机器算法Word2vec。

利用神经网络，可以训练得到每个文档类别的特定列表(还称为“字典”)。该列表包括与特定文档类别相关联的关键词和与每个关键词对应的权重。下面的表1示出了针对“运动”文档类别的一个示例字典。

表1“运动”文档类别的示例字典

如上所述，一旦字典被训练，训练结果可以是针对每个文档类别的包含关键词(k)和权重(w)两者的列表：{k1:w1,K2:w2,k3:w3,k4:w4…}。关键词的权重可以体现该关键词与文档类别的相关性。考虑到性能和计算负荷之间的权衡，在训练中，可以限定想要得到的与特定文档类别相关联的关键词的数目。例如，神经网络可以被配置为训练与“运动”文档类别最相关的前500个高频词汇。以这种方式，可以限制后续用于计算文档121的相关性得分的关键词的数目，从而减轻查询请求的负荷，同时保证分类的正确性。

在图2的框220，至少基于一个或多个关键词在文档121的字段中出现的频率以及权重，搜索引擎110可以确定文档121相对于一个或多个关键词的得分。换言之，在考虑关键词的权重的情况下，基于某一文档与关键词的相关性，搜索引擎110可以计算该文档针对特定文档类别的相关性得分。在一些实施例中，搜索引擎110可以分别确定文档121相对于每个关键词的得分，然后利用权重计算这些得分的加权平均，作为文档121相对于一个或多个关键词的得分。

为此，搜索引擎110可以具有对文档121进行评分的功能。每个文档的得分(称为“_score”)可以由一个正浮点数来表示。_score越高，文档与文档类别越相关。通过在文档121中搜索一个或多个关键词，搜索引擎110可以确定文档121相对于一个或多个关键词的得分。如上所述，为了减轻计算负荷同时保证分类正确性，可以仅选择文档类别中最相关的前500个高频词汇，来对文档121进行查询。按照文档类别，查询子句可以生成每个文档的_score。得分根据查询子句的类型来计算。搜索引擎110可以使用标准相似度算法来确定文档121的得分。例如，所使用的标准相似度算法可以基于词频/逆文档频率(TF/IDF)，其主要考虑的核心因子是词频(tf)。

词频(tf)是计算文档得分的核心因子，其反映的是：查询所使用的项(即，关键词)在文档的字段中出现得多频繁。项(关键词)在文档的字段中出现的频率越高，文档越相关，得分(_score)越高。例如，针对内容字段，提到项五次的文档比仅提到相同项一次的文档更加可能与该项所指示的文档类别相关。

在一些实施例中，计算文档得分还可以基于逆文档频率(idf)和字段长度标准(norm)。逆文档频率(idf)反映的是：每个项在索引中出现的频率。项在索引中出现的频率越高，应用于针对该项的查询的权重越低。例如，出现在索引中的许多文档中的项具有比较不常见的项低的权重。换言之，在文档选自多个文档的情况下，多个文档中出现关键词的文档的数目越大，文档相对于该关键词的得分越低。仅作为一个示例，逆文档频率(idf)可以使用如下公式来计算：

其中，docCount表示索引中的文档的总数目，并且docFreq表示出现特定项的文档的数目。

字段长度标准(norm)反映的是：出现项(关键词)的字段的长度。字段越长，出现在该字段中的关键词越不可能相关。例如，针对相同字段，出现在较短字段中的项将携带比出现在较长字段中的相同项高的权重。换言之，针对相同字段，具有项出现的长字段的文档的得分低于具有相同项出现的短字段的文档的得分。另一方面，由于标题字段的长度通常短于内容字段，所以分配给标题字段的权重可以高于内容字段的权重。仅作为一个示例，字段长度标准(norm)可以使用如下公式来计算：

其中，freq表示项(关键词)出现的频率，k1和b是所定义的参数，fieldLength表示当前文档的字段长度，并且avgFieldLength表示不同文档的相同字段的平均长度。

在一些实施例中，计算文档得分还可以基于一个或多个关键词中出现在文档的字段中的关键词的数目。出现在文档的字段中的关键词的数目越大，文档的得分越高。作为一个示例，第一文档仅提到关键词“运动”，而第二文档提到了关键词“板球”“拳击”和“槌球”三者。由于第二文档包含更大数目的关键词，可以提高第二文档的得分。

在一些实施例中，搜索引擎110可以使用实际得分函数来确定文档121相对于一个或多个关键词的得分(_score)。此时，文档的得分(_score)可以使用如下公式来计算：

_score(q,d)＝queryNorm(q)·coord(q,d)

·∑(tf(t in d)·idf(t)²·t.getBoost()·norm(t,d))(t in q)(3)

其中，q表示查询，d表示特定文档，t表示查询q中的项(关键词)，并且“(t in q)”表示对查询q中的项t进行求和。_score(q,d)表示文档d针对查询q的相关性得分，这可以给出文档d相对于一个或多个关键词的得分。如上所述，tf(t in d)与项t在文档d中的词频有关，idf(t)表示项t的逆文档频率，norm(t,d)表示字段长度标准。此外，norm(t,d)还可以体现索引时字段水平的权重。例如，相比于内容字段，针对标题字段可以提升norm(t,d)。t.getBoost()表示应用于查询q的权重。例如，t.getBoost()可以包括在图2的框210中确定的与关键词对应的权重。queryNorm(q)是查询归一化因子。coord(q,d)是协调因子，其可以关联于上面描述的出现在文档的字段中的关键词的数目。即，如果出现在文档d中的关键词的数目较大，可以增加coord(q,d)。

当使用像布尔查询那样的复合查询来组合多个查询子句时，这些查询子句中的每个查询子句的得分被组合，从而计算文档的总得分。通过示例的方式，而非限制性地，Elasticsearch被用作搜索引擎110的针对所有索引数据的主存储库。例如，可以使用“运动”作为关键词来执行Elasticsearch查询，以得到文档121相对于关键词“运动”的得分。组合针对关键词“运动”和其他关键词的得分，可以得到文档121针对“运动”文档类别的得分。

返回到图2，在框230，搜索引擎110可以响应于文档121的得分高于阈值，确定文档属于该文档类别。文档121相对于一个或多个关键词的得分实际上体现文档121针对文档类别的得分。如上所述，文档121的得分(“_score”)越高，文档121与文档类别越相关。阈值可以由用户来设置。搜索引擎110可以将文档121的得分与阈值进行比较。如果文档121的得分大于阈值，则可以确定文档121属于该文档类别。

图3示出了根据本公开的一个实施例的用于基于得分确定文档是否属于文档类别的方法300的流程图。例如，方法300可以由如图1所示的搜索引擎110来执行。应当理解的是，方法300还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框310，根据图2的框210和220所述的方法，搜索引擎110可以分别确定文档的与多个文档类别对应的多个得分。下面的表2示出了文档针对每个文档类别的得分(还称为“原始得分”)，其中仅出于说明性目的而示出了三个文档(文档1、文档2和文档3)和四个文档类别(艺术、文化、经济和地理)。

表2文档针对每个文档类别的得分

	艺术	文化	经济	地理
					文档1	3.605526	7.70771	43.48623	4.137467
文档2	22.44805	23.39957	66.25324	11.90349
					文档3	5.156977	11.86516	47.80018	7.652769

在框320，搜索引擎110可以基于多个得分中的最大得分与前阈值的比较，来确定后阈值。例如，针对表2所示的文档2，最大得分为66.25324。前阈值(pre-threshold)可以被设置为百分制里的60。注意，该数值仅以示例的方式被给出，而不旨在以任何方式限制本公开的范围。用于原始得分的前阈值可以是经验值，或者可以根据字典训练结果动态设置。如下面描述的，后阈值将被应用于标准化后的得分。在一些实施例中，如果备份文档的最大得分(max_score)大于等于前阈值(pre-threshold)，则后阈值(post-threshold)可以设置为黄金分割(Golden Section；即，0.618)；如果备份文档的最大得分在前阈值与前阈值的二分之一之间，则后阈值可以设置为

如果备份文档的最大得分在前阈值的二分之一与经验值(low limitation；例如5)之间，则后阈值可以设置为1；以及如果备份文档的最大得分小于该经验值，则后阈值可以设置为2。上面设置后阈值的逻辑可以用下面的公式来表达：/>

在框330，搜索引擎110可以对文档的针对不同文档类别的多个得分进行标准化。从上面的表2可以看出，文档的得分(还称为“原始得分”)往往不在0和1之间。为了便于设置合适的阈值并且确定是否添加类别标签，可以对文档的原始得分进行标准化。从而可以得到文档的原始得分和标准化后的得分两者。例如，文档的多个得分可以使用如下公式来标准化：

其中，Normalized Score表示标准化后的得分，Score表示特定文档针对特定文档类别的得分，Minimum Score表示相同文档在不同文档类别之中的最小得分，并且MaximumScore表示相同文档在不同文档类别之中的最大得分。

以上面表2所示的文档2的原始得分为例(最小得分为11.90349，并且最大得分为66.25324)，其标准化后的得分在下面的表3中示出。

表3标准化后的得分

	艺术	文化	经济	地理
					文档2	0.194	0.2115	1	0

在框340，搜索引擎110可以响应于文档的标准化后的得分大于后阈值，确定文档属于与标准化后的得分对应的文档类别。只要确定后阈值，搜索引擎110就可以将标准化后的得分与后阈值进行比较。如果针对特定文档类别的标准化后的得分大于后阈值，可以认为文档属于该文档类别。

如上面描述的，搜索引擎110可以使用动态的后阈值来确定备份文件是否属于某个文档类别。动态地调整后阈值的原因如下。如果文档的针对几个文档类别的原始得分都很高(这意味着该文档与这几个文档类别的相关性都很高)，那么可以使用相对低的后阈值，以将该文档标记为属于所有这些高相关性的文档类别。但是如果文档的针对几个文档类别的原始得分都很低，那么后阈值将被动态地抬高，以将该文档标记为属于较少的文档类别，或者甚至标记为不属于任何文档类别(被标记为“其他”文档类别)。

在本公开的技术方案中，通过确定与文档类别相关联的关键词和对应权重、利用相关性得分、并且然后使用自定义的算法，可以确定备份文件是否属于特定文档类别，从而实现对备份数据的自动分类。

返回到图2，在可选框240，响应于确定文档121属于文档类别，搜索引擎110可以向文档121应用与文档类别对应的标签。例如，如果确定文档121属于“运动”文档类别，则搜索引擎110可以向文档121添加用于指示“运动”文档类别的标签。

在可选框250，搜索引擎110还可以响应于针对文档121的查询请求，提供包括文档121和标签的查询结果。在对备份文档121进行分类并且添加标签之后，当用户搜索该文档121时，搜索结果将包括文档121以及文档121所具有的类别标签。

图4示出了根据本公开的一个实施例的查询结果400的示意图。为了简单起见，查询结果400仅包括三个文档410：文档1 410-1、文档2 410-2和文档3 410-3。同时，查询结果400还包括文档410所属于的文档类别的标签420：与文档1 410-1对应的标签420-1、与文档2 410-2对应的标签420-2、以及与文档3 410-3对应的标签420-3。在查看查询结果400时，用户可以容易地知道：文档1 410-1的内容与“运动”文档类别相关；并且文档2 410-2和文档3 410-3的内容都与“经济”文档类别相关。

在一些实施例中，在确定文档相对于一个或多个关键词的得分时，搜索引擎110可以对表1所示的关键词的权重进行标准化。搜索引擎110可以基于标准化后的权重，来确定文档的得分。如表1所示，虽然所训练的关键词的权重在0和1之间，但是仍然可以对表1所示的权重进行归一化。权重的归一化可以使用如下公式来进行：

其中，Normalized Weight表示标准化后的权重，Weight表示权重，MinimumWeight in Category表示文档类别中的最小权重，并且Maximum Weight in Category表示文档类别中的最大权重。

以这种方式，具有高权重的关键词将会具有更加高的权重，而具有低权重的关键词将会具有更加低的权重。这可以提高分类准确性。利用关键词和对应的标准化后的权重，可以执行对文档内容的查询，以获得针对每个文档类别的得分。下面的表4示出了针对多个文档执行的标准化后的权重的测试结果。表4表明，对于分别包括500、600、700、800、900和1000个关键词的相同文档类别，使用标准化后的权重来执行查询都可以提高分类准确性。

表4标准化后的权重的测试结果

在一些实施例中，可以在标题字段、内容字段或者两者中搜索关键词，以确定文档的得分。在一些实施例中，可以仅在文档的内容字段中搜索关键词。下面的表5表明仅在文档的内容字段中、而不是在内容字段和标题字段两者中搜索关键词，可以提高分类准确性。在测试中，标题字段的权重设置为1。

表5具有和不具有标题字段的测试结果

此外，下面的表6示出了在标准分析器和英语分析器之间的比较结果。分析器可以用于在查询中对文档进行分词处理。表6的测试是针对多个英语文档进行的。然而，应当理解，本公开的原理可以适用于任何语言，而不限于英语。表6表明标准分析器可以给出更加准确的分类。

表6标准分析器和英语分析器的测试结果

图5示出了根据本公开的一个实施例的用于对文档进行分类的装置500的框图。在一些实施例中，装置500例如可以实施在搜索引擎110处。备选地，在一些实施中，装置500可以直接被实现为搜索引擎110本身，也即，搜索引擎110可以由装置500实现。

如图5所示，装置500可以包括第一确定模块510，其被配置为确定与文档类别相关联的一个或多个关键词和对应权重。装置500还可以包括第二确定模块520，其被配置为至少基于一个或多个关键词在文档的字段中出现的频率以及权重，确定文档相对于一个或多个关键词的得分。此外，装置500还可以包括第三确定模块530，其被配置为响应于文档的得分高于阈值，确定文档属于文档类别。

在一些实施中，一个或多个关键词和权重是通过神经网络基于文本语料库训练得到的。

在一些实施中，文档的字段包括标题字段和内容字段中的至少一个。

在一些实施中，文档的字段仅包括内容字段。

在一些实施中，第二确定模块520还基于以下中的至少一个来确定文档的得分：一个或多个关键词中出现在文档的字段中的关键词的数目；文档的字段的长度；以及在文档选自多个文档的情况下，多个文档中出现关键词的文档的数目。

在一些实施中，第二确定模块520可以包括标准化子模块，其被配置为标准化权重。第二确定模块520还可以包括确定子模块，其被配置为基于标准化后的权重，确定文档的得分。

在一些实施中，文档类别选自多个文档类别。装置500还可以包括第四确定模块，其被配置为确定文档的与多个文档类别对应的多个得分。装置500还可以包括第五确定模块，其被配置为基于多个得分中的最大得分与前阈值的比较，确定后阈值。装置500还可以包括标准化模块，其被配置为标准化多个得分。此外，装置500还可以包括第六确定模块，其被配置为响应于文档的标准化后的得分大于后阈值，确定文档属于与标准化后的得分对应的文档类别。

在一些实施中，装置500还可以包括应用模块，其被配置为响应于确定文档属于文档类别，向文档应用与文档类别对应的标签。

在一些实施中，装置500还可以包括提供模块，其被配置为响应于针对文档的查询请求，提供包括文档和标签的查询结果。

出于清楚的目的，在图5中没有示出装置500的某些可选模块。然而，应当理解，上文参考图1-4所描述的各个特征同样适用于装置500。而且，装置500的各个模块可以是硬件模块，也可以是软件模块。例如，在某些实施例中，装置500可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，装置500可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本公开的范围在此方面不受限制。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200，可由处理单元601执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到RAM 603并由CPU 601执行时，可以执行上文描述的方法200的一个或多个框。备选地，CPU 601也可以通过任何其他适当的方式(例如，借助于固件)而被配置为执行上文描述的方法200。

综上，本公开提供了一种对文档进行自动分类的方法。文档可以被自动分类到对应的文档类别，从而使得终端用户能够按类别标签来查询。当存在大量文档时，这确实是有用的。本公开的自动分类方法可以结合任何类型的搜索产品来使用，以向用户提供丰富的搜索功能。例如，本公开的方法可以对搜索产品中的所有索引的备份文件进行自动分类。在对文档进行分类之后，搜索产品可以支持按文档类别的搜索。这使得终端用户更加容易基于不同类别来搜索和定位大量数据中的对应文件。因此，本公开的实施例可以满足更多客户的要求并且改善整体客户满意度。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作动作，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种对文档进行分类的方法，包括：

确定与文档类别相关联的一个或多个关键词和对应权重；

至少基于所述一个或多个关键词在所述文档的字段中出现的频率以及所述权重，确定所述文档相对于所述一个或多个关键词的得分；

响应于所述文档的所述得分高于阈值，确定所述文档属于所述文档类别，其中所述文档类别选自多个文档类别；

确定所述文档的与所述多个文档类别对应的多个得分；

基于所述多个得分中的最大得分与前阈值的比较，确定后阈值；

标准化所述多个得分；以及

响应于所述文档的标准化后的得分大于所述后阈值，确定所述文档属于与所述标准化后的得分对应的文档类别。

2.根据权利要求1所述的方法，其中所述一个或多个关键词和所述权重是通过神经网络基于文本语料库训练得到的。

3.根据权利要求1所述的方法，其中所述文档的所述字段包括标题字段和内容字段中的至少一个。

4.根据权利要求1所述的方法，其中所述文档的所述字段仅包括内容字段。

5.根据权利要求1所述的方法，其中确定所述文档的所述得分还基于以下中的至少一个：

所述一个或多个关键词中出现在所述文档的所述字段中的关键词的数目；

所述文档的所述字段的长度；以及

在所述文档选自多个文档的情况下，所述多个文档中出现所述关键词的文档的数目。

6.根据权利要求1所述的方法，其中确定所述文档的所述得分包括：

标准化所述权重；以及

基于标准化后的所述权重，确定所述文档的所述得分。

7.根据权利要求1所述的方法，还包括：

响应于确定所述文档属于所述文档类别，向所述文档应用与所述文档类别对应的标签。

8.根据权利要求7所述的方法，还包括：

响应于针对所述文档的查询请求，提供包括所述文档和所述标签的查询结果。

9.一种电子设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述电子设备执行以下动作：

确定与文档类别相关联的一个或多个关键词和对应权重；

确定所述文档的与所述多个文档类别对应的多个得分；

标准化所述多个得分；以及

10.根据权利要求9所述的电子设备，其中所述一个或多个关键词和所述权重是通过神经网络基于文本语料库训练得到的。

11.根据权利要求9所述的电子设备，其中所述文档的所述字段包括标题字段和内容字段中的至少一个。

12.根据权利要求9所述的电子设备，其中所述文档的所述字段仅包括内容字段。

13.根据权利要求9所述的电子设备，其中确定所述文档的所述得分还基于以下中的至少一个：

所述文档的所述字段的长度；以及

14.根据权利要求9所述的电子设备，其中确定所述文档的所述得分包括：

标准化所述权重；以及

基于标准化后的所述权重，确定所述文档的所述得分。

15.根据权利要求9所述的电子设备，所述指令当由所述至少一个处理单元执行时，还使得所述电子设备执行以下动作：

16.根据权利要求15所述的电子设备，所述指令当由所述至少一个处理单元执行时，还使得所述电子设备执行以下动作：

17.一种非瞬态计算机可读介质，在其上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至8中任一项所述的方法的步骤。