CN105630769B

CN105630769B - 文档主题词提取方法及装置

Info

Publication number: CN105630769B
Application number: CN201510990608.8A
Authority: CN
Inventors: 赵博
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2019-04-12
Anticipated expiration: 2035-12-24
Also published as: CN105630769A

Abstract

本发明公开了一种文档主题词提取方法及装置。所述方法包括：对目标文档进行分词处理，其中，所述目标文档为文档库中的任一文档；针对同一分词，根据该分词在所述目标文档中每次出现时的分词属性，获取与所述分词属性相对应的权值，并根据所述权值，确定该分词在所述目标文档中的词频权重；基于所述文档库，确定所述分词的逆向文档频率；基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词。由此使得所提取出的主题词具有更高的准确性和可靠性，能够更客观地表示该文档的中心思想，从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持，使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。

Description

文档主题词提取方法及装置

技术领域

本发明涉及数据处理领域，具体地，涉及一种文档主题词提取方法及装置。

背景技术

主题词是一篇文章所表达的中心思想，主题信息挖掘是有效解决文档空间向量高维稀疏性，提高文本分类质量的重要手段，同时也在信息推荐中起到了重要的作用。评估一个词汇对于一个文档库中的其中一份文档的重要程度的算法常用的是TF(TermFrequency，词频)-IDF(Inverse Document Frequency，逆向文档频率)算法。

发明内容

本发明的目的是提供一种文档主题词提取方法及装置，以使得提取出的主题词更为准确。

为了实现上述目的，根据本发明的第一方面，提供一种文档主题词提取方法，所述方法包括：对目标文档进行分词处理，其中，所述目标文档为文档库中的任一文档；针对同一分词，根据该分词在所述目标文档中每次出现时的分词属性，获取与所述分词属性相对应的权值，并根据所述权值，确定该分词在所述目标文档中的词频权重；基于所述文档库，确定所述分词的逆向文档频率；基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词。

在第一方面的一些可选的实施方式中，所述获取与所述分词属性相对应的权值，包括：判断所述分词属性是否满足多个预设条件中的至少一个预设条件；在所述分词属性不满足任一预设条件时，获取预设的基准权值作为与所述分词属性相对应的权值。

在第一方面的一些可选的实施方式中，所述获取与所述分词属性相对应的权值，还包括：在所述分词属性满足至少一个预设条件时，获取所述分词属性所满足的各个预设条件所对应的权值，并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值。

在第一方面的一些可选的实施方式中，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

在第一方面的一些可选的实施方式中，所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值；以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。

在第一方面的一些可选的实施方式中，通过以下方式来确定该分词在所述目标文档中的词频权重：

其中，TFW表示分词的词频权重；W_n表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值；N表示该分词在所述目标文档中的总出现次数；I表示所述目标文档中的分词总数。

在第一方面的一些可选的实施方式中，所述基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词，包括：计算所述分词的词频权重与逆向文档频率的乘积；按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为所述目标文档的主题词。

根据本发明的第二方面，提供一种文档主题词提取装置，所述装置包括：分词处理模块，被配置为对目标文档进行分词处理，其中，所述目标文档为文档库中的任一文档；权值获取模块，被配置为针对同一分词，根据该分词在所述目标文档中每次出现时的分词属性，获取与所述分词属性相对应的权值；词频权重确定模块，被配置为根据所述权值，确定该分词在所述目标文档中的词频权重；逆向文档频率确定模块，被配置为基于所述文档库，确定所述分词的逆向文档频率；主题词提取模块，被配置为基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词。

在第二方面的一些可选的实施方式中，所述权值获取模块包括：判断子模块，被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件；第一权值获取子模块，被配置为在所述分词属性不满足任一预设条件时，获取预设的基准权值作为与所述分词属性相对应的权值。

在第二方面的一些可选的实施方式中，所述权值获取模块还包括：第二权值获取子模块，被配置为在所述分词属性满足至少一个预设条件时，获取所述分词属性所满足的各个预设条件所对应的权值，并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值。

在第二方面的一些可选的实施方式中，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

在第二方面的一些可选的实施方式中，所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值；以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。

在第二方面的一些可选的实施方式中，所述词频权重确定模块被配置为通过以下方式来确定该分词在所述目标文档中的词频权重：

在第二方面的一些可选的实施方式中，所述主题词提取模块包括：计算子模块，被配置为计算所述分词的词频权重与逆向文档频率的乘积；主题词提取子模块，被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为所述目标文档的主题词。

在上述技术方案中，考虑了分词在文档中每次出现时的分词属性(例如，分词位置、字体样式等等)，并基于与分词属性相对应的权值来确定该分词在文档中的词频权重，由此使得所提取出的主题词具有更高的准确性和可靠性，能够更客观地表示该文档的中心思想，从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持，使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明的实施方式提供的文档主题词提取方法的流程图。

图2A示出了一示例目标文档的内容。

图2B示出了对图2A所述的目标文档进行分词处理后的分词结果。

图3A至图3D是根据本发明的实施方式提供的文档主题词提取装置的框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是根据本发明的实施方式提供的文档主题词提取方法的流程图。如图1所示，该方法可以包括以下步骤。

在步骤S101中，对目标文档进行分词处理，其中，该目标文档可以为文档库中的任一文档。

文档库中可以包含多篇文档，目标文档可以为文档库中的任一文档。在一个实施方式中，可以由用户来从文档库中选择其中一篇作为目标文档，或者在另一实施方式中，可以由计算机随机或者按照预定选取规则(例如，按照文档顺序选取，按照文档大小来选取，等等)来从文档库中选取一篇作为目标文档。

对目标文档进行分词处理，可以将目标文档划分成由若干分词组成的分词序列。例如，图2A示出了一示例目标文档的内容，通过对目标文档进行分词处理，能够得到图2B所示的分词结果。

在步骤S102中，针对同一分词，根据该分词在目标文档中每次出现时的分词属性，获取与分词属性相对应的权值，并根据所述权值，确定该分词在目标文档中的词频权重。

在本公开中，分词属性可以包括以下中的至少一者：分词位置、字体样式、字体号、分词内容。其中，分词位置可以包括段首、标题和其他；字体样式可以包括粗体、斜体和其他；字体号可以包括大字体号、常规字体号和小字体号。在一个优选实施方式中，分词属性可以包括上述的全部，这样，可以使得最终结果更为准确。

具体地，针对某个分词的分词位置的检测，可以首先通过检测分词是否处于本段的首句来检测分词位置是否在段首，如果是，则确定分词位置为“段首”。

此外，随着互联网的飞速发展，计算机所处理的文档多是采集于互联网的超文本数据，这类数据除文字内容外，还包含超文本标签用于页面显示。针对这种类型的文档信息，可以通过检测超文本标签来获取某些分词属性。例如，可以通过检测该分词的超文本标签是否包含<H>标签(标题标签)来判断该分词位置是否位于标题，如果包含，则确定分词位置为“标题”。如果该分词的分词位置既不在段首，也不在标题，则可以确定分词位置为“其他”。

针对某个分词的字体样式的检测，可以通过检测分词的超文本标签是否包含<B>标签(粗体标签)来判断该分词是否为粗体，如果包含，则确定该分词的字体样式为粗体。另外，可以通过检测分词的超文本标签是否包含<I>标签(斜体标签)来判断该分词是否为斜体，如果包含，则确定该分词的字体样式为斜体。如果该分词的字体样式既不是粗体，也不是斜体，则可以确定分词的字体样式为“其他”。

针对某个分词的字体号的检测，可以通过检测分词的超文本标签中的<font-size>标签(字号标签)来得到分词的字体号。在一篇文档中，大部分内容具有统一的字体号，可以对每个分词的字体号进行统计，选定最多分词所对应的字体号作为“常规字体号”，这样，大于常规字体号的分词的字体号被归为“大字体号”，小于常规字体号的分词的字体号被归为“小字体号”。

在步骤S101中得到的分词结果中包含有若干个分词，有些分词可能会有所重复，例如，如图2B所示，“文理科”这一分词在目标文档中出现了3次，而有些分词可能仅出现一次，例如，如图2B所示，“表示”这一分词在目标文档中仅出现了1次。针对同一分词，可以按照上述方法，确定出该分词在每次出现时的分词属性。之后，获取与该分词属性相对应的权值，并根据该权值，确定该分词在目标文档中的词频权重。

例如，可以通过以下等式(1)来确定分词在目标文档中的词频权重：

其中，TFW表示分词的词频权重；W_n表示该分词在目标文档中第n次出现时的分词属性所对应的权值；N表示该分词在目标文档中的总出现次数；I表示目标文档中的分词总数。其中，这里提到的分词总数是在步骤S101后得到的分词结果中的全部分词的数量。

在步骤S103中，基于文档库，确定分词的逆向文档频率。

例如，可以通过以下等式(2)来确定分词的逆向文档频率：

其中，IDF表示该分词的逆向文档频率；D表示文档库中的文档总数；d表示文档库中包含有该分词的文档的数量。

在步骤S104中，基于分词的词频权重和逆向文档频率，提取预定数量的分词作为目标文档的主题词。

具体地，该步骤S104可以包括：计算分词的词频权重与逆向文档频率的乘积，该乘积可以作为分词在目标文档中的最终权重。例如，可以通过以下等式(3)来确定分词的最终权重W：

W＝TFW×IDF (3)

接下来，按照词频权重与逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为目标文档的主题词。例如，选取乘积结果排名在前5位的分词作为目标文档的主题词。

综上所述，本发明提供的上述文档主题词提取方法，考虑了分词在文档中每次出现时的分词属性(例如，分词位置、字体样式等等)，并基于与分词属性相对应的权值来确定该分词在文档中的词频权重，由此使得所提取出的主题词具有更高的准确性和可靠性，能够更客观地表示该文档的中心思想，从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持，使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。

下面具体描述当确定某个分词的词频权重时，如何根据该分词在目标文档中每次出现时的分词属性，获取与该分词属性相对应的权值的示例方法。

首先，可以预先设定一个基准权值ω₀，例如，该基准权值ω₀可以被设定为1，这样，当检测到某个分词在目标文档中本次出现时的分词属性后，可以通过判断分词属性是否满足多个预设条件中的至少一个预设条件，来决定是否获取该基准权值ω₀作为这一分词属性所对应的权值。在本公开中，多个预设条件可以例如包括但不限于以下中的至少一者：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。优选地，多个预设条件包括上述条件的全部，这样，可以使得最终结果更为准确。

可以按照前面在步骤S102中描述的方法，来判断分词属性是否满足“分词位置位于段首”、“分词的字体样式为粗体”、“分词的字体样式为斜体”、“分词的字体号大于常规字体号”、“分词的字体号小于常规字体号”的预设条件。

另外，在文档中有时会包括这样一些词，这些词可能在每篇文档中均出现，例如，“摘要”、“引言”等词，这些词主要用于划分文档结构，而并非是文档的实质内容，因此，在本公开中，可以将这些词称为“干扰词”。可以预先设置一些干扰词。这样，当分词的分词内容与这些预置的干扰词中的任一干扰词的内容相匹配(例如，内容一致)时，则该分词可以被确认为是干扰词。

当分词属性不满足上述任一预设条件时，获取预设的基准权值ω₀作为与该分词属性相对应的权值。例如，如图2B所示的分词结果，针对“表示”这一分词，其在文档中出现时的分词属性均不满足上述任一预设条件，因此，确定其所对应的权值为基准权值ω₀。

而当分词属性满足上述的至少一个预设条件时，则首先获取分词属性所满足的各个预设条件所对应的权值，之后，将获取到的各个预设条件所对应的权值的乘积作为与该分词属性相对应的权值。

具体地，可以预先确定每个预设条件所对应的权值，即，预先确定分词位置位于段首这一预设条件所对应的权值ω₁、分词位置位于标题这一预设条件所对应的权值ω₂、分词的字体样式为粗体这一预设条件所对应的权值ω₃、分词的字体样式为斜体这一预设条件所对应的权值ω₄、分词的字体号大于常规字体号这一预设条件所对应的权值ω₅、分词的字体号小于常规字体号这一预设条件所对应的权值ω₆、分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值ω₇。

由于ω₁～ω₇的取值不同可导致对文档主题词提取结果的不同，进而影响文档分类精度，因此，在本发明的一个优选实施方式中，为获取最优的分类精度，可使用线性回归的方式计算ω₁～ω₇的取值，设：

y＝f(ω_i) (4)

其中，y为ω_i取某一个值时对应的文档的分类精度，通过对ω_i的多次取值，可拟合出函数f()，进而对函数f()求导，得出y得到最大值的极值点ω_i，此时，该ω_i的值即为第i个预设条件所对应的权值。

通常情况下，文档中每一段的首句代表所在段的主题思想，因此，如果某个分词的分词属性表示该分词的位置在段首，则其相对应的权值应相对较高，从而提高其对主题词提取结果的影响力。如果某个分词的分词属性表示该分词的字体样式为粗体，则其相对应的权值应当较高，因为粗体通常表示用户认为是重要的信息，因此这些词对主题词提取结果的影响力应当被提高。如果某个分词的分词属性表示该分词的字体样式为斜体，则其相对应的权值应当较高，因为斜体通常表示用户认为是要进行区分的信息，因此这些词对主题词提取结果的影响力应当被提高。如果某个分词的分词属性表示该分词的字体号为大字体号(即，大于常规字体号)，则其相对应的权值应当较高，因为大字体号通常表示用户想要突出显示的信息，因此这些词对主题词提取结果的影响力应当被提高。而如果某个分词的分词属性表示该分词的字体号为小字体号(即，小于常规字体号)，则其相对应的权值应当较低，因为小字体号通常表示用户想要进行解释或者注释的信息(例如，参考文献、作者简介等等)，因此这些词对主题词提取结果的影响力应当被降低。此外，如果某个分词的分词属性表示该分词内容与预设的干扰词相匹配，则其相对应的权值应当较低，因为这些词不应该成为文档主题词，因此这些词对主题词提取结果的影响力应当被降低。

如果以所设定的基准权值ω₀为基准，则：分词位置位于段首这一预设条件所对应的权值ω₁、分词位置位于标题这一预设条件所对应的权值ω₂、分词的字体样式为粗体这一预设条件所对应的权值ω₃、分词的字体样式为斜体这一预设条件所对应的权值ω₄、以及分词的字体号大于常规字体号这一预设条件所对应的权值ω₅大于基准权值ω₀；另外，分词的字体号小于常规字体号这一预设条件所对应的权值ω₆、以及分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值ω₇小于基准权值ω₀。

当某个分词属性只满足以上预设条件中的一个预设条件时(例如，只满足分词的字体样式为粗体这一预设条件)，该分词属性所对应的权值为该预设条件所对应的权值(例如，为ω₃)。而当某个分词属性满足以上预设条件中的多个预设条件时(例如，满足分词的字体样式为粗体、以及分词的字体样式为斜体这两个预设条件)，则该分词属性所对应的权值为所满足的预设条件所对应的权值的乘积(例如，为ω₃×ω₄)。

例如，如图2B所示的分词结果，针对“文理科”这一分词，其第一次在文档中出现时的分词属性满足分词位置位于标题、分词的字体样式为粗体、以及分词的字体号大于常规字体号这三个预设条件，因此，“文理科”这一分词第一次在文档中出现时的分词属性所对应的权值为ω₂×ω₃×ω₅。之后，“文理科”这一分词第二次在文档中出现时的分词属性均不满足上述任一预设条件，因此，“文理科”这一分词第二次在文档中出现时的分词属性所对应的权值为基准权值ω₀。最后，“文理科”这一分词第三次在文档中出现时的分词属性满足分词的字体样式为粗体、以及分词的字体样式为斜体这两个预设条件，因此，“文理科”这一分词第三次在文档中出现时的分词属性所对应的权值为ω₃×ω₄。

这样，可以根据同一分词在目标文档中每次出现时的分词属性所对应的权值之和，利用等式(1)，确定出该分词的词频权重。例如，针对“文理科”这一分词，其在图2A所示的文档中的词频权重为：

之后，按照词频权重与逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为目标文档的主题词。通过此种方式所提取出的主题词具有更高的准确性和可靠性，能够更客观地表示该文档的中心思想，从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持，使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。

图3A至图3D是根据本发明的实施方式提供的文档主题词提取装置300的框图。如图3A所示，该装置300可以包括：分词处理模块310，被配置为对目标文档进行分词处理，其中，所述目标文档为文档库中的任一文档；权值获取模块320，被配置为针对同一分词，根据该分词在所述目标文档中每次出现时的分词属性，获取与所述分词属性相对应的权值；词频权重确定模块330，被配置为根据所述权值，确定该分词在所述目标文档中的词频权重；逆向文档频率确定模块340，被配置为基于所述文档库，确定所述分词的逆向文档频率；主题词提取模块350，被配置为基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词。

本发明提供的上述文档主题词提取装置300，考虑了分词在文档中每次出现时的分词属性(例如，分词位置、字体样式等等)，并基于与分词属性相对应的权值来确定该分词在文档中的词频权重，由此使得所提取出的主题词具有更高的准确性和可靠性，能够更客观地表示该文档的中心思想，从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持，使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。

可选地，如图3B所示，所述权值获取模块320可以包括：判断子模块321，被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件；第一权值获取子模块322，被配置为在所述分词属性不满足任一预设条件时，获取预设的基准权值作为与所述分词属性相对应的权值。

可选地，如图3C所示，所述权值获取模块320还可以包括：第二权值获取子模块323，被配置为在所述分词属性满足至少一个预设条件时，获取所述分词属性所满足的各个预设条件所对应的权值，并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值。

可选地，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

可选地，所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值；以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。

可选地，所述词频权重确定模块330被配置为通过以上等式(1)来确定该分词在所述目标文档中的词频权重。

可选地，如图3D所述，所述主题词提取模块350可以包括：计算子模块351，被配置为计算所述分词的词频权重与逆向文档频率的乘积；主题词提取子模块352，被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为所述目标文档的主题词。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明的实施方式可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种文档主题词提取方法，其特征在于，所述方法包括：

对目标文档进行分词处理，其中，所述目标文档为文档库中的任一文档；

针对同一分词，根据该分词在所述目标文档中每次出现时的分词属性，获取与所述分词属性相对应的权值，其中，所述获取与所述分词属性相对应的权值，包括：判断所述分词属性是否满足多个预设条件中的至少一个预设条件；在所述分词属性满足至少一个预设条件时，获取所述分词属性所满足的各个预设条件所对应的权值，并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值；

根据所述与所述分词属性相对应的所述权值，确定该分词在所述目标文档中的词频权重，其中，通过以下方式来确定该分词在所述目标文档中的词频权重：

其中，TFW表示分词的词频权重；W_n表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值；N表示该分词在所述目标文档中的总出现次数；I表示所述目标文档中的分词总数；

基于所述文档库，确定所述分词的逆向文档频率；

基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词。

2.根据权利要求1所述的方法，其特征在于，所述获取与所述分词属性相对应的权值，还包括：

在所述分词属性不满足任一预设条件时，获取预设的基准权值作为与所述分词属性相对应的权值。

3.根据权利要求2所述的方法，其特征在于，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

4.根据权利要求3所述的方法，其特征在于，所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值；以及

所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。

5.根据权利要求1所述的方法，其特征在于，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

6.根据权利要求1所述的方法，其特征在于，所述基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词，包括：

计算所述分词的词频权重与逆向文档频率的乘积；

按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为所述目标文档的主题词。

7.一种文档主题词提取装置，其特征在于，所述装置包括：

分词处理模块，被配置为对目标文档进行分词处理，其中，所述目标文档为文档库中的任一文档；

权值获取模块，被配置为针对同一分词，根据该分词在所述目标文档中每次出现时的分词属性，获取与所述分词属性相对应的权值；其中，所述权值获取模块包括：判断子模块，被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件；第二权值获取子模块，被配置为在所述分词属性满足至少一个预设条件时，获取所述分词属性所满足的各个预设条件所对应的权值，并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值；

词频权重确定模块，被配置为根据所述与所述分词属性相对应的所述权值，确定该分词在所述目标文档中的词频权重，其中，所述词频权重确定模块被配置为通过以下方式来确定该分词在所述目标文档中的词频权重：

逆向文档频率确定模块，被配置为基于所述文档库，确定所述分词的逆向文档频率；

主题词提取模块，被配置为基于所述词频权重和所述逆向文档频率，提取预定数量的分词作为所述目标文档的主题词。

8.根据权利要求7所述的装置，其特征在于，所述权值获取模块还包括：

第一权值获取子模块，被配置为在所述分词属性不满足任一预设条件时，获取预设的基准权值作为与所述分词属性相对应的权值。

9.根据权利要求8所述的装置，其特征在于，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

10.根据权利要求9所述的装置，其特征在于，所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值；以及

11.根据权利要求7所述的装置，其特征在于，所述分词属性包括分词位置、字体样式、字体号和分词内容；以及，所述多个预设条件包括：分词位置位于段首；分词位置位于标题；分词的字体样式为粗体；分词的字体样式为斜体；分词的字体号大于常规字体号；分词的字体号小于常规字体号；分词内容与预设的干扰词内容相匹配。

12.根据权利要求7所述的装置，其特征在于，所述主题词提取模块包括：

计算子模块，被配置为计算所述分词的词频权重与逆向文档频率的乘积；

主题词提取子模块，被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序，提取预定数量的分词作为所述目标文档的主题词。