CN106708880A

CN106708880A - 话题关联词的获取方法和装置

Info

Publication number: CN106708880A
Application number: CN201510786309.2A
Authority: CN
Inventors: 贺达; 李新国
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2017-05-24
Anticipated expiration: 2035-11-16
Also published as: CN106708880B

Abstract

本申请公开了一种话题关联词的获取方法和装置。其中，该方法包括：利用预先提供的与目标话题关联的关键词查询得到与目标话题关联的词语和文章；统计出每个词语出现的总次数和查询到的文章的总篇数；统计出每个词语所从属的文章的篇数，其中，词语所从属的文章为出现该词语的文章；根据每个词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个词语与目标话题的关联度，其中，关联度为用于表示词语与目标话题的关联程度的值；利用关联度从词语中选择目标话题的关联词。本申请解决了现有技术中确定出的关联词与话题的关联性不强的技术问题。

Description

话题关联词的获取方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种话题关联词的获取方法和装置。

背景技术

目前通过网络传播的信息越来越多，人们通过网络能够获取到的数据也越来越多，大量的信息数据使人们能够更加方便的获取各种各样他们想要的信息，方便人们的生活。但是随着数据量的进一步增大，如何在浩瀚的网络数据中筛选出自己所需要的信息成为摆在人们面前的一道难题，因此，出现了如谷歌、百度之类的搜索引擎，以帮助人们检索出他们所需要的信息。

然而，对于有些情况下，需要的可能不仅仅是一个关键词，而是一组或者一系列与某个话题相关的关键词组，以此来获取该话题的相关信息，例如政府机构需要去关注某个话题相关的舆论情况以此来了解人民的需求，以便于进行指导管理。

现有的一些数据收集工具可以通过配置话题相关的词组获取某一个话题下相关的词语、句子、文章等信息，然后再通过统计出现次数最多的词，以出现次数最多的词作为话题相关的关联词。然而，出现次数最多的词有可能是一些比较常用的常用词，而这些词与话题之间并没有关联性。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种话题关联词的获取方法和装置，以至少解决现有技术中确定出的关联词与话题的关联性不强的技术问题。

根据本申请实施例的一个方面，提供了一种话题关联词的获取方法，包括：利用预先提供的与目标话题关联的关键词查询得到与所述目标话题关联的词语和文章；统计出每个所述词语出现的总次数和查询到的文章的总篇数；统计出每个所述词语所从属的文章的篇数，其中，所述词语所从属的文章为出现该词语的文章；根据每个所述词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个所述词语与所述目标话题的关联度，其中，所述关联度为用于表示所述词语与所述目标话题的关联程度的值；利用所述关联度从所述词语中选择所述目标话题的关联词。

进一步地，根据每个所述词语出现的总次数和所述文章的总篇数以及每个所述词语所从属的文章的篇数计算得到每个所述词语与所述目标话题的关联度包括：由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度，其中，所述集中度用于表示在查询到的文章中所述词语的分布情况，所述集中度的值越大表示对应的词语越集中；将每个所述词语的集中度乘以该词语出现的总次数得到每个所述词语的关联度。

进一步地，在由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度后，所述方法还包括：筛选出集中度处于预设范围的词语，得到筛选出的词语；其中，每个所述词语的集中度乘以该词语出现的总次数得到每个所述词语的关联度包括：所述筛选出的词语中每个词语的集中度乘以该词语出现的总次数，得到所述筛选出的词语的关联度。

进一步地，由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度包括：通过以下公式计算每个所述词语的集中度：

J＝log_a(M/m)

其中，J表示所述集中度，m表示所述词语所从属的文章的篇数，M表示所述文章的总篇数，a表示大于1的预设值。

进一步地，在统计出每个所述词语出现的总次数之后，所述方法还包括：过滤掉词语出现的总次数小于预设阈值的词语，得到过滤后的词语；其中，统计出每个所述词语所从属的文章的篇数包括：统计出所述过滤后的词语中每个词语所从属的文章的篇数。

根据本申请实施例的另一方面，还提供了一种话题关联词的获取装置，包括：查询单元，用于利用预先提供的与目标话题关联的关键词查询得到与所述目标话题关联的词语和文章；第一统计单元，用于统计出每个所述词语出现的总次数和查询到的文章的总篇数；第二统计单元，用于统计出每个所述词语所从属的文章的篇数，其中，所述词语所从属的文章为出现该词语的文章；计算单元，用于根据每个所述词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个所述词语与所述目标话题的关联度，其中，所述关联度为用于表示所述词语与所述目标话题的关联程度的值；选择单元，用于利用所述关联度从所述词语中选择所述目标话题的关联词。

进一步地，所述计算单元包括：第一计算模块，用于由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度，其中，所述集中度用于表示在查询到的文章中所述词语的分布情况，所述集中度的值越大表示对应的词语越集中；第二计算模块，用于将每个所述词语的集中度乘以该词语出现的总次数得到每个所述词语的关联度。

进一步地，所述装置还包括：筛选单元，用于在由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度后，筛选出集中度处于预设范围的词语，得到筛选出的词语；其中，所述第二计算模块具体用于所述筛选出的词语中每个词语的集中度乘以该词语出现的总次数，得到所述筛选出的词语的关联度。

进一步地，所述第一计算模块具体用于通过以下公式计算每个所述词语的集中度：

J＝log_a(M/m)

进一步地，所述装置还包括：过滤单元，用于在统计出每个所述词语出现的总次数之后，过滤掉词语出现的总次数小于预设阈值的词语，得到过滤后的词语；其中，所述第二统计单元具体用于统计出所述过滤后的词语中每个词语所从属的文章的篇数。

根据本发明实施例，通过利用预先提供的与目标话题关联的关键词查询得到与目标话题关联的词语和文章，统计出每个词语所从属的文章的篇数，其中，词语所从属的文章为出现该词语的文章，统计出每个词语所从属的文章的篇数，其中，词语所从属的文章为出现该词语的文章，根据每个词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个词语与目标话题的关联度，利用关联度从词语中选择目标话题的关联词，从而解决现有技术中确定出的关联词与话题的关联性不强的技术问题，选择出了与话题的关联性较强的关联词。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的话题关联词的获取方法的流程图；

图2是根据本申请实施例的话题关联词的获取装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种话题关联词的获取方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的话题关联词的获取方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，利用预先提供的与目标话题关联的关键词查询得到与目标话题关联的词语和文章。

目标话题为用户所需要了解的相关话题，例如“高考”、“就业”等。本申请实施例中，预先提供与目标话题相关联的关键词，作为搜索词，从搜索引擎中查询与目标话题相关的词语和文章。其中，这里的搜索引擎可以是预先收集有大量的词语、句子以及文章的查询平台，可以搜索关键词相关的词语、句子以及文章。通过预先配置的关键词查询与目标话题关联的词语和文章，以便于从查询得到的词语和文章确定出于目标话题关联性较强的关联词。

步骤S104，统计出每个词语出现的总次数和查询到的文章的总篇数。

步骤S106，统计出每个词语所从属的文章的篇数。其中，词语所从属的文章为出现该词语的文章。

在查询出与目标话题关联的词语和文章之后，可以确定出词语与文章之间的从属关系，统计每个词语出现的次数，该次数为词语单独出现的次数、在句子中出现的次数、同一篇文章中出现的次数和不同文章出现的次数等次数加和；统计查询出的文章的总篇数，以及根据词语与文章之间的从属关系统计出每个词语所从属的文章的篇数。例如，关于目标话题“高考”，查询出的词语共有70000个，文章总共100篇，对于70000个词语中的每个词语，统计出现该词语的文章的篇数，如词语A出现在30篇文章中。统计出的每个词语所从属的文章的篇数可以反映出查询出的文章对该词语的覆盖率或者词语出现在文章中的集中度，如果词语所从属的文章的篇数越接近文章的总篇数，则表示该词语有可能为与目标话题关联性不强的常用词。

步骤S108，根据每个词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个词语与目标话题的关联度。其中，关联度为用于表示词语与目标话题的关联程度的值。

步骤S110，利用关联度从词语中选择目标话题的关联词。

词语对应的关联度的值越大，表示该词语与目标话题之间的关联性越强。在统计出每个词语出现的总次数和查询到的文章的总篇数以及每个词语所从属的文章的篇数之后，可以按照预先设置的计算规则计算每个词语与目标话题的关联度。具体地，本实施例中，利用词语出现的总次数结合出现的文章的总篇数以及每个词语所从属的文章的篇数，计算词语与目标话题的关联度。具体地，上述计算规则可以是使得计算的关联度的值随着词语出现的总次数增大而增大，并随着词语所从属的文章的篇数曾大而减小，从而使得当词语出现在大多数文章中时，减小了其关联度；同时对于集中出现在少量文章中的词语，能够提高其计算关联度的权重，使得一些虽然出现次数不多，但是较为集中的词语得到较好的关联度反馈。

通过利用上述方式计算得到的关联度从查询出的词语中确定出与目标话题关联性较强的关联词，从而可以避免现有技术中仅以词语出现的次数作为判断词语与目标话题之间的关联性导致确定出的关联词与目标话题关联性不强的情况。具体选择关联词的方式，可以是设置阈值，例如，关联度大于该阈值的词语作为关联词，或者，设置选择的关联词的数量N，从查询出的词语中选择排名前N的词语作为关联词。

优选地，根据每个词语出现的总次数和文章的总篇数以及每个词语所从属的文章的篇数计算得到每个词语与目标话题的关联度包括：由文章的总篇数和每个词语所从属的文章的篇数计算每个词语的集中度，其中，集中度用于表示在查询到的文章中词语的分布情况，集中度的值越大表示对应的词语越集中；将每个词语的集中度乘以该词语出现的总次数得到每个词语的关联度。

本实施例中，当词语所从属的文章的篇数越大，即词语出现在大多数文章中时，该词语对应的集中度的值则越小，反之，词语集中出现在少量文章中时，词语对应的集中度越大。该集中度的值可以是查询出的文章的总篇数除以词语所从属的文章的篇数得到，也可以是取文章的总篇数与词语所从属的文章的篇数的比值的对数等。

根据本申请实施例，通过计算词语的集中度，再利用该集中度乘以词语出现的总次数得到其关联度，结合词语在文章中的分布情况来调整最终的计算结果，从而提高计算词语与目标话题的关联度的准确性。

进一步地，在由文章的总篇数和每个词语所从属的文章的篇数计算每个词语的集中度后，方法还包括：筛选出集中度处于预设范围的词语，得到筛选出的词语；其中，每个词语的集中度乘以该词语出现的总次数得到每个词语的关联度包括：筛选出的词语中每个词语的集中度乘以该词语出现的总次数，得到筛选出的词语的关联度。

本实施例中，预设范围可以根据需求进行设置，对于不同的话题可以设置不同的范围。例如，当通过预估或者历史统计模型中确定，如果词语比较分散地出现在95％的文章中，或者特别集中地出现在2％的文章中，则表明该词语属于一般的常用词，或者与话题关联特别小的词语，那么可以设置预设范围为2％-95％。这样，可以利用该预设范围对查询出的词语进行筛选，过滤掉一部分词语，仅对筛选出的词语计算其关联度，从而减小数据计算量，减少性能开销。

进一步地，由文章的总篇数和每个词语所从属的文章的篇数计算每个词语的集中度包括：通过以下公式计算每个词语的集中度：

J＝log_a(M/m)

其中，J表示集中度，m表示词语所从属的文章的篇数，M表示文章的总篇数，a表示大于1的预设值。

本实施例中，词语的关联度＝Nlog_a(M/m)，其中，N为词语出现的总次数，底数a的值可以根据需要进行设置。

在现实生活中，如果一个词在所有文章中都出现，则该词语有可能是一些连接词等常见的词语，在本实施例中，除了常规的统计词出现的次数，还加入了通过计算log_a(M/m)这样的计算公式，结合数学知识可知，当词出现在大多数文章中时，得到的结果是趋近于0的，从而减小了其关联度。同时对于集中出现在少量文章中的词，能够提高其计算关联度的权重，使得一些虽然出现次数不多，但是较为集中的词得到较好的关联度反馈。使得一些在出现次数不占优势但和主题有较强相关的词能够得到一个合理的关联度。

优选地，在统计出每个词语出现的总次数之后，方法还包括：过滤掉词语出现的总次数小于预设阈值的词语，得到过滤后的词语；其中，统计出每个词语所从属的文章的篇数包括：统计出过滤后的词语中每个词语所从属的文章的篇数。

当词语出现的次数比较小时，例如总共出现不到10次等，则可以认为该词语与目标话题不太相关，可以直接将这类不相关的词语过滤掉。本实施例中，通过设置阈值来对词语进行过滤，从而过滤掉出现次数小于预设阈值的词语。其中，预设阈值可以根据需求或者历史统计数据。通过对查询得到的词语进行过滤，从而较少这些词语在后续过程中的计算量，进而较少性能消耗，降低开销。

本申请实施例还提供了一种话题关联词的获取装置，该装置可以用于执行本申请实施例的话题关联词的获取方法，如图2所示，该装置包括：查询单元10、第一统计单元20、第二统计单元30、计算单元40和选择单元50。

查询单元10用于利用预先提供的与目标话题关联的关键词查询得到与目标话题关联的词语和文章。

第一统计单元20用于统计出每个词语出现的总次数和查询到的文章的总篇数。

第二统计单元30用于统计出每个词语所从属的文章的篇数，其中，词语所从属的文章为出现该词语的文章。

计算单元40用于根据每个词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个词语与目标话题的关联度，其中，关联度为用于表示词语与目标话题的关联程度的值。

选择单元50用于利用关联度从词语中选择目标话题的关联词。

优选地，计算单元包括：第一计算模块，用于由文章的总篇数和每个词语所从属的文章的篇数计算每个词语的集中度，其中，集中度用于表示在查询到的文章中词语的分布情况，集中度的值越大表示对应的词语越集中；第二计算模块，用于将每个词语的集中度乘以该词语出现的总次数得到每个词语的关联度。

优选地，装置还包括：筛选单元，用于在由文章的总篇数和每个词语所从属的文章的篇数计算每个词语的集中度后，筛选出集中度处于预设范围的词语，得到筛选出的词语；其中，第二计算模块具体用于筛选出的词语中每个词语的集中度乘以该词语出现的总次数，得到筛选出的词语的关联度。

优选地，第一计算模块具体用于通过以下公式计算每个词语的集中度：

J＝log_a(M/m)

优选地，装置还包括：过滤单元，用于在统计出每个词语出现的总次数之后，过滤掉词语出现的总次数小于预设阈值的词语，得到过滤后的词语；其中，第二统计单元具体用于统计出过滤后的词语中每个词语所从属的文章的篇数。

所述话题关联词的获取装置包括处理器和存储器，上述查询单元10、第一统计单元20、第二统计单元30、计算单元40和选择单元50等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数选择与目标话题关联的关联词。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：利用预先提供的与目标话题关联的关键词查询得到与目标话题关联的词语和文章，统计出每个词语所从属的文章的篇数，其中，词语所从属的文章为出现该词语的文章，统计出每个词语所从属的文章的篇数，其中，词语所从属的文章为出现该词语的文章，根据每个词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个词语与目标话题的关联度，利用关联度从词语中选择目标话题的关联词。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种话题关联词的获取方法，其特征在于，包括：

利用预先提供的与目标话题关联的关键词查询得到与所述目标话题关联的词语和文章；

统计出每个所述词语出现的总次数和查询到的文章的总篇数；

统计出每个所述词语所从属的文章的篇数，其中，所述词语所从属的文章为出现该词语的文章；

根据每个所述词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个所述词语与所述目标话题的关联度，其中，所述关联度为用于表示所述词语与所述目标话题的关联程度的值；

利用所述关联度从所述词语中选择所述目标话题的关联词。

2.根据权利要求1所述的方法，其特征在于，根据每个所述词语出现的总次数和所述文章的总篇数以及每个所述词语所从属的文章的篇数计算得到每个所述词语与所述目标话题的关联度包括：

由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度，其中，所述集中度用于表示在查询到的文章中所述词语的分布情况，所述集中度的值越大表示对应的词语越集中；

将每个所述词语的集中度乘以该词语出现的总次数得到每个所述词语的关联度。

3.根据权利要求1所述的方法，其特征在于，在由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度后，所述方法还包括：

筛选出集中度处于预设范围的词语，得到筛选出的词语；

其中，每个所述词语的集中度乘以该词语出现的总次数得到每个所述词语的关联度包括：所述筛选出的词语中每个词语的集中度乘以该词语出现的总次数，得到所述筛选出的词语的关联度。

4.根据权利要求2所述的方法，其特征在于，由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度包括：

通过以下公式计算每个所述词语的集中度：

J＝log_a(M/m)

5.根据权利要求1所述的方法，其特征在于，在统计出每个所述词语出现的总次数之后，所述方法还包括：

过滤掉词语出现的总次数小于预设阈值的词语，得到过滤后的词语；

其中，统计出每个所述词语所从属的文章的篇数包括：统计出所述过滤后的词语中每个词语所从属的文章的篇数。

6.一种话题关联词的获取装置，其特征在于，包括：

查询单元，用于利用预先提供的与目标话题关联的关键词查询得到与所述目标话题关联的词语和文章；

第一统计单元，用于统计出每个所述词语出现的总次数和查询到的文章的总篇数；

第二统计单元，用于统计出每个所述词语所从属的文章的篇数，其中，所述词语所从属的文章为出现该词语的文章；

计算单元，用于根据每个所述词语出现的总次数和出现的文章的总篇数以及每个词语所从属的文章的篇数计算得到每个所述词语与所述目标话题的关联度，其中，所述关联度为用于表示所述词语与所述目标话题的关联程度的值；

选择单元，用于利用所述关联度从所述词语中选择所述目标话题的关联词。

7.根据权利要求6所述的装置，其特征在于，所述计算单元包括：

第一计算模块，用于由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度，其中，所述集中度用于表示在查询到的文章中所述词语的分布情况，所述集中度的值越大表示对应的词语越集中；

第二计算模块，用于将每个所述词语的集中度乘以该词语出现的总次数得到每个所述词语的关联度。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

筛选单元，用于在由所述文章的总篇数和每个所述词语所从属的文章的篇数计算每个所述词语的集中度后，筛选出集中度处于预设范围的词语，得到筛选出的词语；

其中，所述第二计算模块具体用于所述筛选出的词语中每个词语的集中度乘以该词语出现的总次数，得到所述筛选出的词语的关联度。

9.根据权利要求7所述的装置，其特征在于，所述第一计算模块具体用于通过以下公式计算每个所述词语的集中度：

J＝log_a(M/m)

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

过滤单元，用于在统计出每个所述词语出现的总次数之后，过滤掉词语出现的总次数小于预设阈值的词语，得到过滤后的词语；

其中，所述第二统计单元具体用于统计出所述过滤后的词语中每个词语所从属的文章的篇数。