CN111126060B

CN111126060B - 一种主题词的提取方法、装置、设备及存储介质

Info

Publication number: CN111126060B
Application number: CN201911349731.6A
Authority: CN
Inventors: 郎鹏飞; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-04-25
Anticipated expiration: 2039-12-24
Also published as: CN111126060A

Abstract

本申请公开了一种主题词的提取方法、装置、设备及存储介质，包括：确定包括多个分词的候选词集合；根据候选词总数，以及目标候选词在目标文本的不同位置处分别对应的权重值，计算出词频，该权重值基于影响因子进行确定，影响因子包括目标候选词在该目标文本中的位置，和/或，目标候选词与关键词之间的位置关系；根据目标候选词在所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，计算出该目标候选词的逆文本频率；根据目标候选词的词频与逆文本频率的乘积，从候选词集合中确定出主题词。由此可见，基于候选词在目标文本中所具有的其它特征来对该候选词的重要程度进行考量，可以提高提取主题词的准确性。

Description

一种主题词的提取方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种主题词的提取方法、装置、设备及存储介质。

背景技术

主题词，通常能够高度概括文本的中心思想。比如，对于一篇介绍“月季”(花)的文章，其通篇内容通常围绕“月季”进行描述，则，该篇文章的主题词可以为“月季”。实际应用中，为文本提取出主题词，在文本检索、文本分类等诸多领域中存在广泛应用。

目前，通常是采用词频-逆文本频率(Term Frequency–Inverse DocumentFrequency，TF-IDF)算法来提取文本的主题词，但是这种提取文本主题词的方式，通常存在准确性较低的问题。

发明内容

为了解决上述问题，本申请实施例提供了一种主题词的提取方法、装置、设备及存储介质，以提高所提取的文本主题词的准确性。

第一方面，本申请实施例提供了一种主题词的提取方法，所述方法包括：

确定目标文本的候选词集合，所述候选词集合中包括所述目标文本的多个分词；

根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值，计算出所述目标候选词的词频，每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定，所述影响因子包括所述目标候选词在所述目标文本中的位置，和/或，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，所述目标候选词对应的关键词在所述目标文本包括的关键词中距离所述目标候选词最近，所述目标候选词为所述候选词集合中的任意一个候选词；

根据所述目标候选词在文本库的所有文本中对应的权重值总和以及所述文本库中所有候选词对应的权重总和，计算出所述目标候选词的逆文本频率；

根据所述目标候选词的词频与逆文本频率的乘积，从所述候选词集合中确定出所述目标文本的主题词。

在一种可能的实施方式中，所述目标候选词在所述目标文本中的位置，包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。

在一种可能的实施方式中，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。

在一种可能的实施方式中，所述方法还包括：

获取影响因子对应的权重值的多个取值以及每个取值所对应的主题词提取精度；

根据所述多个取值以及每个取值对应的主题词提取精度构建线性函数；

确定所述线性函数中使得主题词提取精度为极大值时所对应的极值点，并将所述极值点作为所述影响因子对应的权重值的目标值。

在一种可能的实施方式中，所述方法还包括：

对所述目标文本进行分词，得到所述目标文本的初始分词结果；

对所述初始分词结果所包含的各个词进行词性标注；

根据分词的词性对所述初始分词结果进行分词过滤，得到所述候选词集合，所述候选词集合中候选词的词性为名词、动词或副词。

第二方面，本申请实施例还提供了一种主题词的提取装置，所述装置包括：

第一确定模块，用于确定目标文本的候选词集合，所述候选词集合中包括所述目标文本的多个分词；

第一计算模块，用于根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值，计算出所述目标候选词的词频，每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定，所述影响因子包括所述目标候选词在所述目标文本中的位置，和/或，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，所述目标候选词对应的关键词在所述目标文本包括的关键词中距离所述目标候选词最近，所述目标候选词为所述候选词集合中的任意一个候选词；

第二计算模块，用于根据所述目标候选词在文本库的所有文本中对应的权重值总和以及所述文本库中所有候选词对应的权重总和，计算出所述目标候选词的逆文本频率；

第二确定模块，用于根据所述目标候选词的词频与逆文本频率的乘积，从所述候选词集合中确定出所述目标文本的主题词。

在一种可能的实施方式中，所述装置还包括：

获取模块，用于获取影响因子对应的权重值的多个取值以及每个取值所对应的主题词提取精度；

提取模块，用于根据所述多个取值以及每个取值对应的主题词提取精度构建线性函数；

第三确定模块，用于确定所述线性函数中使得主题词提取精度达到最大值时所对应的极值点，并将所述极值点作为所述影响因子对应的权重值的目标值。

在一种可能的实施方式中，所述装置还包括：

分词模块，用于对所述目标文本进行分词，得到所述目标文本的初始分词结果；

词性标注模块，用于对所述初始分词结果所包含的各个词进行词性标注；

分词过滤模块，用于根据分词的词性对所述初始分词结果进行分词过滤，得到所述候选词集合，所述候选词集合中候选词的词性为名词、动词或副词。

第三方面，本申请实施例还提供了一种设备，所述设备包括存储器以及处理器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行上述第一方面中任一种实施方式所述的主题词的提取方法

第四方面，本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面中任一种实施方式所述的主题词的提取方法。

在本申请实施例的上述实现方式中，可以先确定目标文本的候选词集合，该候选词集合中包括目标文本的多个分词，而该目标文本的主题词即可以从该候选词集合中进行选择确定；然后，可以根据该候选词集合所包括的候选词总数，以及该候选词集合中的目标候选词在目标文本的不同位置处分别对应的权重值，计算出该目标候选词的词频，每个位置处的目标候选词所对应的权重值基于该目标候选词的影响因子进行确定，该影响因子包括目标候选词在该目标文本中的位置，和/或，目标候选词与该目标候选词对应的关键词之间的位置关系，该目标候选词对应的关键词在该目标文本包括的关键词中距离该目标候选词最近，目标候选词为候选词集合中的任意一个候选词；同时，还可以根据该目标候选词在文本库的所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，计算出该目标候选词的逆文本频率；这样，根据该目标候选词的词频与逆文本频率的乘积，可以从该候选词集合中确定出该目标文本的主题词，比如可以将候选词集合中乘积最大的候选词确定出该目标文本的主题词等。由此可见，在提取目标文本的主题词的过程中，可以根据候选词在目标文本中的位置和/或其与关键词之间的位置关系来得到该候选词在目标文本中的词频，这在确定候选词在目标文本中的重要程度时，不仅仅考虑到该候选词在该目标文本中出现的次数，还基于该候选词在目标文本中所具有的其它特征来对该候选词的重要程度进行考量，从而使得能够反映目标文本主题的候选词相对于其它候选词具有更强的区分能力，进而可以提高为该目标文本所提取的主题词的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一示例性应用场景示意图；

图2为本申请实施例中一种主题词的提取方法流程示意图；

图3为本申请实施例中一种主题词的提取装置结构示意图；

图4为本申请实施例中一种设备的硬件结构示意图。

具体实施方式

目前，在提取文本的主题词时，通常是基于TF-IDF算法进行主题词的提取。其中，TF-IDF算法的主要思想是：如果文本中的某个词在一篇文章中出现的频率(即词频TF)高，并且在其它文章中很少出现(即逆文本频率IDF较高)，则认为该词具有很好的类别区分能力，适合用于作为该文本的主题词。具体实现时，可以先对文本进行分词处理，得到多个分词，然后，计算每个分词所对应的TF-IDF值，从而从多个分词中挑选出TF-IDF值最高的分词作为该文本的主题词。但是，基于TF-IDF算法所确定出的主题词，仅仅是考虑到分词在文本中出现的次数的影响，但是并没有考虑到该分词在文本中所具有的其它特征(如在文章的位置等)对该候选词的重要程度的影响，从而所确定出的主题词存在准确性较低的缺陷，这使得当采用该TF-IDF算法对多篇文本进行主题词提取时，会存在较多数量的文本所提取出的主题词与其实际适用的主题词并不相符。

基于此，本申请实施例提供了一种主题词的提取方法，旨在提高提取文本主题词的准确性。具体的，可以先确定目标文本的候选词集合，该候选词集合中包括目标文本的多个分词，而该目标文本的主题词即可以从该候选词集合中进行选择确定；然后，可以根据该候选词集合所包括的候选词总数，以及该候选词集合中的任一候选词(以下称之为目标候选词)在目标文本的不同位置处分别对应的权重值，计算出该目标候选词的词频，每个位置处的目标候选词所对应的权重值基于该目标候选词的影响因子进行确定，该影响因子包括目标候选词在该目标文本中的位置，和/或，目标候选词与该目标候选词对应的关键词之间的位置关系，该目标候选词对应的关键词在该目标文本包括的关键词中距离该目标候选词最近；同时，还可以根据该目标候选词在文本库的所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，计算出该目标候选词的逆文本频率；这样，根据该目标候选词的词频与逆文本频率的乘积，可以从该候选词集合中确定出该目标文本的主题词，比如可以将候选词集合中乘积最大的候选词确定出该目标文本的主题词等。

由此可见，在提取目标文本的主题词的过程中，可以根据候选词在目标文本中的位置和/或其与关键词之间的位置关系来得到该候选词在目标文本中的词频，这在确定候选词在目标文本中的重要程度时，不仅仅考虑到该候选词在该目标文本中出现的次数，还基于该候选词在目标文本中所具有的其它特征来对该候选词的重要程度进行考量，从而使得能够反映目标文本主题的候选词相对于其它候选词具有更强的区分能力，进而可以提高为该目标文本所提取的主题词的准确性。

作为一种示例，本申请实施例可以应用于如图1所示的示例性应用场景。在该场景中，用户101可以在终端102上输入文本，以便利用终端102上的计算资源提取出该文本的主题词。终端102在接收到该文本后，可以对该文本进行分词处理，从而可以得到该文本的候选词集合，该候选词集合中包括文本的多个分词；然后，终端102可以根据该候选词集合所包括的候选词总数，以及该候选词集合中的目标候选词在文本的不同位置处分别对应的权重值，计算出该目标候选词的词频，每个位置处的目标候选词所对应的权重值基于该目标候选词的影响因子进行确定，该影响因子包括目标候选词在该文本中的位置，和/或，目标候选词与该目标候选词对应的关键词之间的位置关系，该目标候选词对应的关键词在该文本包括的关键词中距离该目标候选词最近；同时，终端102还可以根据该目标候选词在文本库的所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，计算出该目标候选词的逆文本频率；最后，终端102可以根据该目标候选词的词频与逆文本频率的乘积，从该候选词集合中确定出该文本的主题词，并将所确定出的主题词在终端102的显示屏上呈现给用户101。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。比如，在其它可能的场景中，提取目文本的主题词所需的计算量较大，而终端102上的计算资源有限，则终端102可以将该文本发送至服务器，以请求服务器执行相应的处理，以获得该文本的主题词，这样，利用服务器的计算资源与计算能力可以更快速的为该文本提取出主题词。总之，本申请实施例可以应用于任何可适用的场景中，而不局限于上述场景示例。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

参阅图2，图2示出了本申请实施例中一种主题词的提取方法的流程示意图。该方法可以是由上述图1所示的终端102进行处理，上述其它场景示例中所述的服务器进行处理，当然也可以是终端102与上述服务器协同处理等。

具体的，该方法可以包括：

S201：确定目标文本的候选词集合，该候选词集合中包括目标文本的多个分词。

本实施例中，在为文本提取主题词时，可以是从该文本中选择一个词作为该文本的主题词。因此，当需要对某个文本(为便于描述，以下称之为目标文本，其例如可以是文章、网页上的一段或者多段话等)进行主题词提取时，可以对该目标文本进行分词处理，如利用已有的分词器进行处理等，得到该目标文本对应的分词集合，这样，可以根据该分词集合中每个分词所具有的相关特征，从该分词集合中选择确定出一个或者多个分词作为该目标文本的主题词。

可以理解，实际应用中，目标文本所包含的一类或者多类词，通常为该目标文本的主题词的可能性较低，例如助词(如“的”等)、连词(如“如果”等)、代词(如“它”等)，基于此，在一些可能的实施方式中，可以根据词性对目标文本中的词进行过滤，并从过滤得到的词中确定出目标文本的主题词。具体实现时，可以先对目标文本进行分词处理，得到该目标文本的初始分词结果，然后，可以对于该初始分词结果所包含的各个分词进行词性标注，从而可以根据该初始分词结果中各个分词的词性对该初始分词结果进行分词过滤，得到候选词集合，从而目标文本的主题词可以从该候选词集合所包括的候选词中进行确定。其中，在一种示例中，该候选词集合中的候选词所具有的词性可以为名词、动词或副词，而初始分词结果中具有其它词性的分词(如介词、连词、助词、叹词、拟声词、语气词等)可以被过滤。当然在一些应用场景中，该候选词集合中每个候选词所具有的词性也可以均为名词等。

进一步的，除了上述根据词性对初始分词结果进行分词过滤以外，还可以对初始分词结果中不具有词性的一些特殊分词进行过滤。比如，实际应用的部分文本中，还可能包含有数字等特殊词，而这些特殊词为文本主题词的可能性较低，因此，本实施例中还可以对这些特殊词进行过滤。

当然，实际应用中，也可以是不执行上述过滤过程，即，对目标文本进行分词处理后，也可以直接从分词得到的包含多种词性的分词中确定出该目标文本的主题词。

S202：根据候选词集合所包括的候选词总数以及目标候选词在目标文本的不同位置处分别对应的权重值，计算出该目标候选词的词频。

其中，每个位置处的目标候选词所对应的权重值基于该目标候选词的影响因子进行确定，该影响因子包括目标候选词在目标文本中的位置，和/或，目标候选词与该目标候选词对应的关键词之间的位置关系，该目标候选词对应的关键词在该目标文本包括的关键词中距离目标候选词最近，而该目标候选词为候选词集合中的任意一个候选词。

本实施例中，针对于候选词集合中的任意候选词(为便于描述，以下称之为目标候选词)，可以计算出该目标候选词在不同位置处分别对应的权重值。例如，假设目标候选词A在目标文本的不同位置处(分别为位置I₁、位置I₂以及位置I₃)总共出现3次，则可以分别计算出该目标候选词A在位置I₁处所对应的权重值、在位置I₂处所对应的权重值以及在位置I₃处所对应的权重值。

其中，目标候选词在每个位置处的对应的权重值，可以是根据该位置处的目标候选词所对应的影响因子进行确定。在一种可能的实施方式中，该影响因子，具体可以是该目标候选词在目标文本中的位置。比如，该目标候选词在文章中的某一段落中的第一句话(即位于段首)，或者位于文章中的最后一个段落(即位于文章尾段)。可以理解，按照当前文本的行文习惯，可能在文章的前几段(比如第一段)或者在文章的倒数几段(比如最后一段)中表达出文章的主旨内容。比如，实际应用中，可能在文章的第一段中进行“点题”(又可称为“开门见山”)，或者，在文章的最后一段中进行“总结”，体现文章的主旨等。相应的，能够体现该文章主旨的主题词在文章首段或者文章尾段的可能性相较于文章其它位置处的可能性更高，或者说，文章首段或者文章尾段中分词的重要程度相较于文章其它位置处的分词的重要程度更高。

在一种示例中，目标候选词在文章中的位置，具体可以划分为文章首段、文章尾段、文章中间段、段首、段尾以及段中等。其中，段首是指目标候选词在文章中某个段落的前几句话(如第一句话)；段尾是指目标候选词在某个段落的最后几句话(如最后一句)；段中，是指某个段落中除段首以及段尾之外的其它分词所在位置；而文章中间段，是指文章中除文章首段以及文章尾段之外的其它段落所在位置。不同位置处的目标候选词可以具有不同的权重，比如，位于文章首段中的目标候选词，其对应的权重值高于位于文章中间段处的目标候选词所对应的权重值等。

当然，实际应用中，基于上述划分示例也可以进行相应扩展，比如，可以将目标候选词在文章的位置进行更细维度的划分，如在一个段落中，划分为5种位置(上述示例中划分为3种)。或者，目标候选词在文章中的位置，仅采用上述示例中的一部分位置划分，比如，可以仅将目标候选词在文章中的位置划分为段首、段尾以及段中等。本实施例中对此并不进行限定。

在另一种可能的实施方式中，该影响因子，具体也可以是目标候选词与该目标候选词对应的关键词之间的位置关系。需要说明的时，本实施例中，可以预先设定能够衬托目标候选词的重要程度的关键词，从而基于目标候选词与该目标候选词对应的关键词之间的位置关系，可以确定目标候选词在当前位置处的重要程度。可以理解，基于实际应用中的文章行文习惯，在围绕主题词进行详细描述时，可能会采用“A包括a、b……”、“A有……几种”、“A分为……”以及“A由……组成”等句式，而这些句式所表达的内容通常均是围绕对象A进行描述，因此，分词A能体现文章主旨的可能性通常高于该句式中的其它内容所包括的分词。相应的，本实施例中可以预先设定关键词，如上述举例中的“包括”、“由……组成”、“有……几种”、“分为”等，然后，基于该目标候选词与关键词之间的位置关系，可以确定该目标候选词的重要程度，从而为该目标候选词分配相应大小的权重值，并且，目标候选词与该目标候选词对应的关键词之间的位置关系不同，为该目标候选词所分配的权重值也可以不同。

值得注意的是，文章中通常会存在多个关键词，因此，在确定该目标候选词的权重值时，所选用的关键词为距离该目标候选词最近的关键词(为便于描述，以下称之为目标候选词对应的关键词)。其中，目标候选词与关键词之间距离，具体可以是目标候选词与关键词之间间隔的字符数，并且，最小距离可以为1个字符。以“A包括……”为例，目标候选词A与关键词“包括”之间的距离为1个字符。

作为一种示例，目标候选词与该目标候选词对应的关键词之间的位置关系，具体可以是目标候选词与该目标候选词对应的关键词之间的距离、目标候选词与该目标候选词对应的关键词是否位于同一段落以及目标候选词与该目标候选词对应的关键词是否位于同一语句中的任意一种或多种。其中，目标候选词与关键词之间的距离较小时，目标候选词所对应的权重值，可以高于目标候选词与关键词之间的距离较大时该目标候选词所对应的权重值；而与关键词(该关键词距离目标候选词最小)位于同一段落的目标候选词和不与关键词位于同一段落的目标候选词，所对应的权重值可以相对更高；类似的，与关键词(该关键词距离目标候选词最小)位于同一语句的目标候选词和不与关键词位于同一语句的目标候选词，所对应的权重值可以相对更高。

当然，实际应用中，目标候选词对应的影响因子，也可以同时包含目标候选词在目标文本中的位置以及目标候选词与该目标候选词对应的关键词之间的位置关系。

需要说明的是，在确定每个位置处的目标候选词所对应的权重值之前，还可以对目标文本进行段位标识，即标识出该目标文本中每个段落在目标文本中的位置、每个语句所位于的段落以及每个候选词在文章中的位置。同时，当影响因子包括目标候选词与该目标候选词对应的关键词之间的位置关系时，还可以预先识别出该目标文本中所包含的各个关键词，以及标识出该关键词在该目标文本中的位置。此时，目标文本的候选词集合中可以不包括目标文本中的关键词，或者，即使该目标文本的候选词集合中包含该关键词，该关键词也可以不参与词频计算，即目标文本中的关键词可以不作为该目标文本的主题词。

基于上述过程，基于针对于目标文本中每个位置处的目标候选词，计算出该目标候选词所对应的权重值，从而基于该目标候选词在每个位置处分别对应的权重值以及候选词集合中所包含的候选词总数，计算出该目标候选词在该目标文本中的词频。比如，可以计算出该目标候选词在各个位置处分别对应的权重值的总和，从而计算该权重值总和以及候选词总数之间的比值，并将该比值作为该目标候选词的词频。

作为一种示例，影响因子具体可以包括目标候选词在段落中的位置(即段首、段中或段尾)、目标候选词是否与该目标候选词对应的关键词位于同一段落、目标候选词是否与该目标候选词对应的关键词位于同一语句以及该目标候选词与关键词之间的最小距离。则目标候选词在某个位置处的权重值可以采用下述公式(1)进行计算：

其中，W为目标候选词在当前出现位置处的权重，f_a表示目标候选词在段落中的位置所对应的权重值，其中，目标候选词在段首时f_a取值为f_a，h，目标候选词在段中时f_a取值为f_a，m，目标候选词在段尾时f_a取值为f_a，t，并且，f_a，h>f_a，m>f_a，t；f_p表示目标候选词与关键词是否在同一段落中所对应的权重值，其中，目标候选词与关键词在同一段落中时f_p取值为f_p，y，在不同段落中时f_p取值为f_p，n；f_s表示目标候选词与关键词是否在同一语句中所对应的权重值，其中，目标候选词与关键词在同一语句中时f_s取值为f_s，y，在不同段落中时f_s取值为f_s，n；d_len表示候选词集合中所包括的候选词总数；|d_min|表示目标候选词与关键词之间的最小距离的绝对值。

这样，基于公式(1)可以计算出目标候选词在目标文本中不同位置处分别对应的权重值，从而可以累加该目标候选词在目标文本中不同位置处分别对应的权重值，得到目标候选词对应的权重值之和，该权重值之和可以理解为该目标候选词在目标文本中出现的次数(该次数经过了权重值的调整所得到)，进而可以通过计算该权重值之和与候选词的总数可以计算得到该目标候选词在目标文本中的词频。作为一种示例，该词频的计算公式具体可以如下：

其中，∑_mW_i表征目标候选词在文本中各个位置处分别对应的权重值的总和，m表征目标文本中出现的目标候选词的次数，∑_kn_i表征目标文本中候选词总数。

当然，实际应用中，基于上述公式(1)可以进行相应的变化，或者，当影响因子所包括的内容增加或者减少时，可以对上述公式(1)进行适应性调整。

值得注意的是，对于每个影响因子的具体对应的权重值的设定，请参见后文中的详细描述。

S203：根据目标候选词在文本库的所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，计算出该目标候选词的逆文本频率。

本实施例中，可以先计算出该目标候选词在文本库中所有文本中对应的权重值总和。在一种示例性的具体实施方式中，可以先确定文本库中哪些文本包括有该目标候选词，然后，针对于所确定出的每个文本，可以计算出该目标候选词在该目标文本中不同位置处的权重值，从而可以计算得到该目标候选词在该文本中不同位置处的权重值总和，也即为该目标候选词在该文本中所对应的权重值，然后，可以进一步计算出该目标候选词在所有文本中的分别对应的权重值的总和。可以理解，由于文本库中的其它文本不包含该目标候选词，因此，目标候选词相对于文本库中的其它文本对应的权重值总和为0。

举例来说，假设当前文本库中存在3个文本均包含有该目标候选词，分别为文本A、文本B以及文本C，首先可以分别计算出该目标候选词在文本A中的不同位置处所具有的权重值总和W_A，在文本B中的不同位置处所具有的权重值总和W_B以及在文本C中的不同位置处所具有的权重值总和W_C，然后，可以进一步计算出W_A、W_B以及W_C三者的权重值总和W，该W即为目标候选词在文本库中所有文本中对应的权重值总和。

同时，可以计算出该文本库中所有分词(例如，具体可以是每个文本对应的候选词集合的并集)在所有文本中对应的权重值总和。具体的，针对于文本库中的每一个分词，可以采用上述计算目标候选词在所有文本中对应的权重值总和的方式，计算出每个分词在文本库中所有文本对应的权重值总和，从而将各个分词分别对应的权重值总和进行累加，计算得到所有分词在文本库中所有文本对应的权重值总和。

这样，基于该目标候选词在文本库的所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，可以计算出该目标候选词的逆文本频率。例如，可以是采用下述公式(3)计算出该目标候选词对应的逆文本频率。

其中，IDF表示目标候选词的逆文本词频，W表示文本库中所有候选词对应的权重总和，Wt表示目标候选词在文本库的所有文本中对应的权重值总和。

当然，实际应用中，也可以对上述公式(3)进行适应性的变形与调整，在不脱离步骤S203计算出目标候选词的逆文本频率的情况下，均属于本实施例中计算逆文本频率的计算方式。

S204：根据目标候选词的词频与逆文本频率的乘积，从候选词集合中确定出目标文本的主题词。

本实施例中，在计算出目标候选词对应的词频与逆文本频率后，可以根据下述公式(4)进一步计算出该词频与逆文本频率的乘积，从而按照上述过程可以计算出候选词集合中每个候选词所对应的词频与逆文本频率的乘积。

TF-IDF＝TF×IDF (4)

其中，TF-IDF表征目标候选词的词频与逆文本频率的乘积。

这样，在为目标文本确定主题词时，可以根据每个候选词对应的乘积大小，从候选词中挑选出乘积最大的所对应的候选词作为目标文本的主题词。当然，实际应用中，若为目标文本所确定的主题词存在多个时，则可以按照乘积大小，从候选词集合中优先选择乘积较大的多个候选词作为该目标文本的主题词，所选择的候选词对应的乘积大于候选词集合中其余候选词对应的乘积。

需要说明的是，对于上述过程中，确定每个目标候选词的影响因子所对应的权重值，可以是采用线性回归计算的方式进行确定。

具体的，当影响因子包括单个因素时，比如仅包括目标候选词在段落中的位置，或者仅包括目标候选词与关键词之间的距离时，可以对该影响因子的权重值进行多次取值，并且，通过主题词校验的方式可以确定每个权重值的取值所对应的主题词提取精度(比如，可以是通过对多篇文本进行主题词提取，得到该权重值的取值所对应的主题词提取精度)，从而可以得到多个权重值的取值和与其对应的主题词提取精度值。这样，基于该多个权重值的取值以及相应的主题词提取精度值，可以构建线性函数y＝f(x)(如拟合出一元二次函数等)，从而可以根据拟合得到的线性函数进行极值点的计算，将y取极大值所对应的极值点x确定为该影响因子对应的权重值最终的目标值，也即为最终所设定的取值。

而当影响因子包括多个因素时，可以采用单一变量原则逐个设定每个因素所对应的权重值。比如，假设影响因子同时包括目标候选词在段落中的位置以及目标候选词与关键词之间的距离，可以在确定目标候选词在段落中的不同位置所对应的不同权重值时，其余影响因子对应的权重值可以初步设置为1，并按照上述确定一个因素对应的权重值的方式确定目标候选词在段落中的不同位置所对应的不同权重值；然后，再按照上述确定一个因素对应的权重值的方式，确定目标候选词与关键词之间的距离不同时所对应的不同取值，在此过程中，目标候选词在段落中不同位置处所对应的不同权重值按照已确定的权重值进行计算。由此，可以逐个设定影响因子中包括的每个因素所对应的权重值。

本实施例中，可以先确定目标文本的候选词集合，该候选词集合中包括目标文本的多个分词，而该目标文本的主题词即可以从该候选词集合中进行选择确定；然后，可以根据该候选词集合所包括的候选词总数，以及该候选词集合中的目标候选词在目标文本的不同位置处分别对应的权重值，计算出该目标候选词的词频，每个位置处的目标候选词所对应的权重值基于该目标候选词的影响因子进行确定，该影响因子包括目标候选词在该目标文本中的位置，和/或，目标候选词与该目标候选词对应的关键词之间的位置关系，该目标候选词对应的关键词在该目标文本包括的关键词中距离该目标候选词最近，目标候选词为候选词集合中的任意一个候选词；同时，还可以根据该目标候选词在文本库的所有文本中对应的权重值总和以及该文本库中所有候选词对应的权重总和，计算出该目标候选词的逆文本频率；这样，根据该目标候选词的词频与逆文本频率的乘积，可以从该候选词集合中确定出该目标文本的主题词，比如可以将候选词集合中乘积最大的候选词确定出该目标文本的主题词等。由此可见，在提取目标文本的主题词的过程中，可以根据候选词在目标文本中的位置和/或其与关键词之间的位置关系来得到该候选词在目标文本中的词频，这在确定候选词在目标文本中的重要程度时，不仅仅考虑到该候选词在该目标文本中出现的次数，还基于该候选词在目标文本中所具有的其它特征来对该候选词的重要程度进行考量，从而使得能够反映目标文本主题的候选词相对于其它候选词具有更强的区分能力，进而可以提高为该目标文本所提取的主题词的准确性。

此外，本申请实施例还提供了一种主题词的提取装置。参阅图3，图3示出了本申请实施例中一种主题词的提取装置的结构示意图，该装置300包括：

第一确定模块301，用于确定目标文本的候选词集合，所述候选词集合中包括所述目标文本的多个分词；

第一计算模块302，用于根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值，计算出所述目标候选词的词频，每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定，所述影响因子包括所述目标候选词在所述目标文本中的位置，和/或，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，所述目标候选词对应的关键词在所述目标文本包括的关键词中距离所述目标候选词最近，所述目标候选词为所述候选词集合中的任意一个候选词；

第二计算模块303，用于根据所述目标候选词在文本库的所有文本中对应的权重值总和以及所述文本库中所有候选词对应的权重总和，计算出所述目标候选词的逆文本频率；

第二确定模块304，用于根据所述目标候选词的词频与逆文本频率的乘积，从所述候选词集合中确定出所述目标文本的主题词。

在一种可能的实施方式中，所述装置300还包括：

需要说明的是，上述装置各模块、单元之间的信息交互、执行过程等内容，由于与本申请实施例中方法实施例基于同一构思，其带来的技术效果与本申请实施例中方法实施例相同，具体内容可参见本申请实施例前述所示的方法实施例中的叙述，此处不再赘述。

此外，本申请实施例还提供了一种设备。参阅图4，图4示出了本申请实施例中一种设备的硬件结构示意图，该设备400可以包括处理器401以及存储器402。

其中，所述存储器402，用于存储计算机程序；

所述处理器401，用于根据所述计算机程序执行如下步骤：

在一些可能的实施方式中，所述目标候选词在所述目标文本中的位置，包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。

在一些可能的实施方式中，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。

在一些可能的实施方式中，所述处理器401，还用于根据所述计算机程序执行如下步骤：

对所述初始分词结果所包含的各个词进行词性标注；

此外，本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意拼接来实现。如果在软件中实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可选的设计，计算机可读介质可以包括RAM，ROM，EEPROM，CD-ROM或其它光盘存储器，磁盘存储器或其它磁存储设备，或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线(DSL)或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的拼接也应包括在计算机可读介质的范围内。

需要说明的是，本申请中“的(英文：of)”，相应的“(英文corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请中，“至少一个”是指一个或者多个。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意拼接，包括单项(个)或复数项(个)的任意拼接。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

1.一种主题词的提取方法，其特征在于，所述方法包括：

根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值，计算出所述目标候选词的词频，每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定，所述影响因子包括所述目标候选词在所述目标文本中的位置，和/或，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，所述目标候选词对应的关键词为在所述目标文本包括的关键词中距离所述目标候选词最近的关键词，所述目标候选词为所述候选词集合中的任意一个候选词，所述目标候选词与所述关键词为不同的分词；

2.根据权利要求1所述的方法，其特征在于，所述目标候选词在所述目标文本中的位置，包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

对所述初始分词结果所包含的各个词进行词性标注；

6.一种主题词的提取装置，其特征在于，所述装置包括：

第一计算模块，用于根据所述候选词集合所包括的候选词总数以及目标候选词在所述目标文本的不同位置处分别对应的权重值，计算出所述目标候选词的词频，每个位置处的目标候选词所对应的权重值基于所述目标候选词的影响因子进行确定，所述影响因子包括所述目标候选词在所述目标文本中的位置，和/或，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，所述目标候选词对应的关键词为在所述目标文本包括的关键词中距离所述目标候选词最近的关键词，所述目标候选词为所述候选词集合中的任意一个候选词，所述目标候选词与所述关键词为不同的分词；

7.根据权利要求6所述的装置，其特征在于，所述目标候选词在所述目标文本中的位置，包括段首、段中、段尾、文章首段、文章尾段以及文章中间段中的任意一种或多种。

8.根据权利要求6所述的装置，其特征在于，所述目标候选词与所述目标候选词对应的关键词之间的位置关系，包括所述目标候选词与所述目标候选词对应的关键词是否位于同一段落、所述目标候选词与所述目标候选词对应的关键词是否位于同一语句、所述目标候选词与所述目标候选词对应的关键词之间的距离。

9.一种设备，其特征在于，所述设备包括存储器以及处理器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-5中任一项所述的主题词的提取方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至5任一所述的主题词的提取方法。