CN108108346B

CN108108346B - 文档的主题特征词抽取方法及装置

Info

Publication number: CN108108346B
Application number: CN201611062893.8A
Authority: CN
Inventors: 余虎; 张郭强; 林伟亮
Original assignee: Guangdong Eshore Technology Co Ltd
Current assignee: Guangdong Eshore Technology Co Ltd
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2021-12-24
Anticipated expiration: 2036-11-25
Also published as: CN108108346A

Abstract

本发明公开一种文档的主题特征词抽取方法及装置，其中，该文档的主题特征词抽取方法包括如下步骤：导入一组已有分类的文档，所述文档具有中文文本数据；对文档的中文文本数据进行分词预处理，得到多个分词词组；根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组；根据预设的主题特征对特征词组进行过滤处理，得到主题特征词。本发明的技术方案能够避免无关特征词对文档主题的影响，能够得到准确的主题特征词，以方便文档的搜索。本发明能够提高主题特征词选取的准确率，避免漏选或多选特征词，能够提高文档搜索的准确性，以提升用户的搜索体验。

Description

文档的主题特征词抽取方法及装置

技术领域

本发明涉及文档搜索技术领域，尤其涉及一种文档的主题特征词抽取方法及装置。

背景技术

随着网络技术的不断发展，通过网站搜索数据库及文库文档已经逐步取代人工查阅图书的搜索方式。在利用网站搜索文档时，需要对文档的主题特征词进行提取。现有技术中提取文档的主题特征词的方法，先对文档的文本进行分词，然后按照某种特征词的抽取算法提取特征词，从而得到特征词。上述方案只能实现特征词的模糊匹配，得到的特征词的代表性不高，不能充分代表该主题的特征。为上述特征词匹配度较佳的问题，在另一方案中，在对文档的文本进行分次后，增加一个过滤步骤，而后抽取过滤后的特征词，得到特征词。上述的方案能过滤一些无效的特征词，但是这种过滤是针对所有主题的，不能针对某一主题进行过滤，得到的结果会遗漏一些主题的特征，得到的特征词不够全面的问题。

发明内容

为解决上述至少一技术问题，本发明的主要目的是提供一种文档的主题特征词抽取方法。

为实现上述目的，本发明采用的一个技术方案为：提供一种文档的主题特征词抽取方法，包括如下步骤：

导入一组已有分类的文档，所述文档具有中文文本数据；

对文档的中文文本数据进行分词预处理，得到多个分词词组；

根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组；

根据预设的主题特征对特征词组进行过滤处理，得到主题特征词。

优选地，所述对文档的中文文本数据进行分词预处理，得到多个分词词组的步骤，具体包括：

根据分词算法对文档的中文文本数据进行分词，得到多个词组；

根据词组的词性进行过词性筛选，得到强词性的词组；

将词组与预设的停用词库进行比对，得到分词词组；

输出分词词组。

优选地，所述将词组与预设的停用词库进行比对，得到分词词组的步骤，具体包括：

判断词组是否为预设的停用词库的子集，

若词组是预设的停用词库的子集，则剔除该词组，

若词组不是预设的停用词库的子集，则留下该词组并作为分词词组。

优选地，所述根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组的步骤，具体包括：

计算所有分词词组在各主题下的词频；

计算每个分词词组与各主题的互信息；

根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值，得到特征词组。

优选地，所述根据预设的主题特征对特征词组进行过滤处理，得到主题特征词的步骤，具体包括：

从多个主题中选取任意一主题作为过滤主题；

根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组；

逐次遍历特征词组，并将特征词组与选定词组比较，若特征词组存在于过滤词组中，则删除该特征词组，以筛选出主题特征词。

为实现上述目的，本发明采用的另一个技术方案为：提供一种文档的主题特征词抽取装置，包括：

导入模块，用于导入一组已有分类的文档，所述文档具有中文文本数据；

预处理模块，用于对文档的中文文本数据进行分词预处理，得到多个分词词组；

选取模块，用于根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组；

过滤模块，用于根据预设的主题特征对特征词组进行过滤处理，得到主题特征词。

优选地，所述预处理模块，具体用于：

根据词组的词性进行过词性筛选，得到强词性的词组；

将词组与预设的停用词库进行比对，得到分词词组；

输出分词词组。

优选地，所述预处理模块，还用于：

判断词组是否为预设的停用词库的子集，

若词组是预设的停用词库的子集，则剔除该词组，

优选地，所述选取模块，用于：

计算所有分词词组在各主题下的词频；

计算每个分词词组与各主题的互信息；

优选地，所述过滤模块，用于：

从多个主题中选取任意一主题作为过滤主题；

本发明的技术方案通过采用将文档的中文文本数据进行分词处理，然后根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组，最后根据预设的主题特征对特征词组进行过滤处理，得到主题特征词，相比于现有技术中抽取特征词的方案，本方案采用根据词频、类别信息及互信息综合处理，并进一步对综合处理的特征词组进行过滤处理，如此，能够提高主题特征词选取的准确率，避免漏选或多选特征词，能够提高文档搜索的准确性，以提升用户的搜索体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例文档的主题特征词抽取方法的流程示意图；

图2为本发明另一实施例文档的主题特征词抽取装置的模块方框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参照图1，在本发明实施例中，该文档的主题特征词抽取方法，包括如下步骤：

步骤S10、导入一组已有分类的文档，所述文档具有中文文本数据；

步骤S20、对文档的中文文本数据进行分词预处理，得到多个分词词组；

步骤S30、根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组；

步骤S40、根据预设的主题特征对特征词组进行过滤处理，得到主题特征词。

本发明的实施例中，导入一组已有主题分类的文档，每个文档只归属一个主题，文档具有中文文本数据。该多个分词词组主要为名词及动词词组，经过分词处理可以去掉助词、连词、副词等。由于经分词预处理后的分词数量较多，还可以考虑进一步的手段对分词进行处理，具体方案请参照下述实施例中。通过词频、类别信息及互信息可以多个分词词组进行特征选取，如此，能够得到数量较小的特征词组。最后，考虑到特征词组较多的问题，还可以通过预设的主题特征对特征词组进行过滤处理，得到主题特征词，如此，可以大大提高搜索的准确性，方便用户的使用。

本发明的技术方案通过采用将文档的中文文本数据进行分词处理，然后根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组，最后根据预设的主题特征对特征词组进行过滤处理，得到主题特征词，相比于现有技术中抽取特征词的方案，本方案采用根据词频、类别信息及互信息综合处理，并进一步对综合处理的特征词组进行过滤处理，如此，能够提高主题特征词选取的准确率，避免漏选或多选特征词，能够提高文档搜索的准确性，以提升用户的体验。

在一具体的实施例中，所述对文档的中文文本数据进行分词预处理，得到多个分词词组的步骤S20，具体包括：

根据词组的词性进行过词性筛选，得到强词性的词组；

将词组与预设的停用词库进行比对，得到分词词组；

输出分词词组。

本实施例中，利用分词算法可以将中文文本数据分成动词、名词、副词、连词等，这时根据词组的词性可以去除副词、连词，标点符号等弱词性的词组，留下动词、名词等强词性词组。由于得到的强词性词组数量较多，故需要将其与停用词库的词组比较，留下停用词库未包含的词组，作为分词词组。

进一步的，所述将词组与预设的停用词库进行比对，得到分词词组的步骤S20，具体包括：

判断词组是否为预设的停用词库的子集，

若词组是预设的停用词库的子集，则剔除该词组，

本实施例中，停用词库的词组可以事先设定，判断时，若词组是预设的停用词库的子集，则剔除该词组，若词组不是预设的停用词库的子集，则留下该词组并作为分词词组，如此，可以进一步缩小分词词组数量，可以提高文档搜索及检索效率。

在一具体的实施例中，所述根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组的步骤S30，具体包括：

计算所有分词词组在各主题下的词频；

计算每个分词词组与各主题的互信息；

本实施例中，对分词词组特征选取是基于词频、类别信息及互信息三者来考虑的，类别信息指分词词组的类别，如地名、人名、算法、化学等等；互信息，可以度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度，使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度，如果特征词属于该类的话，它们的互信息量最大。词频,用于计算该词描述文档内容的能力。该特征值的计算公式如下：

W(t_i,c_j)＝tf_i×MI(t_i,c_j)*N/N_ij

其中：t_i为第i个词_，Cj为第j个主题。W(t_i,c_j)为词t_i关于主题c_j的特征值，tf_i为词t_i关于主题c_j的词频，MI(t_i,c_j)为t_i与主题c_j的互信息，N为总的主题数，N_ij为词t_i出现的主题个数。

在一具体的实施例中，所述根据预设的主题特征对特征词组进行过滤处理，得到主题特征词的步骤S40，具体包括：

从多个主题中选取任意一主题作为过滤主题；

本实施例中，得到特征词组后还要经过与主题特征过滤，如此，以进一步缩小特征词组的数量，具体，该特征词组的每一个特征词组均与主题特征词比较，若是该特征词组与过滤主题相同，或者包含与过滤主题中，则过滤该特征词组，留下未被过滤的特征词组作为主题特征词。因此，本方案可以针对某一主题设置特征词过滤词组，避免无关特征词对该主题的影响。这种过滤又不会影响被过滤的词作为其他主题的主题特征词，能够大大提高文档的搜索准确性。

请参照图2，本发明的实施例中，该文档的主题特征词抽取装置，包括：

导入模块10，用于导入一组已有分类的文档，所述文档具有中文文本数据；

预处理模块20，用于对文档的中文文本数据进行分词预处理，得到多个分词词组；

选取模块30，用于根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组；

过滤模块40，用于根据预设的主题特征对特征词组进行过滤处理，得到主题特征词。

本发明的实施例中，由于经预处理模块20的分词预处理后的分词数量较多，还可以考虑进一步的手段对分词进行处理，具体方案请参照下述实施例中。该选取模块30根据词频、类别信息及互信息可以多个分词词组进行特征选取，如此，能够得到数量较小的特征词组。最后，考虑到特征词组较多的问题，过滤模块40还可以根据预设的主题特征对特征词组进行过滤，得到主题特征词，如此，可以大大提高搜索的准确性，方便用户的使用。

在一实施例中，所述预处理模块20，具体用于：

根据词组的词性进行过词性筛选，得到强词性的词组；

将词组与预设的停用词库进行比对，得到分词词组；

输出分词词组。

本实施例中，该预处理模块20可以利用分词算法可以将中文文本数据分成动词、名词、副词、连词等，这时根据词组的词性可以去除副词、连词，标点符号等弱词性的词组，留下动词、名词等强词性词组。由于得到的强词性词组数量较多，故需要将其与停用词库的词组比较，留下停用词库未包含的词组，作为分词词组。

进一步的，所述预处理模块20，还用于：

判断词组是否为预设的停用词库的子集，

若词组是预设的停用词库的子集，则剔除该词组，

本实施例中，对停用词库的词组可以事先设定，该处理模块还用于判断词组与停用词库的关系，若词组是预设的停用词库的子集，则剔除该词组，若词组不是预设的停用词库的子集，则留下该词组并作为分词词组，如此，可以进一步缩小分词词组数量，可以提高文档搜索及检索效率。

在一具体的实施例中，所述选取模块30，用于：

计算所有分词词组在各主题下的词频；

计算每个分词词组与各主题的互信息；

本实施例中，该选取模块30对分词词组特征选取是基于词频、类别信息及互信息三者来考虑的，类别信息指分词词组的类别，如地名、人名、算法、化学等等；互信息，可以度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度，使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度，如果特征词属于该类的话，它们的互信息量最大。词频,用于计算该词描述文档内容的能力。

在一具体的实施例中，所述过滤模块40，用于：

从多个主题中选取任意一主题作为过滤主题；

本实施例中，利用过滤模块40，可以将得到特征词组后还要经过与主题特征过滤，如此，以进一步缩小特征词组的数量，具体，该特征词组的每一个特征词组均与主题特征词比较，若是该特征词组与过滤主题相同，或者包含与过滤主题中，则过滤该特征词组，留下未被过滤的特征词组作为主题特征词。因此，本方案可以针对某一主题设置特征词过滤词组，避免无关特征词对该主题的影响。这种过滤又不会影响被过滤的词作为其他主题的主题特征词，能够大大提高文档的搜索准确性。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种文档的主题特征词抽取方法，其特征在于，所述文档的主题特征词抽取方法包括如下步骤：

导入一组已有分类的文档，所述文档具有中文文本数据；

所述对文档的中文文本数据进行分词预处理，得到多个分词词组的步骤，具体包括：

根据词组的词性进行过词性筛选，得到强词性的词组；

将词组与预设的停用词库进行比对，得到分词词组；

输出分词词组；

所述将词组与预设的停用词库进行比对，得到分词词组的步骤，具体包括：

判断词组是否为预设的停用词库的子集，

若词组是预设的停用词库的子集，则剔除该词组，

若词组不是预设的停用词库的子集，则留下该词组并作为分词词组；

所述根据词频、类别信息及互信息对多个分词词组进行特征选取，得到特征词组的步骤，具体包括：

计算所有分词词组在各主题下的词频；

计算每个分词词组与各主题的互信息；

根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值，得到特征词组；

所述特征值的计算公式如下：

W(ti,cj)＝tfi×MI(ti,cj)*N/Nij

其中：ti为第i个词，cj 为第j个主题，W(ti,cj)为词ti关于主题cj的特征值，tfi为词ti关于主题cj的词频，MI(ti,cj)为ti与主题cj的互信息，N为总的主题数，Nij为词ti出现的主题个数；

根据预设的主题特征对特征词组进行过滤处理，得到主题特征词；

所述根据预设的主题特征对特征词组进行过滤处理，得到主题特征词的步骤，具体包括：

从多个主题中选取任意一主题作为过滤主题；

2.一种文档的主题特征词抽取装置，其特征在于，所述文档的主题特征词抽取装置，包括：

所述预处理模块，具体用于：

根据词组的词性进行过词性筛选，得到强词性的词组；

将词组与预设的停用词库进行比对，得到分词词组；

输出分词词组；

所述预处理模块，还用于：

判断词组是否为预设的停用词库的子集，

若词组是预设的停用词库的子集，则剔除该词组，

所述选取模块，用于：

计算所有分词词组在各主题下的词频；

计算每个分词词组与各主题的互信息；

所述特征值的计算公式如下：

W(ti,cj)＝tfi×MI(ti,cj)*N/Nij

其中：ti为第i个词，Cj为第j个主题，W(ti,cj)为词ti关于主题cj的特征值，tfi为词ti关于主题cj的词频，MI(ti,cj)为ti与主题cj的互信息，N为总的主题数，Nij为词ti出现的主题个数；

过滤模块，用于根据预设的主题特征对特征词组进行过滤处理，得到主题特征词；

所述过滤模块，用于：

从多个主题中选取任意一主题作为过滤主题；