CN104008098A

CN104008098A - 基于多义性关键词的文本过滤方法及装置

Info

Publication number: CN104008098A
Application number: CN201310055818.9A
Authority: CN
Inventors: 蔡兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-02-21
Filing date: 2013-02-21
Publication date: 2014-08-27
Anticipated expiration: 2033-02-21
Also published as: CN104008098B

Abstract

本发明公开一种基于多义性关键词的文本过滤方法及装置，其方法包括：以指定关键词收集文本集；基于文本集生成预定多义性关键词向量及文本向量；预定多义性关键词包括所述指定关键词；计算文本向量与预定多义性关键词向量的相似度；过滤出相似度小于预定阈值的文本向量所对应的文本。本发明基于多义性TAG筛选出其主流含义所对应的文本列表，进而筛选出用户所需要的文本，其成本小，效率高，过滤效果好，且无需人工干预，对所有多义性关键词均适用。

Description

基于多义性关键词的文本过滤方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于多义性关键词的文本过滤方法及装置。

背景技术

许多词汇经常具有多个含义，而在不同语境下，其主要含义也会有所不同。比如“苹果”这个词有科技、水果、报纸等相关含义。而对于绝大多数资讯用户来说，关注的往往是其科技含义及相关文章内容。因此需要将其它含义的文章从用户订阅的文章列表中去除。

如图1所示，图1是提取出“小米”这个多义词TAG（从文章正文提取出来的关键词，能够代表文章主体内容）的文章列表，从该文章列表中，可以发现里面不仅有小米公司相关文章，还有小米粥、人名等相关内容。而对于订阅“小米”的用户来说，最关心的应该是其科技含义，其它含义的文章则不希望出现在此。

目前，基于上述现象的一种解决方式是进行人工审核，对于含义与用户理解不一致的情况的文章，在发布给用户之前进行人工校验，将不合格的文章进行删除处理，以保证文章列表的一致性。

现有的这种人工审核方式，虽然过滤效果好，但是效率低，当TAG数量较多时，由于资讯更新很快，因此需要人工成本也较高。

发明内容

本发明的主要目的在于提供一种成本低且效率高的基于多义性关键词的文本过滤方法及装置。

为了达到上述目的，本发明提出一种基于多义性关键词的文本过滤方法，包括：

以指定关键词收集文本集；

基于所述文本集生成预定多义性关键词向量及文本向量；所述预定多义性关键词包括所述指定关键词；

计算所述文本向量与所述预定多义性关键词向量的相似度；

过滤出相似度小于预定阈值的文本向量所对应的文本。

本发明还提出一种基于多义性关键词的文本过滤装置，包括：

收集模块，用于以指定关键词收集文本集；

向量生成模块，用于基于所述文本集生成预定多义性关键词向量及文本向量；所述预定多义性关键词包括所述指定关键词；

相似度计算模块，用于计算所述文本向量与所述预定多义性关键词向量的相似度；

过滤模块，用于过滤出相似度小于预定阈值的文本向量所对应的文本。

本发明提出的一种基于多义性关键词的文本过滤方法及装置，通过以指定关键词收集文本集；基于所述文本集生成预定多义性关键词向量及文本向量；计算文本向量与预定多义性关键词向量的相似度，根据相似度大小过滤出相似度小于预定阈值的文本向量，从而筛选出用户需要的多义性关键词的主流含义对应文章，其成本小，效率高，过滤效果好，且无需人工干预，对所有多义性关键词均适用。

附图说明

图1是现有技术中提取出“小米”多义词TAG的文章列表的示意图；

图2是本发明基于多义性关键词的文本过滤方法较佳实施例的流程示意图；

图3是本发明中以关键词收集文本集的一种实例示意图；

图4是基于图3中的文本集统计的预定多义性关键词出现的文本次数排序示意图；

图5是基于图4得到的关键词“苹果”的文章与TAG向量相似度最差的前10条示意图；

图6是基于图4得到的关键词“苹果”的文章与TAG向量相似度最高的前10条示意图；

图7a和图7b分别是基于关键词“小米” 得到的相似度最低和最高10条的示意图；

图8是本发明基于多义性关键词的文本过滤装置较佳实施例的结构示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

本发明实施例的解决方案主要是：以指定关键词收集文本集，对于多义性关键词，筛选出其主流含义所对应的文本列表；基于该文本集生成预定多义性关键词向量及文本向量；计算文本向量与预定多义性关键词向量的相似度，根据相似度大小过滤出相似度小于预定阈值的文本向量，从而筛选出用户需要的多义性关键词的主流含义对应文章。

如图1所示，本发明较佳实施例提出一种基于多义性关键词的文本过滤方法，包括：

步骤S101，以指定关键词收集文本集；

本实施例通过基于多义性TAG筛选出其主流含义所对应的文本列表，进而筛选出用户所需要的文本。其中，多义性TAG是指从文本正文中提取出来的具有多种含义的关键词，其能够代表文章主体内容。

比如“苹果”一词有科技公司/产品、水果等含义，是一个多义性TAG。而对于资讯文章来说，其主流含义是偏科技。本实施例从提取出“苹果”这个TAG来筛选出主流含义所对应的文章，以保证其含义的一致性。

当用户需要搜索某一类文本时，比如需要搜索“苹果”科技含义这类文章时，给定“苹果”这一关键词，并从实时数据库中收集该指定关键词下的所有文本列表及正文。

如图3所示，图3是以指定关键词“苹果”搜集到的“苹果”及其部分文章列表的标题。

上述实时数据库用于存储后台服务系统从互联网中实时获取的各种文本。在收集文本时，也可以直接从互联网各网站中搜索包含有该指定关键词的各种文本。

步骤S102，基于所述文本集生成预定多义性关键词向量及文本向量；所述预定多义性关键词包括所述指定关键词；

对于预定多义性关键词向量的生成，其过程如下：

当收集到指定关键词下的所有文本后，对每一文本，从中提取若干类预定多义性关键词（包括用户指定的关键词），统计每一类预定多义性关键词在所有文本中出现的文本次数；然后根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量。

比如，对于收集的每一篇文章，一般会提取出1-5个预定多义性关键词，针对每一个多义性关键词，计算其在多少篇文章中出现。如图4所示，图4是含有“苹果”一词的所有文章里，各预定多义性关键词出现的文本次数（即文本篇数）从高到低的排序序列及对应的预定多义性关键词名称，由图4可以看出：其主流资讯含义与科技相关。

然后根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量（以下简称TAG向量），其中TAG向量的每一个元素表示一个预定多义性关键词，其值表示含有此预定多义性关键词的文章的出现次数，比如：<苹果，695>，<iPhone,173>…<iOS,16>…。

对于文本向量的生成，其过程如下：

对每一文本进行分词，并判断上述所统计的TAG向量中的每一预定多义性关键词在该文本中是否出现过，根据判断结果标定相应的值，比如，若出现则标定为1，没出现则为标定0，由此基于该标定的值及对应的预定多义性关键词的名称生成该文本的文本向量，该文本向量的长度与上述TAG向量的长度相同。

在文本向量中，每一个向量元素代表其所在位置的预定多义性关键词在此文本中是否出现。比如：<苹果，1>，<iPhone,1>…<iOS,0>…。

步骤S103，计算所述文本向量与所述预定多义性关键词向量的相似度；

然后，计算文本向量与TAG向量的相似度，相似度可以采用余弦公式来度量，具体采用如下公式：

sim (X, Y) = 1 - \cos θ = 1 - \frac{\overset{&RightArrow;}{x} \cdot \overset{&RightArrow;}{y}}{| | x | | \cdot | | y | |} - - - (1)

上述公式（1）中，x，y分别表示文本向量和TAG向量。

步骤S104，过滤出相似度小于预定阈值的文本向量所对应的文本。

其中，预定阀值可以根据实际情况来设定，比如设定为0.1、0.5或0.6等等。对于相似度小于该预定阀值的文本向量所对应的文本，则表明该文本偏离指定关键词文章列表中主流含义所对应的文章；反之，对于相似度大于该预定阀值的文本向量所对应的文本，则表明该文本可能是主流含义所对应的文章。

当获取到各文本向量与TAG向量的相似度后，对各相似度进行排序，对相似度小于预定阈值的文本向量所对应的文本进行过滤筛选，从而将相似度较低的文本过滤掉。

由于用户需要的是TAG文章列表中主流含义所对应的文章，以“苹果”TAG为例，绝大多数资讯文本都是介绍关于苹果公司的内容，少部分是关于水果、报纸等。因此，从这些文章里提取出来的除“苹果”以外的其它TAG也是科技类相关居多（见上图4所示），因此TAG向量里大多数元素是与科技相关的。如果一篇文章是介绍苹果公司的，则其与TAG向量的相似度会较高；相反，如果这篇文章是介绍苹果这种水果的，则其与TAG向量的相似度会较低。因此会淘汰掉相似度低于某一阈值T的所有文章。

以下以“苹果”TAG为例对本实施例方案进行详细阐述：

“苹果”一词有科技公司/产品、水果等含义，是一个多义性TAG。而对于资讯文章来说，其主流含义是偏科技，因此需要从收集的文本集中提取出“苹果”这个TAG来筛选出主流含义所对应的文章，以保证其含义的一致性。

首先，以“苹果”为关键词，从实时数据库中收集该“苹果”关键词下的所有文本列表及正文，如图3所示，图3是以指定关键词“苹果”搜集到的“苹果”及其部分文章列表的标题。

然后，对收集的每一文本，从中提取若干类预定多义性关键词（包括“苹果”关键词），统计每一类预定多义性关键词在所有文本中出现的文本次数。其中，设定的各预定多义性关键词可以包括：苹果、iPhone、苹果iPhone、专利、三星、iPad、苹果iPad、HTC、苹果公司、谷歌、股价、库克、iOS、乔布斯、WiFi等。如图4所示，图4中示出了含有“苹果”关键词的所有文章里，各预定多义性关键词出现的文本次数（即文本篇数）从高到低的排序序列及对应的预定多义性关键词名称。

之后，根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的TAG向量及文本向量，基于图4生成的多义性关键词TAG向量为：<苹果，695>，<iPhone,173>…<iOS,16>…；基于图4生成的文本向量为<苹果，1>，<iPhone,1>…<iOS,0>…。

再计算各文本向量与TAG向量的相似度，并对各相似度进行排序，对相似度小于某一阈值T的文本向量所对应的文本进行过滤筛选，从而将相似度较低的文本过滤掉。

由于用户需要的是“苹果”文章列表中主流含义所对应的文章，绝大多数资讯文本都是介绍关于苹果公司的内容，少部分是关于水果、报纸等。如果一篇文章是介绍苹果这种水果的，则其与TAG向量的相似度会较低。如图5所示，图5列出了带有关键词“苹果”的文章与TAG向量相似度最差的前10条，由图5可知，大部分文章具有跟水果相关的内容。

相反，如果一篇文章是介绍苹果公司的，则其与TAG向量的相似度会较高。如图6所示，图6是带有关键词“苹果”的文章与TAG向量相似度最高的前10条，由图6可知，其中的文章主要是具有与苹果公司/产品相关的内容。

以下对“小米” TAG举例说明：

“小米”TAG的相似度最低和最高10条分别如图7a和图7b所示，由图7a可知，相似度较差的是关于小米粥、球员人名等相关内容；而相似度较好的是关于小米公司等相关内容，如图7b所示。

从以上分析可以看出，本实施例方法具有很好的区分性，即能够很好地区分主流含义和非主流含义所对应的文章，通过选取合适的相似度阈值，可以将相似度高、代表主流TAG含义的文章列表从中筛选出来，达到净化TAG文章列表，满足用户的需求；而且该方法不需要人工干预，对所有TAG均适用，其成本小，效率高。

如图8所示，本发明较佳实施例提出一种基于多义性关键词的文本过滤装置，包括：收集模块201、向量生成模块202、相似度计算模块203以及过滤模块204，其中：

收集模块201，用于以指定关键词收集文本集；

向量生成模块202，用于基于所述文本集生成预定多义性关键词向量及文本向量；所述预定多义性关键词包括所述指定关键词；

相似度计算模块203，用于计算所述文本向量与所述预定多义性关键词向量的相似度；

过滤模块204，用于过滤出相似度小于预定阈值的文本向量所对应的文本。

当用户需要搜索某一类文本时，比如需要搜索“苹果”科技含义这类文章时，给定“苹果”这一关键词，收集模块201从实时数据库中收集该指定关键词下的所有文本列表及正文。

然后，向量生成模块202基于所述文本集生成预定多义性关键词向量及文本向量。

对于预定多义性关键词向量的生成，其过程如下：

对于文本向量的生成，其过程如下：

然后，相似度计算模块203计算文本向量与TAG向量的相似度，相似度可以采用余弦公式来度量，具体采用上述公式（1）。

上述公式（1）中，x，y分别表示文本向量和TAG向量。

当获取到各文本向量与TAG向量的相似度后，过滤模块204对各相似度进行排序，对相似度小于预定阈值的文本向量所对应的文本进行过滤筛选，从而将相似度较低的文本过滤掉。其中，预定阀值可以根据实际情况来设定，比如设定为0.1、0.5或0.6等等。对于相似度小于该预定阀值的文本向量所对应的文本，则表明该文本偏离指定关键词文章列表中主流含义所对应的文章；反之，对于相似度大于该预定阀值的文本向量所对应的文本，则表明该文本可能是主流含义所对应的文章。

以下以“苹果”TAG为例对本实施例方案进行详细阐述：

然后，对收集的每一文本，从中提取若干类预定多义性关键词（包括“苹果”关键词），统计每一类预定多义性关键词在所有文本中出现的文本次数。其中，设定的各预定多义性关键词包括：苹果、iPhone、苹果iPhone、专利、三星、iPad、苹果iPad、HTC、苹果公司、谷歌、股价、库克、iOS、乔布斯、WiFi等。如图4所示，图4中示出了含有“苹果”关键词的所有文章里，各预定多义性关键词出现的文本次数（即文本篇数）从高到低的排序序列及对应的预定多义性关键词名称。

由于用户需要的是“苹果”文章列表中主流含义所对应的文章，绝大多数资讯文本都是介绍关于苹果公司的内容，少部分是关于水果、报纸等。如一篇文章是介绍苹果这种水果的，则其与TAG向量的相似度会较低。如图5所示，图5列出了带有关键词“苹果”的文章与TAG向量相似度最差的前10条，由图5可知，大部分文章具有跟水果相关的内容。

相反，如果一篇文章是介绍苹果公司的，则其与TAG向量的相似度会较高；如图6所示，图6是带有关键词“苹果”的文章与TAG向量相似度最高的前10条，由图6可知，其中的文章主要是具有与苹果公司/产品相关的内容。

以下对“小米” TAG举例说明：

从以上分析可以看出，本实施例装置具有很好的区分性，即能够很好地区分主流含义和非主流含义所对应的文章，通过选取合适的相似度阈值，可以将相似度高、代表主流TAG含义的文章列表从中筛选出来，达到净化TAG文章列表，满足用户的需求；而且不需要人工干预，对所有TAG均适用，其成本小，效率高。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多义性关键词的文本过滤方法，其特征在于，包括：

以指定关键词收集文本集；

计算所述文本向量与所述预定多义性关键词向量的相似度；

过滤出相似度小于预定阈值的文本向量所对应的文本。

2.根据权利要1所述的方法，其特征在于，所述以指定关键词收集文本集的步骤包括：

以指定关键词从实时数据库中收集该指定关键词下的所有文本列表及正文。

3.根据权利要1所述的方法，其特征在于，所述基于文本集生成预定多义性关键词向量及文本向量的步骤包括：

对于所述文本集中的每一文本，从中提取若干类预定多义性关键词；

统计每一类预定多义性关键词在所述文本集中出现的文本次数；

根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量；

对每一文本进行分词，并判断所统计的词向量中的每一预定多义性关键词在该文本中是否出现过；

根据判断结果标定相应的值，基于该标定的值及对应的预定多义性关键词的名称生成该文本的文本向量。

4.根据权利要1、2或3所述的方法，其特征在于，所述过滤出相似度小于预定阈值的文本向量所对应的文本的步骤之前包括：

对所有文本向量与所述预定多义性关键词向量的相似度进行排序。

5.根据权利要1所述的方法，其特征在于，所述预定多义性关键词属于同一类词。

6.一种基于多义性关键词的文本过滤装置，其特征在于，包括：

收集模块，用于以指定关键词收集文本集；

7.根据权利要求6所述的装置，其特征在于，所述收集模块还用于以指定关键词从实时数据库中收集该指定关键词下的所有文本列表及正文。

8.根据权利要求6所述的装置，其特征在于，所述向量生成模块还用于对于所述文本集中的每一文本，从中提取若干类预定多义性关键词；统计每一类预定多义性关键词在所述文本集中出现的文本次数；根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量；对每一文本进行分词，并判断所统计的词向量中的每一预定多义性关键词在该文本中是否出现过；根据判断结果标定相应的值，基于该标定的值及对应的预定多义性关键词的名称生成该文本的文本向量。

9.根据权利要求6、7或8所述的装置，其特征在于，所述相似度计算模块还用于对所有文本向量与所述预定多义性关键词向量的相似度进行排序。

10.根据权利要求6所述的装置，其特征在于，所述预定多义性关键词属于同一类词。