CN108090075A

CN108090075A - 文本过滤的方法及装置

Info

Publication number: CN108090075A
Application number: CN201611036246.XA
Authority: CN
Inventors: 王研; 车斌
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2018-05-29

Abstract

本发明公开了一种文本过滤的方法，包括：将目标领域划分为n个单元领域并设置各自对应的相似度阈值和参照文本；分别将所有参照文本和待过滤文本通过LDA模型训练得到第一主题‑单词分布向量的集合和第二主题‑单词分布向量；分别将所有参照文本和待过滤文本通过关键词模型训练得到第一关键词向量的集合和第二关键词向量；将第一主题‑单词分布向量的集合与第一关键词向量的集合进行组合得到第一组合向量的集合，将第二主题‑单词分布向量与第二关键词向量进行组合得到第二组合向量；根据第一组合向量的集合、第二组合向量、每个单元领域的相似度阈值三者之间的预设规则确定出待过滤文本的结果。本发明同时还公开了一种文本过滤的装置。

Description

文本过滤的方法及装置

技术领域

本发明涉及文本分析领域，尤其涉及一种文本过滤的方法及装置。

背景技术

随着大数据时代的到来，文本信息呈现出爆炸性增长的趋势，特别是社交网络的兴起，使人们能够随时随地利用社交网络发出自己的声音，这便带来了庞杂、多样的文本数据；然而在特定的分析任务中，所需要的数据却只限于几个特定的领域，大部分数据对于单个分析任务来说是冗余的，甚至是噪音；因此，在进行特定的分析任务时便需要对文本进行过滤。

目前，常见的文本过滤方法主要包括基于关键词匹配的过滤方法、基于本体库的过滤方法、采用分类或者聚类算法的文本过滤方法和基于文档主题生成模型(LatentDirichlet Allocation，LDA)的过滤方法；采用这些方法进行文本过滤时，精确度不高，当目标领域转移时，方法不够灵活，不能同时保证准确率和召回率。

发明内容

有鉴于此，本发明实施例期望提供一种文本过滤的方法及装置，以提高文本过滤时的准确率和精度，实现准确率与召回率的动态平衡。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供一种文本过滤的方法，所述方法包括：

将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本，所述n为自然数；

将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量；

将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量；

将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量；

根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。

上述方案中，所述将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量，包括：

将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布；根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量；根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合；

将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。

上述方案中，所述将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量，包括：

将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典；根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量；根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合；

将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。

上述方案中，所述根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果，包括：

分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值；

判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值，若在所述各自对应的差值中有一个大于对应的相似度阈值，则保留所述待过滤文本；

若在所述各自对应的差值中未有一个大于对应的相似度阈值，则丢弃所述待过滤文本。

上述方案中，所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型；

所述关键词模型为采用少词策略的词袋BoW模型。

本发明提供一种文本过滤的装置，所述装置包括：

设置模块，用于将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本，所述n为自然数；

LDA训练模块，用于将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量；

关键词训练模块，用于将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量；

组合模块，用于将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量；

过滤模块，用于根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。

上述方案中，所述LDA训练模块，具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布；根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量；根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合；

上述方案中，所述关键词训练模块，具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典；根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量；根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合；

上述方案中，所述过滤模块，具体用于分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值；

若在所述各自对应的差值中没有一个大于对应的相似度阈值，则丢弃所述待过滤文本。

所述关键词模型为采用少词策略的词袋BoW模型。

本发明实施例所提供的文本过滤的方法及装置，通过将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本，所述n为自然数；将所述目标领域的所有参照文本通过LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量；将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量；将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量；根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果；提高了文本过滤时的准确率和精度，实现了准确率与召回率的动态平衡。

附图说明

图1为本发明文本过滤的方法实施例一的流程图；

图2为本发明文本过滤的方法实施例二的流程图；

图3为本发明文本过滤的装置实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

图1为本发明文本过滤的方法实施例一的流程图；如图1所示，本发明实施例提供的文本过滤的方法可以包括如下步骤：

步骤101：将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本。

在进行文本过滤时，先将目标领域划分为n个单元领域，其中，所述n为自然数；然后对这n个单元领域中的每个单元领域设置各自对应的相似度阈值和预设数量的参照文本。

例如，将目标领域划分为5个单元领域R1，R2…R5，然后对这5个单元领域R1，R2…R5分别设置各自对应的相似度阈值d1，d2…d5，同时为单元领域R1，R2…R5分别设置m个参照文本，比如，为单元领域R1，R2…R5设置10-20个参照文本。

步骤102：将所述目标领域的所有参照文本通过LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量。

在为所述目标领域的每个单元领域设置好预设数量的参照文本后，对这些参照文本进行LDA模型训练，得到每个单元领域的主题-单词分布；然后根据每个单元领域的主题-单词分布和预设数量的参照文本得到每个单元领域的主题-单词分布向量；再根据每个单元领域的主题-单词分布向量得到目标领域的主题-单词分布向量(第一主题-单词分布向量)的集合；其中，所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型。

同样的，对待过滤文本也进行LDA模型训练，得到待过滤文本的主题-单词分布向量(第二主题-单词分布向量)。

例如，将目标领域划分为n个单元领域R1，R2…Rn，而每个单元领域设置有m个参照文本，对每个单元领域的m个参照文本进行LDA模型训练，得到每个单元领域的主题-单词分布；然后根据每个单元领域的主题-单词分布和每个单元领域的m个参照文本分别得到单元领域R1，R2…Rn的主题-单词分布向量T1，T2…Tn；再根据主题-单词分布向量T1，T2…Tn得到目标领域的主题-单词分布向量的集合T。

同样的，对待过滤文本也进行LDA模型训练，得到待过滤文本的主题-单词分布向量Tnew。

步骤103：将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量。

在对目标领域的所有参照文本进行LDA模型训练，得到目标领域的主题-单词分布向量的集合后，对每个单元领域的预设数量的参照文本进行关键词模型训练，得到每个单元领域的包含有关键词表的词典；然后根据每个单元领域的包含有关键词表的词典和预设数量的参照文本得到每个单元领域的关键词向量；再根据这些关键词向量得到第一关键词向量的集合，即得到目标领域的关键词向量(第一关键词向量)的集合；其中，所述关键词模型为采用少词策略的词袋(Bag of Words，BoW)模型。

同样的，对待过滤文本也进行关键词模型训练，得到第二关键词向量，即得到待过滤文本的关键词向量(第二关键词向量)。

例如，对n个单元领域R1，R2…Rn分别对应的m个参照文本进行关键词模型训练，分别得到单元领域R1，R2…Rn对应的包含有关键词表的词典，然后根据每个单元领域R1，R2…Rn的包含有关键词表的词典和m个参照文本得到单元领域R1，R2…Rn分别对应的关键词向量V1，V2…Vn，再根据这些关键词向量V1，V2…Vn得到目标领域的关键词向量的集合V。

同样的，对待过滤文本进行关键词模型训练，得到待过滤文本的关键词向量Vnew。

步骤104：将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量。

在得到目标领域的主题-单词分布向量的集合和关键词向量的集合后，将所述目标领域的主题-单词分布向量的集合与所述目标领域的关键词向量的集合进行组合，得到第一组合向量的集合，即得到目标领域的组合向量的集合；同样的，在得到待过滤文本的主题-单词分布向量和关键词向量后，将所述待过滤文本的主题-单词分布向量与所述待过滤文本的关键词向量进行组合，得到第二组合向量，即得到待过滤文本的组合向量。

步骤105：根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。

在得到第一组合向量的集合和第二组合向量，即在得到目标领域的组合向量的集合和待过滤文本的组合向量后，分别计算待过滤文本的组合向量与目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值，然后判断各自对应的差值是否大于等于各自对应的相似度阈值；若在所述各自对应的差值中有一个大于对应的相似度阈值，则保留所述待过滤文本；若在所述各自对应的差值中未有一个大于对应的相似度阈值，则丢弃所述待过滤文本。

例如，得到的待过滤文本的组合向量为Cnew，目标领域的组合向量的集合中的n个单元领域的组合向量分别为C1，C2…Cn；依次计算Cnew与C1，C2…Cn的差值D1，D2…Dn，然后判断各自对应的差值D1，D2…Dn是否大于等于各自对应的相似度阈值d1，d2…dn；如果在各自对应的差值中有一个大于对应的相似度阈值，比如D2大于d2，则保留该待过滤文本；而如果在各自对应的差值中未有一个大于对应的相似度阈值，即D1，D2…Dn均分别小于各自对应的d1，d2…dn，则丢弃该待过滤文本。

本发明实施例提供的文本过滤的方法，通过将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本；将所述目标领域的所有参照文本通过LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量；将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量；将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量；根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果；结合了LDA主题模型和关键词匹配的文本过滤算法，避免了过分依赖关键词带来的影响，同时加强了文本在信息层面的刻画，避免了LDA主题模型带来的精确度损失，提高了文本过滤时的准确率和精度，实现了准确率与召回率的动态平衡。

实施例二

图2为本发明文本过滤的方法实施例二的流程图；如图2所示，本发明实施例提供的文本过滤的方法可以包括如下步骤：

步骤201：将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本。

在进行文本过滤时，先将目标领域划分为n个单元领域R1，R2…Rn，其中，所述n为自然数；然后对这n个单元领域中的每个单元领域设置各自对应的相似度阈值d1，d2…dn和m个参照文本，其中，m为预设值，可根据实际需要进行设定。

这里将目标领域细分为了若干个子领域，使子领域与主题有了一一对应的关系，这样可以将问题细分，能够进一步提高算法的性能。

步骤202：对目标领域的所有参照文本进行LDA模型训练，得到目标领域的主题-单词分布向量的集合。

在将目标领域细分为n个单元领域，并为每个单元领域设置好各自对应的相似度阈值和m个参照文本后，对目标领域的这n个单元领域R1，R2…Rn中的每个单元领域的m个参照文本通过采用基于Gibbs采样算法实现参数求解的LDA模型进行训练，得到每个单元领域的主题-单词分布；然后根据每个单元领域的主题-单词分布和m个参照文本得到每个单元领域的主题-单词分布向量T1，T2…Tn；再根据该主题-单词分布向量T1，T2…Tn得到目标领域的主题-单词分布向量的集合T。

这里利用LDA模型对文本进行训练，可以计算出文本与领域的相似性，进而能够利用概率模型提高算法的召回率。

步骤203：对目标领域的所有参照文本进行关键词模型训练，得到目标领域的关键词向量的集合。

对目标领域的n个单元领域R1，R2…Rn中的每个单元领域的m个参照文本通过采用少词策略的BoW模型进行训练，分别得到单元领域R1，R2…Rn的包含有关键词表的词典；然后根据该包含有关键词表的词典和m个参照文本分别得到单元领域R1，R2…Rn的关键词向量V1，V2…Vn；再根据关键词向量V1，V2…Vn得到目标领域的关键词向量的集合V。

其中，采用BoW模型训练文本的基本思想是忽略掉文本的语法和语序等要素，将文本仅仅看作是若干个词汇的集合，文本中每个单词的出现都是独立的，即使用一组无序的单词来表达一段文字或一个文本文档。

例如，有两个文本文档，其内容分别如下：

文本1：John likes to watch movies.Mary likes too.

文本2：John also likes to watch football games.

基于上述两个文本中出现的单词，构建如下一个词典(这个词典也可以提前由用户指定)：

{"John":1，"likes":2，"to":3，"watch":4，"movies":5，"also":6，"football":7，"games":8，"Mary":9，"too":10}

上面的词典中包含有10个单词，每个单词都有唯一的索引，那么对于每个文本都可以使用一个10维的向量来表示，其结果为：

文本1：[1，2，1，1，1，0，0，0，1，1]

文本2：[1，1，1，1，0，1，1，1，0，0]

可以看出，文本1和文本2的向量均与原来文本中单词出现的顺序没有关系，而是词典中每个单词在文本中出现的频率。

这里，采用少词策略来构建关键词表，能够保证文本过滤算法的准确率。

步骤204：将目标领域的主题-单词分布向量的集合和关键词向量的集合进行组合，得到目标领域的组合向量的集合。

在得到目标领域的主题-单词分布向量的集合T和关键词向量的集合V之后，将该主题-单词分布向量的集合T和关键词向量的集合V进行组合，得到目标领域的组合向量的集合C。

步骤205：对待过滤文本分别进行LDA模型训练和关键词模型训练，得到待过滤文本的主题-单词分布向量和关键词向量。

对待过滤文本也执行如步骤202至步骤203的LDA模型训练和关键词模型训练，分别得到待过滤文本的主题-单词分布向量和关键词向量。

具体的，对待过滤文本通过采用基于Gibbs采样算法实现参数求解的LDA模型进行训练，得到待过滤文本的主题-单词分布；然后根据该主题-单词分布和待过滤文本得到待过滤文本的主题-单词分布向量Tnew。

然后对待过滤文本通过采用少词策略的BoW模型进行训练，得到待过滤文本的包含有关键词表的词典，再根据该词典和待过滤文本得到待过滤文本的关键词向量Vnew。

步骤206：将待过滤文本的主题-单词分布向量和关键词向量进行组合，得到待过滤文本的组合向量。

在得到待过滤文本的主题-单词分布向量Tnew和关键词向量Vnew之后，将待过滤文本的主题-单词分布向量Tnew和关键词向量Vnew进行组合，得到待过滤文本的组合向量Cnew。

步骤207：分别计算待过滤文本的组合向量与目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值。

在得到目标领域的组合向量的集合C和待过滤文本的组合向量Cnew之后，分别计算待过滤文本的组合向量Cnew与目标领域的组合向量的集合C中的每个单元领域的组合向量C1，C2…Cn各自对应的差值D1，D2…Dn。

步骤208：判断各自对应的差值是否大于等于各自对应的相似度阈值。

在得到待过滤文本的组合向量Cnew与目标领域的组合向量的集合C中的每个单元领域的组合向量C1，C2…Cn各自对应的差值D1，D2…Dn之后，判断各自对应的差值D1，D2…Dn是否大于等于各自对应的相似度阈值d1，d2…dn，其结果为：

S1：若在各自对应的差值中有一个大于对应的相似度阈值，则执行步骤209；

S2：若在各自对应的差值中未有一个大于对应的相似度阈值，则执行步骤210。

步骤209：保留待过滤文本。

若判断出在各自对应的差值D1，D2…Dn中有一个大于对应的相似度阈值，比如D2大于d2，则保留该待过滤文本。

步骤210：丢弃待过滤文本。

若判断出在各自对应的差值D1，D2…Dn中未有一个大于对应的相似度阈值，即D1，D2…Dn均小于各自对应的相似度阈值d1，d2…dn，则丢弃该待过滤文本。

为了更加清楚地体现出本发明的目的，在上述实施例的基础上，进一步的举例说明。

例如，将财经领域作为目标领域时，可将财经领域划分为股票交易、房地产、证券、保险、理财等单元领域，这里以划分为股票交易、房地产、证券这3个单元领域为例进行说明；分别设置股票交易、房地产、证券这3个单元领域的相似度阈值为d1、d2、d3，并分别为这3个单元领域选择10个代表单元领域的文本作为参照文本；然后分别对股票交易、房地产、证券领域的10个参照文本通过采用基于Gibbs采样算法实现参数求解的LDA模型进行训练，得到股票交易、房地产、证券领域的主题-单词分布；再根据该主题-单词分布和设置的10个参照文本分别得到股票交易、房地产、证券这3个领域对应的主题-单词分布向量T1，T2，T3，进而得到财经领域的主题-单词分布向量的集合T。

再分别对股票交易、房地产、证券领域的10个参照文本通过采用少词策略的BoW模型进行训练，得到股票交易、房地产、证券领域对应的包含有关键词表的词典；然后根据股票交易、房地产、证券领域对应的包含有关键词表的词典和设置的10个参照文本分别得到股票交易、房地产、证券领域对应的关键词向量V1、V2、V3，进而得到财经领域的关键词向量的集合V。

将得到的财经领域的主题-单词分布向量的集合T和关键词向量的集合V进行组合，获得财经领域的组合向量的集合C；其中，股票交易、房地产、证券领域分别对应的组合向量为C1、C2、C3。

对待过滤文本也进行相同的LDA模型训练和BoW模型训练，将得到的主题-单词分布向量Tnew和关键词向量Vnew进行组合，获得待过滤文本的组合向量Cnew。

最后分别求待过滤文本的组合向量Cnew与股票交易、房地产、证券领域对应的组合向量C1、C2、C3之间的差值D1、D2、D3，依次判断D1、D2、D3是否大于等于各自对应的相似度阈值d1、d2、d3；若D1大于d1，说明待过滤文本与股票交易领域相似，属于财经领域，则保留该待过滤文本；若D1小于d1，则判断D2是否大于d2，如果D2大于d2，说明待过滤文本与房地产领域相似，属于财经领域，则保留该待过滤文本；而如果D2小于d2，则判断D3是否大于d3，若D3大于d3，说明待过滤文本与证券领域相似，属于财经领域，则保留该待过滤文本；若此时D3小于d3，说明待过滤文本与股票交易、房地产、证券领域均不相似，不属于财经领域，则丢弃该待过滤文本，从而实现文本的过滤。

本发明实施例提供的文本过滤的方法，通过将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本；对目标领域的所有参照文本进行LDA模型训练，得到目标领域的主题-单词分布向量的集合；对目标领域的所有参照文本进行关键词模型训练，得到目标领域的关键词向量的集合；将目标领域的主题-单词分布向量的集合和关键词向量的集合进行组合，得到目标领域的组合向量的集合；对待过滤文本分别进行LDA模型训练和关键词模型训练，得到待过滤文本的主题-单词分布向量和关键词向量；将待过滤文本的主题-单词分布向量和关键词向量进行组合，得到待过滤文本的组合向量；分别计算待过滤文本的组合向量与目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值；判断各自对应的差值是否大于等于各自对应的相似度阈值；若在各自对应的差值中有一个大于对应的相似度阈值，则保留待过滤文本；若在各自对应的差值中未有一个大于对应的相似度阈值，则丢弃待过滤文本；结合了LDA主题模型和关键词匹配的文本过滤算法，能够利用概率模型提高算法的召回率，同时利用少词策略保证了算法的准确率，实现了准确率与召回率的动态平衡；通过将目标领域细分为若干个子领域，进一步提高了算法的性能。

实施例三

图3为本发明文本过滤的装置实施例的结构示意图；如图3所示，本发明实施例提供的文本过滤的装置03包括：设置模块31、LDA训练模块32、关键词训练模块33、组合模块34、过滤模块35；其中，

所述设置模块31，用于将目标领域划分为n个单元领域，对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本，所述n为自然数；

所述LDA训练模块32，用于将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量；其中，所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型；

所述关键词训练模块33，用于将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量；其中，所述关键词模型为采用少词策略的词袋BoW模型；

所述组合模块34，用于将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合，得到第一组合向量的集合，将所述第二主题-单词分布向量与所述第二关键词向量进行组合，得到第二组合向量；

所述过滤模块35，用于根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。

进一步的，所述LDA训练模块32，具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布；根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量；根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合；

进一步的，所述关键词训练模块33，具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典；根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量；根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合；

进一步的，所述过滤模块35，具体用于分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值；

本实施例的装置，可以用于执行上述所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在实际应用中，所述文本过滤的装置03的设置模块31、LDA训练模块32、关键词训练模块33、组合模块34、过滤模块35，均可由位于文本过滤的装置03中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种文本过滤的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合，将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合，将所述待过滤文本通过所述关键词模型训练得到第二关键词向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型；

所述关键词模型为采用少词策略的词袋BoW模型。

6.一种文本过滤的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述LDA训练模块，具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布；根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量；根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合；

8.根据权利要求6所述的装置，其特征在于，所述关键词训练模块，具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典；根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量；根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合；

9.根据权利要求6所述的装置，其特征在于，所述过滤模块，具体用于分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值；

10.根据权利要求6至9任一项所述的装置，其特征在于，所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型；

所述关键词模型为采用少词策略的词袋BoW模型。