CN108090075A - 文本过滤的方法及装置 - Google Patents

文本过滤的方法及装置 Download PDF

Info

Publication number
CN108090075A
CN108090075A CN201611036246.XA CN201611036246A CN108090075A CN 108090075 A CN108090075 A CN 108090075A CN 201611036246 A CN201611036246 A CN 201611036246A CN 108090075 A CN108090075 A CN 108090075A
Authority
CN
China
Prior art keywords
vector
text
filtered
theme
unit field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611036246.XA
Other languages
English (en)
Inventor
王研
车斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201611036246.XA priority Critical patent/CN108090075A/zh
Publication of CN108090075A publication Critical patent/CN108090075A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本过滤的方法,包括:将目标领域划分为n个单元领域并设置各自对应的相似度阈值和参照文本;分别将所有参照文本和待过滤文本通过LDA模型训练得到第一主题‑单词分布向量的集合和第二主题‑单词分布向量;分别将所有参照文本和待过滤文本通过关键词模型训练得到第一关键词向量的集合和第二关键词向量;将第一主题‑单词分布向量的集合与第一关键词向量的集合进行组合得到第一组合向量的集合,将第二主题‑单词分布向量与第二关键词向量进行组合得到第二组合向量;根据第一组合向量的集合、第二组合向量、每个单元领域的相似度阈值三者之间的预设规则确定出待过滤文本的结果。本发明同时还公开了一种文本过滤的装置。

Description

文本过滤的方法及装置
技术领域
本发明涉及文本分析领域,尤其涉及一种文本过滤的方法及装置。
背景技术
随着大数据时代的到来,文本信息呈现出爆炸性增长的趋势,特别是社交网络的兴起,使人们能够随时随地利用社交网络发出自己的声音,这便带来了庞杂、多样的文本数据;然而在特定的分析任务中,所需要的数据却只限于几个特定的领域,大部分数据对于单个分析任务来说是冗余的,甚至是噪音;因此,在进行特定的分析任务时便需要对文本进行过滤。
目前,常见的文本过滤方法主要包括基于关键词匹配的过滤方法、基于本体库的过滤方法、采用分类或者聚类算法的文本过滤方法和基于文档主题生成模型(LatentDirichlet Allocation,LDA)的过滤方法;采用这些方法进行文本过滤时,精确度不高,当目标领域转移时,方法不够灵活,不能同时保证准确率和召回率。
发明内容
有鉴于此,本发明实施例期望提供一种文本过滤的方法及装置,以提高文本过滤时的准确率和精度,实现准确率与召回率的动态平衡。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供一种文本过滤的方法,所述方法包括:
将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;
将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;
将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
上述方案中,所述将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量,包括:
将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布;根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量;根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合;
将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。
上述方案中,所述将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量,包括:
将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典;根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量;根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合;
将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。
上述方案中,所述根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果,包括:
分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;
判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值,若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;
若在所述各自对应的差值中未有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
上述方案中,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型;
所述关键词模型为采用少词策略的词袋BoW模型。
本发明提供一种文本过滤的装置,所述装置包括:
设置模块,用于将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
LDA训练模块,用于将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;
关键词训练模块,用于将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;
组合模块,用于将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
过滤模块,用于根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
上述方案中,所述LDA训练模块,具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布;根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量;根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合;
将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。
上述方案中,所述关键词训练模块,具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典;根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量;根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合;
将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。
上述方案中,所述过滤模块,具体用于分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;
判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值,若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;
若在所述各自对应的差值中没有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
上述方案中,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型;
所述关键词模型为采用少词策略的词袋BoW模型。
本发明实施例所提供的文本过滤的方法及装置,通过将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;将所述目标领域的所有参照文本通过LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果;提高了文本过滤时的准确率和精度,实现了准确率与召回率的动态平衡。
附图说明
图1为本发明文本过滤的方法实施例一的流程图;
图2为本发明文本过滤的方法实施例二的流程图;
图3为本发明文本过滤的装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
图1为本发明文本过滤的方法实施例一的流程图;如图1所示,本发明实施例提供的文本过滤的方法可以包括如下步骤:
步骤101:将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本。
在进行文本过滤时,先将目标领域划分为n个单元领域,其中,所述n为自然数;然后对这n个单元领域中的每个单元领域设置各自对应的相似度阈值和预设数量的参照文本。
例如,将目标领域划分为5个单元领域R1,R2…R5,然后对这5个单元领域R1,R2…R5分别设置各自对应的相似度阈值d1,d2…d5,同时为单元领域R1,R2…R5分别设置m个参照文本,比如,为单元领域R1,R2…R5设置10-20个参照文本。
步骤102:将所述目标领域的所有参照文本通过LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量。
在为所述目标领域的每个单元领域设置好预设数量的参照文本后,对这些参照文本进行LDA模型训练,得到每个单元领域的主题-单词分布;然后根据每个单元领域的主题-单词分布和预设数量的参照文本得到每个单元领域的主题-单词分布向量;再根据每个单元领域的主题-单词分布向量得到目标领域的主题-单词分布向量(第一主题-单词分布向量)的集合;其中,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型。
同样的,对待过滤文本也进行LDA模型训练,得到待过滤文本的主题-单词分布向量(第二主题-单词分布向量)。
例如,将目标领域划分为n个单元领域R1,R2…Rn,而每个单元领域设置有m个参照文本,对每个单元领域的m个参照文本进行LDA模型训练,得到每个单元领域的主题-单词分布;然后根据每个单元领域的主题-单词分布和每个单元领域的m个参照文本分别得到单元领域R1,R2…Rn的主题-单词分布向量T1,T2…Tn;再根据主题-单词分布向量T1,T2…Tn得到目标领域的主题-单词分布向量的集合T。
同样的,对待过滤文本也进行LDA模型训练,得到待过滤文本的主题-单词分布向量Tnew。
步骤103:将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量。
在对目标领域的所有参照文本进行LDA模型训练,得到目标领域的主题-单词分布向量的集合后,对每个单元领域的预设数量的参照文本进行关键词模型训练,得到每个单元领域的包含有关键词表的词典;然后根据每个单元领域的包含有关键词表的词典和预设数量的参照文本得到每个单元领域的关键词向量;再根据这些关键词向量得到第一关键词向量的集合,即得到目标领域的关键词向量(第一关键词向量)的集合;其中,所述关键词模型为采用少词策略的词袋(Bag of Words,BoW)模型。
同样的,对待过滤文本也进行关键词模型训练,得到第二关键词向量,即得到待过滤文本的关键词向量(第二关键词向量)。
例如,对n个单元领域R1,R2…Rn分别对应的m个参照文本进行关键词模型训练,分别得到单元领域R1,R2…Rn对应的包含有关键词表的词典,然后根据每个单元领域R1,R2…Rn的包含有关键词表的词典和m个参照文本得到单元领域R1,R2…Rn分别对应的关键词向量V1,V2…Vn,再根据这些关键词向量V1,V2…Vn得到目标领域的关键词向量的集合V。
同样的,对待过滤文本进行关键词模型训练,得到待过滤文本的关键词向量Vnew。
步骤104:将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量。
在得到目标领域的主题-单词分布向量的集合和关键词向量的集合后,将所述目标领域的主题-单词分布向量的集合与所述目标领域的关键词向量的集合进行组合,得到第一组合向量的集合,即得到目标领域的组合向量的集合;同样的,在得到待过滤文本的主题-单词分布向量和关键词向量后,将所述待过滤文本的主题-单词分布向量与所述待过滤文本的关键词向量进行组合,得到第二组合向量,即得到待过滤文本的组合向量。
步骤105:根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
在得到第一组合向量的集合和第二组合向量,即在得到目标领域的组合向量的集合和待过滤文本的组合向量后,分别计算待过滤文本的组合向量与目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值,然后判断各自对应的差值是否大于等于各自对应的相似度阈值;若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;若在所述各自对应的差值中未有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
例如,得到的待过滤文本的组合向量为Cnew,目标领域的组合向量的集合中的n个单元领域的组合向量分别为C1,C2…Cn;依次计算Cnew与C1,C2…Cn的差值D1,D2…Dn,然后判断各自对应的差值D1,D2…Dn是否大于等于各自对应的相似度阈值d1,d2…dn;如果在各自对应的差值中有一个大于对应的相似度阈值,比如D2大于d2,则保留该待过滤文本;而如果在各自对应的差值中未有一个大于对应的相似度阈值,即D1,D2…Dn均分别小于各自对应的d1,d2…dn,则丢弃该待过滤文本。
本发明实施例提供的文本过滤的方法,通过将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本;将所述目标领域的所有参照文本通过LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果;结合了LDA主题模型和关键词匹配的文本过滤算法,避免了过分依赖关键词带来的影响,同时加强了文本在信息层面的刻画,避免了LDA主题模型带来的精确度损失,提高了文本过滤时的准确率和精度,实现了准确率与召回率的动态平衡。
实施例二
图2为本发明文本过滤的方法实施例二的流程图;如图2所示,本发明实施例提供的文本过滤的方法可以包括如下步骤:
步骤201:将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本。
在进行文本过滤时,先将目标领域划分为n个单元领域R1,R2…Rn,其中,所述n为自然数;然后对这n个单元领域中的每个单元领域设置各自对应的相似度阈值d1,d2…dn和m个参照文本,其中,m为预设值,可根据实际需要进行设定。
这里将目标领域细分为了若干个子领域,使子领域与主题有了一一对应的关系,这样可以将问题细分,能够进一步提高算法的性能。
步骤202:对目标领域的所有参照文本进行LDA模型训练,得到目标领域的主题-单词分布向量的集合。
在将目标领域细分为n个单元领域,并为每个单元领域设置好各自对应的相似度阈值和m个参照文本后,对目标领域的这n个单元领域R1,R2…Rn中的每个单元领域的m个参照文本通过采用基于Gibbs采样算法实现参数求解的LDA模型进行训练,得到每个单元领域的主题-单词分布;然后根据每个单元领域的主题-单词分布和m个参照文本得到每个单元领域的主题-单词分布向量T1,T2…Tn;再根据该主题-单词分布向量T1,T2…Tn得到目标领域的主题-单词分布向量的集合T。
这里利用LDA模型对文本进行训练,可以计算出文本与领域的相似性,进而能够利用概率模型提高算法的召回率。
步骤203:对目标领域的所有参照文本进行关键词模型训练,得到目标领域的关键词向量的集合。
对目标领域的n个单元领域R1,R2…Rn中的每个单元领域的m个参照文本通过采用少词策略的BoW模型进行训练,分别得到单元领域R1,R2…Rn的包含有关键词表的词典;然后根据该包含有关键词表的词典和m个参照文本分别得到单元领域R1,R2…Rn的关键词向量V1,V2…Vn;再根据关键词向量V1,V2…Vn得到目标领域的关键词向量的集合V。
其中,采用BoW模型训练文本的基本思想是忽略掉文本的语法和语序等要素,将文本仅仅看作是若干个词汇的集合,文本中每个单词的出现都是独立的,即使用一组无序的单词来表达一段文字或一个文本文档。
例如,有两个文本文档,其内容分别如下:
文本1:John likes to watch movies.Mary likes too.
文本2:John also likes to watch football games.
基于上述两个文本中出现的单词,构建如下一个词典(这个词典也可以提前由用户指定):
{"John":1,"likes":2,"to":3,"watch":4,"movies":5,"also":6,"football":7,"games":8,"Mary":9,"too":10}
上面的词典中包含有10个单词,每个单词都有唯一的索引,那么对于每个文本都可以使用一个10维的向量来表示,其结果为:
文本1:[1,2,1,1,1,0,0,0,1,1]
文本2:[1,1,1,1,0,1,1,1,0,0]
可以看出,文本1和文本2的向量均与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率。
这里,采用少词策略来构建关键词表,能够保证文本过滤算法的准确率。
步骤204:将目标领域的主题-单词分布向量的集合和关键词向量的集合进行组合,得到目标领域的组合向量的集合。
在得到目标领域的主题-单词分布向量的集合T和关键词向量的集合V之后,将该主题-单词分布向量的集合T和关键词向量的集合V进行组合,得到目标领域的组合向量的集合C。
步骤205:对待过滤文本分别进行LDA模型训练和关键词模型训练,得到待过滤文本的主题-单词分布向量和关键词向量。
对待过滤文本也执行如步骤202至步骤203的LDA模型训练和关键词模型训练,分别得到待过滤文本的主题-单词分布向量和关键词向量。
具体的,对待过滤文本通过采用基于Gibbs采样算法实现参数求解的LDA模型进行训练,得到待过滤文本的主题-单词分布;然后根据该主题-单词分布和待过滤文本得到待过滤文本的主题-单词分布向量Tnew。
然后对待过滤文本通过采用少词策略的BoW模型进行训练,得到待过滤文本的包含有关键词表的词典,再根据该词典和待过滤文本得到待过滤文本的关键词向量Vnew。
步骤206:将待过滤文本的主题-单词分布向量和关键词向量进行组合,得到待过滤文本的组合向量。
在得到待过滤文本的主题-单词分布向量Tnew和关键词向量Vnew之后,将待过滤文本的主题-单词分布向量Tnew和关键词向量Vnew进行组合,得到待过滤文本的组合向量Cnew。
步骤207:分别计算待过滤文本的组合向量与目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值。
在得到目标领域的组合向量的集合C和待过滤文本的组合向量Cnew之后,分别计算待过滤文本的组合向量Cnew与目标领域的组合向量的集合C中的每个单元领域的组合向量C1,C2…Cn各自对应的差值D1,D2…Dn。
步骤208:判断各自对应的差值是否大于等于各自对应的相似度阈值。
在得到待过滤文本的组合向量Cnew与目标领域的组合向量的集合C中的每个单元领域的组合向量C1,C2…Cn各自对应的差值D1,D2…Dn之后,判断各自对应的差值D1,D2…Dn是否大于等于各自对应的相似度阈值d1,d2…dn,其结果为:
S1:若在各自对应的差值中有一个大于对应的相似度阈值,则执行步骤209;
S2:若在各自对应的差值中未有一个大于对应的相似度阈值,则执行步骤210。
步骤209:保留待过滤文本。
若判断出在各自对应的差值D1,D2…Dn中有一个大于对应的相似度阈值,比如D2大于d2,则保留该待过滤文本。
步骤210:丢弃待过滤文本。
若判断出在各自对应的差值D1,D2…Dn中未有一个大于对应的相似度阈值,即D1,D2…Dn均小于各自对应的相似度阈值d1,d2…dn,则丢弃该待过滤文本。
为了更加清楚地体现出本发明的目的,在上述实施例的基础上,进一步的举例说明。
例如,将财经领域作为目标领域时,可将财经领域划分为股票交易、房地产、证券、保险、理财等单元领域,这里以划分为股票交易、房地产、证券这3个单元领域为例进行说明;分别设置股票交易、房地产、证券这3个单元领域的相似度阈值为d1、d2、d3,并分别为这3个单元领域选择10个代表单元领域的文本作为参照文本;然后分别对股票交易、房地产、证券领域的10个参照文本通过采用基于Gibbs采样算法实现参数求解的LDA模型进行训练,得到股票交易、房地产、证券领域的主题-单词分布;再根据该主题-单词分布和设置的10个参照文本分别得到股票交易、房地产、证券这3个领域对应的主题-单词分布向量T1,T2,T3,进而得到财经领域的主题-单词分布向量的集合T。
再分别对股票交易、房地产、证券领域的10个参照文本通过采用少词策略的BoW模型进行训练,得到股票交易、房地产、证券领域对应的包含有关键词表的词典;然后根据股票交易、房地产、证券领域对应的包含有关键词表的词典和设置的10个参照文本分别得到股票交易、房地产、证券领域对应的关键词向量V1、V2、V3,进而得到财经领域的关键词向量的集合V。
将得到的财经领域的主题-单词分布向量的集合T和关键词向量的集合V进行组合,获得财经领域的组合向量的集合C;其中,股票交易、房地产、证券领域分别对应的组合向量为C1、C2、C3。
对待过滤文本也进行相同的LDA模型训练和BoW模型训练,将得到的主题-单词分布向量Tnew和关键词向量Vnew进行组合,获得待过滤文本的组合向量Cnew。
最后分别求待过滤文本的组合向量Cnew与股票交易、房地产、证券领域对应的组合向量C1、C2、C3之间的差值D1、D2、D3,依次判断D1、D2、D3是否大于等于各自对应的相似度阈值d1、d2、d3;若D1大于d1,说明待过滤文本与股票交易领域相似,属于财经领域,则保留该待过滤文本;若D1小于d1,则判断D2是否大于d2,如果D2大于d2,说明待过滤文本与房地产领域相似,属于财经领域,则保留该待过滤文本;而如果D2小于d2,则判断D3是否大于d3,若D3大于d3,说明待过滤文本与证券领域相似,属于财经领域,则保留该待过滤文本;若此时D3小于d3,说明待过滤文本与股票交易、房地产、证券领域均不相似,不属于财经领域,则丢弃该待过滤文本,从而实现文本的过滤。
本发明实施例提供的文本过滤的方法,通过将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本;对目标领域的所有参照文本进行LDA模型训练,得到目标领域的主题-单词分布向量的集合;对目标领域的所有参照文本进行关键词模型训练,得到目标领域的关键词向量的集合;将目标领域的主题-单词分布向量的集合和关键词向量的集合进行组合,得到目标领域的组合向量的集合;对待过滤文本分别进行LDA模型训练和关键词模型训练,得到待过滤文本的主题-单词分布向量和关键词向量;将待过滤文本的主题-单词分布向量和关键词向量进行组合,得到待过滤文本的组合向量;分别计算待过滤文本的组合向量与目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;判断各自对应的差值是否大于等于各自对应的相似度阈值;若在各自对应的差值中有一个大于对应的相似度阈值,则保留待过滤文本;若在各自对应的差值中未有一个大于对应的相似度阈值,则丢弃待过滤文本;结合了LDA主题模型和关键词匹配的文本过滤算法,能够利用概率模型提高算法的召回率,同时利用少词策略保证了算法的准确率,实现了准确率与召回率的动态平衡;通过将目标领域细分为若干个子领域,进一步提高了算法的性能。
实施例三
图3为本发明文本过滤的装置实施例的结构示意图;如图3所示,本发明实施例提供的文本过滤的装置03包括:设置模块31、LDA训练模块32、关键词训练模块33、组合模块34、过滤模块35;其中,
所述设置模块31,用于将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
所述LDA训练模块32,用于将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;其中,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型;
所述关键词训练模块33,用于将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;其中,所述关键词模型为采用少词策略的词袋BoW模型;
所述组合模块34,用于将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
所述过滤模块35,用于根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
进一步的,所述LDA训练模块32,具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布;根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量;根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合;
将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。
进一步的,所述关键词训练模块33,具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典;根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量;根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合;
将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。
进一步的,所述过滤模块35,具体用于分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;
判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值,若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;
若在所述各自对应的差值中没有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在实际应用中,所述文本过滤的装置03的设置模块31、LDA训练模块32、关键词训练模块33、组合模块34、过滤模块35,均可由位于文本过滤的装置03中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种文本过滤的方法,其特征在于,所述方法包括:
将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;
将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;
将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量,包括:
将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布;根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量;根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合;
将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量,包括:
将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典;根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量;根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合;
将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果,包括:
分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;
判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值,若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;
若在所述各自对应的差值中未有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型;
所述关键词模型为采用少词策略的词袋BoW模型。
6.一种文本过滤的装置,其特征在于,所述装置包括:
设置模块,用于将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
LDA训练模块,用于将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;
关键词训练模块,用于将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;
组合模块,用于将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
过滤模块,用于根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
7.根据权利要求6所述的装置,其特征在于,所述LDA训练模块,具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布;根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量;根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合;
将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。
8.根据权利要求6所述的装置,其特征在于,所述关键词训练模块,具体用于将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典;根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量;根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合;
将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。
9.根据权利要求6所述的装置,其特征在于,所述过滤模块,具体用于分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;
判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值,若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;
若在所述各自对应的差值中没有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型;
所述关键词模型为采用少词策略的词袋BoW模型。
CN201611036246.XA 2016-11-23 2016-11-23 文本过滤的方法及装置 Pending CN108090075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611036246.XA CN108090075A (zh) 2016-11-23 2016-11-23 文本过滤的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611036246.XA CN108090075A (zh) 2016-11-23 2016-11-23 文本过滤的方法及装置

Publications (1)

Publication Number Publication Date
CN108090075A true CN108090075A (zh) 2018-05-29

Family

ID=62169941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611036246.XA Pending CN108090075A (zh) 2016-11-23 2016-11-23 文本过滤的方法及装置

Country Status (1)

Country Link
CN (1) CN108090075A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BO ZHAO 等: "Stock Market Prediction Explotiong Microblog Sentiment Analysis", 《INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWOKS(IJCNN)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统

Similar Documents

Publication Publication Date Title
Qaisar Sentiment analysis of IMDb movie reviews using long short-term memory
CN106529503B (zh) 一种集成卷积神经网络人脸情感识别方法
JP7102344B2 (ja) 機械学習モデルのモデリング方法及びデバイス
CN106445919A (zh) 一种情感分类方法及装置
JP2022529863A (ja) アイデンティティ検証方法、アイデンティティ検証装置、コンピュータ機器、及びコンピュータプログラム
CN110377696A (zh) 一种商品期货新闻舆情分析方法及系统
CN109800781A (zh) 一种图像处理方法、装置及计算机可读存储介质
CN106960040B (zh) 一种url的类别确定方法及装置
CN104850617B (zh) 短文本处理方法及装置
Chacón et al. Improving financial time series prediction accuracy using ensemble empirical mode decomposition and recurrent neural networks
CN107391545A (zh) 一种对用户进行分类的方法、输入方法及装置
CN109948680A (zh) 病历数据的分类方法及系统
CN106126719A (zh) 信息处理方法及装置
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN107193836A (zh) 一种识别方法及装置
CN112214515A (zh) 数据自动匹配方法、装置、电子设备及存储介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN103324758A (zh) 一种新闻分类方法和系统
Ens et al. Quantifying musical style: Ranking symbolic music based on similarity to a style
Fu et al. A support vector regression-based prediction of students' school performance
WO2023278980A1 (en) Interface to natural language generator for generation of knowledge assessment items
CN103577557A (zh) 一种确定网络资源点的抓取频率的装置和方法
Yu et al. Pacs: A dataset for physical audiovisual commonsense reasoning
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质
Zeng et al. Digital audio tampering detection based on deep temporal–spatial features of electrical network frequency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310012 building A01, 1600 yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: CHINA MOBILE (HANGZHOU) INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: China Mobile Communications Corp.

Address before: 310012, No. 14, building three, Chang Torch Hotel, No. 259, Wensanlu Road, Xihu District, Zhejiang, Hangzhou

Applicant before: CHINA MOBILE (HANGZHOU) INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: China Mobile Communications Corp.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529