CN105488033B

CN105488033B - 关联计算的预处理方法及装置

Info

Publication number: CN105488033B
Application number: CN201610050952.3A
Authority: CN
Inventors: 修保新; 陈发君; 刘忠; 黄金才; 朱承; 程光权; 陈超; 冯旸赫; 杨文辉; 龙开亮
Original assignee: Changsha Yuanben Information Technology Co Ltd; National University of Defense Technology
Current assignee: Changsha Yuanben Information Technology Co Ltd; National University of Defense Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2018-01-02
Anticipated expiration: 2036-01-26
Also published as: CN105488033A

Abstract

本发明提供一种关联计算的预处理方法及装置，该方法在对文本分词的基础上，使用LDA模型算法对文本进行主题聚类计算得到文档‑主题概率分布以及主题‑词概率分布。然后通过文档‑主题概率分布计算出文本的非相关主题集合，通过主题‑词概率分布计算出文本的非相关词，从而将与文档主题内容不相关的词识别提取出来。将过滤结果用于进一步的关联计算。从而降低了非相关词对关联计算的干扰。

Description

关联计算的预处理方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体的涉及一种关联计算的预处理方法及装置。

背景技术

随着互联网的快速发展，每天都有海量新闻资讯产生，人们对信息的高效检索和获取的需求日益强烈，各种搜索引擎与推荐系统等应用的出现提供了有效的途径。这些应用的基础是计算关键词与网页内容之间的关联关系，但在计算的过程中经常由于常用词(如应用)或关键词的多义性导致一些噪声与检索关键词简历关联，影响检索与进一步分析的效果。因此需要在关联计算之前进行预处理，将与新闻主题内容没有关联或关联不大的词语过滤，以提高关联的准确度。

目前在关联计算中通常采用TF-IDF(词频-逆向文件频率)值作为关键词的度量，对TF-IDF值小于一定阈值的词语直接过滤。但这种方法只能过滤常用词，而对词的多义性使用特别是引申使用场景效果不好，例如下面这篇新闻

人民网北京12月19日电(付雁南、白真智、魏晞)近一个月前的11月21日，中央政治局常委、国务院副总理李克强在全国综合配套改革试点工作座谈会上首次提出“改革是中国最大的红利”的观点，被部分网友评为年内“最令人鼓舞的语录”。

打破约束民营投资的“玻璃门”

他说：“现在看来，民营投资受到的约束仍然很大。如果把这些所谓的‘弹簧门’卸掉，把‘玻璃门’打碎，那投资的潜力还是相当巨大的。”

其中“玻璃门”仅仅是一种比喻，不应与新闻直接建立关联，只采用TF-IDF测度，则无法将这种引申词过滤。

发明内容

本发明的目的在于提供一种关联计算的预处理方法及装置，该发明解决了现有技术中TF-IDF测度法无法将文中具有引申意义的非相关词排除的技术问题。

本发明提供一种关联计算的预处理方法，包括以下步骤：

步骤S100：对待处理文本进行分词标注词性后，构建词典，得到基于所述词典的文档词频矩阵F，通过对文档词频矩阵F进行LDA聚类计算，得到文档-主题概率分布p(θ)和主题-词概率分布

步骤S200：通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP，通过主题-词概率分布和非相关主题集合NP，得到待处理文本的非相关词集合NT；

步骤S300：遍历待处理文本的分词列表，判断当前词是否包含于非相关词集合NT中，如果包含于非相关词集合NT中则将该当前词直接过滤，输出过滤文本。

进一步地，基于所述词典的文档词频矩阵F的构建包括以下步骤：

步骤S110：统计分词后列表中各名词的词频，过滤其中词频小于预设阈值的名词，构建词典T，对词典T进行索引得到词典索引映射集合TM，词典索引映射集合TM以键对值形式存储；

步骤S120：基于词典构建形式如下的文档词频矩阵F：

其中，m为文档数量，n为词典词数，f_i,j表示词典T中第j个词在第i个文本中的词频。f_i表示矩阵中的第i行对应的文本词频向量，f_i＝(f_i,1 f_i,2 ... f_i,j ... f_i,n-1 f_i,n)。

进一步地，步骤S200包括以下步骤：

步骤S210：对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist，并对排序列表plist进行遍历，累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时，将该位置及其之前的主题作为相关主题，之后的主题作为非相关主题，并加入非相关主题集合NP中；

步骤S220：遍历文档词频矩阵F中的词频向量f_i，若f_i,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题，计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW，若NW>PW则将i加入到非相关词集合NT。

进一步地，NW和所述PW的计算方式为：假设主题索引号为s，所述NW和所述PW的初始化为0，若s∈所述非相关主题集合NP，则NW＝NW+p_s(θ)；否则PW＝PW+p_s(θ)，其中，p_s(θ)为第s个主题的文档-主题概率值。

本发明的另一方面还提供了一种如上述方法用关联计算的预处理装置，包括：

LDA聚类计算模块，用于对待处理文本进行分词标注词性后，构建词典，得到基于所述词典的文档词频矩阵F，通过对文档词频矩阵F进行LDA聚类计算，得到文档-主题概率分布和主题-词概率分布；

非相关词集合NT计算模块，用于通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP，通过主题-词概率分布和非相关主题集合NP，得到待处理文本的非相关词集合NT；

过滤文本模块，用于遍历待处理文本的分词列表，判断当前词是否包含于非相关词集合NT中，如果包含于非相关词集合NT中则将该当前词直接过滤，输出过滤文本。

进一步地，LDA聚类计算模块包括：

构建词典索引映射集合模块，用于统计分词后列表中各名词的词频，过滤其中词频小于预设阈值的名词，构建词典T，对词典T进行索引得到词典索引映射集合TM，词典索引映射集合TM以键对值形式存储；

构建文档词频矩阵F模块，用于基于词典构建形式如下的文档词频矩阵F：

其中，m为文档数量，n为词典词数，f_i，j表示词典T中第j个词在第i个文本中的词频。f_i表示矩阵中的第i行对应的文本词频向量，f_i＝(f_i,1 f_i,2 ... f_i,j ... f_i,n-1 f_i,n)。

进一步地，非相关词集合NT计算模块包括：

非相关主题集合构建模块，用于对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist，并对排序列表plist进行遍历，累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时，将该位置及其之前的主题作为相关主题，之后的主题作为非相关主题，并加入非相关主题集合NP中；

非相关词集合构建模块，用于遍历文档词频矩阵F中的词频向量f_i，若f_i,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题，计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW，若NW>PW则将j加入到非相关词集合NT。

本发明的技术效果：

本发明提供的关联计算的预处理方法，采用潜在狄利克雷分布模型(简称LDA)对新闻等文本进行主题聚类，进一步识别提取出与文本主题不相关的词(如“玻璃门”，称为非相关词)并过滤，通过这种预处理方式，可有效提高后续关联计算的准确度。

本发明提供的关联计算的预处理装置能够识别并过滤文本的非相关词，提高关联计算的准确度。

具体请参考根据本发明的关联计算的预处理方法及装置提出的各种实施例的如下描述，将使得本发明的上述和其他方面显而易见。

附图说明

图1是本发明提供的关联计算的预处理方法的优选实施例流程示意图；

图2是本发明提供的关联计算的预处理装置的优选实施例结构示意图。

具体实施方式

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

参见图1，本发明提供的关联计算的预处理方法，包括以下步骤：

通过上述步骤取得文本不相关词集合后，对文本的分词结果进行过滤并用于进一步的文档关联计算即可。后续的文档关联计算可以采用各类常用的关联计算即可。该方法可以将引申词等非相关词识别出来，通过过滤非相关词可以提升关联计算的精度。

步骤S100中对于待处理文本中的批量文本，需进行编号文本编号索引及分词处理。这些步骤可以按常规方法步骤进行即可。构建词典可以按常规方法进行。

优选的，基于所述词典的文档词频矩阵F的构建包括以下步骤：

步骤S120：基于词典构建形式如下的文档词频矩阵F：

预设阈值根据文本的规模以及计算速度的要求选取，在实施中阈值取3。通过对词典中的非名词词语进行过滤，能降低词典的大小加快后续计算的速度。词典索引映射集合TM的存储形式为key-value形式存储，其中key为词，value为词对应于T中的位置索引。上述步骤为预处理步骤，主要用于将文档转换成可用于LDA计算的文档词频矩阵F，以及将词典进行索引以便后续通过索引进行词查询操作。

对所得文档词频矩阵F进行LDA聚类，得到每个文档的文档-主题概率分布p(θ)(p(θ)为k维的向量，k为主题数)和整个文档集的主题-词概率分布(为k*n大小的矩阵，其中k为主题数，n为词典词数)。此处所用LDA聚类算法可以按常规方法进行，例如在实施中LDA聚类算法时，可采用Blei、Ng与Jordan发表于《journal of machine learningresearch》,2003年的论文《Latent Dirichlet Allocation》(Journal of MachineLearning Research,2003,3:993–1022)和Asuncion Welling、Smyth和Teh的论文《OnSmoothing and Inference for Topic Models》(Twenty-fifth Conference onUncertainty in Artificial Intelligence，2012:27-34)实现，主题数k选择100。

优选的，步骤S200包括以下步骤：

步骤S210：对于文档i，对其文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist，并对排序列表plist进行遍历，累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时，将该位置及其之前的主题作为相关主题，之后的主题作为非相关主题，并加入非相关主题集合NP中；

步骤S220：从档词频矩阵F中取其对应的词频向量f_i进行遍历，若f_i,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题，计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW，若NW>PW则将i加入到非相关词集合NT。

该步骤是为了将文档的非相关词提取出来。

优选的，NW和PW的计算方式为：NW和PW初始化为0，假设主题索引号为s，若s∈非相关主题集合NP，则NW＝NW+p_s(θ)；否则PW＝PW+p_s(θ)，其中，p_s(θ)为第s个主题的文档-主题概率值。该步骤能计算出当前词是相关词的概率和是非相关词的概率。

取文本的文档-主题概率分布p(θ)计算文本的非相关主题集合。对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist，排序列表plist的内容为主题的索引编号，例如文档-主题概率分布p(θ)为(0.2,0.4,0.1,0.3)，则排序列表plist为(2,4,1,3)。由此可知，例如文档-主题概率分布p(θ)为0.4时，为所有文档-主题概率分布p(θ)中最大值，在排序列表plist中排序为4，且排序列表plist中同一文档-主题概率分布p(θ)的位置不变。

得到排序列表plist后，对其从第一个元素开始遍历，累加每个主题对应的文档-主题概率分布p(θ)，当文档-主题概率分布p(θ)的累加值大于预设阈值时，该位置以及该位置之前所有遍历的主题记为该文档的相关主题。余下的未经遍历的所有主题记为该文档的非相关主题，全部加入到非相关主题集合NP中。NP是文章的非相关主题集合，是一个隐含抽象的概念。

按此处理，能有效的将文档表示为相关主题和非相关主题的集合，将文档的非相关主题识别出来，用于后续非相关词的识别。

计算文本的非相关词集合NT。对于文档i，从档词频矩阵F中取其对应的词频向量f_i进行遍历，对于第j个词，若f_i,j>0则取主题-词概率分布的第j列向量取第j列向量概率值最大的前S个主题，计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW，NW和PW的计算方式为：NW和PW初始化为0，假设主题索引号为s，若s∈非相关主题集合NP，则NW＝NW+p_s(θ)；否则PW＝PW+p_s(θ)，其中，p_s(θ)为第s个主题的文档-主题概率值。若NW>PW则将j加入到非相关词集合NT。

该步骤能准确识别出文档词频矩阵F中的哪些词是文章主题的非相关词，以便后续续在分词列表中将相应的词过滤掉。

得到非相关主题集合NP和非相关词集合NT后，遍历待处理文本的分词列表，判断当前词是否包含于词典索引映射集合TM中，如果包含于词典索引映射集合TM中则取其索引，并继续判断该当前词的索引是否包含于非相关词集合NT中，如果包含于非相关词集合NT中则将该当前词直接过滤。NT是文章的非相关词集合，是在NP的基础上计算选取出来的文章中非相关词的集合。对待处理文本的分词结果进行非相关词过滤，

将过滤后的分词结果用于关联计算。该关联计算方法可以为各类现有方法，例如可以为TF-IDF值法，该方法包括以下步骤：计算过滤文本中每个名词的TF-IDF值，对TF-IDF值大于预设阈值的名词建立与文本的关联关系，输出词-文本关联结果。此处预设阈值的设置可以过滤掉一些常用词，例如“应用”，该阈值设置为所有词的TF-IDF值均值，乘以小于1的系数，例如0.6。

以下结合具体实例对前述方法进行描述。为描述的便利，假设主题数为4(真实实施中远大于该值)，以背景技术中的实例为对象进行说明并假设实例为语料库中的第50个文档。S100步骤：对语料库构建词典T及其映射TM和文档词频矩阵F，假设词典词数为1000，并假设“玻璃门”一词在词典中的索引为10即T[10]＝“玻璃门”且TM(“玻璃门”)＝10，F的第i＝50行为实例对应的文档词频向量f₅₀；对F进行LDA计算得到整个文档集的主题-词概率分布(其为4*1000大小的矩阵)和第50个文档的文档-主题概率分布p(θ)＝(0.2,0.4,0.1,0.3)。S210步骤：对第50个文档，对其p(θ)进行索引号排序得到plist＝(2,4,1,3)；假设文档的主题阈值为0.6，遍历plist，其1、2元素对应的主题2和主题4的概率值之和为0.6，则可将3、4元素对应的主题1和主题3判定为非相关主题并将它们放入NP中，NP＝{1,3}。S200步骤：对f₅₀向量进行遍历，对于第10列f_50，10(即“玻璃门”对应的词频)有f_50，10>0，因而从主题-词概率分布中取其第10列向量并假设其表示“玻璃门”属于主题1的概率为0.5属于主题2的概率为0.1以此类推；假设以词所属概率最大的两个主题来计算词的归属，则概率最大的主题为主题1和主题3；初始化NW＝0和PW＝0，由于主题1和主题3都属于NP，则PW＝0，NW＝0+p₁(θ)+p₃(θ)＝0.2+0.1＝0.3>PW，故“玻璃门”一词属于文档的非相关词，将其索引10加入加入到文档的非相关词集合NT中。S300步骤：遍历第50个文档的分词列表，对于“玻璃门”一词，其TM(“玻璃门”)＝10，索引10属于文档的非相关词集合NT，因此直接将“玻璃门”从分词列表中过滤去除；遍历完毕后即可将过滤后的分词结果用于关联计算。

参见图2，本发明的另一方面还提供了一种如上述方法用的关联计算的预处理装置，包括：

LDA聚类计算模块100，用于对待处理文本进行分词标注词性后，构建词典，得到基于所述词典的文档词频矩阵F，通过对文档词频矩阵F进行LDA聚类计算，得到文档-主题概率分布和主题-词概率分布；

非相关词集合NT计算模块200，用于通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP，通过主题-词概率分布和非相关主题集合NP，得到待处理文本的非相关词集合NT；

过滤文本模块300，用于遍历待处理文本的分词列表，判断当前词是否包含于非相关词集合NT中，如果包含于非相关词集合NT中则将该当前词直接过滤，输出过滤文本。

该装置通过利用LDA聚类计算得到的结果，进行文本过滤，能将待处理文本中所含的与主题不相干的词去除，减少后续关联计算的误差。

优选的，LDA聚类计算模块100包括：

该方法能构建出适合于LDA模型计算所需的文档词频矩阵F。

优选的，非相关词集合NT计算模块200包括：

采用该装置，能有效构建出准确性较高的非相关词集合，避免后续后续关联计算收到非相关词的干扰。

本领域技术人员将清楚本发明的范围不限制于以上讨论的示例，有可能对其进行若干改变和修改，而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明，但这样的说明和描述仅是说明或示意性的，而非限制性的。本发明并不限于所公开的实施例。

通过对附图，说明书和权利要求书的研究，在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中，术语“包括”不排除其他步骤或元素，而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims

1.一种关联计算的预处理方法，其特征在于，包括以下步骤：

步骤S100：对待处理文本进行分词标注词性后，构建词典，得到基于所述词典的文档词频矩阵F，通过对所述文档词频矩阵F进行LDA聚类计算，得到文档-主题概率分布p(θ)和主题-词概率分布

步骤S200：通过所述文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP，通过所述主题-词概率分布和所述非相关主题集合NP，得到所述待处理文本的非相关词集合NT；

步骤S300：遍历待处理文本的分词列表，判断当前词是否包含于所述非相关词集合NT中，如果包含于所述非相关词集合NT中则将该当前词直接过滤，输出过滤文本；

所述文档词频矩阵F的构建包括以下步骤：

步骤S110：统计分词后列表中各名词的词频，过滤其中词频小于预设阈值的名词，构建所述词典，对所述词典进行索引得到所述词典索引映射集合TM，所述词典索引映射集合TM以键对值形式存储；

步骤S120：基于词典构建形式如下的所述文档词频矩阵F：

其中，m为所述待处理文本中所含文档的数量，n为词典词数，f_i,j表示所述词典T中第j个词在第i个文本中的词频；

f_i表示矩阵中的第i行对应的文本词频向量，f_i＝(f_i,1 f_i,2 ... f_i,j ... f_i,n-1 f_i,n)；

所述步骤S200包括以下步骤：

步骤S210：主题的索引号进行排序得到排序列表plist，并对排序列表plist进行遍历，累加每个主题对应的所述文档-主题概率分布p(θ)至其累加值大于预设阈值时，将该位置及其之前的主题作为相关主题，之后的主题作为非相关主题，并加入所述非相关主题集合NP中；

步骤S220：遍历所述文档词频矩阵F中的词频向量f_i，若f_i,j>0则取所述主题-词概率分布中第j列向量概率值最大的前S个主题，计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW，若NW>PW则将j加入到所述非相关词集合NT。

2.根据权利要求1所述的关联计算的预处理方法，其特征在于，所述NW和所述PW的计算方式为：假设主题索引号为s，所述NW和所述PW的初始化为0，若s∈所述非相关主题集合NP，则NW＝NW+p_s(θ)；

否则PW＝PW+p_s(θ)，其中，p_s(θ)为第s个主题的文档-主题概率值。

3.一种如权利要求1或2所述方法用关联计算的预处理装置，其特征在于，包括：

LDA聚类计算模块，用于对待处理文本进行分词标注词性后，构建词典，得到基于所述词典的文档词频矩阵F，通过对所述文档词频矩阵F进行LDA聚类计算，得到所述文档-主题概率分布p(θ)和主题-词概率分布

非相关词集合NT计算模块200，用于通过所述文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP，通过所述主题-词概率分布和非相关主题集合NP，得到待处理文本的所述非相关词集合NT；

过滤文本模块，用于遍历待处理文本的分词列表，判断当前词是否包含于所述非相关词集合NT中，如果包含于所述非相关词集合NT中则将该当前词直接过滤，输出过滤文本；

所述非相关词集合NT计算模块包括：

非相关主题集合构建模块，用于对所述文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist，并对排序列表plist进行遍历，累加每个主题对应的所述文档-主题概率分布p(θ)至其累加值大于预设阈值时，将该位置及其之前的主题作为相关主题，之后的主题作为非相关主题，并加入非相关主题集合NP中；

非相关词集合构建模块，用于遍历所述文档词频矩阵F中的词频向量f_i，若f_i,j>0则取所述主题-词概率分布中第j列向量概率值最大的前S个主题，计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW，若NW>PW则将j加入到所述非相关词集合NT。

4.根据权利要求3所述的关联计算的预处理装置，其特征在于，所述LDA聚类计算模块包括：

构建词典索引映射集合模块，用于统计分词后列表中各名词的词频，过滤其中词频小于预设阈值的名词，构建词典T，对词典T进行索引得到所述词典索引映射集合TM，所述词典索引映射集合TM以键对值形式存储；

构建所述文档词频矩阵F模块，用于基于词典构建形式如下的所述文档词频矩阵F：

其中，m为文档数量，n为词典词数，f_i,j表示词典T中第j个词在第i个文本中的词频；

f_i表示矩阵中的第i行对应的文本词频向量，f_i＝(f_i,1 f_i,2 ... f_i,j ... f_i,n-1 f_i,n)。