CN105488033B - 关联计算的预处理方法及装置 - Google Patents
关联计算的预处理方法及装置 Download PDFInfo
- Publication number
- CN105488033B CN105488033B CN201610050952.3A CN201610050952A CN105488033B CN 105488033 B CN105488033 B CN 105488033B CN 201610050952 A CN201610050952 A CN 201610050952A CN 105488033 B CN105488033 B CN 105488033B
- Authority
- CN
- China
- Prior art keywords
- mtd
- mrow
- msub
- theme
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种关联计算的预处理方法及装置,该方法在对文本分词的基础上,使用LDA模型算法对文本进行主题聚类计算得到文档‑主题概率分布以及主题‑词概率分布。然后通过文档‑主题概率分布计算出文本的非相关主题集合,通过主题‑词概率分布计算出文本的非相关词,从而将与文档主题内容不相关的词识别提取出来。将过滤结果用于进一步的关联计算。从而降低了非相关词对关联计算的干扰。
Description
技术领域
本发明涉及自然语言处理技术领域,具体的涉及一种关联计算的预处理方法及装置。
背景技术
随着互联网的快速发展,每天都有海量新闻资讯产生,人们对信息的高效检索和获取的需求日益强烈,各种搜索引擎与推荐系统等应用的出现提供了有效的途径。这些应用的基础是计算关键词与网页内容之间的关联关系,但在计算的过程中经常由于常用词(如应用)或关键词的多义性导致一些噪声与检索关键词简历关联,影响检索与进一步分析的效果。因此需要在关联计算之前进行预处理,将与新闻主题内容没有关联或关联不大的词语过滤,以提高关联的准确度。
目前在关联计算中通常采用TF-IDF(词频-逆向文件频率)值作为关键词的度量,对TF-IDF值小于一定阈值的词语直接过滤。但这种方法只能过滤常用词,而对词的多义性使用特别是引申使用场景效果不好,例如下面这篇新闻
人民网北京12月19日电(付雁南、白真智、魏晞)近一个月前的11月21日,中央政治局常委、国务院副总理李克强在全国综合配套改革试点工作座谈会上首次提出“改革是中国最大的红利”的观点,被部分网友评为年内“最令人鼓舞的语录”。
打破约束民营投资的“玻璃门”
他说:“现在看来,民营投资受到的约束仍然很大。如果把这些所谓的‘弹簧门’卸掉,把‘玻璃门’打碎,那投资的潜力还是相当巨大的。”
其中“玻璃门”仅仅是一种比喻,不应与新闻直接建立关联,只采用TF-IDF测度,则无法将这种引申词过滤。
发明内容
本发明的目的在于提供一种关联计算的预处理方法及装置,该发明解决了现有技术中TF-IDF测度法无法将文中具有引申意义的非相关词排除的技术问题。
本发明提供一种关联计算的预处理方法,包括以下步骤:
步骤S100:对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布p(θ)和主题-词概率分布
步骤S200:通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP,通过主题-词概率分布和非相关主题集合NP,得到待处理文本的非相关词集合NT;
步骤S300:遍历待处理文本的分词列表,判断当前词是否包含于非相关词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
进一步地,基于所述词典的文档词频矩阵F的构建包括以下步骤:
步骤S110:统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引映射集合TM以键对值形式存储;
步骤S120:基于词典构建形式如下的文档词频矩阵F:
其中,m为文档数量,n为词典词数,fi,j表示词典T中第j个词在第i个文本中的词频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,1 fi,2 ... fi,j ... fi,n-1 fi,n)。
进一步地,步骤S200包括以下步骤:
步骤S210:对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist,并对排序列表plist进行遍历,累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主题作为非相关主题,并加入非相关主题集合NP中;
步骤S220:遍历文档词频矩阵F中的词频向量fi,若fi,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将i加入到非相关词集合NT。
进一步地,NW和所述PW的计算方式为:假设主题索引号为s,所述NW和所述PW的初始化为0,若s∈所述非相关主题集合NP,则NW=NW+ps(θ);否则PW=PW+ps(θ),其中,ps(θ)为第s个主题的文档-主题概率值。
本发明的另一方面还提供了一种如上述方法用关联计算的预处理装置,包括:
LDA聚类计算模块,用于对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布和主题-词概率分布;
非相关词集合NT计算模块,用于通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP,通过主题-词概率分布和非相关主题集合NP,得到待处理文本的非相关词集合NT;
过滤文本模块,用于遍历待处理文本的分词列表,判断当前词是否包含于非相关词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
进一步地,LDA聚类计算模块包括:
构建词典索引映射集合模块,用于统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引映射集合TM以键对值形式存储;
构建文档词频矩阵F模块,用于基于词典构建形式如下的文档词频矩阵F:
其中,m为文档数量,n为词典词数,fi,j表示词典T中第j个词在第i个文本中的词频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,1 fi,2 ... fi,j ... fi,n-1 fi,n)。
进一步地,非相关词集合NT计算模块包括:
非相关主题集合构建模块,用于对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist,并对排序列表plist进行遍历,累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主题作为非相关主题,并加入非相关主题集合NP中;
非相关词集合构建模块,用于遍历文档词频矩阵F中的词频向量fi,若fi,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到非相关词集合NT。
本发明的技术效果:
本发明提供的关联计算的预处理方法,采用潜在狄利克雷分布模型(简称LDA)对新闻等文本进行主题聚类,进一步识别提取出与文本主题不相关的词(如“玻璃门”,称为非相关词)并过滤,通过这种预处理方式,可有效提高后续关联计算的准确度。
本发明提供的关联计算的预处理装置能够识别并过滤文本的非相关词,提高关联计算的准确度。
具体请参考根据本发明的关联计算的预处理方法及装置提出的各种实施例的如下描述,将使得本发明的上述和其他方面显而易见。
附图说明
图1是本发明提供的关联计算的预处理方法的优选实施例流程示意图;
图2是本发明提供的关联计算的预处理装置的优选实施例结构示意图。
具体实施方式
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
参见图1,本发明提供的关联计算的预处理方法,包括以下步骤:
步骤S100:对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布p(θ)和主题-词概率分布
步骤S200:通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP,通过主题-词概率分布和非相关主题集合NP,得到待处理文本的非相关词集合NT;
步骤S300:遍历待处理文本的分词列表,判断当前词是否包含于非相关词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
通过上述步骤取得文本不相关词集合后,对文本的分词结果进行过滤并用于进一步的文档关联计算即可。后续的文档关联计算可以采用各类常用的关联计算即可。该方法可以将引申词等非相关词识别出来,通过过滤非相关词可以提升关联计算的精度。
步骤S100中对于待处理文本中的批量文本,需进行编号文本编号索引及分词处理。这些步骤可以按常规方法步骤进行即可。构建词典可以按常规方法进行。
优选的,基于所述词典的文档词频矩阵F的构建包括以下步骤:
步骤S110:统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引映射集合TM以键对值形式存储;
步骤S120:基于词典构建形式如下的文档词频矩阵F:
其中,m为文档数量,n为词典词数,fi,j表示词典T中第j个词在第i个文本中的词频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,1 fi,2 ... fi,j ... fi,n-1 fi,n)。
预设阈值根据文本的规模以及计算速度的要求选取,在实施中阈值取3。通过对词典中的非名词词语进行过滤,能降低词典的大小加快后续计算的速度。词典索引映射集合TM的存储形式为key-value形式存储,其中key为词,value为词对应于T中的位置索引。上述步骤为预处理步骤,主要用于将文档转换成可用于LDA计算的文档词频矩阵F,以及将词典进行索引以便后续通过索引进行词查询操作。
对所得文档词频矩阵F进行LDA聚类,得到每个文档的文档-主题概率分布p(θ)(p(θ)为k维的向量,k为主题数)和整个文档集的主题-词概率分布(为k*n大小的矩阵,其中k为主题数,n为词典词数)。此处所用LDA聚类算法可以按常规方法进行,例如在实施中LDA聚类算法时,可采用Blei、Ng与Jordan发表于《journal of machine learningresearch》,2003年的论文《Latent Dirichlet Allocation》(Journal of MachineLearning Research,2003,3:993–1022)和Asuncion Welling、Smyth和Teh的论文《OnSmoothing and Inference for Topic Models》(Twenty-fifth Conference onUncertainty in Artificial Intelligence,2012:27-34)实现,主题数k选择100。
优选的,步骤S200包括以下步骤:
步骤S210:对于文档i,对其文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist,并对排序列表plist进行遍历,累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主题作为非相关主题,并加入非相关主题集合NP中;
步骤S220:从档词频矩阵F中取其对应的词频向量fi进行遍历,若fi,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将i加入到非相关词集合NT。
该步骤是为了将文档的非相关词提取出来。
优选的,NW和PW的计算方式为:NW和PW初始化为0,假设主题索引号为s,若s∈非相关主题集合NP,则NW=NW+ps(θ);否则PW=PW+ps(θ),其中,ps(θ)为第s个主题的文档-主题概率值。该步骤能计算出当前词是相关词的概率和是非相关词的概率。
取文本的文档-主题概率分布p(θ)计算文本的非相关主题集合。对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist,排序列表plist的内容为主题的索引编号,例如文档-主题概率分布p(θ)为(0.2,0.4,0.1,0.3),则排序列表plist为(2,4,1,3)。由此可知,例如文档-主题概率分布p(θ)为0.4时,为所有文档-主题概率分布p(θ)中最大值,在排序列表plist中排序为4,且排序列表plist中同一文档-主题概率分布p(θ)的位置不变。
得到排序列表plist后,对其从第一个元素开始遍历,累加每个主题对应的文档-主题概率分布p(θ),当文档-主题概率分布p(θ)的累加值大于预设阈值时,该位置以及该位置之前所有遍历的主题记为该文档的相关主题。余下的未经遍历的所有主题记为该文档的非相关主题,全部加入到非相关主题集合NP中。NP是文章的非相关主题集合,是一个隐含抽象的概念。
按此处理,能有效的将文档表示为相关主题和非相关主题的集合,将文档的非相关主题识别出来,用于后续非相关词的识别。
计算文本的非相关词集合NT。对于文档i,从档词频矩阵F中取其对应的词频向量fi进行遍历,对于第j个词,若fi,j>0则取主题-词概率分布的第j列向量取第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,NW和PW的计算方式为:NW和PW初始化为0,假设主题索引号为s,若s∈非相关主题集合NP,则NW=NW+ps(θ);否则PW=PW+ps(θ),其中,ps(θ)为第s个主题的文档-主题概率值。若NW>PW则将j加入到非相关词集合NT。
该步骤能准确识别出文档词频矩阵F中的哪些词是文章主题的非相关词,以便后续续在分词列表中将相应的词过滤掉。
得到非相关主题集合NP和非相关词集合NT后,遍历待处理文本的分词列表,判断当前词是否包含于词典索引映射集合TM中,如果包含于词典索引映射集合TM中则取其索引,并继续判断该当前词的索引是否包含于非相关词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤。NT是文章的非相关词集合,是在NP的基础上计算选取出来的文章中非相关词的集合。对待处理文本的分词结果进行非相关词过滤,
将过滤后的分词结果用于关联计算。该关联计算方法可以为各类现有方法,例如可以为TF-IDF值法,该方法包括以下步骤:计算过滤文本中每个名词的TF-IDF值,对TF-IDF值大于预设阈值的名词建立与文本的关联关系,输出词-文本关联结果。此处预设阈值的设置可以过滤掉一些常用词,例如“应用”,该阈值设置为所有词的TF-IDF值均值,乘以小于1的系数,例如0.6。
以下结合具体实例对前述方法进行描述。为描述的便利,假设主题数为4(真实实施中远大于该值),以背景技术中的实例为对象进行说明并假设实例为语料库中的第50个文档。S100步骤:对语料库构建词典T及其映射TM和文档词频矩阵F,假设词典词数为1000,并假设“玻璃门”一词在词典中的索引为10即T[10]=“玻璃门”且TM(“玻璃门”)=10,F的第i=50行为实例对应的文档词频向量f50;对F进行LDA计算得到整个文档集的主题-词概率分布(其为4*1000大小的矩阵)和第50个文档的文档-主题概率分布p(θ)=(0.2,0.4,0.1,0.3)。S210步骤:对第50个文档,对其p(θ)进行索引号排序得到plist=(2,4,1,3);假设文档的主题阈值为0.6,遍历plist,其1、2元素对应的主题2和主题4的概率值之和为0.6,则可将3、4元素对应的主题1和主题3判定为非相关主题并将它们放入NP中,NP={1,3}。S200步骤:对f50向量进行遍历,对于第10列f50,10(即“玻璃门”对应的词频)有f50,10>0,因而从主题-词概率分布中取其第10列向量并假设其表示“玻璃门”属于主题1的概率为0.5属于主题2的概率为0.1以此类推;假设以词所属概率最大的两个主题来计算词的归属,则概率最大的主题为主题1和主题3;初始化NW=0和PW=0,由于主题1和主题3都属于NP,则PW=0,NW=0+p1(θ)+p3(θ)=0.2+0.1=0.3>PW,故“玻璃门”一词属于文档的非相关词,将其索引10加入加入到文档的非相关词集合NT中。S300步骤:遍历第50个文档的分词列表,对于“玻璃门”一词,其TM(“玻璃门”)=10,索引10属于文档的非相关词集合NT,因此直接将“玻璃门”从分词列表中过滤去除;遍历完毕后即可将过滤后的分词结果用于关联计算。
参见图2,本发明的另一方面还提供了一种如上述方法用的关联计算的预处理装置,包括:
LDA聚类计算模块100,用于对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布和主题-词概率分布;
非相关词集合NT计算模块200,用于通过文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP,通过主题-词概率分布和非相关主题集合NP,得到待处理文本的非相关词集合NT;
过滤文本模块300,用于遍历待处理文本的分词列表,判断当前词是否包含于非相关词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
该装置通过利用LDA聚类计算得到的结果,进行文本过滤,能将待处理文本中所含的与主题不相干的词去除,减少后续关联计算的误差。
优选的,LDA聚类计算模块100包括:
构建词典索引映射集合模块,用于统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引映射集合TM以键对值形式存储;
构建文档词频矩阵F模块,用于基于词典构建形式如下的文档词频矩阵F:
其中,m为文档数量,n为词典词数,fi,j表示词典T中第j个词在第i个文本中的词频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,1 fi,2 ... fi,j ... fi,n-1 fi,n)。
该方法能构建出适合于LDA模型计算所需的文档词频矩阵F。
优选的,非相关词集合NT计算模块200包括:
非相关主题集合构建模块,用于对文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist,并对排序列表plist进行遍历,累加每个主题对应的文档-主题概率分布p(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主题作为非相关主题,并加入非相关主题集合NP中;
非相关词集合构建模块,用于遍历文档词频矩阵F中的词频向量fi,若fi,j>0则取主题-词概率分布中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到非相关词集合NT。
采用该装置,能有效构建出准确性较高的非相关词集合,避免后续后续关联计算收到非相关词的干扰。
本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。
通过对附图,说明书和权利要求书的研究,在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中,术语“包括”不排除其他步骤或元素,而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。
Claims (4)
1.一种关联计算的预处理方法,其特征在于,包括以下步骤:
步骤S100:对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词频矩阵F,通过对所述文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布p(θ)和主题-词概率分布
步骤S200:通过所述文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP,通过所述主题-词概率分布和所述非相关主题集合NP,得到所述待处理文本的非相关词集合NT;
步骤S300:遍历待处理文本的分词列表,判断当前词是否包含于所述非相关词集合NT中,如果包含于所述非相关词集合NT中则将该当前词直接过滤,输出过滤文本;
所述文档词频矩阵F的构建包括以下步骤:
步骤S110:统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建所述词典,对所述词典进行索引得到所述词典索引映射集合TM,所述词典索引映射集合TM以键对值形式存储;
步骤S120:基于词典构建形式如下的所述文档词频矩阵F:
<mrow>
<mi>F</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>..</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,m为所述待处理文本中所含文档的数量,n为词典词数,fi,j表示所述词典T中第j个词在第i个文本中的词频;
fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,1 fi,2 ... fi,j ... fi,n-1 fi,n);
所述步骤S200包括以下步骤:
步骤S210:主题的索引号进行排序得到排序列表plist,并对排序列表plist进行遍历,累加每个主题对应的所述文档-主题概率分布p(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主题作为非相关主题,并加入所述非相关主题集合NP中;
步骤S220:遍历所述文档词频矩阵F中的词频向量fi,若fi,j>0则取所述主题-词概率分布中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到所述非相关词集合NT。
2.根据权利要求1所述的关联计算的预处理方法,其特征在于,所述NW和所述PW的计算方式为:假设主题索引号为s,所述NW和所述PW的初始化为0,若s∈所述非相关主题集合NP,则NW=NW+ps(θ);
否则PW=PW+ps(θ),其中,ps(θ)为第s个主题的文档-主题概率值。
3.一种如权利要求1或2所述方法用关联计算的预处理装置,其特征在于,包括:
LDA聚类计算模块,用于对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词频矩阵F,通过对所述文档词频矩阵F进行LDA聚类计算,得到所述文档-主题概率分布p(θ)和主题-词概率分布
非相关词集合NT计算模块200,用于通过所述文档-主题概率分布p(θ)计算出待处理文本的非相关主题集合NP,通过所述主题-词概率分布和非相关主题集合NP,得到待处理文本的所述非相关词集合NT;
过滤文本模块,用于遍历待处理文本的分词列表,判断当前词是否包含于所述非相关词集合NT中,如果包含于所述非相关词集合NT中则将该当前词直接过滤,输出过滤文本;
所述非相关词集合NT计算模块包括:
非相关主题集合构建模块,用于对所述文档-主题概率分布p(θ)按概率值从大到小对主题的索引号进行排序得到排序列表plist,并对排序列表plist进行遍历,累加每个主题对应的所述文档-主题概率分布p(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主题作为非相关主题,并加入非相关主题集合NP中;
非相关词集合构建模块,用于遍历所述文档词频矩阵F中的词频向量fi,若fi,j>0则取所述主题-词概率分布中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到所述非相关词集合NT。
4.根据权利要求3所述的关联计算的预处理装置,其特征在于,所述LDA聚类计算模块包括:
构建词典索引映射集合模块,用于统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建词典T,对词典T进行索引得到所述词典索引映射集合TM,所述词典索引映射集合TM以键对值形式存储;
构建所述文档词频矩阵F模块,用于基于词典构建形式如下的所述文档词频矩阵F:
<mrow>
<mi>F</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>..</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>f</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,m为文档数量,n为词典词数,fi,j表示词典T中第j个词在第i个文本中的词频;
fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,1 fi,2 ... fi,j ... fi,n-1 fi,n)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610050952.3A CN105488033B (zh) | 2016-01-26 | 2016-01-26 | 关联计算的预处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610050952.3A CN105488033B (zh) | 2016-01-26 | 2016-01-26 | 关联计算的预处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488033A CN105488033A (zh) | 2016-04-13 |
CN105488033B true CN105488033B (zh) | 2018-01-02 |
Family
ID=55675017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610050952.3A Active CN105488033B (zh) | 2016-01-26 | 2016-01-26 | 关联计算的预处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488033B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127231A (zh) * | 2016-06-16 | 2016-11-16 | 中国人民解放军国防科学技术大学 | 一种基于信息交互网络的犯罪个体识别方法 |
CN106294733B (zh) * | 2016-08-10 | 2019-05-07 | 成都轻车快马网络科技有限公司 | 基于文本分析的网页检测方法 |
CN106326371A (zh) * | 2016-08-12 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 服务推送方法及装置 |
CN108108346B (zh) * | 2016-11-25 | 2021-12-24 | 广东亿迅科技有限公司 | 文档的主题特征词抽取方法及装置 |
CN108197175B (zh) * | 2017-12-20 | 2021-12-10 | 国网北京市电力公司 | 技术监督数据的处理方法和装置、存储介质、处理器 |
CN108921431A (zh) * | 2018-07-03 | 2018-11-30 | 中国联合网络通信集团有限公司 | 政企客户聚类方法及装置 |
CN110866097A (zh) * | 2019-10-28 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 文本聚类方法、装置及计算机设备 |
CN110750696A (zh) * | 2019-10-29 | 2020-02-04 | 贵州电网有限责任公司 | 一种文档聚类检索系统 |
CN117556030A (zh) * | 2020-04-17 | 2024-02-13 | 支付宝(杭州)信息技术有限公司 | 小程序相关词的确定方法、装置、处理设备及搜索系统 |
CN111538893B (zh) * | 2020-04-29 | 2021-01-05 | 四川大学 | 一种从非结构化数据中提取网络安全新词的方法 |
CN111897999B (zh) * | 2020-07-27 | 2023-06-16 | 九江学院 | 一种用于视频推荐且基于lda的深度学习模型构建方法 |
CN113011133A (zh) * | 2021-02-23 | 2021-06-22 | 吉林大学珠海学院 | 一种基于自然语言处理的单细胞相关技术数据分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105224521A (zh) * | 2015-09-28 | 2016-01-06 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
-
2016
- 2016-01-26 CN CN201610050952.3A patent/CN105488033B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105224521A (zh) * | 2015-09-28 | 2016-01-06 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105488033A (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105488033B (zh) | 关联计算的预处理方法及装置 | |
CN103150333B (zh) | 微博媒体中的意见领袖识别方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN110019770A (zh) | 训练分类模型的方法与装置 | |
CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN108334528B (zh) | 一种信息推荐方法和装置 | |
CN110807084A (zh) | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 | |
CN103425635A (zh) | 一种答案推荐方法和装置 | |
CN103500175A (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN109086375A (zh) | 一种基于词向量增强的短文本主题抽取方法 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN110503508A (zh) | 一种层级多粒度矩阵分解的物品推荐方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN110046228A (zh) | 短文本主题识别方法和系统 | |
Pan et al. | Deep neural network-based classification model for Sentiment Analysis | |
CN107016122A (zh) | 基于时间迁移的知识推荐方法 | |
CN108062351A (zh) | 关于特定主题类别的文本摘要提取方法、可读存储介质 | |
CN112214991A (zh) | 一种基于多特征融合加权的微博文本立场检测方法 | |
Vekariya et al. | A novel approach for semantic similarity measurement for high quality answer selection in question answering using deep learning methods | |
WO2023050652A1 (zh) | 基于文本识别的区域内esg指数确定方法及相关产品 | |
CN116467443A (zh) | 基于主题识别的网络舆情文本分类方法 | |
Wang et al. | Information geometry enhanced fuzzy deep belief networks for sentiment classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |