CN103324687A - 对多篇文档进行相关性检验的方法和装置 - Google Patents

对多篇文档进行相关性检验的方法和装置 Download PDF

Info

Publication number
CN103324687A
CN103324687A CN2013102178625A CN201310217862A CN103324687A CN 103324687 A CN103324687 A CN 103324687A CN 2013102178625 A CN2013102178625 A CN 2013102178625A CN 201310217862 A CN201310217862 A CN 201310217862A CN 103324687 A CN103324687 A CN 103324687A
Authority
CN
China
Prior art keywords
descriptor
document
similarity
documents
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102178625A
Other languages
English (en)
Inventor
黄平春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northern Boundary Of Imagination (beijing) Software Co Ltd
Original Assignee
Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northern Boundary Of Imagination (beijing) Software Co Ltd filed Critical Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority to CN2013102178625A priority Critical patent/CN103324687A/zh
Publication of CN103324687A publication Critical patent/CN103324687A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种对多篇文档进行相关性检验的方法和装置。该方法包括:确定多篇文档对应的n个主题词,其中N为自然数且n大于等于3;计算n个主题词中每两个主题词的相似度值;以及计算多个相似度值的方差,根据方差确定多篇文档的相关性。在本发明中,通过计算多个相似度值的方差,可以确定多个主题词的相关性大小,从而可以确定多篇文档的相关性是否满足要求。

Description

对多篇文档进行相关性检验的方法和装置
技术领域
本发明涉及互联网领域,特别涉及一种对多篇文档进行相关性检验的方法和装置。
背景技术
在互连网信息急剧增加的环境下,如何有效准确的得到所需的信息成为亟待解决的技术问题。其中,如何对相同类型的网络文档进行准确分类或聚类尤为关键。
现有技术中对文档进行分类或聚类后,无法准确的对分类或聚类得到的某一类文档的相关性进行检验,因此,该类别中可能出现与其它文档相关性不高的文档,用户对该类文档进行针对性阅读时,会被这些相关性不高的文档所干扰,降低了阅读效率和用户体验。
发明内容
本发明实施例提供一种对多篇文档进行相关性检验的方法和装置,通过确定多个主题词的相关性大小,确定多篇文档的相关性是否满足要求。
对多篇文档进行相关性检验的方法包括以下步骤:确定多篇文档对应的n个主题词,其中n为自然数且n大于等于3;计算n个主题词中每两个主题词的相似度值;以及计算多个相似度值的方差,根据方差确定多篇文档的相关性。
在一个实施例中,在计算n个主题词中每两个主题词的相似度值之前,上述方法还包括:按预设顺序构造相似度矩阵,其中,相似度矩阵中的每个元素为上述n个主题词中的两个主题词之间的待计算相似度;将相似度矩阵转换成向量。
在一个实施例中,每个相似度仅在相似度矩阵中出现一次。
在一个实施例中,将矩阵转换成向量包括:将矩阵划分为从上到下依次排列的多个行向量;将多个行向量首尾连接,合并为一个向量。
在一个实施例中,计算n个主题词中每两个主题词的相似度值包括:根据两个主题词的联合文档频和分别对应的单独文档频,计算两个主题词的相似度值,其中,联合文档频为同时包含两个主题词的文档个数,单独文档频为包含一个主题词的文档个数。
在一个实施例中,在单独文档频固定的情况下,两个主题词的相似度与联合文档频成正比。
在一个实施例中,在计算n个主题词中每两个主题词的相似度值之后,上述方法还包括:利用平滑参数将相似度值转换为正规化相似度值。
在一个实施例中,在确定多篇文档对应的n个主题词之后以及计算n个主题词中每两个主题词的相似度值之前,上述方法还包括:将噪音文档过滤,其中,噪音文档为不包含任一主题词的文档。
对多篇文档进行相关性检验的装置包括以下组成部分:确定模块,用于确定多篇文档对应的n个主题词,其中n为自然数且n大于等于3;第一计算模块,用于计算n个主题词中每两个主题词的相似度值;以及第二计算模块,用于计算多个相似度值的方差,根据方差确定多篇文档的相关性。
在一个实施例中,上述装置还包括:构造模块,用于按预设顺序构造相似度矩阵,其中,相似度矩阵中的每个元素为上述n个主题词中的两个主题词之间的待计算相似度;第一转换模块,用于将相似度矩阵转换成向量。
在一个实施例中,每个相似度仅在相似度矩阵中出现一次。
在一个实施例中,第一转换模块包括:划分子模块,用于将矩阵划分为从上到下依次排列的多个行向量;合并子模块,用于将多个行向量首尾连接,合并为一个向量。
在一个实施例中,第一计算模块包括:计算子模块,用于根据两个主题词的联合文档频和分别对应的单独文档频,计算两个主题词的相似度值,其中,联合文档频为同时包含两个主题词的文档个数,单独文档频为包含一个主题词的文档个数。
在一个实施例中,在单独文档频固定的情况下,两个主题词的相似度与联合文档频成正比。
在一个实施例中,上述装置还包括:第二转换模块,用于利用平滑参数将相似度值转换为正规化相似度值。
在一个实施例中,上述装置还包括:过滤模块,用于将噪音文档过滤,其中,噪音文档为不包含任一主题词的文档。
在本发明中,通过计算多个相似度值的方差,可以确定多个主题词的相关性大小,从而可以确定多篇文档的相关性是否满足要求。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是根据本发明实施例的对多篇文档进行相关性检验的方法的流程图;
图2是根据本发明优选实施例的多篇文档进行相关性检验的方法的流程图;
图3是根据本发明优选实施例的主题词提取示意图;
图4是根据本发明实施例的对多篇文档进行相关性检验的装置400的结构框图;
图5是根据本发明第一优选实施例的对多篇文档进行相关性检验的装置500的结构框图;
图6是根据本发明第二优选实施例的对多篇文档进行相关性检验的装置600的结构框图;
图7是根据本发明第三优选实施例的对多篇文档进行相关性检验的装置700的结构框图;
图8是根据本发明第四优选实施例的对多篇文档进行相关性检验的装置800的结构框图;以及
图9是根据本发明第五优选实施例的对多篇文档进行相关性检验的装置900的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
现在将参考附图进一步详细描述本发明。本发明可以许多不同的形式来实现,不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供,以便为本领域技术人员提供对本发明的完全理解。
图1是根据本发明实施例的对多篇文档进行相关性检验的方法100的流程图。如图1所示,该方法包括步骤102至步骤106。
在步骤102中,确定多篇文档对应的n个主题词,其中n为自然数且n大于等于3。
在步骤104中,计算这n个主题词中每两个主题词的相似度值。
在步骤106中,计算多个相似度值的方差,根据该方差确定多篇文档的相关性。
在本实施例中,通过计算多个相似度值的方差,可以确定多个主题词的相关性大小,从而可以确定多篇文档的相关性是否满足要求。
图2是根据本发明优选实施例的对多篇文档进行相关性检验的方法200的流程图。如图2所示,该方法包括步骤202至步骤216。
在步骤202中,提取多篇文档的主题词。
对该多篇文档进行分词后,可以使用文本主题提取算法从所有的文档中提取n个主题词x1、x2、x3……xn(n为大于等于3的自然数),提取出来的n个主题词组成的组合相当于这多篇文档的中心思想。具体地,可在去除形容词和副词等词语后,使用LDA算法等从名词或名词性短语中提取主题词。本步骤使用的这些算法一般根据词语的出现次数,即词频等进行提取,词频比较高的词语会被提取为主题词,例如,该多篇文档为10篇文档,包括9篇篮球文档和1篇娱乐文档,如果设置主题词的数量为4个,则最后的主题词可能是涉及篮球的词语“总决赛”“科比”“湖人”“冠军”等,娱乐文档中的“选秀”等词语虽然在该文档中出现频率较高,但是在10篇文档中总词频不高,因此一般不会成为主题词。
图3是根据本发明优选实施例的主题词提取示意图,如图3所示,在4篇文档组成的文档集合301中,文档1中“湖人”的词频为2、“选秀”的词频为0;文档2中“湖人”的词频为3、“选秀”的词频为0;文档3中“湖人”的词频为4、“选秀”的词频为0;文档4中“湖人”的词频为0、“选秀”的词频为6,则在该集合301中,“湖人”的总词频为9(2+3+4),“选秀”的总词频为6。当设置的主题词的数量为4个,且“湖人”的总词频在所有词语中排第4时,“湖人”被提取为关键词,而“选秀”的词频低于“湖人”的词频,不能被提取为主题词。主题词的数量可以根据实际需求进行设置,但如前所述,主题词数量不得小于3。
在另一种实现方式中,可以不对主题词的数量进行设置,而仅对主题词的词频进行限制,例如词频高于阈值的词语,都作为主题词。在设置阈值时,需结合前期收集的信息,以免主题词的数量小于3。
在步骤204中,对上述多篇文档进行去噪,过滤与主题词无法匹配的噪音文档。
在本步骤中,首先将多个主题词组成的组合分别与各文档进行匹配,然后将不包含任一主题词的噪音文档过滤。具体地,可以使用搜索工具对所有文档建立索引,例如使用Lucene检索包建立索引,然后将主题词与各文档匹配,对于无法匹配的噪音文档,即不包括任一主题词的文档,进行过滤,实现降噪处理。
上述实施例中,从娱乐文档中无法搜索出“总决赛”“科比”“湖人”“冠军”中任何一个主题词,因此,该娱乐文档无法与主题词匹配,该娱乐文档在本步骤中被作为噪音文档过滤掉。
在步骤206中,按预设顺序构造相似度矩阵。该相似度矩阵中的每个元素为步骤202中得到的n个主题词中的两个主题词的待计算相似度。在本申请书中,待计算相似度/相似度均指两个主题词之间相似程度,并可同时指代未经计算的相似度计算公式;相似度值是指由前述相似度计算公式实际计算得到的数值。另外,以上两个主题词可为某个主题词及该主题词自身。
一般而言,通过某一算法利用多个参数计算多个数值时,会预先规定该多个数值的计算结果以矩阵的形式输出。在本实施例的后续步骤中,需要根据主题词计算多个相似度值,但这多个相似度值中包含重复的数值。因此,本实施例先按预设顺序构造这个相似度矩阵,即通过对以相似度为元素得到的原始矩阵进行变形,滤除重复出现的相似度以达到去重的目的。最后根据此相似度矩阵对去重后的相似度进行计算,从而无须计算出所有的相似度值,达到简化计算的目的。
具体地,首先由步骤202得到n个主题词x1、x2……xn后,确定y1、y2、y3……yn。算法如下:令xn=yn,即,x1=y1,x2=y2,……
随后定义原始矩阵中的每个元素为一个待计算的主题词xn和yn的相似度NLD(xn,yn),其中,n为1,2,3,…。本实施例中原始矩阵的构建方式为:以NLD(x1,y1)为矩阵第一行的第一个元素,在矩阵的每一行中,yn保持不变,xn从左至右按预设顺序排列;在矩阵的每一列中,xn保持不变,yn从上至下按预设顺序排列,xn的预设顺序为x1、x2、x3,…,yn的预设顺序为y1、y2、y3,…。基于此,原始矩阵构建为如下形式:
NLD(x1,y1)     NLD(x2,y1)     NLD(x3,y1)……   NLD(xn,y1)
NLD(x1,y2)     NLD(x2,y2)     NLD(x3,y2)……   NLD(xn,y2)
NLD(x1,y3)     NLD(x2,y3)     NLD(x3,y3)……   NLD(xn,y3)
   ……                 ……           ……              ……
NLD(x1,yn)     NLD(x2,yn)     NLD(x3,yn)……   NLD(xn,yn)
从该原始矩阵中可以得出,该原始矩阵是沿主对角线对称的,例如,NLD(x2,y1)=NLD(x1,y2),即该矩阵的上三角矩阵可表明多个相似度之间的关系,因此,进一步取上述原始矩阵的上三角矩阵。
对该上三角矩阵中的各元素进行还原,根据前述算法xn=yn,将全部y1、y2……yn还原为关键词x1、x2……xn。则上述上三角矩阵可以最终简化为如下相似度矩阵:
NLD(x1,x1)     NLD(x2,x1)     NLD(x3,x1)……   NLD(xn,x1)
               NLD(x2,x2)     NLD(x3,x2)……   NLD(xn,x2)
                              NLD(x3,x3)……   NLD(xn,x3)
                                                    ……
                                               NLD(xn,xn)
在步骤208中,将该相似度矩阵转换成一个向量。
本实施例的后续步骤通过计算多个相似度值的方差来检验多篇文档的相关性,将矩阵转换成向量,可以便于计算方差。本实施例中对该向量进行横向张开,即,将该矩阵划分为从上到下依次排列的n个行向量,将这n个行向量首尾连接,合并成一个向量。在其他实施例中,纵向或其他方式张开也开始达到本实施例的效果,本实施例张开后的向量为:
(NLD(x1,x1),NLD(x1,x2),NLD(x1,x3),……NLD(x1,xn),NLD(x2,x2),NLD(x2,x3),……NLD(x2,xn),NLD(x3,x3),……NLD(x3,xn),……NLD(xn,xn))。
步骤206和步骤208的目的在于减少参与计算的元素的个数,从而减少下述步骤210的计算量。
在步骤210中,计算向量中的每个相似度值对应的联合文档频和单独文档频。具体地,该值的计算需要根据两个主题词在多篇文档中的联合文档频与各自的单独文档频来得出。联合文档频是指同时包含这两个主题词的文档的个数,例如,有x1、x2两个主题词,和甲、乙、丙三篇文档,甲文档中同时包含x1和x2,乙文档中未同时包含x1和x2,丙文档中同时包含x1和x2,则x1和x2在甲、乙、丙三篇文档中的联合文档频为2。单独文档频是指仅包含1个主题词的文档的个数,仍以上述主题词包括x1、x2及甲、乙、丙三篇文档为例,在甲文档中,包含x1和x2;在乙文档中,不包含x1,但包含x2;在丙文档中,包含x1,但不包含x2,则x1的单独文档频为2,x2的单独文档频为2。
依照上述方式,对所有主题词进行两两计算,可以得出全部主题词中每两个主题词的联合文档频频和各自的单独文档频。
在步骤212中,根据步骤210中求得的单独文档频和联合文档频,计算两个主题词的相似度值。
一般而言,相似度遵循以下规律:在单独文档频固定的情况下,两个主题词的相似度与联合文档频成正比。
具体地,可以根据如下公式计算两个主题词x1与x2之间的相似度:
相似度NLD(x1,x2)=
(max{logf(x1),logf(x2)}-logf(x1,x2))/(logN-min{logf(x1),logf(x2)})。
其中,f(x1)是主题词x1的单独文档频,f(x2)是主题词x2的单独文档频,f(x1,x2)是主题词x1和主题词x2的联合文档频,N是文档总数,max{logf(x1),logf(x2)}为取logf(x1)和logf(x2)中较大的值,min{logf(x1),logf(x2)}取logf(x1)和logf(x2)中较小的值。对各函数取对数log可以减小计算量,在不取log的情况下,也能求出相应的相似度值。
根据上述公式,可以求出主题词x1和x2的相似度值。
同理,根据上述步骤还可以求出其他任意两个主题词的相似度值。
有些情况下,需要计算一个主题词和该主题词自身的相似度,这种情况同样可以根据上述公式进行计算,也可以根据经验,直接赋值0。
为了符合一般的相似度值的定义,还可以将相似度值的范围正规化到一个[0,1]的数值范围,相似度越高,数值越接近1,即100%相似;相似度越低,数值越接近0。因此,可以定义转换公式,转换到[0,1]之间的正规化相似度GR(x1,x2)=a/(NLD(A,B)+a),其中,a为平滑参数,在本实施例中,可以设定a为0.5。将NLD(x1,x2)的数值代入转换公式中,NLD(x1,x2)的值越小,GR(x1,x2)的值越大,即相似度越高,GR(x1,x2)的值越大。
在步骤214中,计算向量中各相似度值的方差。
首先,计算NLD(x1,x1),NLD(x1,x2),…,NLD(xn,xn)的期望值m。
然后,计算方差S=
1 N · [ ( NLD ( x 1 , x 1 ) - m ) 2 + ( NLD ( x 1 , x 2 ) - m ) 2 + · · · + ( NLD ( xn , xn ) - m ) 2 ] , 其中,N为文档总数,m为上述期望值。
在步骤216中,根据上述方差判断多篇文档的相关性是否满足要求。
根据先前经验,可以得出方差的阈值,即方差小于阈值,则多篇满足文档的相关性符合要求。在本实施例中,求出方差后,与预设阈值进行比较,则可以判断本实施例中,多篇文档是否满足相关性要求。
本发明实施例还提供了一种对多篇文档进行相关性检验的装置400,图4是根据本发明实施例的对多篇文档进行相关性检验的装置400的结构框图,如图4所示,该装置包括确定模块402、第一计算模块404和第二计算模块406。
具体地,确定模块402用于确定多篇文档对应的n个主题词,其中n为自然数且n大于等于3。第一计算模块404用于计算n个主题词中每两个主题词的相似度值。第二计算模块406用于计算多个相似度值的方差,根据方差确定多篇文档的相关性。
图5是根据本发明第一优选实施例的对多篇文档进行相关性检验的装置500的结构框图,如图5所示,该装置在装置400的基础上还包括构造模块502和第一转换模块504。
具体地,构造模块502用于按预设顺序构造相似度矩阵,其中,相似度矩阵中的每个元素为n个主题词中的两个主题词之间的待计算相似度。第一转换模块504用于将相似度矩阵转换成向量。
每个相似度仅在相似度矩阵中出现一次。
图6是根据本发明第二优选实施例的对多篇文档进行相关性检验的装置600的结构框图,如图6所示,在第一转换模块504中还包括划分子模块602和合并子模块604。
划分子模块602用于将矩阵划分为从上到下依次排列的多个行向量;
合并子模块604用于将多个行向量首尾连接,合并为一个向量。
图7是根据本发明第三优选实施例的对多篇文档进行相关性检验的装置700的结构框图,如图7所示,在第一计算模块404中包括计算子模块702。
计算子模块702用于根据两个主题词的联合文档频和分别对应的单独文档频,计算两个主题词的相似度值,其中,联合文档频为同时包含两个主题词的文档个数,单独文档频为包含一个主题词的文档个数。
在单独文档频固定的情况下,两个主题词的相似度与联合文档频成正比。
图8是根据本发明第四优选实施例的对多篇文档进行相关性检验的装置800的结构框图,如图8所示,该装置在装置700的基础上还包括第二转换模块802。
第二转换模块802用于利用平滑参数将相似度值转换为正规化相似度值。
图9是根据本发明第五优选实施例的对多篇文档进行相关性检验的装置900的结构框图,如图9所示,该装置在装置400的基础上还包括过滤模块902。
过滤模块902用于将噪音文档过滤,其中,噪音文档为不包含任一n个主题词的文档。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种对多篇文档进行相关性检验的方法,其特征在于,包括:
确定所述多篇文档对应的n个主题词,其中n为自然数且n大于等于3;
计算所述n个主题词中每两个主题词的相似度值;以及
计算多个所述相似度值的方差,根据所述方差确定所述多篇文档的相关性。
2.根据权利要求1所述的方法,其特征在于,在计算所述n个主题词中每两个主题词的相似度值之前,所述方法还包括:
按预设顺序构造相似度矩阵,其中,所述相似度矩阵中的每个元素为所述n个主题词中的两个主题词之间的待计算相似度;
将所述相似度矩阵转换成向量。
3.根据权利要求2所述的方法,其特征在于,每个相似度仅在所述相似度矩阵中出现一次。
4.根据权利要求2所述的方法,其特征在于,将所述矩阵转换成向量包括:
将所述矩阵划分为从上到下依次排列的多个行向量;
将所述多个行向量首尾连接,合并为一个向量。
5.根据权利要求1所述的方法,其特征在于,计算所述n个主题词中每两个主题词的相似度值包括:
根据所述两个主题词的联合文档频和分别对应的单独文档频,计算所述两个主题词的所述相似度值,其中,所述联合文档频为同时包含所述两个主题词的文档个数,所述单独文档频为包含一个所述主题词的文档个数。
6.根据权利要求5所述的方法,其特征在于,在所述单独文档频固定的情况下,两个所述主题词的相似度与所述联合文档频成正比。
7.根据权利要求6所述的方法,其特征在于,在计算所述n个主题词中每两个主题词的所述相似度值之后,所述方法还包括:
利用平滑参数将所述相似度值转换为正规化相似度值。
8.根据权利要求1所述的方法,其特征在于,在确定所述多篇文档对应的n个主题词之后以及计算所述n个主题词中每两个主题词的相似度值之前,所述方法还包括:
将噪音文档过滤,其中,所述噪音文档为不包含任一所述n个主题词的文档。
9.一种对多篇文档进行相关性检验的装置,其特征在于,包括:
确定模块,用于确定所述多篇文档对应的n个主题词,其中n为自然数且n大于等于3;
第一计算模块,用于计算所述n个主题词中每两个主题词的相似度值;以及
第二计算模块,用于计算多个所述相似度值的方差,根据所述方差确定所述多篇文档的相关性。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
构造模块,用于按预设顺序构造相似度矩阵,其中,所述相似度矩阵中的每个元素为所述n个主题词中的两个主题词之间的待计算相似度;
第一转换模块,用于将所述相似度矩阵转换成向量。
11.根据权利要求10所述的装置,其特征在于,每个相似度仅在所述相似度矩阵中出现一次。
12.根据权利要求10所述的装置,其特征在于,所述第一转换模块包括:
划分子模块,用于将所述矩阵划分为从上到下依次排列的多个行向量;
合并子模块,用于将所述多个行向量首尾连接,合并为一个向量。
13.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
计算子模块,用于根据所述两个主题词的联合文档频和分别对应的单独文档频,计算所述两个主题词的所述相似度值,其中,所述联合文档频为同时包含所述两个主题词的文档个数,所述单独文档频为包含一个所述主题词的文档个数。
14.根据权利要求13所述的装置,其特征在于,在所述单独文档频固定的情况下,两个所述主题词的相似度与所述联合文档频成正比。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
第二转换模块,用于利用平滑参数将所述相似度值转换为正规化相似度值。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
过滤模块,用于将噪音文档过滤,其中,所述噪音文档为不包含任一所述n个主题词的文档。
CN2013102178625A 2013-06-03 2013-06-03 对多篇文档进行相关性检验的方法和装置 Pending CN103324687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102178625A CN103324687A (zh) 2013-06-03 2013-06-03 对多篇文档进行相关性检验的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102178625A CN103324687A (zh) 2013-06-03 2013-06-03 对多篇文档进行相关性检验的方法和装置

Publications (1)

Publication Number Publication Date
CN103324687A true CN103324687A (zh) 2013-09-25

Family

ID=49193430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102178625A Pending CN103324687A (zh) 2013-06-03 2013-06-03 对多篇文档进行相关性检验的方法和装置

Country Status (1)

Country Link
CN (1) CN103324687A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324737A (zh) * 2020-03-23 2020-06-23 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071445A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 分类样本集的优化方法和内容相关广告服务器
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
WO2012103625A1 (en) * 2011-02-04 2012-08-09 Holland Bloorview Kids Rehabilitation Hospital Reputation-based classifier, classification system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071445A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 分类样本集的优化方法和内容相关广告服务器
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
WO2012103625A1 (en) * 2011-02-04 2012-08-09 Holland Bloorview Kids Rehabilitation Hospital Reputation-based classifier, classification system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章舜仲等: "词间相关性在贝叶斯文本分类中的应用研究", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324737A (zh) * 2020-03-23 2020-06-23 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN111324737B (zh) * 2020-03-23 2022-04-22 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端
CN115686432B (zh) * 2022-12-30 2023-04-07 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Similar Documents

Publication Publication Date Title
CN104169909B (zh) 上下文解析装置及上下文解析方法
WO2019091177A1 (zh) 风险识别模型构建和风险识别方法、装置及设备
JP6601470B2 (ja) 自然言語の生成方法、自然言語の生成装置及び電子機器
CN104991891B (zh) 一种短文本特征提取方法
US20140195897A1 (en) Text Summarization
CN103020851B (zh) 一种支持商品评论数据多维分析的度量计算方法
CN106599148A (zh) 一种文摘生成方法及装置
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN102822822B (zh) 图像管理装置、图像管理方法、程序、记录介质、集成电路
JP6335898B2 (ja) 製品認識に基づく情報分類
US9965460B1 (en) Keyword extraction for relationship maps
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN105095411B (zh) 一种基于app质量的app排名预测方法及系统
CN103218432A (zh) 一种基于命名实体识别的新闻搜索结果相似度计算方法
CN108009135A (zh) 生成文档摘要的方法和装置
WO2020052547A1 (zh) 短信垃圾新词识别方法、装置及电子设备
RU2016128715A (ru) Обнаружение сети деловых отношений и оценивание релевантности отношения
Paltoglou et al. More than bag-of-words: Sentence-based document representation for sentiment analysis
CN110134942A (zh) 文本热点提取方法及装置
CN109471950A (zh) 腹部超声文本数据的结构化知识网络的构建方法
CN104951430A (zh) 产品特征标签的提取方法及装置
Pagot et al. Efficient parallel vectors feature extraction from higher‐order data
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
CN103324687A (zh) 对多篇文档进行相关性检验的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130925