CN103455623A - 一种融合多种语言文献的聚类机制 - Google Patents

一种融合多种语言文献的聚类机制 Download PDF

Info

Publication number
CN103455623A
CN103455623A CN2013104166938A CN201310416693A CN103455623A CN 103455623 A CN103455623 A CN 103455623A CN 2013104166938 A CN2013104166938 A CN 2013104166938A CN 201310416693 A CN201310416693 A CN 201310416693A CN 103455623 A CN103455623 A CN 103455623A
Authority
CN
China
Prior art keywords
cluster
document
accumulation
noun
verb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013104166938A
Other languages
English (en)
Other versions
CN103455623B (zh
Inventor
袁子牧
彭澎
季统凯
岳强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310416693.8A priority Critical patent/CN103455623B/zh
Priority to US14/408,461 priority patent/US20170235823A1/en
Priority to EP13886161.2A priority patent/EP2876561A4/en
Priority to PCT/CN2013/083524 priority patent/WO2015035628A1/zh
Publication of CN103455623A publication Critical patent/CN103455623A/zh
Application granted granted Critical
Publication of CN103455623B publication Critical patent/CN103455623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息检索技术领域,特别涉及一种融合多种语言文献的聚类机制。本发明按如下步骤进行:步骤1,建立包含多种语言词汇的近义词库;步骤2,提取8种特征值;步骤3,根据特征值,计算任意两篇文献i和j的相似度;步骤4,在文献集合中选择聚点,建立聚类;步骤5,将文献集合中剩余的文献加入到聚类之中;步骤6,将聚类置于圆环结构之中。本发明不限定聚类机制中文献语言的类别,依据相似度判断从文献中选择聚点并建立聚类,将不同语言的文献归于聚类之中;可用于多种语言文献的聚类中。

Description

一种融合多种语言文献的聚类机制
技术领域
本发明涉及信息检索技术领域,特别涉及一种融合多种语言文献的聚类机制。
背景技术
接触互联网的用户时常会在搜索引擎上查找自身关注的内容。类似于搜索引擎这类信息检索系统,通常是针对大批量数据进行过滤检索,并且要求处理时间足够快,以提供给用户及时的响应,避免用户的等待。
信息检索系统中的聚类技术为检索时以足够快的速度为用户提供充分的信息提供了保障。聚类是指对信息检索系统中的信息进行类别划分,它是对信息检索系统的一种有效改进策略,能提供给用户较为齐全的信息。在信息检索中应用聚类技术能使用户在检索信息的过程中快速定位到自己感兴趣的内容。相较未引用聚类技术的信息检索系统,使用聚类技术能起到降低用户等待时间的作用,有若分类更加清晰的特点。
发明内容
本发明解决的技术问题设计一种聚类机制,使得其能融合多种语言文献。
本发明解决上述技术问题的技术方案是:
按如下步骤进行:
步骤1,建立包含多种语言词汇的近义词库;
步骤2,提取8种特征值;
步骤3,根据特征值,计算任意两篇文献i和j的相似度;
步骤4,在文献集合中选择聚点,建立聚类;
步骤5,将文献集合中剩余的文献加入到聚类之中;
步骤6,将聚类置于圆环结构之中。
步骤1中,在词库的每一行中,都记录着意思相同或相近的多种语言词汇,并标记该词汇是动词还是名词。
所述的步骤2中特征值包括引用关系(f1)、相同参考文献(f2)、相同字符串(f3)、近义字符串(f4)、相同名词(f5)、近义名词(f6)、相同动词(f7)、近义动词(f8)这八个特征值;这些特征值并不限定于某一种特定的语言,可将多种语言文献融合到聚类分类之中;其中引用文献指在文献中列出的所参考文献,相同字符串指一段组成单词完全相同的字符串,近义字符串指一段组成单词相同或者是近义词库中记载的近义词的字符串,相同名词指完全相同的名词,近义名词指近义词库中记载在同一行的名词,相同动词指完全相同的动词,近义动词指义词库中记载在同一行的动词;对于某一篇文献i,其特征向量F(i)即为:
F(i)=(f1(i),f2(i),f3(i),f4(i),f5(i),f6(i),f7(i),f8(i))。
步骤3中,八个特征值的重要性为f1>f2>f3>f4>f5>f6>f7>f8;
任意两篇文献i和j的在特征值上的乘积运算:
引用文献的乘积f1(i)f1(j),定义W为i和j中的其中一篇文献被另一篇文献所引用的权值;bool为是否存在引用关系。bool的取值为0或者1,为0表示不存在引用关系,为1表示存在引用关系。计算表达式为:
f1(i)f1(j)=bool×W
相同参考文献的乘积f2(i)f2(j),定义d为权重除法因子并且d≥1;Refs指示参考文献的数目,则Max{Refs(i),Refs(j)}指在i和j中选择参考文献数目的最大值;CommonRefs(i,j)指i和j这两篇文献中相同的参考文献数目;计算表达式为:
f 2 ( i ) f 2 ( j ) = W d × CommonRefs ( i , j ) Max { Refs ( i ) , Refs ( j ) }
相同字符串的乘积f3(i)f3(j),定义CommonStrs(i,j)为i和j这两篇文献中相同的字符串;Length表示字符串的长度,因此Length(CommonStrs(i,j))表示相同字符串的总长度,Max{Length(i),Length(j)}指取i和j这两篇文献总长度的最大值;计算表达式为:
f 3 ( i ) f 3 ( j ) = W d 2 × Length ( CommonStrs ( i , j ) ) Max { Length ( i ) , Length ( j ) }
近义字符串的乘积f4(i)f4(j),定义SimilarStrs(i,j)为i和j这两篇文献中近似的字符串,计算表达式为:
f 4 ( i ) f 4 ( j ) = W d 3 × Length ( SimilarStrs ( i , j ) ) Max { Length ( i ) , Length ( j ) }
相同名词的乘积f5(i)f5(j),定义CommonNouns(i,j)为i和j这两篇文献中相同的名词;Nouns表示文献中的名词总数,因此Max{Nouns(i),Nouns(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为:
f 5 ( i ) f 5 ( j ) = W d 4 × CommonNouns ( i , j ) Max { Nouns ( i ) , Nouns ( j ) }
近义名词的乘积f6(i)f6(j),定义SimilarNouns(i,j)为i和j这两篇文献中意思相近的名词;计算表达式为:
f 6 ( i ) f 6 ( j ) = W d 5 × SimilarNouns ( i , j ) Max { Nouns ( i ) , Nouns ( j ) }
相同动词的乘积f7(i)f7(j),定义CommonVerbs(i,j)为i和j这两篇文献中相同的动词;Verbs表示文献中的动词总数,因此Mac{Verbs(i),Verbs(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为:
f 7 ( i ) f 7 ( j ) = W d 6 × CommonVerbs ( i , j ) Max { Verbs ( i ) , Verbs ( j ) }
近义动词的乘积f8(i)f8(j),定义SimilarVerbs(i,j)为i和j这两篇文献中意思相近的动词;计算表达式为:
f 8 ( i ) f 8 ( j ) = W d 7 × SimilarVerbs ( i , j ) Max { Verbs ( i ) , Verbs ( j ) }
基于特征值上的乘积运算,任意两篇文献i和j的相似度定义为:
Proximity ( i , j ) = Σ q = 1 8 f q ( i ) f q ( j ) .
步骤4中,在起始情况下,选择Proximity(i,j)值最小即最不相似的两篇文献作为初始的两个聚点,p1和p2,将其加入聚点集合Points;其余聚点的选择则依据如下最大最小公式来选择:
p m + 1 = Arg Min p ∉ Points { Max r = 1,2 , . . . , m Proximity ( p , p r ) }
在公式中pr,r=1,2,...,m表示已选为聚点的文献,此时需要从未选为聚点的文献中选择第m+1个聚点,并将该聚点加入集合Points;为上述公式设定一个阈值Th,当选出来的聚点使得 Min p ∉ Points { Max Proximity ( p , p r ) } > Th 时,则停止选取聚点,并且不将该点加入集合Points。
步骤5中,用N表示参与聚类的文献总数目,用M表示选出来的聚点总数目;在初始时,有M篇文献作为聚类的聚点,剩余N-M篇文献要加入这M个聚类之中;用Cluster(pr),T=1,2,...,M表示各个聚类集合,最开始每个集合仅有一篇作为聚点的文献;对于一篇未加入聚类的文献i,以下式计算最相似的聚类:
p q = Arg Max r = 1,2 , . . . , M { Σ p ∈ Cluster ( p r ) Proximity ( p , i ) | Cluster ( p r ) | }
在公式中,一篇未加入聚类的文献i计算与聚类集合Cluster(pr)中所有文献的相似程度,取平均值作为文献i与该聚类的相似度;从所有聚类中取值最大的做为与文献i最相似的聚类;这剩余的N-M文献依次加入到聚类集合中,每次选取相似度最大的文献iq加入聚类集合中,并更新Cluster(pq),最终直至所有的文献都加入到聚类集合之中。
步骤6中,将M个聚类放置于圆环结构之中,以使特征较相似的聚类排列在较近位置,特征较不相似的聚类排列在较远位置;在初始时,随机选择两个聚类加入圆环中。剩下M-2个聚类依据下列公式依次加入圆环之中:
( p s , p t ) = Arg Max { Σ i ∈ Cluster ( p r ) , j ∈ Cluster ( p s ) Proximity ( i , j ) | Cluster ( p r ) | | Cluster ( p s ) | + Σ i ∈ Cluster ( p r ) , k ∈ Cluster ( p t ) Proximity ( i , k ) | Cluster ( p r ) | | Cluster ( p t ) | }
每一个聚类pr在加入圆环之时,通过上述公式寻找合适的位置,在最相似的两聚类ps和pt之间新加一环放置聚类pr;在圆环中,离某一聚类pr越近的聚类则越与pr相似,否则越远越不相似。
本发明的聚类机制能融合多种语言的文献,通过近义词库将各种语言的词汇串接起来。基于近义词库及其它信息提取特征值,选择聚点进行分类。根据相似度将文献加入聚类之中,并将这些聚类按照相似程度加入到圆环结构中进行排列。本发明能帮助用户通过关键词快速查找到相关分类下所属的一系列文献。相较于没有提供聚类机制时,本发明能以更快的速度提供响应,并且省去用户手工查找的麻烦,亦可减少用户的等待时间;本发明能为文献提供清晰的分类,提供更加精确全面的信息,使得用户能充分了解相关分类中文献所属学科的进展。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明融合多种语言文献聚类机制的实施图;
图2是本发明选择聚点的实施图;
图3是本发明聚类置于圆环结构的实施图;
图4是本发明聚类置于圆环结构的示意图;
图5是本发明新加入一个聚类于圆环结构的示意图。
具体实施方式
如图1至5所示,本发明方法流程是:
首先建立一个近义词库,在词库的每一行中记录着意思相同或相近的多种语言词汇,并标记该词汇是动词还是名词。以N篇文献参与聚类的文献作为输入。
基于近义词库,文章内容和引用等,提取引用关系(f1),相同参考文献(f2),相同字符串(f3),近义字符串(f4),相同名词(f5),近义名词(f6),相同动词(f7),近义动词(f8)这八个特征值组成特征向量F(i)=(f1(i),f2(i),f3(i),f4(i)f5(i),f6(i),f7(i),f8(i))。计算引用文献的乘积f1(i)f1(j)=bool×W;计算相同参考文献的乘积 f 2 ( i ) f 2 ( j ) = W d × CommonRefs ( i , j ) Max { Refs ( i ) , Refs ( j ) } ; 计算相同字符串的乘积 f 3 ( i ) f 3 ( j ) = W d 2 × Length ( CommonStrs ( i , j ) ) Max { Length ( i ) , Length ( j ) } ; 计算近义字符串的乘积 f 4 ( i ) f 4 ( j ) = W d 3 × Length ( SimilarStrs ( i , j ) ) Max { Length ( i ) , Length ( j ) } ; 计算相同名词的乘积 f 5 ( i ) f 5 ( j ) = W d 4 × CommonNouns ( i , j ) Max { Nouns ( i ) , Nouns ( j ) } ; 计算近义名词的乘积 f 6 ( i ) f 6 ( j ) = W d 5 × SimilarNouns ( i , j ) Max { Nouns ( i ) , Nouns ( j ) } ; 计算相同动词的乘积 f 7 ( i ) f 7 ( j ) = W d 6 × CommonVerbs ( i , j ) Max { Verbs ( i ) , Verbs ( j ) } ; 计算近义动词的乘积 f 8 ( i ) f 8 ( j ) = W d 7 × SimilarVerbs ( i , j ) Max { Verbs ( i ) , Verbs ( j ) } . 基于特征值上的乘积运算,任意两篇文献i和j的相似度计算为 Proximity ( i , j ) = Σ q = 1 8 f q ( i ) f q ( j ) . 因此总共N篇文献建立起一个N×N的相似度矩阵。
基于N×N的相似度矩阵,在文献集合中选择聚点。在起始情况下,选择最不相似(即Proximity(i,j)值最小)的两篇文献作为初始的两个聚点,p1和p2,将其加入聚点集合Points。其余聚点的选择则依据如下最大最小公式来选择: p m + 1 = Arg Min p ∉ Points { Ma x r = 1,2 , . . . , m Proximity ( p , p r ) } . 依次加入聚点到集合Points中,直到选出来的聚点大于一个阈值Th时,即 Min p ∉ Points { Max Proximity ( p , p r ) } > Th , 则停止选取聚点,并且不将该点加入集合Points。
在公式中pr,r=1,2,...,m表示已选为聚点的文献,此时需要从未选为聚点的文献中选择第m+1个聚点,并将该聚点加入集合Points。为上述公式设定一个阈值Th,当选出来的聚点使得 Min p ∉ Points { Max Proximity ( p , p r ) } > Th 时,则停止选取聚点,并且不将该点加入集合Points。由此选出了M个聚点,即选出了M个聚类。
将剩余N-M篇文献要加入这M个聚类,Cluster(pr),r=12,...,M中。最开始每个集合仅有一篇作为聚点的文献。对于一篇未加入聚类的文献i,以式子 p q = Arg Max r = 1,2 , . . . , M { Σ p ∈ Cluster ( p r ) Proximity ( p , i ) | Cluster ( p r ) | } 计算最相似的聚类。这剩余的N-M文献依次加入到聚类集合中,每次选取相似度最大的文献iq加入聚类集合中,并更新Cluster(pq),最终直至所有的文献都加入到聚类集合之中。
将这M个聚类置于圆环结构之中。在初始时,随机选择两个聚类加入圆环中。剩下M-2个聚类,每次从中随机选取一个聚类,并依据公式 ( p s , p t ) = Arg Max { Σ i ∈ Cluster ( p r ) , j ∈ Cluster ( p s ) Proximity ( i , j ) | Cluster ( p r ) | | Cluster ( p s ) | + Σ i ∈ Cluster ( p r ) , k ∈ Cluster ( p t ) Proximity ( i , k ) | Cluster ( p r ) | | Cluster ( p t ) | } 在圆环之中寻找合适的位置,在最相似的两聚类ps和pt之间新加一环放置聚类pr
整个过程最后输出包含这M个聚类置于圆环结构,每一个聚类包含不限定语言的同类文献。聚类之间在圆环结构中距离越近则聚类越相似,否则距离越远则越不相似。

Claims (11)

1.一种融合多种语言文献的聚类机制,其特征在于:按如下步骤进行: 
步骤1,建立包含多种语言词汇的近义词库; 
步骤2,提取8种特征值; 
步骤3,根据特征值,计算任意两篇文献i和j的相似度; 
步骤4,在文献集合中选择聚点,建立聚类; 
步骤5,将文献集合中剩余的文献加入到聚类之中; 
步骤6,将聚类置于圆环结构之中。 
2.根据权利要求1所述的聚类机制,其特征在于:步骤1中,在词库的每一行中,都记录着意思相同或相近的多种语言词汇,并标记该词汇是动词还是名词。 
3.根据权利要求1所述的聚类机制,,其特征在于:所述的步骤2中特征值包括引用关系(f1)、相同参考文献(f2)、相同字符串(f3)、近义字符串(f4)、相同名词(f5)、近义名词(f6)、相同动词(f7)、近义动词(f8)这八个特征值;这些特征值并不限定于某一种特定的语言,可将多种语言文献融合到聚类分类之中;其中引用文献指在文献中列出的所参考文献,相同字符串指一段组成单词完全相同的字符串,近义字符串指一段组成单词相同或者是近义词库中记载的近义词的字符串,相同名词指完全相同的名词,近义名词指近义词库中 记载在同一行的名词,相同动词指完全相同的动词,近义动词指义词库中记载在同一行的动词;对于某一篇文献i,其特征向量F(i)即为: 
F(i)=(f1(i),f2(i),f3(i),f4(i),f5(i),f6(i),f7(i),f8(i))。 
4.根据权利要求2所述的聚类机制,,其特征在于:所述的步骤2中特征值包括引用关系(f1)、相同参考文献(f2)、相同字符串(f3)、近义字符串(f4)、相同名词(f5)、近义名词(f6)、相同动词(f7)、近义动词(f8)这八个特征值;这些特征值并不限定于某一种特定的语言,可将多种语言文献融合到聚类分类之中;其中引用文献指在文献中列出的所参考文献,相同字符串指一段组成单词完全相同的字符串,近义字符串指一段组成单词相同或者是近义词库中记载的近义词的字符串,相同名词指完全相同的名词,近义名词指近义词库中记载在同一行的名词,相同动词指完全相同的动词,近义动词指义词库中记载在同一行的动词;对于某一篇文献i,其特征向量F(i)即为: 
F(i)=(f1(i),f2(i),f3(i),f4(i),f5(i),f6(i),f7(i),f8(i)) 。
5.根据权利要求1至4任一项所述的聚类机制,其特征在于:步骤3中,八个特征值的重要性为f1>f2>f3>f4>f5>f6>f7>f8
任意两篇文献i和j的在特征值上的乘积运算: 
引用文献的乘积f1(i)f1(j),定义W为i和j中的其中一篇文献被另一篇文献所 引用的权值;bool为是否存在引用关系。bool的取值为0或者1,为0表示不存在引用关系,为1表示存在引用关系。计算表达式为: 
f1(i)f1(j)=bool×W 
相同参考文献的乘积f2(i)f2(j),定义d为权重除法因子并且d≥l;Refs指示参考文献的数目,则Max{Refs(i),Refs(j)}指在i和j中选择参考文献数目的最大值;CommonRefs(i,j)指i和j这两篇文献中相同的参考文献数目;计算表达式为: 
Figure FDA0000381445100000031
相同字符串的乘积f3(i)f3(j),定义CommonStrs(i,j)为i和j这两篇文献中相同的字符串;Length表示字符串的长度,因此Lgngth(CommonStrs(i,j))表示相同字符串的总长度,Max{Length(i),Length(j)}指取i和j这两篇文献总长度的最大值;计算表达式为: 
近义字符串的乘积f4(i)f4(j),定义SimilarStrs(i,j)为i和j这两篇文献中近似的字符串,计算表达式为: 
Figure FDA0000381445100000033
相同名词的乘积f5(i)f5(j),定义CommonNouns(i,j)为i和j这两篇文献中相同的名词;Nouns表示文献中的名词总数,因此Max{Nouns(i),Nouns(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为: 
近义名词的乘积f6(i)f6(j),定义SimilarNouns(i,j)为i和j这两篇文献中意思相近的名词;计算表达式为: 
Figure FDA0000381445100000042
相同动词的乘积f7(i)f7(j),定义CommonVerbs(i,j)为i和j这两篇文献中相同的动词;Verbs表示文献中的动词总数,因此Max{Verbs(i),Verbs(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为: 
Figure FDA0000381445100000043
近义动词的乘积f8(i)f8(j),定义SimilarVerbs(i,j)为i和j这两篇文献中意思相近的动词;计算表达式为: 
Figure FDA0000381445100000044
基于特征值上的乘积运算,任意两篇文献i和j的相似度定义为: 
Figure FDA0000381445100000051
6.根据权利要求1至4任一项所述的聚类机制,其特征在于:步骤4中,在起始情况下,选择Proximity(i,j)值最小即最不相似的两篇文献作为初始的两个聚点,p1和p2,将其加入聚点集合Points;其余聚点的选择则依据如下最大最小公式来选择: 
Figure FDA0000381445100000052
在公式中pr,r=1,2,...,m表示已选为聚点的文献,此时需要从未选为聚点的文献中选择第m+1个聚点,并将该聚点加入集合Points;为上述公式设定一个阈值Th,当选出来的聚点使得
Figure FDA0000381445100000053
时,则停止选取聚点,并且不将该点加入集合Points。 
7.根据权利要求5所述的聚类机制,其特征在于:步骤4中,在起始情况下,选择Proximity(i,j)值最小即最不相似的两篇文献作为初始的两个聚点,p1和p2,将其加入聚点集合Points;其余聚点的选择则依据如下最大最小公式来选择: 
Figure FDA0000381445100000054
在公式中pr,r=1,2,...,m表示已选为聚点的文献,此时需要从未选为聚点的文献中选择第m+1个聚点,并将该聚点加入集合Points;为上述公式设定一个阈值Th,当选出来的聚点使得
Figure FDA0000381445100000061
时,则停止选取聚点,并且不将该点加入集合Points。 
8.根据权利要求1至4任一项所述的聚类机制,其特征在于:步骤5中,用N表示参与聚类的文献总数目,用M表示选出来的聚点总数目;在初始时,有M篇文献作为聚类的聚点,剩余N-M篇文献要加入这M个聚类之中;用Cluster(pr),r=1,2,...,M表示各个聚类集合,最开始每个集合仅有一篇作为聚点的文献;对于一篇未加入聚类的文献i,以下式计算最相似的聚类: 
在公式中,一篇未加入聚类的文献i计算与聚类集合Cluster(pr)中所有文献的相似程度,取平均值作为文献i与该聚类的相似度;从所有聚类中取值最大的做为与文献i最相似的聚类;这剩余的N-M文献依次加入到聚类集合中,每次选取相似度最大的文献iq加入聚类集合中,并更新Cluster(pq),最终直至所有的文献都加入到聚类集合之中。 
9.根据权利要求7所述的聚类机制,其特征在于:步骤5中,用N表示参与聚类的文献总数目,用M表示选出来的聚点总数目;在初始时,有M篇文献作为聚类的聚点,剩余N-M篇文献要加入这M个聚类之中;用Cluster(pr),r=1,2,...,M表示各个聚类集合,最开始每个集合仅有一篇作为聚点的文献;对于一篇未加入聚类的文献i,以下式计算最相似的聚类: 
Figure FDA0000381445100000071
在公式中,一篇未加入聚类的文献i计算与聚类集合Cluster(pr)中所有文献的相似程度,取平均值作为文献i与该聚类的相似度;从所有聚类中取值最大的做为与文献i最相似的聚类;这剩余的N-M文献依次加入到聚类集合中,每次选取相似度最大的文献iq加入聚类集合中,并更新Cluster(pq),最终直至所有的文献都加入到聚类集合之中。 
10.根据权利要求1至4任一项所述的聚类机制,其特征在于:步骤6中,将M个聚类放置于圆环结构之中,以使特征较相似的聚类排列在较近位置,特征较不相似的聚类排列在较远位置;在初始时,随机选择两个聚类加入圆环中。剩下M-2个聚类依据下列公式依次加入圆环之中: 
Figure FDA0000381445100000081
每一个聚类pr在加入圆环之时,通过上述公式寻找合适的位置,在最相似的两聚类ps和pt之间新加一环放置聚类pr;在圆环中,离某一聚类pr越近的聚类则越与pr相似,否则越远越不相似。 
11.根据权利要求9所述的聚类机制,其特征在于:步骤6中,将M个聚类放置于圆环结构之中,以使特征较相似的聚类排列在较近位置,特征较不相似的聚类排列在较远位置;在初始时,随机选择两个聚类加入圆环中。剩下M-2个聚类依据下列公式依次加入圆环之中: 
Figure FDA0000381445100000082
每一个聚类pr在加入圆环之时,通过上述公式寻找合适的位置,在最相似的两聚类ps和pt之间新加一环放置聚类pr;在圆环中,离某一聚类pr越近的聚类则越与pr相似,否则越远越不相似。 
CN201310416693.8A 2013-09-12 2013-09-12 一种融合多种语言文献的聚类机制 Active CN103455623B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310416693.8A CN103455623B (zh) 2013-09-12 2013-09-12 一种融合多种语言文献的聚类机制
US14/408,461 US20170235823A1 (en) 2013-09-12 2013-09-16 Clustering method for multilingual documents
EP13886161.2A EP2876561A4 (en) 2013-09-12 2013-09-16 METHOD OF COMBINING WRITINGS IN MULTIPLE LANGUAGES
PCT/CN2013/083524 WO2015035628A1 (zh) 2013-09-12 2013-09-16 一种多种语言文献的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310416693.8A CN103455623B (zh) 2013-09-12 2013-09-12 一种融合多种语言文献的聚类机制

Publications (2)

Publication Number Publication Date
CN103455623A true CN103455623A (zh) 2013-12-18
CN103455623B CN103455623B (zh) 2017-02-15

Family

ID=49737986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310416693.8A Active CN103455623B (zh) 2013-09-12 2013-09-12 一种融合多种语言文献的聚类机制

Country Status (4)

Country Link
US (1) US20170235823A1 (zh)
EP (1) EP2876561A4 (zh)
CN (1) CN103455623B (zh)
WO (1) WO2015035628A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765858A (zh) * 2015-04-21 2015-07-08 北京航天长峰科技工业集团有限公司上海分公司 公安用同义词库的构建方法及获得的公安用同义词库
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190117B (zh) * 2018-08-10 2023-06-23 中国船舶重工集团公司第七一九研究所 一种基于词向量的短文本语义相似度计算方法
CN112488228A (zh) * 2020-12-07 2021-03-12 京科互联科技(山东)有限公司 面向风控系统数据补全的双向聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242140A1 (en) * 2005-04-26 2006-10-26 Content Analyst Company, Llc Latent semantic clustering
CN101661469A (zh) * 2008-09-09 2010-03-03 山东科技大学 学术文献关键词标引和检索系统及方法
CN102831116A (zh) * 2011-06-14 2012-12-19 国际商业机器公司 用于文档聚类的方法及系统
CN102855264A (zh) * 2011-07-01 2013-01-02 富士通株式会社 文档处理方法及其装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020055844A1 (en) * 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
US20060277466A1 (en) * 2005-05-13 2006-12-07 Anderson Thomas G Bimodal user interaction with a simulated object
US7783640B2 (en) * 2006-11-03 2010-08-24 Oracle International Corp. Document summarization
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8065143B2 (en) * 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20100030549A1 (en) * 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US8326785B2 (en) * 2008-09-30 2012-12-04 Microsoft Corporation Joint ranking model for multilingual web search
US9104312B2 (en) * 2010-03-12 2015-08-11 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102999538B (zh) * 2011-09-08 2015-09-30 富士通株式会社 人物搜索方法和设备
US20140108006A1 (en) * 2012-09-07 2014-04-17 Grail, Inc. System and method for analyzing and mapping semiotic relationships to enhance content recommendations
US9075846B2 (en) * 2012-12-12 2015-07-07 King Fahd University Of Petroleum And Minerals Method for retrieval of arabic historical manuscripts

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242140A1 (en) * 2005-04-26 2006-10-26 Content Analyst Company, Llc Latent semantic clustering
CN101661469A (zh) * 2008-09-09 2010-03-03 山东科技大学 学术文献关键词标引和检索系统及方法
CN102831116A (zh) * 2011-06-14 2012-12-19 国际商业机器公司 用于文档聚类的方法及系统
CN102855264A (zh) * 2011-07-01 2013-01-02 富士通株式会社 文档处理方法及其装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765858A (zh) * 2015-04-21 2015-07-08 北京航天长峰科技工业集团有限公司上海分公司 公安用同义词库的构建方法及获得的公安用同义词库
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置

Also Published As

Publication number Publication date
CN103455623B (zh) 2017-02-15
WO2015035628A1 (zh) 2015-03-19
EP2876561A1 (en) 2015-05-27
EP2876561A4 (en) 2016-06-01
US20170235823A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
US9477782B2 (en) User interface mechanisms for query refinement
CN103455487B (zh) 一种搜索词的提取方法及装置
CN103455623A (zh) 一种融合多种语言文献的聚类机制
CN104102626A (zh) 一种用于短文本语义相似度计算的方法
Petkos et al. Two-level Message Clustering for Topic Detection in Twitter.
CN101681348A (zh) 用于文档分析的基于语义的方法和装置
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN103562919A (zh) 利用网络的信息检索方法及相应的语音对话方法
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN105488077A (zh) 生成内容标签的方法和装置
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN103970756A (zh) 热点话题提取方法、装置和服务器
Singh et al. An effective pre-processing algorithm for information retrieval systems
CN105069647A (zh) 一种改进的抽取中文商品评论中评价对象的方法
Buntoro et al. Sentiment analysis candidates of Indonesian Presiden 2014 with five class attribute
CN103853797B (zh) 一种基于n元图片索引结构的图片检索方法与系统
Qiu et al. Incorporate the syntactic knowledge in opinion mining in user-generated content
CN103377224A (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
Atherton et al. I Said it First: Topological Analysis of Lyrical Influence Networks.
CN103207682B (zh) 基于音节切分的维哈柯文智能输入法
CN103984731A (zh) 微博环境下自适应话题追踪方法和装置
CN102890723A (zh) 一种例句检索的方法及系统
Pourvali A new graph based text segmentation using Wikipedia for automatic text summarization
CN103150371A (zh) 正反向训练去混淆文本检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant