CN102654881B - 用于名称消岐聚类的装置和方法 - Google Patents

用于名称消岐聚类的装置和方法 Download PDF

Info

Publication number
CN102654881B
CN102654881B CN201110056065.4A CN201110056065A CN102654881B CN 102654881 B CN102654881 B CN 102654881B CN 201110056065 A CN201110056065 A CN 201110056065A CN 102654881 B CN102654881 B CN 102654881B
Authority
CN
China
Prior art keywords
similarity
title
training set
sequence
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110056065.4A
Other languages
English (en)
Other versions
CN102654881A (zh
Inventor
王新文
夏迎炬
孟遥
张姝
贾文杰
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201110056065.4A priority Critical patent/CN102654881B/zh
Publication of CN102654881A publication Critical patent/CN102654881A/zh
Application granted granted Critical
Publication of CN102654881B publication Critical patent/CN102654881B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,代表相似度为名称训练集中的文本间相似度的代表值;用于针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数的装置。

Description

用于名称消岐聚类的装置和方法
技术领域
本发明涉及名称消岐聚类,尤其涉及利用动态阈值进行名称消岐聚类的装置和方法。
背景技术
名称消岐是最近兴起的一个研究方向。名称消岐是针对由于同一名称(人名、地名、组织机构名等)被现实中的多个实体使用而产生的名称歧义现象而提出的,目前大多数的名称消岐方案采用文本聚类的方法。例如,当利用搜索引擎搜索某个名称时,作为搜索结果返回大量包含该名称的网页D={d1,d2,…,dn},这些网页中的名称可能指向现实中的不同实体,聚类的目的是按照不同实体将这些网页构成的文本集合聚合为若干类C={c1,c2,…,cm},其中每个类ci对应于现实中的一个实体,从而达到消岐的目的。
典型的聚类算法不同程度地涉及对阈值的选择,而阈值的选择直接影响聚类效果。然而,由于名称歧义的特殊性,传统的文本聚类方法在名称消岐上的聚类效果差强人意,导致这个问题的主要原因在于对于不同的名称的聚类最优截断阈值不同而导致聚类结果不理想。例如,针对某个常用人名的文本集合与针对某个生僻人名的文本集合具有不同的相似度特性,相应地,这两个文本集合在聚类过程中具有最佳聚类效果的相似度阈值也存在差异。因此,如果采用固定的阈值进行聚类,难以针对具有不同相似度特性的文本集合达到理想的聚类效果。
发明内容
本发明的目的在于提供一种利用动态阈值进行名称消岐聚类的装置和方法,以至少部分地克服现有技术的上述缺陷。
根据本发明的一个实施例,提供一种对名称训练集进行数据处理的装置,包括:用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,代表相似度为名称训练集中的文本间相似度的代表值;用于针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数的装置。
根据本发明的另一个实施例,提供一种对名称训练集进行数据处理的方法,包括步骤:确定至少两个名称训练集中每个名称训练集的代表相似度,该代表相似度为相应名称训练集中的文本间相似度的代表值;针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及根据至少两个名称训练集中每个名称训练集的代表相似度和优选相似度阈值,拟合表示代表相似度与优选相似度阈值之间对应关系的函数。
根据本发明的再一个实施例,提供一种用于名称消岐的聚类装置,包括:用于确定待消岐名称集的代表相似度的装置,代表相似度为待消岐名称集中的文本间相似度的代表值;用于根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的优选相似度阈值的装置;以及用于利用所确定的优选相似度阈值对待消岐名称集进行聚类的装置。
根据本发明的又一个实施例,提供一种用于名称消岐的聚类方法,包括步骤:确定待消岐名称集的代表相似度,代表相似度为待消岐名称集中的文本间相似度的代表值;根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的优选相似度阈值;以及利用所确定的优选相似度阈值对待消岐名称集进行聚类。
根据本发明的实施例,通过对每个名称集的聚类阈值进行动态调整,能够减少由于使用固定阈值而造成的聚类效果偏差,可以针对不同的名称集给出优选的聚类阈值,从而提高聚类的自适应性,并且提高最终聚类效果。
附图说明
参照下面结合附图对本发明实施例进行的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
图1是示出根据本发明实施例的用于对名称训练集进行数据处理的装置100的配置的框图;
图2是示出图1所示的代表相似度确定单元110的配置的框图;
图3是示出根据本发明实施例的对名称训练集进行数据处理的方法的流程图;
图4是示出图3所示的确定名称训练集的代表相似度的步骤S310中的过程的流程图;
图5是示出根据本发明实施例的用于名称消岐的聚类装置的配置的框图;
图6是示出根据本发明实施例的用于名称消岐的聚类方法的流程图;
图7是示出其中实现本发明的装置和方法的计算机的示例性结构的框图。
具体实施方式
下面参照附图说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1是示出根据本发明实施例的对用于名称训练集进行数据处理的装置的配置的框图。
如图1所示,对名称训练集进行数据处理的装置100包括代表相似度确定单元110、优选相似度阈值选择单元120以及函数拟合单元130。
作为装置100的处理对象的名称训练集中的每个名称训练集包括针对同一名称的多个文本,并且该多个文本的聚类关系已知。
例如,当文本是网页时,文本可以经过网页预处理、特征向量提取、约束条件建立等处理。在网页预处理中,可以对网页进行内容提取、有效url提取、标题提取等操作,并可以将网页用xml文件格式保存。在特征向量提取过程中,根据网页的标题和内容建立特征向量组,并对每个特征向量赋予权重,从而得到文本的向量表示。例如,文本中每个特征向量的权重可以通过TF(词汇频率)方法确定。另外,标题中的特征的权重值可以被设置为高于网页内容中的特征的权重值。
可选地,可以根据特殊的特征对文本建立约束条件。特殊的特征例如包括链接互指、所属单位命名实体、住址命名实体、电子邮件命名实体等。根据这些特征约束某些文本不可以被聚合为一类,某些文本应该被聚合为一类。例如,当涉及同一人名的两个网页上包含相同的电子邮件地址时,基本上可以确定该两个网页针对现实中的同一人,因此可以将约束条件建立为将该两个网页聚合为同一类。
作为处理对象的名称训练集中的文本被提供给代表相似度确定单元110和优选相似度阈值选择单元120。代表相似度确定单元110用于确定每个名称训练集的代表相似度,名称训练集的代表相似度是指该名称训练集中的文本间的相似度的代表值。可以采用不同的预定规则确定名称训练集的代表相似度。例如,代表相似度确定单元110可以通过对名称训练集中的文本相互之间的相似度进行加权平均来确定该名称训练集的代表相似度。
图2示出了根据本发明的一个实施例的代表相似度确定单元的配置。代表相似度确定单元110包括相似度序列生成单元210、相似度序列划分单元220和代表相似度计算单元230。
相似度序列生成单元210例如采用欧式距离公式、余弦距离公式等常用相似度计算方法计算一个名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列。例如,当某个名称训练集共包含N个文本时,相似度序列生成单元210总共计算个相似度值,并将这个相似度值进行排序以生成相似度序列。
相似度序列生成单元210将所生成的相似度序列提供给相似度序列划分单元220,相似度序列划分单元220用于将相似度序列划分成n块。
在本发明的一个实施例中,相似度序列划分单元220识别相似度序列中相似度发生跳跃性变化的位置,并在发生跳跃性变化的位置划分相似度序列。相似度序列中的跳跃性变化位置例如可能对应于同类文本间相似度与非同类文本间相似度的分界、距离较近的不同类别中的文本间相似度与距离较远的不同类别中的文本间相似度的分界等等,因此根据相似度跳跃性变化的位置划分出的各个块分别包含对于不同类型的文本间相似度具有代表性的相似度值。
或者,相似度序列划分单元220可以根据预定比例将相似度序列划分成n块。根据本发明的一个实施例,相似度序列划分单元220将相似度序列划分成3块,中间一块的长度较大,首尾两块的长度较小。例如,中间一块占相似度序列的50%,首位两块各占相似度序列的25%。
相似度序列划分单元220将经划分的相似度序列提供给代表相似度计算单元230,代表相似度计算单元230可以根据相似度序列的每个块中的相似度值计算该名称训练集的代表相似度。例如,代表相似度计算单元230可以对所划分的每个块中的相似度值求平均以得到n个平均相似度值,并对这n个平均相似度进一步进行加权平均来计算该名称训练集的代表相似度。
根据本发明的一个具体实施例,代表相似度确定单元230根据下式计算名称训练集的代表相似度。
k=[n*coef]    (等式1)
M = Σ i = 1 n ( n - | k - i | )     (等式2)
Sim = 1 M Σ i = 1 n ( n - | k - i | ) * Si     (等式3)
其中,n表示相似度序列中所划分的块的总数;k表示关键相似度块的序号;coef表示关键位置百分比;方括号表示四舍五入取整;Si表示第i个块中的相似度的均值;Sim表示名称训练集的代表相似度。
根据等式1,通过对相似度块的总数n和关键位值百分比coef的乘积取整来确定关键块序号k,可以将coef设置为不同值以选择相似度序列的各个块中不同位置的块作为关键相似度块。然后,根据等式2和等式3,通过对各相似度块的平均相似度进Si行加权平均来确定该名称集的代表相似度。在等式3所表示的加权平均中,第i个块的权重wi=(n-|k-i|),关键相似度块(第k块)被赋予最高的权重,即wk=n,而距离关键相似度块越远的块被赋予的权重越低。另外,可以按照类似规则采用其它具体公式确定每个块的权重。
根据本发明的一个具体实施例,关键位置百分比的取值为coef=50%。根据等式1,关键相似度块序号k=[n/2],即,当n为奇数时,k=(n+1)/2,当n为偶数时,k=n/2。也就是,选取相似度序列的各块中位于中间的块作为关键相似度块。
以上作为示例描述了代表相似度确定单元110的配置。然而,代表相似度确定单元110也可以具有其它配置。例如,除了相似度序列生成单元210和相似度序列划分单元220之外,或代替代相似度序列生成单元210和相似度序列划分单元220,代表相似度确定单元110可以包括相似度抽样单元(未示出)。相似度抽样单元可以从所处理的名称训练集的全部文本中抽取一定比例(例如30%)的文本并计算所抽取的文本间的相似度。代表相似度计算单元230例如可以通过对相似度抽样单元提供的相似度进行加权平均来确定代表相似度。
以这种方式,代表相似度确定单元110可以确定的一组名称训练集中的每个名称训练集的代表相似度Sim,并将其提供给函数拟合单元130。
优选相似度阈值选择单元120采用不同的相似度阈值对名称训练集进行聚类(例如采用层次聚类(HAC),在聚类过程中,只有当两个簇(cluster)的相似度超过相似度阈值时才允许将该两个簇合并),并且通过将使用不同阈值得到的聚类效果与该名称训练集的已知聚类关系进行比较来确定聚类效果较佳的优选相似度阈值。例如,优选相似度阈值选择单元120可以在0至0.3(余弦相似度)的范围内选取不同的相似度阈值对名称训练集进行聚类,并选择其中使聚类效果较好的相似度阈值作为优选相似度阈值。
例如,优选相似度阈值选择单元120可以将使用某一相似度阈值得到的聚类结果与该训练集的已知聚类关系进行比较,根据准确率、召回率等常用指标评估聚类效果。
以这种方式,优选相似度阈值选择单元120可以确定一组名称训练集中每个名称训练集的优选相似度阈值Sim_op,并将其提供给函数拟合单元130。
函数拟合单元130根据代表相似度确定单元110提供的代表相似度Sim和优选相似度阈值选择单元120提供的优选相似度阈值Sim_op可以得到针对单个名称训练集的代表相似度和优选相似度阈值的对<Sim,Sim_op>,对于一组名称训练集,可以得到代表相似度和优选相似度阈值的对的集合S<sim,sim_op>。函数拟合单元130根据集合S<sim,sim_op>拟合表示代表相似度Sim与优选相似度阈值Sim_op之间的对应关系的函数Sim_op=f(Sim),该函数可以是线性函数、二次函数等。可以根据函数拟合的需要确定所要处理的名称训练集的数量。在采用最小二乘法拟合代表相似度与优选相似度阈值间的二次函数的情况下,例如可以对100个以上的名称训练集进行数据处理以进行函数拟合。
图3是示出根据本发明实施例的对名称训练集进行数据处理的方法的流程图。
在步骤S310,确定一组名称训练集中一个名称训练集的代表相似度;
在步骤S320,采用不同相似度阈值对该名称训练集进行聚类,并选择使聚类效果较佳的相似度阈值作为优选相似度阈值。需要指出的是,虽然图3中示例性地示出步骤S310在步骤S320之前,但步骤S310和步骤S320之间不存在先后顺序的限制,可以并行地执行或者以任意顺序相继执行步骤S310和步骤S320;
当对该组名称训练集中的每个名称训练集完成步骤S310和S320时,在步骤S330,根据通过步骤S310得到的每个名称训练集的代表相似度和通过步骤S320得到的每个名称训练集的优选相似度阈值,拟合表示代表相似度与优选相似度阈值之间的对应关系的函数。
根据本发明的一个实施例,步骤S310包括图4所示的过程,其中:
在步骤S410,计算该名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列;
在步骤S420,将相似度序列划分成n块;
在步骤S430,对相似度序列的所划分的每个块的平均相似度进行加权平均以确定该名称训练集的代表相似度。
根据本发明的一个具体实施例,在步骤S430中采用等式1-3计算代表相似度。
图5是示出根据本发明实施例的用于名称消岐的聚类装置的配置的框图。用于名称消岐的聚类装置500包括代表相似度确定单元510、优选相似度阈值估算单元520以及聚类单元530。
代表相似度确定单元510确定待消岐名称集的代表相似度。根据本发明的一个实施例,代表相似度确定单元510具有与图2所示的代表相似度确定单元110类似的配置,在此省略对该具体配置的描述。代表相似度确定单元510将待消岐名称集的代表相似度提供给优选相似度阈值估算单元520。
优选相似度阈值估算单元520根据表示名称集的代表相似度与使聚类效果较佳的优选相似度阈值之间的对应关系的预定函数,确定与代表相似度确定单元提供的待消岐名称集的代表相似度相对应的优选相似度阈值估算优选相似度阈值,并将所估算的优选相似度阈值提供给聚类单元530。例如,该预定函数可以是通过利用图1所示的装置100或利用图3所示的方法对名称训练集进行数据处理而得到的函数。
聚类单元530利用由优选相似度阈值估算单元520估算的优选相似度阈值对待消岐名称集进行聚类。
根据本发明的一个实施例,聚类单元530采用层次聚类方法对名称集进行聚类,在聚类过程中,只有当两个簇的相似度超过由优选相似度阈值估算单元520估算的优选相似度阈值时才允许将该两个簇合并。
图6是示出根据本发明实施例的用于名称消岐的聚类方法的流程图。
在步骤S610,确定待消岐名称集的代表相似度;
在步骤S620,根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间的对应关系的预定函数来估算优选相似度阈值;
在步骤S630,利用步骤S620中估算的优选相似度阈值对待消岐名称集进行聚类。
根据本发明的一个实施例,确定代表相似度的步骤S610具有与图4所示的过程类似的过程,在此省略对该过程的具体描述。
步骤S620中所使用的预定函数例如可以是通过利用图1所示的装置100或利用图3所示的方法对名称训练集进行数据处理而得到的函数。
根据本发明的一个实施例,步骤S630采用层次聚类方法对名称集进行聚类,在聚类过程中,只有当两个簇的相似度超过在步骤S620中估算的优选相似度阈值时才允许将该两个簇合并。
所属技术领域的技术人员知道,本发明可以体现为装置、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质,计算机可读存储介质例如可以是-但不限于-电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
图7是示出其中实现本发明的设备和方法的计算机的示例性结构的框图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分708,包括硬盘等等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述步骤和处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的方法一起被分发给用户。
权利要求中的对应结构、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
附记
附记1.一种对名称训练集进行数据处理的装置,包括:
代表相似度确定单元,用于确定名称训练集的代表相似度,所述代表相似度为所述名称训练集中的文本间相似度的代表值;
优选相似度阈值选择单元,用于采用不同的相似度阈值对所述名称训练集进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及
函数拟合单元,用于根据至少两个名称训练集中的每个名称训练集的所述代表相似度和所述优选相似度阈值拟合表示所述代表相似度与所述优选相似度阈值之间对应关系的函数。
附记2.根据附记1所述的装置,其中,所述代表相似度确定单元通过对所述名称训练集的文本间相似度进行加权平均来确定所述名称训练集的代表相似度。
附记3.根据附记1或2所述的装置,其中,所述代表相似度确定单元包括:
相似度序列生成单元,用于计算所述名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列;
相似度序列划分单元,用于将所述相似度序列划分成两个或更多个块;以及
代表相似度计算单元,用于对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度。
附记4.根据附记3所述的装置,其中,所述相似度序列划分单元识别所述相似度序列中相似度发生跳跃性变化的位置,并在所述跳跃性变化的位置划分所述相似度序列。
附记5.根据附记3所述的装置,其中,所述相似度序列划分单元将所述相似度序列划分成三块,首尾两块的长度小于中间一块的长度。
附记6.根据附记3所述的装置,其中,所述代表相似度计算单元从所划分的各个块中选择关键相似度块,在所述加权平均中对所述关键相似度块赋予较高权重。
附记7.根据附记6所述的装置,其中,所述代表相似度计算单元根据下式选择所述关键相似度块:
其中,n为所述相似度序列中所划分的块的总数,k为关键相似度块在n个块中的序号。
附记8.一种对名称训练集进行数据处理的方法,包括步骤:
确定至少两个名称训练集中每个名称训练集的代表相似度,所述代表相似度为相应名称训练集中的文本间相似度的代表值;
针对所述至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及
根据所述至少两个名称训练集中每个名称训练集的所述代表相似度和所述优选相似度阈值,拟合表示所述代表相似度与所述优选相似度阈值之间对应关系的函数。
附记9.根据附记8所述的方法,其中,通过对所述名称训练集的文本间相似度进行加权平均来确定所述名称训练集的代表相似度。
附记10.根据附记8或9所述的方法,其中,所述确定至少两个名称训练集中每个名称训练集的代表相似度的步骤包括:
计算所述名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列;
将所述相似度序列划分成两个或更多个块;以及
对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度。
附记11.根据附记10所述的方法,其中,将所述相似度序列划分成两个或更多个块的步骤包括:识别所述相似度序列中相似度发生跳跃性变化的位置,并在所述跳跃性变化的位置划分所述相似度序列。
附记12.根据附记10所述的方法,其中,将所述相似度序列划分成两个或更多个块的步骤包括:将所述相似度序列划分成三块,首尾两块的长度小于中间一块的长度。
附记13.根据附记10所述的方法,其中,在对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度的步骤中,从所划分的各个块中选择关键相似度块,在所述加权平均中对所述关键相似度块赋予较高权重。
附记14.根据附记13所述的方法,其中,根据下式从所划分的各个块中选择关键相似度块:
其中,n为所述相似度序列中所划分的块的总数,k为关键相似度块在n个块中的序号。
附记15.一种用于名称消岐的聚类装置,包括:
代表相似度确定单元,用于确定所述待消岐名称集的代表相似度;
优选相似度阈值估算单元,用于根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的所述优选相似度阈值;以及
聚类单元,用于利用所确定的优选相似度阈值对所述待消岐名称集进行聚类。
附记16.根据附记15所述的装置,其中,所述代表相似度确定单元通过对所述名称训练集的文本间相似度进行加权平均来确定所述名称训练集的代表相似度。
附记17.根据附记15或16所述的装置,其中,所述代表相似度确定单元包括:
相似度序列生成单元,用于计算所述名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列;
相似度序列划分单元,用于将所述相似度序列划分成两个或更多个块;以及
代表相似度计算单元,用于对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度。
附记18.根据附记17所述的装置,其中,所述相似度序列划分单元识别所述相似度序列中相似度发生跳跃性变化的位置,并在所述跳跃性变化的位置划分所述相似度序列。
附记19.根据附记17所述的装置,其中,所述相似度序列划分单元将所述相似度序列划分成三块,首尾两块的长度小于中间一块的长度。
附记20.根据附记17所述的装置,其中,所述代表相似度计算单元从所划分的各个块中选择关键相似度块,在所述加权平均中对所述关键相似度块赋予较高权重。
附记21.根据附记20所述的装置,其中,所述代表相似度计算单元根据下式选择所述关键相似度块:
其中,n为所述相似度序列中所划分的块的总数,k为关键相似度块在n个块中的序号。
附记22.一种用于名称消岐的聚类方法,包括步骤:
确定待消岐名称集的代表相似度;
根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的所述优选相似度阈值;以及
利用所确定的优选相似度阈值对所述待消岐名称集进行聚类。
附记23.根据附记22所述的方法,其中,通过对所述名称训练集的文本间相似度进行加权平均来确定所述名称训练集的代表相似度。
附记24.根据附记22或23所述的方法,其中,所述确定至少两个名称训练集中每个名称训练集的代表相似度的步骤包括:
计算所述名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列;
将所述相似度序列划分成两个或更多个块;以及
对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度。
附记25.根据附记24所述的方法,其中,将所述相似度序列划分成两个或更多个块的步骤包括:识别所述相似度序列中相似度发生跳跃性变化的位置,并在所述跳跃性变化的位置划分所述相似度序列。
附记26.根据附记24所述的方法,其中,将所述相似度序列划分成两个或更多个块的步骤包括:将所述相似度序列划分成三块,首尾两块的长度小于中间一块的长度。
附记27.根据附记24所述的方法,其中,在对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度的步骤中,从所划分的各个块中选择关键相似度块,在所述加权平均中对所述关键相似度块赋予较高权重。
附记28.根据附记27所述的方法,其中,根据下式从所划分的各个块中选择关键相似度块:
其中,n为所述相似度序列中所划分的块的总数,k为关键相似度块在n个块中的序号。

Claims (10)

1.一种对名称训练集进行数据处理的装置,包括:
用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,所述代表相似度为所述名称训练集中的文本间相似度的代表值;
用于针对所述至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及
用于根据所述至少两个名称训练集中的每个名称训练集的所述代表相似度和所述优选相似度阈值拟合表示所述代表相似度与所述优选相似度阈值之间对应关系的函数的装置。
2.根据权利要求1所述的装置,其中,所述用于确定名称训练集的代表相似度的装置通过对所述名称训练集的文本间相似度进行加权平均来确定所述名称训练集的代表相似度。
3.根据权利要求1或2所述的装置,其中,所述用于确定名称训练集的代表相似度的装置包括:
用于计算所述名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列的装置;
用于将所述相似度序列划分成两个或更多个块的装置;以及
用于对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度的装置。
4.根据权利要求3所述的装置,其中,所述用于将所述相似度序列划分成两个或更多个块的装置识别所述相似度序列中相似度发生跳跃性变化的位置,并在所述跳跃性变化的位置划分所述相似度序列。
5.根据权利要求3所述的装置,其中,所述用于将所述相似度序列划分成两个或更多个块的装置将所述相似度序列划分成三块,首尾两块的长度小于中间一块的长度。
6.根据权利要求3所述的装置,其中,所述用于对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度的装置从所划分的各个块中选择关键相似度块,在所述加权平均中对所述关键相似度块赋予较高权重。
7.根据权利要求6所述的装置,其中,所述用于对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度的装置根据下式选择所述关键相似度块:
其中,n为所述相似度序列中所划分的块的总数,k为关键相似度块在n个块中的序号。
8.一种对名称训练集进行数据处理的方法,包括步骤:
确定至少两个名称训练集中每个名称训练集的代表相似度,所述代表相似度为相应名称训练集中的文本间相似度的代表值;
针对所述至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及
根据所述至少两个名称训练集中每个名称训练集的所述代表相似度和所述优选相似度阈值,拟合表示所述代表相似度与所述优选相似度阈值之间对应关系的函数。
9.一种用于名称消岐的聚类装置,包括:
用于确定待消岐名称集的代表相似度的装置,所述代表相似度为所述待消岐名称集中的文本间相似度的代表值;
用于根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的所述优选相似度阈值的装置;以及
用于利用所确定的优选相似度阈值对所述待消岐名称集进行聚类的装置。
10.一种用于名称消岐的聚类方法,包括步骤:
确定待消岐名称集的代表相似度,所述代表相似度为所述待消岐名称集中的文本间相似度的代表值;
根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的所述优选相似度阈值;以及
利用所确定的优选相似度阈值对所述待消岐名称集进行聚类。
CN201110056065.4A 2011-03-03 2011-03-03 用于名称消岐聚类的装置和方法 Expired - Fee Related CN102654881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110056065.4A CN102654881B (zh) 2011-03-03 2011-03-03 用于名称消岐聚类的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110056065.4A CN102654881B (zh) 2011-03-03 2011-03-03 用于名称消岐聚类的装置和方法

Publications (2)

Publication Number Publication Date
CN102654881A CN102654881A (zh) 2012-09-05
CN102654881B true CN102654881B (zh) 2014-10-22

Family

ID=46730507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110056065.4A Expired - Fee Related CN102654881B (zh) 2011-03-03 2011-03-03 用于名称消岐聚类的装置和方法

Country Status (1)

Country Link
CN (1) CN102654881B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021424A (zh) * 2016-05-13 2016-10-12 南京邮电大学 一种文献作者重名检测方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850537B (zh) * 2014-02-17 2017-12-15 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
CN108984556B (zh) * 2017-06-01 2021-02-26 北京京东尚科信息技术有限公司 用于数据处理的方法、装置及计算机可读存储介质
CN107577674B (zh) * 2017-10-09 2019-06-28 北京神州泰岳软件股份有限公司 识别企业名称的方法及装置
CN109815401A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 一种应用于Web人物搜索的人名消歧方法
CN111160463A (zh) * 2019-12-30 2020-05-15 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN112597305B (zh) * 2020-12-22 2023-09-01 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629844A (zh) * 2003-12-15 2005-06-22 微软公司 动态内容聚类
CN101408901A (zh) * 2008-11-26 2009-04-15 东北大学 一种基于主题词条的跨类型数据的概率聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225184B2 (en) * 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7685201B2 (en) * 2006-09-08 2010-03-23 Microsoft Corporation Person disambiguation using name entity extraction-based clustering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629844A (zh) * 2003-12-15 2005-06-22 微软公司 动态内容聚类
CN101408901A (zh) * 2008-11-26 2009-04-15 东北大学 一种基于主题词条的跨类型数据的概率聚类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021424A (zh) * 2016-05-13 2016-10-12 南京邮电大学 一种文献作者重名检测方法
CN106021424B (zh) * 2016-05-13 2019-05-28 南京邮电大学 一种文献作者重名检测方法

Also Published As

Publication number Publication date
CN102654881A (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN102654881B (zh) 用于名称消岐聚类的装置和方法
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
Pournarakis et al. A computational model for mining consumer perceptions in social media
CN106294350B (zh) 一种文本聚合方法及装置
US8949242B1 (en) Semantic document analysis
US20150007007A1 (en) Discovering relationships in tabular data
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
US20140172415A1 (en) Apparatus, system, and method of providing sentiment analysis result based on text
CN105512277B (zh) 一种面向图书市场书名的短文本聚类方法
CN105335519A (zh) 模型生成方法及装置、推荐方法及装置
CN111144952A (zh) 基于用户兴趣的广告推荐方法、装置、服务器及存储介质
CN107908616B (zh) 预测趋势词的方法和装置
Balakrishnan et al. A semi-supervised approach in detecting sentiment and emotion based on digital payment reviews
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN110334268B (zh) 一种区块链项目热词生成方法以及装置
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
CN106934006B (zh) 基于多叉树模型的页面推荐方法及装置
Nithish et al. An Ontology based Sentiment Analysis for mobile products using tweets
CN105825396A (zh) 一种基于共现的广告标签聚类的方法及系统
CN112084448A (zh) 相似信息处理方法以及装置
KR101331453B1 (ko) 연관어를 이용한 확장 키워드 검색 광고 방법
CN104715022B (zh) 一种相关搜索方法和装置
CN114297235A (zh) 风险地址识别方法、系统及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141022

Termination date: 20190303