CN101393550A

CN101393550A - 用于计算对象之间竞争性度量的方法与系统

Info

Publication number: CN101393550A
Application number: CN200710153592.0A
Authority: CN
Inventors: 李建强; 赵彧; 福岛俊一
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2007-09-19
Filing date: 2007-09-19
Publication date: 2009-03-25
Also published as: JP5057474B2; US20090077126A1; JP2009110508A

Abstract

本发明提供了一种用于计算对象之间竞争性度量的方法与系统。所述方法包括：获取第一对象和第二对象；利用本体信息规范化第一和第二对象所具有的第一和第二描述；以及计算第一和第二对象之间的竞争性度量。在一个实施例中，本体信息是公共属性名字典，规范化步骤实现将第一和第二描述在结构上相对准以调整为统一的结构，并在此统一的描述结构下计算相应属性之间的子度量并对所有属性的子度量加权求和来计算最终的竞争性度量。在另一实施例中，本体信息是对象类别树，规范化步骤包括将第一和第二描述映射到对象类别树上的一个或多个节点，并计算其被映射到不同节点的概率，在获取节点之间的语义距离的基础上，基于所述语义距离和概率来计算最终的竞争性度量。

Description

用于计算对象之间竞争性度量的方法与系统

技术领域

本发明涉及信息处理，更具体而言，本发明提供了用于计算两个对象(例如文件/产品)之间的竞争性度量(competitive metric)以允许自动的竞争者挖掘/发现的方法和系统。

背景技术

当今，人们能够获得的信息越来越多。由于很多原始信息不是外在可见的，因此需要有针对性地对原始信息进行处理，以从中获得有用的信息。由于信息量和处理时间上的要求，尤其是因为伴随着网络和通信技术的飞速发展，信息量大、信息多样以及信息分散等特点越来越显著，在许多应用中，已经不可能人工地来对信息进行处理。因此，迫切需要利用计算机技术来有针对性地自动对信息进行例如提取、挖掘、比较、度量、评价等的处理的技术。其中，自动分析和计算对象之间的竞争性度量的技术就是其中的一种信息处理技术。

在当前的竞争性环境中，尤其在商业环境中，几乎所有公司都希望了解到它们的竞争者的情况，例如谁是竞争者、竞争者在哪以及在干什么。但是，寻找竞争者是一项耗时并且繁重的任务，并且在全球化环境中尤其如此。在全球化环境中，竞争者可能来自世界各地并且它们在市场上的产品也在不断改变。

商业智能(Business Intelligence，BI)代表将原始数据转化成信息/知识并且帮助企业用户更好地做出商业决定所需的技术和应用的集合。竞争性智能(Competitive Intelligence，CI)则尤其集中针对关于外部商业环境的信息的收集、分析和管理。当前，竞争性信息仅仅可以从以下三种方式获得：1)通过与竞争者的员工或用户面谈或联网，2)在web搜索引擎(例如Google)的帮助下收集所需信息并人为浏览和汇总搜索结果，以及3)来自公开或订购源，例如Yahoo Finance、D&B、infoUSA、Hoovers和OneSource。其中1)和2)都基于人类活动，因此非常耗时耗力，并且收集的信息范围很有限。对于3)，虽然存在某些包含公司信息的商业数据库可被利用，但是它们的数据规模非常有限，其中大多数数据库是单一语言的，并且可能仅包括金融信息(例如Yahoo Finance和D&B)或仅覆盖本地公司(例如infoUSA)。另外，这些商业数据库中的信息被人为更新，因此订购者/用户难以或甚至不能大规模地收集实时的竞争性相关信息，尤其是在全球化的商业环境中。

考虑到寻找竞争者的任务对用户而言很繁重，因此强烈需要更有效的自动化竞争性分析方法，用于根据某种目的性标准计算竞争者(例如公司/产品的竞争性对象)之间的竞争性度量。

由于现有的竞争性度量计算方案都是针对两个对象(文件/记录)之间的相似性计算提出的，因此下面对相似性计算方法进行简单介绍。

当前，用于两个文件或数据库记录之间的相似性计算的方法和系统主要分成两类，即基于向量空间模型(Vector Space Model，VSM)的方法和基于属性值的方法。

基于VSM的方法主要用于计算两个全文本(full-text)文件之间的相似性度量。其基本思想是：根据系统中所有文件中的所有单词建立词汇表；基于该词汇表，每个文件被表示成一个向量；然后采用特定相似性测量手段(其中余弦测量是最常用的一种)来测量两个文件之间的相似性。

基于属性的方法主要针对结构化文本。类似于基于VSM的方法，首先，文件/记录被表示为多个属性值(其中每个属性值描述该文件的一个方面)构成的向量；然后计算出每对相应的属性值之间的相似性距离；基于各个属性对相似性度量的贡献对属性进行分类；对经分类的属性应用适当的加权策略，并且通过对各个属性的相似性距离加权求和来测量文件/记录之间的相似性。

另外，为了克服不同语言文件之间的语言障碍，提出了基于翻译的方法和基于文集(corpus-based)的方法，以用于不同语言的文件/记录之间的相似性计算。

基于翻译的方法采用某种多语言字典来进行相似性计算，其主要包括两个步骤：1)使用多语言字典或机器翻译方法对目标文件集合进行翻译；2)采用基于VSM或属性值的方法来对经过跨语言翻译的文件进行相似性计算。基本上，基于翻译的方法是基于VSM或属性值相似性计算方法的跨语言扩展。

基于文集的方法是对使用字典进行文本翻译的方法的替代，其直接采用可以从并行文集中收集的关于单词使用的统计信息。其实现方式包括：1)收集不同语言的并行文本以找到并行文集；2)构建统计翻译模型；3)使用该统计翻译模型来进行跨语言的信息获取，其中包含相似性计算。

题为Computerized Cross-Language Document Retrieval Using LatentSemantic Indexing的美国专利申请No.5301109提出了一种基于LSA的方法，即使用奇异值分解(SVD)来发现源文件和目标文件之间的关联而不进行查询翻译。该美国申请通过引用被整体上结合于此，以用于所有目的。

除了上述用于相似性计算的一般方案之外，在以下专利中的某些特定模块也与本发明相关，因此这些专利通过引用被整体上结合于此以用于所有目的：

(1)美国专利US5731991；

(2)美国专利No.20050004880A1；

(3)美国专利No.20050192930A1；以及

(4)美国专利No.2004068413。

但是，对于竞争性度量计算而言，上述现有方案具有以下缺点。

首先，现有方案大都是基于两个对象之间的相似性计算提出的。但是，竞争性计算不同于相似性计算。在概念上，竞争性关系是相似性关系的一个子集，即两个对象相似并不意味着它们彼此竞争。更具体而言，竞争性关系意味着一个对象的存在/开发对另一对象具有负面影响，但相似性关系并非如此。另外，为了测量两个彼此竞争的对象之间的竞争强度，需要制定针对竞争性的特定方针。

其次，所有针对相似性计算的现有方案都假设两个被比对象(即文件/产品)具有相同结构(即完全是全文本的或者具有某种特定数据结构)。基于VSM的方法无法处理被比对象之一具有结构化或半结构化描述(profile)的情况，而基于属性值的方法无法处理被比对象之一具有全文本描述或者两个对象具有异构(heterogeneous)结构描述的情况。但是在实际应用中，被比对象可能来自不同的信息源(例如不同的数据库或不同的网站)，因此具有不同的结构，这阻碍了现有方案的应用。

另外，基于翻译的跨语言相似性度量计算极大依赖于控制字典或多语言字典以及机器翻译技术的质量。当前机器翻译的精确性不高，并且对于未知单词的翻译尤其困难。还有，对于各种语言的组合，复杂性会变得更大。因此，表明现有的基于翻译的跨语言相似性计算方案不可避免地存在局限。

对于基于文集和基于LSA的方法，它们的最大缺点在于无法获得足够大的并行文集，这使得获得的相似性度量由于并行文本有限而存在偏见。

另外，上述专利都只能应用于具有共同和固定的属性或特征结构的特定产品类别。所采用的方法无法被用于跨类别的相似性度量计算。另外，从上述现有技术中，都无法得到任意两个对象(例如文件/产品)之间的竞争性度量。

发明内容

鉴于现有技术中的方法存在上述问题，作出了本发明，本发明的目的在于提供一种获得任意两个对象之间的竞争性度量的方法及系统。

总体上讲，根据本发明一个方面，提供了一种用于计算对象之间的竞争性度量的方法，该方法包括以下步骤：获取第一对象和第二对象，所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述；利用本体信息规范化所述第一描述和第二描述；以及基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的竞争性度量。

在一个实施例中，所述本体信息采用公共属性名字典，并且采用了一种直接方式来对不同的对象描述进行比较以获得相应的竞争性度量，首先利用相应的本体信息来规范化第一描述和第二描述，即通过参考公共属性名字典确定一种统一描述的结构，并且使第一描述和第二描述中的属性与该统一描述中的相应属性对准。然后通过对相应属性计算子度量以及对所有子度量加权求和来获得最终的竞争性度量。

在另一个实施例中，所述本体信息采用对象类别树，其每个节点代表不同的对象类别并且包括一个或多个代表性描述。在该实施例中，采用一种间接方式来对不同的对象描述进行比较以获得相应的竞争性度量，首先利用相应的本体信息来规范化第一描述和第二描述，即将第一描述和第二描述分别映射到对象类别树上的节点。然后通过参考描述被映射到节点的概率以及节点之间的语义距离来获得最终的竞争性度量。

根据本发明另一方面，提供了一种用于计算对象之间的竞争性度量的系统，该系统包括：对象获取装置，用于获取第一对象和第二对象，所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述；本体信息库，用于存储特定于领域的本体信息；规范化装置，用于利用来自所述本体信息库的本体信息规范化所述第一描述和第二描述；以及竞争性度量计算器，用于基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的竞争性度量。

相对应地，在不同实施例中，该系统可以采取上述直接方式或间接方式来计算对象之间的竞争性度量。

在直接方式的竞争性度量计算中，代表不同对象的描述通过属性对准被直接比较，其提供了一种将相似性计算领域中的基于单词(基于VSM)的方法和基于属性的方法相结合的灵活机制。这使得根据本发明的竞争性度量计算方法能够处理具有异构的结构化(属性值)和/或非结构化(明文文本)描述的对象。另外，这种直接方式的竞争性度量计算能够尽可能多地利用描述数据质量来提高最终竞争性度量的精确性。

另外，通过间接方式的竞争性度量计算，来自世界范围内竞争者的不同语言的描述之间的语言障碍被克服。而且，由于使用了公共的分类层次结构(即对象类别树)作为竞争性度量计算的中介，与逐个描述比较的方式相比，可以大大提高计算效率。另外，在间接方式的竞争性度量计算中，不存在直接的查询/文档翻译(在跨语言信息获取领域中经常采用的)，因此现有技术中的相应缺陷，例如未知单词的翻译和基于翻译的方法的复杂性以及基于文集的方法中无法获得足够的并行文集的问题，可以被克服。

从下面结合附图的详细描述中，可以看出本发明的其他特征和优点。注意，本发明并不限于图中所示的示例或者任何具体的实施例。

附图说明

结合附图，从下面对本发明优选实施例的详细描述，将更好地理解本发明，附图中类似的参考标记指示类似的部分，其中：

图1是示出用于说明本发明的总体构思的竞争性度量计算系统100的概念性框图；

图2是示出图1所示竞争性度量计算系统100的操作的流程图；

图3是示出根据本发明第一实施例的竞争性度量计算系统300的详细框图，其中根据公共属性名字典通过属性对准方式来执行描述规范化(直接方式)；

图4是示出图3所示系统300的操作的流程图；

图5是示出根据本发明第一实施例的竞争性度量计算中的属性对准过程的一个示例；

图6是更详细示出图3中的子度量计算单元的详细框图；

图7是示出在选择基于VSM的方法来计算属性子度量的情况下，子度量计算单元的详细框图；

图8是示出根据本发明第二实施例的竞争性度量计算系统700的详细框图，其中根据对象类别树通过映射方式来执行描述规范化(间接方式)；

图9是示出图7所示系统700的操作的流程图；

图10是详细示出对象类别树以及与其节点结构相对应的代表性描述层次结构的示意图；

图11是示出根据本发明第二实施例根据对象类别树通过映射方式来计算竞争性度量的过程的一个示例；以及

图12是被用于实现本发明的计算机系统的示意性框图。

具体实施方式

如前所述，竞争性关系是一种新定义的关系，其不同于公知的相似性关系。现有技术中的相似性计算一般都假设两个被比对象(即文件)具有相同结构。例如，基于VSM的方法无法处理被比对象之一具有结构化或半结构化描述的情况，而基于属性值的方法无法处理被比对象之一具有全文本描述或者两个对象具有异构结构描述的情况，这给应用带来很大不便。

图1示出用于说明本发明的总体构思的用于计算对象之间竞争性度量的系统100的概念性框图。如图所示，系统100的主要部分是竞争性分析模块10，其包括对象获取装置101、规范化装置102和竞争性度量计算器103。另外，系统100还包括本体(ontological)信息库104、对象数据库105和竞争性度量数据库106，其中对象数据库105存储有应用从Web或其他信息源收集的对象(例如文件)，所述对象将被竞争性分析模块10所分析和处理。本体信息库104存储了竞争性分析模块10用来计算竞争性度量将参考的本体信息(即背景知识)。本体信息是大众对感兴趣的领域的公共理解，在实际应用中，它可以预先以手工或(半)自动方式建立。本体信息例如可以包括公共属性名字典1041和对象类别树1042(随后将详细描述)。竞争性度量数据库106用于存储计算出的竞争性度量。

图2示出图1所示系统100的操作的流程图。过程开始于对象获取装置101从对象数据库105获取被比的第一对象和第二对象(步骤201)。所述第一和第二对象分别由第一描述A和第二描述B表征。由于对象可能是由多个源收集来的，因此即使针对同一类别，所产生的第一描述A和第二描述B也可能具有不同结构，例如全文本或异构结构。这里，我们使用一组属性值来指定所产生的描述，例如A＝(A1-V_A1，A2-V_A2，...，Am-V_Am)和B＝(B1-V_B1，B2-V_B2，...，Bn-V_Bn)，其中Ai代表描述A的第i个属性，V_Ai代表描述A的第i个属性的值，而Bi代表描述B的第i个属性，V_Bi代表描述B的第i个属性的值。基本上，这样的值被用来描述属性，它可以是数字、数字和英文字母(和/或中文文字和/或标点符号)的混合串、一段文本等等。全文本描述被视为一种特殊的结构化描述，即其仅具有一对属性值。接下来，在步骤202处，参考来自本体信息库104的本体信息，例如公共属性名字典1041或对象类别树1042，第一描述A和第二描述B按某种方式被规范化以使其便于进行竞争性度量的计算。随后将更详细描述，该规范化步骤可以通过以下方式来实现：(1)参考公共属性名字典1041确定一种统一描述并将第一描述A和第二描述B与该统一描述在结构上对准(下文中称之为“直接方式”)；或(2)将第一描述A和第二描述B映射到对象类别树1042(下文中称之为“间接方式”)。然后，在步骤203，经规范化的第一描述A和第二描述B可被用于计算第一对象和第二对象之间的竞争性度量。

下面参考附图描述根据本发明的示例性实施例。应当意识到，所描述的实施例仅是用于举例说明的目的，本发明并不限于所描述的具体实施例。

[第一实施例]

下面将参考图3-7来描述本发明的第一实施例。如图3所示，其示出根据本发明第一实施例的竞争性度量计算系统300的详细框图，其中根据公共属性名字典通过属性对准方式(即直接方式)来执行描述规范化。

如图3所示，在该实施例中，公共属性名字典1041作为本体信息被参考。规范化装置102包括判断单元301、统一描述结构生成单元302和对准单元303。竞争性度量计算器103包括子度量计算单元304和竞争性度量计算单元305。另外，系统300还包括竞争加权策略库306，用于提供特定于领域的竞争性加权策略(随后将描述)。

下面将参考图4来描述系统300的操作。

与图2相同，该过程开始于对象获取装置101从对象数据库105获取被比的第一对象和第二对象(步骤401)。所述第一和第二对象分别具有第一描述A＝(A1-V_A1，A2-V_A2，...，Am-V_Am)和第二描述B＝(B1-V_B1，B2-V_B2，...，Bn-V_Bn)。接下来，在步骤402处，判断单元301执行描述类型判断，通过该操作，第一和第二描述A和B的结构被分析，以确定它们是全文本的还是结构化的描述，如果是结构化描述，还要确定其模式(schema)。然后在步骤403，在公共属性名字典1041的支持下，统一描述结构生成单元302接收来自判断单元301的结构分析结果并确定一种统一描述结构(C1，C2，...，Cs)，即A＝(C1-V_A1，C2-V_A2，...，Cs-V_As)和B＝(C1-V_B1，C2-V_B2，...，Cs-V_Bs)。基于该确定的统一描述结构和公共属性名字典1041，对准单元303重新组织第一描述A和第二描述B的结构以使它们中的属性与统一描述中的属性在结构上对准(步骤404)。图5示出了描述属性对准过程的一个示例，其中被比对象描述涉及两种打印机产品，其包括属性“打印速度”、“纸张尺寸”、“操作系统”和“噪声电平”，第一描述A和第二描述B中的属性结构按照统一描述的结构被对准。

然后，已经在结构上对准后的第一描述A和第二描述B被发送到子度量计算单元304以分别计算各个属性的子度量(步骤405)。子度量计算单元304的结构如图6所示。子度量计算单元304包括属性类型判断单元601、子度量测量方式选择器602和子度量计算器603。如图所示，首先输入两个属性(属性值)A_i＝Ci-V_Ai和B_i＝Ci-V_Bi到属性类型判断单元601，所述属性A_i和B_i分别属于第一描述A和第二描述B并且是结构上对准的属性。如上所述，每个属性值是关于对象描述所针对对象(例如产品)的一个方面的说明，其中属性名指示哪个方面被描述，其值包括描述该属性的内容。属性的内容可以是单值的也可以是多值的，属性值可能是简单的数据类型也可能是复杂的数据类型。通常，不同的数据类型需要使用不同的计算方法来计算竞争性子度量。一般地，单值的属性根据数据类型被划分成两类：(1)针对具有符号值(例如枚举数据类型或全文本)的属性；和(2)针对具有数字值的属性。针对符号值属性(例如全文本)，一般采用基于VSM的方法来计算竞争性子度量，而针对数字值属性，则一般采用基于属性值的方法来计算竞争性子度量。多值的属性被用于处理具有一组值的属性，其也被划分成两类：(1)多个值被顺序排列的属性；和(2)多个值被无顺序排列的属性。在实际实现方式中，针对多值属性的竞争性度量计算方法可以访问针对单值属性的方法所提供的功能。关于属性内容及数据类型的判断，很多方法可以从相似性测量的现有方法中借鉴，这里不再详述。应该注意，这些情况仅仅是示例性的，本发明也可以按利用不同数据类型定义的不同方式来实现。

接下来，根据子度量测量方式选择器602所选择的测量方式，子度量计算器603被用于计算属性A_i和B_i之间的竞争性子度量c_i(A_i，B_i)。

如上所述，对于全文本类型的属性值，基于VSM的相似性计算方法可以被采用来计算属性之间的竞争性子度量。下面参考图7来对其进行详细描述。基本上，VSM将文本内容表示为出现在所有文件集合中的项(单词)的特征向量。在某些实施例中，例如在处理中文或日文文本时，在生成相应的特征向量之前，需要首先对文本中的各个项(单词)进行领域和词性分析，并根据分析结果进行加权。文本之间的相似性是利用针对特征向量的若干相似性测量方法(例如常见的余弦方法和Jaccard方法)之一来测量的。

图7示出在属性类型被确定为全文本的情况下，选择基于VSM的方法来计算属性A_i和B_i之间的子度量的子度量计算器的详细框图。如图所示，在该示例中，子度量计算器603包括向量化单元701、基于VSM的子度量计算器702、领域与词性分析模块703以及预处理单元704。首先，全文本属性A_i和B_i可以被输入到预处理单元704，在预处理单元704中，诸如专有名词，产品名称，公司名称之类的名称实体由于对衡量竞争关系没有帮助，因此被预先去除掉。这样做，可提高竞争性度量计算的精确性。然后，经预处理的属性A_i和B_i被输入到向量化单元701，其用于生成代表全文本属性A_i和B_i的基于单词的向量。这里，为了进一步提高竞争性度量计算的精确性，还可以并入领域与词性分析模块703和竞争加权策略库306。基于领域与词性分析模块703对全文本属性A_i和B_i中各个单词的所属领域以及词性的分析结果，竞争加权策略库306中预先存储的竞争加权系数规则表可以向不同单词分配不同的竞争性加权系数(权重)。在全文本(结构化的)描述中，每个单词(属性)与一个竞争性加权系数相关联，该系数被用于代表该单词(属性)在竞争性度量计算中的重要性，通过该系数，可以应用适当的竞争加权策略来提高最终结果的精确性。例如，当比较两个关于安全性软件领域产品的对象时，单词“防火墙、垃圾邮件、入侵、病毒”比与该领域无关的单词具有更高的系数(权重)值。通过领域与词性分析模块703的分析，词性为介词、连词、助词、标点、代词、感叹词、情态动词和象声词的单词对最终的竞争性度量没有贡献，因此它们的竞争性加权系数(权重)为0。在实际实现中，竞争加权策略库306中的竞争加权系数规则表可以由用户预先手工建立，也可以利用某种自动方式获得，例如基于来自某些第三方网站的本体产品(对象)信息进行的关键字提取。当然，本发明并不局限于所述示例，其它能够生成竞争加权系数规则表的方法都可被使用。

然后，向量化单元701生成的代表全文本属性A_i和B_i的基于单词的向量被输入到基于VSM的子度量计算器702，以利用现有的基于VSM的方法生成属性A_i和B_i之间的子度量c_i(A_i，B_i)。

接下来返回图4，在步骤406中，被对准的第一描述A和第二描述B中的所有属性的子度量被输入到竞争性度量计算单元305以计算最终的第一对象和第二对象之间的竞争性度量。如图3所示，计算出的竞争性度量被存储在竞争性度量数据库106中。竞争性度量计算单元305可以通过任意适当的方式基于各个属性的子度量来获得最终的竞争性度量。在本实施例中，竞争性度量计算单元305通过对子度量加权求和来获得最终的竞争性度量。在本实施例中，根据公共属性名字典1041预先为各种属性分配了不同的权重，所述权重被存储在竞争加权策略库306中。因此，第一对象和第二对象之间的竞争性度量按如下等式(1)实现：

Com (A, B) = Σ_{i = 1}^{s} w_{i} c_{i} (A_{i}, B_{i}) / Σ_{i = 1}^{s} w_{i} - - - (1)

其中，A和B是具有统一结构的两个描述，它们都具有s个属性，即A＝(A₁，...A_s)和B＝(B₁，...，B_s)，c_i(A_i，B_i)是两个描述的第i个属性之间的竞争性子度量，w_i是分配给第i个属性的权重。如上所述，竞争加权策略来自竞争加权策略库306。然后，图4所示过程结束。

[第二实施例]

下面，将参考图8-11来描述本发明的第二实施例。图8示出根据本发明第二实施例的竞争性度量计算系统800的详细框图，其中根据对象类别树通过映射方式来执行描述规范化(间接方式)。不同于第一实施例，如图8所示，对象类别树102作为本体信息被用于描述规范化。规范化装置102包括映射单元801，其接收来自对象获取装置101的第一对象和第二对象，并将相应的第一描述A和第二描述B分别映射到对象类别树102的一个或多个节点。在该实施例中，竞争性度量计算器103包括映射概率计算单元802，语义距离获取单元803和竞争性度量计算单元804(随后将对它们进行详细描述)，并被用于计算第一对象和第二对象之间的竞争性度量。

图9示出图8所示系统700的操作的流程图。与图4所示第一实施例的情况相同，该过程开始于从对象数据库105获取第一对象和第二对象，所述第一对象和第二对象分别具有第一描述A和第二描述B(步骤901)。接下来，在步骤902，第一描述A和第二描述B被映射到对象类别树102的一个或多个节点。

图10示出对象类别树102以及与其节点结构相对应的代表性描述层次结构1002的示意图。图11示出根据第二实施例计算竞争性度量的一个示例。如前所述，对象类别树102是对人们感兴趣的领域的公共理解，其关于该领域中的对象(例如文件)的类别，其中每个节点对应于一个类别。如图10所示，根类别为C₀，它进而包括两个子类别C₀₁和C₀₂，子类别C₀₁再进一步包括子类别C₀₁₁，而子类别C₀₂进一步包括子类别C₀₂₁和C₀₂₂。在实践中，该对象类别树102可以用任何本领域公知的自动或半自动方法预先获得。例如，如图11所示，在安全性软件领域，对象类别树102的根节点对应“安全性软件”类别，其一共具有三个叶子节点，分别对应“防火墙”类别、“防垃圾”类别和“防病毒”类别。当然，对象类别树102的结构并不局限于所示示例，在各个领域中，用户可以针对不同需求设置不同的对象类别树102。返回图10，其还示出在结构上与对象类别树102相对应的代表性描述层次结构1002。代表性描述层次结构1002的每一个节点包括对象类别树102上的相应节点处的对象类别所包括的一个或多个代表性描述。所述代表性描述包括用于描述对象类别树102上相应节点处的对象类别的所有相关属性。在每个节点上，所述代表性描述是依赖于语言的，即在每个节点上，针对每种特定语言存在一个代表性描述。所述代表性描述形成的代表性描述层次结构1002可以用任何本领域公知的自动或半自动方法预先获得。

返回图9的步骤902，在该步骤中，获取的第一描述A和第二描述B被映射到对象类别树102的一个或多个节点。这可以利用已知的基于VSM的方法来实现，该方法以代表性描述层次结构1002中的代表性描述作为中介。就是说，通过利用传统的基于VSM的方法将第一描述A和第二描述B中的每一个的内容与代表性描述层次结构1002上的代表性描述相比较，可以计算出该描述(A或B)与对象类别树102上相应位置上的节点/类别之间的相似性，从而确定该对象可以属于一个类别或多个类别(取决于实际的实现方式)。

在确定被比描述A和B所属类别之后，映射结果被发送到竞争性度量计算器103以计算第一对象和第二对象之间的竞争性度量。如图9所示，计算竞争性度量的步骤主要包括三步，即步骤903、904和905。首先在步骤903，计算第一描述A和第二描述B被映射到不同节点的概率。如图11所示，产品A以概率0.7映射到“防火墙”类别节点，产品B以概率0.6映射到“防病毒”类别节点，而产品C以概率0.7映射到同样的“防病毒”类别节点。然后在步骤904，获取对象类别树102上各个节点之间的语义距离(semantic distance)。所述语义距离用于表征相应节点处的对象类别之间的相似性，其可以利用现有的相似性度量计算方法被预先计算出并被存储在本体信息库104中。假设类别c1和c2之间的距离被表示为dc(c1，c2)，则这两个类别之间的相似性被定义为com(c1，c2)＝1-dc(c1，c2)。这里，两个类别之间的语义距离是根据它们各自在对象类别树102上的位置来计算的。一般地，较上层类别之间的距离大于较下层类别之间的距离，因此较上层类别之间的相似性小于较下层类别之间的相似性。另外，“兄弟”节点之间的距离一般大于“父节点”与“子节点”之间的距离。然后，在步骤905，根据在步骤903和904中描述A和B被映射到相应节点的概率以及获取的相应节点之间的语义距离来计算第一对象和第二对象之间的竞争性度量。这里存在两种情况，即(1)描述A和B都仅被映射到一个节点(类别)，或(2)描述A和B被映射到多个节点。在描述A和B仅被映射到一个节点的情况下，描述A和B被映射到相应节点的概率都为1，此时，直接利用获取的预先计算的两个节点(类别)之间的语义距离作为分别来自这两个类别的第一对象和第二对象之间的安全性度量。即，假设产品A被映射到类别C₀₁₁，产品B被映射到类别C₀₂₁，并且类别C₀₁₁和C₀₂₁之间的语义距离为0.1，则产品A和产品B之间的竞争性度量为0.1。另外，在描述A和B被分别映射到多个类别的情况下，可以根据描述A和B被映射到相应节点的概率利用余弦测量来计算竞争性度量。在此情况下，可以针对每个描述A和B分别设置一个类别向量d_A和d_B，该类别向量中的每个元素代表该描述被映射到相应类别的概率。然后利用余弦测量

计算描述A和B所代表的第一对象和第二对象之间的竞争性度量。值得注意的是，这里忽略了不同节点之间的语义距离，但是本领域技术人员容易想到，可以通过任何合适的方式将节点之间的语义距离集成进来，从而提高竞争性度量计算的精确性。

例如，在图11所示的示例中，产品A以概率0.7映射到“防火墙”类别节点，产品B以概率0.6映射到“防病毒”类别节点，而产品C以概率0.7映射到同样的“防病毒”类别节点。假设预先计算出“防火墙”节点与“防病毒”节点之间的语义距离为0.1，则可以计算产品A和B(属于不同类别)之间的竞争性度量为0.7×0.6×0.1＝0.042，而产品B和C(属于相同类别)之间的竞争性度量为0.7×0.6＝0.42。当然，计算竞争性度量的方法并不局限于此。然后，图9所示过程结束。

另外，如上所述，代表性描述层次结构1002中不同节点处的代表性描述可以依赖于不同语言。因此，在本实施例中，两个被比对象的描述A和B可以具有不同的语言。

图12是被用于实现本发明的计算机系统1200的示意性框图。如图所示，该计算机系统1200包括CPU 1201、用户接口1202、外围设备1203、存储器1205、永久存储设备1206以及将它们彼此相连的总线1204。存储器1205中包含领域与词性分析模块、竞争性分析模块、对象收集模块和操作系统(OS)等等。本发明主要与所述竞争性分析模板相关，其例如是图1所示的竞争性分析模块10。对象收集模块可以从不同源收集对象并将它们存储在对象数据库中。领域与词性分析模块用于在全文本描述的情况下对属性进行处理，其例如是图7所示的领域与词性分析模块703。永久存储设备1206存储了本发明所涉及的各种数据库，例如本体信息库104、竞争加权策略库306、对象数据库105以及竞争性度量数据库106等等。

以上分别描述了本发明的第一实施例(以直接方式计算竞争性度量)和第二实施例(以间接方式计算竞争性度量)，根据上述描述可以看出，本发明具有以下效果：

值得注意的是，本发明的竞争性度量计算方法也可以被应用到相似性计算，以提高当前相似性度量计算技术的精确性。

上面已经参考附图描述了根据本发明的具体实施例。但是，本发明并不限于图中示出的特定配置和处理。例如，在计算不同属性之间的竞争性子度量的过程中，除了基于VSM和基于属性的方法之外，其它本领域公知的相似性度量技术也可被应用。并且，为了简明起见，这里省略对这些已知方法技术的详细描述。

在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明的元素可以实现为硬件、软件、固件或者它们的组合，并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种用于计算对象之间的竞争性度量的方法，该方法包括以下步骤：

获取第一对象和第二对象，所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述；

利用本体信息规范化所述第一描述和第二描述；以及

基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的竞争性度量。

2.如权利要求1所述的方法，其中所述本体信息是公共属性名字典，该公共属性名字典包括根据对象属性在竞争性方面的重要性所选择的对象属性的名称，

并且其中，规范化所述第一描述和第二描述包括：

判断所述第一描述和第二描述的描述类型；

根据所述描述类型，通过参考所述公共属性名字典来生成统一描述的结构；并且

使所述第一描述和第二描述中的属性与所述统一描述中的相应属性对准，

并且其中，计算所述竞争性度量包括：

计算所述对准后的第一描述和第二描述中的每个相应属性之间的子度量；以及

对所有所述计算出的子度量加权求和，以得到所述第一对象和第二对象之间的所述竞争性度量。

3.如权利要求1所述的方法，其中所述本体信息是对象类别树，所述对象类别树的每个节点代表不同的对象类别并且包含一个或多个代表性描述，

并且其中，规范化所述第一描述和第二描述包括：

将所述第一描述和第二描述分别映射到所述对象类别树上的一个或多个节点，

并且其中，计算所述竞争性度量包括：

获取所述对象类别树中各个节点之间的语义距离；以及

基于所述第一描述和第二描述被映射到的节点之间的语义距离来计算所述第一对象和第二对象之间的所述竞争性度量。

4.如权利要求3所述的方法，其中计算所述竞争性度量还包括计算所述第一描述和第二描述被映射到相应节点的概率，并且基于所述第一描述和第二描述被映射到的节点之间的语义距离和计算出的所述第一描述和第二描述被映射到相应节点的概率来计算所述第一对象和第二对象之间的所述竞争性度量。

5.如权利要求2所述的方法，其中所述子度量计算步骤包括：

针对所述第一描述和第二描述中的每一对相对应的属性，即来自于所述第一描述的第一属性和来自于所述第二描述的第二属性：

参考所述公共属性名字典来确定所述第一属性和第二属性的类型；

根据确定的所述属性类型选择子度量测量方法；以及

利用所述确定的子度量计算方法来计算所述第一属性和第二属性之间的子度量。

6.如权利要求5所述的方法，其中所述子度量计算方法是基于VSM的方法或基于属性的方法。

7.如权利要求6所述的方法，其中当所述基于VSM的方法被使用时，所述计算子度量的步骤还包括：

生成代表所述第一属性和第二属性的基于单词的第一向量和第二向量；以及

利用所述基于VSM的方法计算所述第一向量和第二向量之间的竞争性度量，作为所述第一属性和第二属性之间的子度量。

8.如权利要求7所述的方法，还包括：

在生成所述第一和第二向量之前，对所述第一和第二属性进行预处理，以从每个属性值的文本中删除掉名称实体。

9.如权利要求8所述的方法，其中所述名称实体包括专有名词、公司名称和产品名称。

10.如权利要求7所述的方法，还包括：

对所述第一和第二属性中的单词进行领域分析和词性分析；以及

在生成所述第一向量和第二向量之前，根据所述领域和词性分析结果参考预先存储的和竞争相关的竞争加权系数规则表对所述第一和第二属性中的单词进行加权。

11.如权利要求7所述的方法，其中所述竞争加权系数规则表由用户手工建立。

12.如权利要求7所述的方法，其中所述竞争加权系数规则表是通过基于来自第三方网站的本体对象信息进行关键字提取而以自动方式建立的。

13.如权利要求7所述的方法，其中所述竞争加权系数规则表被配置为存储与每个单词相关联的竞争加权系数，该竞争加权系数被用于表示所述单词在竞争性度量计算中的重要性。

14.如权利要求13所述的方法，其中在所述竞争加权系数规则表中，与被比对象所属领域不相关的单词被赋予比与所属领域相关的单词更低的竞争加权系数，并且其词性对所述竞争性度量计算没有贡献的单词的竞争加权系数为零。

15.如权利要求3所述的方法，其中每个节点处的所述一个或多个代表性描述具有不同的语言。

16.如权利要求3所述的方法，其中以与所述对象类别树的节点相对应的所述一个或多个代表性描述作为中介，利用基于VSM的方法来执行所述第一描述和第二描述到所述对象类别树的映射。

17.如权利要求3所述的方法，其中在所述第一描述和第二描述被分别映射到一个节点的情况下，所述节点之间的语义距离被直接用作所述第一对象和第二对象之间的竞争性度量。

18.如权利要求4所述的方法，其中在所述第一描述和第二描述被分别映射到多个节点的情况下，基于所述第一描述和第二描述被映射到各个节点的概率生成第一类别向量和第二类别向量，并通过对所述第一类别向量和第二类别向量执行余弦测量来计算所述第一对象和第二对象之间的竞争性度量。

19.如权利要求18所述的方法，其中所述第一描述和第二描述被映射到的节点之间的语义距离被集成到所述余弦测量中，以计算所述第一对象和第二对象之间的竞争性度量。

20.如权利要求3所述的方法，其中所述语义距离是预先计算的，并且与所述对象类别树一起被存储。

21.如权利要求3所述的方法，其中在所述对象类别树上，较上层节点之间的语义距离大于较下层节点之间的语义距离，并且“兄弟”节点之间的语义距离大于“父节点”与“子节点”之间的语义距离。

22.一种用于计算对象之间的竞争性度量的系统，该系统包括：

对象获取装置，用于获取第一对象和第二对象，所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述；

本体信息库，用于存储特定于领域的本体信息；

规范化装置，用于利用来自所述本体信息库的本体信息规范化所述第一描述和第二描述；以及

竞争性度量计算器，用于基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的竞争性度量。

23.如权利要求22所述的系统，其中所述本体信息是公共属性名字典，该公共属性名字典包括根据对象属性在竞争性方面的重要性所选择的对象属性的名称，并且

所述规范化装置包括：

判断单元，用于判断所述第一描述和第二描述的描述类型；

统一描述结构生成单元，用于根据所述描述类型，通过参考所述公共属性名字典来生成统一描述的结构；以及

对准单元，用于使所述第一描述和第二描述中的属性与所述统一描述中的相应属性对准，

并且所述竞争性度量计算器包括：

子度量计算单元，用于计算所述对准后的第一描述和第二描述中的每个相应属性之间的子度量；以及

竞争性度量计算单元，用于对所有所述计算出的子度量加权求和，以得到所述第一对象和第二对象之间的所述竞争性度量，

并且所述系统还包括竞争加权策略库，用于存储用于所述加权求和所需的加权系数。

24.如权利要求22所述的系统，其中所述本体信息是对象类别树，所述对象类别树的每个节点代表不同的对象类别并且包含一个或多个代表性描述，并且

所述规范化装置包括：

映射单元，用于将所述第一描述和第二描述映射到所述对象类别树上的一个或多个节点，

并且所述竞争性度量计算器包括：

语义距离获取单元，用于获取所述对象类别树中各个节点之间的语义距离；以及

竞争性度量计算单元，用于基于所述第一描述和第二描述被映射到的节点之间的语义距离来计算所述第一对象和第二对象之间的所述竞争性度量。

25.如权利要求24所述的系统，其中所述所述竞争性度量计算器还包括：

映射概率计算单元，用于计算所述第一描述和第二描述被映射到相应节点的概率；并且

所述竞争性度量计算单元被配置为基于所述第一描述和第二描述被映射到的节点之间的语义距离和所述映射概率计算单元计算出的所述第一描述和第二描述被映射到相应节点的概率来计算所述第一对象和第二对象之间的所述竞争性度量。

26.如权利要求23所述的系统，其中所述子度量计算单元包括：

属性类型判断单元，用于参考所述公共属性名字典来确定第一属性和第二属性的类型，其中所述第一属性和第二属性是所述第一描述和第二描述中的一对相对应的属性，所述第一属性来自于所述第一描述，所述第二属性来自于所述第二描述；

子度量测量方式选择器，用于根据确定的所述属性类型选择子度量测量方法；以及

子度量计算器，用于利用所述确定的子度量计算方法来计算所述第一属性和第二属性之间的子度量。

27.如权利要求26所述的系统，其中所述子度量计算器利用基于VSM的方法或基于属性的方法来计算所述子度量的。

28.如权利要求27所述的系统，其中当所述基于VSM的方法被使用时，所述子度量计算器包括：

向量化单元，用于生成代表所述第一属性和第二属性的基于单词的第一向量和第二向量；以及

基于VSM的子度量计算器，用于利用所述基于VSM的方法计算所述第一向量和第二向量之间的竞争性度量，作为所述第一属性和第二属性之间的子度量。

29.如权利要求28所述的系统，其中所述子度量计算器还包括：

耦合到所述向量化单元的预处理单元，用于在生成所述第一和第二向量之前，对所述第一和第二属性进行预处理，以从每个属性值的文本中删除掉名称实体。

30.如权利要求29所述的系统，其中所述名称实体包括专有名词、公司名称和产品名称。

31.如权利要求28所述的系统，所述子度量计算器还包括：

领域与词性分析模块，用于对所述第一和第二属性中的单词进行领域和词性分析，

并且所述向量化单元在生成所述第一向量和第二向量之前，根据所述领域与词性分析模块的分析结果参考预先存储的和竞争相关的竞争加权系数规则表对所述第一和第二属性中的单词进行加权。

32.如权利要求31所述的系统，其中所述竞争加权系数规则表被存储在所述竞争加权策略库中。

33.如权利要求31所述的系统，其中所述竞争加权系数规则表由用户手工建立。

34.如权利要求31所述的系统，其中所述竞争加权系数规则表是通过基于来自第三方网站的本体对象信息进行关键字提取而以自动方式建立的。

35.如权利要求31所述的系统，其中所述竞争加权系数规则表中存储有与每个单词相关联的竞争加权系数，该竞争加权系数被用于表示所述单词在竞争性度量计算中的重要性。

36.如权利要求35所述的方法，其中在所述竞争加权系数规则表中，与被比对象所属领域不相关的单词被赋予比与所属领域相关的单词更低的竞争加权系数，并且其词性对所述竞争性度量计算没有贡献的单词的竞争加权系数为零。

37.如权利要求24所述的系统，其中每个节点处的所述一个或多个代表性描述具有不同的语言。

38.如权利要求24所述的系统，其中所述映射单元以与所述对象类别树的节点相对应的所述一个或多个代表性描述作为中介，利用基于VSM的方法来执行所述第一描述和第二描述到所述对象类别树的映射。

39.如权利要求24所述的系统，其中在所述第一描述和第二描述被分别映射到一个节点的情况下，所述竞争性度量计算单元直接使用所述节点之间的语义距离作为所述第一对象和第二对象之间的竞争性度量。

40.如权利要求25所述的系统，其中在所述第一描述和第二描述被分别映射到多个节点的情况下，所述竞争性度量计算单元基于所述第一描述和第二描述被映射到各个节点的概率生成第一类别向量和第二类别向量，并通过对所述第一类别向量和第二类别向量执行余弦测量来计算所述第一对象和第二对象之间的竞争性度量。

41.如权利要求40所述的系统，其中所述第一描述和第二描述被映射到的节点之间的语义距离被集成到所述余弦测量中，以计算所述第一对象和第二对象之间的竞争性度量。

42.如权利要求24所述的系统，其中所述语义距离是预先计算的，并且与所述对象类别树一起存储在所述本体信息库中。

43.如权利要求24所述的系统，其中在所述对象类别树上，较上层节点之间的语义距离大于较下层节点之间的语义距离，并且“兄弟”节点之间的语义距离大于“父节点”与“子节点”之间的语义距离。