CN103514194B

CN103514194B - 确定语料与实体的相关性的方法和装置及分类器训练方法

Info

Publication number: CN103514194B
Application number: CN201210212662.6A
Authority: CN
Inventors: 张姝; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-06-21
Filing date: 2012-06-21
Publication date: 2016-08-17
Anticipated expiration: 2032-06-21
Also published as: CN103514194A

Abstract

本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括：利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类，以确定第二组语料中的每个语料与第一给定实体的相关性，从而得到作为对第二组语料的标注结果的机器标注语料；基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用机器标注语料，训练针对第一给定实体的自适应分类器；以及基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，利用训练好的自适应分类器，确定第一组语料中的每个语料与第一给定实体的相关性。

Description

确定语料与实体的相关性的方法和装置及分类器训练方法

技术领域

本发明一般地涉及信息挖掘领域。具体而言，本发明涉及一种用于确定语料与给定实体的相关性的方法和装置及相关的分类器训练方法。

背景技术

微博（例如，推特、搜狐微博和腾讯微博等）作为一种社交媒体，迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对政府政策的响应、人们对商品的反馈和评论等已受到研究团体的大量关注。存在一些研究，诸如观点挖掘和在线声誉管理等，它们聚焦于监控用户生成的媒体。这些研究的关键内容之一在于首先要获得与所研究实体（诸如公司的机构）有关的信息。

获得与所研究实体有关的信息将面临以下两个问题。首先，微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体。它允许用户生成不超过140个字符的消息。故只能获得小的上下文信息。因此，可供比对的信息量相对较少。第二，实体名称本身可能是模糊的，这也会增大分析的难度。例如，苹果公司的名称Apple也可以表示作为水果的苹果。亚马逊公司的名称Amazon也可以表示亚马逊河和亚马逊丛林。可见，确定微博与实体之间是否相关只能依赖于微博本身较少的信息量并面临实体名称具有歧义的问题。如果不能准确有效地判断微博与实体之间的相关性，就难以针对实体搜集和分类微博，并进而进行深入研究，如分析人们谈论特定实体的相关内容。

此外，通常采用分类器来针对实体对微博进行分类。简单地说，通过针对特定实体（例如，苹果公司）搜集大量已标记的训练语料（即标注了该微博是否是与苹果公司相关的微博），利用所搜集的语料对分类器进行训练，就可以使用训练好的分类器针对特定实体（苹果公司）分类语料（如未标记的大量微博），即判断语料是否与特定实体相关。然而，针对每一个特定实体训练一个分类器是繁复的。因此，也希望能够使得训练数据中的实体和测试数据中的实体可以不同，避免将分类器训练为针对特定实体。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是针对现有技术的上述问题，提出了一种能够确定语料与实体的相关性的方法和装置及相关分类器训练方法。该方案对于具有较少信息量的微博，能够不针对特定实体训练分类器，训练好的分类器能针对特定实体进行分类，即确定语料与特定实体的相关性，并且能够有效地处理具有歧义的实体名称，避免与该实体无关的、与具有相同实体名称的其它实体相关的语料被分类为与该实体相关。

为了实现上述目的，根据本发明的一个方面，提供了一种用于确定第一组语料中的每个语料与第一给定实体的相关性的方法，包括：利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料；基于所述通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用所述机器标注语料，训练针对所述第一给定实体的自适应分类器；以及基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，利用训练好的所述自适应分类器，确定第一组语料中的每个语料与第一给定实体的相关性。

根据本发明的另一个方面，提供了一种用于确定语料与给定实体的相关性的分类器的训练方法，包括：获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种；从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个，作为机构信息；从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息；基于所述机构信息和所述语料信息，计算通用特征，所述通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种；以及基于所计算的通用特征，结合实体名称相关的启发式规则，利用所述训练语料的标注结果，训练所述分类器。

根据本发明的另一个方面，提供了一种用于确定第一组语料中的每个语料与第一给定实体的相关性的装置，包括：通用分类器，用于基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料；自适应分类器训练单元，用于基于所述通用分类器使用的通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用所述机器标注语料，训练针对所述第一给定实体的自适应分类器；以及所述自适应分类器，用于基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，确定第一组语料中的每个语料与第一给定实体的相关性。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了用于确定语料与给定实体的相关性的方法的第一实施例的流程图；

图2示出了用于确定语料与给定实体的相关性的分类器的训练方法的流程图；

图3示出了用于确定语料与给定实体的相关性的装置的第一实施例的结构方框图；

图4示出了用于确定语料与给定实体的相关性的方法的第二实施例的流程图；

图5示出了用于确定语料与给定实体的相关性的装置的第二实施例的结构方框图；

图6示出了根据本发明的实施例的通用特征提取单元的结构方框图；以及

图7示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

本发明的基本思想是首先以已经针对一个或多个第二给定实体标注的第三组语料（即大量微博，每个微博均已标注了是否与第二给定实体相关，实体例如是机构、组织、公司等），基于通用特征，并结合启发式规则，对通用分类器进行训练，其中通用特征表征微博与实体的相关性，但不针对特定实体；为了针对特定的第一给定实体、对未标注的第一组语料中的每个语料进行分类（即确定第一组语料中的每个语料与第一给定实体的相关性），先利用通用分类器针对第一给定实体对第二组语料（也是未标注的）进行机器标注，提取通用特征并得到机器标注语料；然后，从机器标注语料中选取对第一给定实体指示性强的关键词作为补充特征，基于通用特征、补充特征并结合启发式规则，利用机器标注语料，训练针对第一给定实体的自适应分类器；从而，基于通用特征、补充特征并结合启发式规则，利用训练好的自适应分类器针对第一给定实体对第一组语料进行识别。

这样，训练通用分类器时采用第三组语料，并不针对特定的给定实体；而应用时，先针对第一给定实体，借助于通用分类器和第二组语料对自适应分类器进行训练，训练好的自适应分类器就可以针对第一给定实体对第一组语料进行分类。

首先，将参照图2描述根据本发明的实施例的用于确定语料与给定实体的相关性的通用分类器的训练方法的流程。

图2示出了用于确定语料与给定实体的相关性的通用分类器的训练方法的流程图。

如图2所示，根据本发明的用于确定语料与给定实体的相关性的通用分类器的训练方法，包括如下步骤：获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种（步骤S21）；从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个，作为机构信息（步骤S22）；从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息（步骤S23）；基于所述机构信息和所述语料信息，计算通用特征，所述通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种（步骤S24）；以及基于所计算的通用特征，结合实体名称相关的启发式规则，利用所述训练语料的标注结果，训练所述分类器（步骤S25）。

通过步骤S21、S22，获取表征给定实体的机构信息来丰富对与给定实体的描述，从而与具有相同实体名称的其它实体更加有效地进行区分。显然，对于一个给定实体的描述信息越丰富，则该给定实体越明确。

机构信息的来源包括，但不限于步骤S21中列出的四个方面。

1.与给定实体相关联的实体主页页面

假设给定实体均至少具有一个自己的主页，并且该主页的URL作为指示给定实体的输入。显然，实体自己的主页对于实体本身的描述而言，非常基本和重要。实体主页中的词语通常与该实体更相关并且更能表示该实体。可以从给定实体的实体主页中提取与给定实体相关联的词作为机构信息。

可以利用实体的主页的URL，抓取该主页的一定深度的所有页面。优选地，深度为1。即，可抓取自主页页面起，深度为1的所有页面作为给定实体的实体主页页面。

2.与给定实体相关联的具有网络百科全书属性的网页页面

具有网络百科全书属性的网页页面例如是维基百科页面和维基百科反例页面。

维基百科（wikipedia）提供有消歧（disambiguation）功能，利用此功能能够获得与实体名称对应的多个候选条目，候选条目包括链接。可以对候选相关条目进行分析以确定链接中是否含有给定实体的实体主页的URL。如果链接中含有给定实体的实体主页的URL，则可以认为该候选相关条目与给定实体相关联，可进而提取该条目对应的页面中的词语作为机构信息。该页面可以作为机构信息的正例数据源，不含有给定实体的实体主页的URL的链接对应的页面可以作为反例数据源。

3.与给定实体相关联的搜索引擎返回的链接页面

搜索引擎例如是谷歌（Google）。Google提供了检索关键字“link”，采用与实体对应的URL构造检索关键字，例如“link:ht tp://……”，输入到Google的搜索栏中，可以得到返回的链接页面。

优选地，选取前100个链接页面作为机构信息的数据源。

4.与给定实体相关联的搜索引擎返回的相关页面

类似于上述链接页面，Google提供了检索关键字“related”，采用与实体对应的URL构造检索关键字，例如“related:ht tp://……”，输入到Google的搜索栏中，可以得到返回的相关页面。

优选地，选取前100个相关页面作为机构信息的数据源。

在步骤S21中，从上述4种数据源中的至少一种获取与给定实体相关联的页面。

在步骤S22中，从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个，作为机构信息。

实体可以被表示为简档（profile）的集合，即机构信息。例如，机构信息可表示为Org＝{p₁，p₂,...,p_m}。其中，每一个简档可以是关键词及对应权重的集合。

可以针对上面步骤S21中获得的页面，建立如下的四种简档。

1.一元词简档（unigram profile）

可以将一元词简档表示为P_u＝set{uigram:weight}。

利用现有技术，可以对网页页面进行正文提取、分词、去除停用词、词干提取等预处理，从而得到一元词unigram。以“西安交通大学”为例，在一元词的情况下，“西安交通大学”将被表示为西/安/交/通/大/学。

权重weight决定特征对应的取值，为简化处理，可将权重均设为1，从而使得特征对应的取值为0或1。

2.二元词简档（bigram profile）

可以将二元词简档表示为P_b＝set{bigram:weight}。

采用与一元词类似的预处理，可以得到二元词bigram。以“西安交通大学”为例，在二元词的情况下，“西安交通大学”将被表示为西安/安交/交通/通大/大学。

应注意，在词级上，unigram为一元词，bigram为二元词。在字符级上，bigram包括二元字符。

类似地，本领域技术人员还可想到trigram，如包括三元字符等。

3.元数据简档（metadata profile）

步骤S21中获得的页面大多为HTML文件，其中提供有元数据。元数据包括对页面的描述、关键词、文档作者、上一次修改时间等信息。其中，关键词是具有指示性作用的词。因此，可将HTML页面的元数据中的关键词提取出来,作为元数据简档，其可表示为P_m＝set{word:weight}，word为元数据的关键词。权重weight决定特征对应的取值，为简化处理，可将权重均设为1，从而使得特征对应的取值为0或1。

4.URL简档（URL profile）

步骤S21中获得的页面都对应一个URL，URL中包括主机名。可以将主机名host_name从URL中获取出来，作为关键字，构成URL简档，表示为P_url＝set{host_name:weight}。权重weight决定特征对应的取值，为简化处理，可将权重均设为1，从而使得特征对应的取值为0或1。

至此，通过步骤S21、S22得到了表征实体的机构信息，应注意，机构信息是针对某一给定实体的。

为了将表征某一给定实体的机构信息与微博进行比较，确定微博与给定实体的相关性，需要对微博进行处理，提取相关信息，以与机构信息类似的方式表征微博。

由于要训练分类器，因此，训练语料应是针对给定实体标注好的。即已知训练语料中的每一个语料（微博）是否与给定实体相关。该给定实体应与机构信息所对应的实体是同一实体。

在步骤S23，从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息。

应注意，由于微博并不一定具有元数据，因此，并未提取元数据中的关键词。

应注意，通过对微博进行预处理，如URL提取、缩写还原、分词、去除停用词、词干提取等，可以从微博中提取URL地址中包括的主机名、unigram、bigram等关键字。这对本领域技术人员来说是例行的工作。

语料信息可以表示为T_i=set{key:weight}。其中，key可以表示uni gram、bigram和URL地址中包括的主机名，为简化处理，可将权重weight均设为1。T_i表示第i个语料的语料信息。

应注意，机构信息和语料信息中的unigram、bigram、元数据中的关键词和URL地址中包括的主机名等都是采用字符串的形式进行表示，以利于比较。由于字符串的比较只有在被比较的字符串完全相同的情况下，才认为字符串相同，因此，即使包括unigram和bigram的机构信息与包括unigram和bigram的语料信息直接进行比较，也只可能unigram与unigram匹配，bigram与bigram匹配。元数据中的关键词、URL地址中包括的主机名等会根据其实际的字符串长度，与unigram、bigram、元数据中的关键词、URL地址中包括的主机名中的适当的一个匹配。

下面，在步骤S24中，基于所述机构信息和所述语料信息，计算通用特征。首先，介绍通用特征本身。

如上所述，机构信息是针对给定实体提取出来的，用于表征给定实体。而训练语料也针对给定实体进行了标注，并从中提取出了语料信息。如果将特征限定为具体的针对给定实体的特征，则仍存在现有技术中训练针对的实体必须与识别针对的实体相同的限制。本发明的发明人意识到可以将特征抽象为与给定实体无关，而仅与实体的某一方面相关。也就是说特征（通用特征）可以表征语料与实体的某一方面的相关性，而非语料与某一特定实体的某一方面的相关性。

因此，为了更好地计算通用特征，训练通用分类器所采用的训练语料优选包括针对多个给定实体（多个第二给定实体）标注好的语料。并且训练通用分类器时，提取多个第二给定实体的机构信息。由于通用特征可以不针对特定实体，因此所述多个第二给定实体可以包括识别时所针对的第一给定实体，也可以不包括识别时所针对的第一给定实体。

当进行识别时，可针对给定实体，计算给定实体的通用特征，从而使通用特征针对给定实体，并可仅依赖于通用特征，确定语料与给定实体的相关性。后文将看到，在识别时，为了更好地与给定实体相适应，还引入了补充特征来确定语料与给定实体的相关性。

通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性。

所述语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的每一个均包括一元特征相关性、多元特征相关性、元数据相关性、主机名相关性。语料与实体主页页面的相关性包括一元特征相关性F_u ^h、多元特征相关性F_b ^h、元数据相关性F_m ^h、主机名相关性F_url ^h。语料与网络百科全书页面（正例）的相关性包括一元特征相关性F_u ^w、多元特征相关性F_b ^w、元数据相关性F_m ^w、主机名相关性F_url ^w。语料与网络百科全书页面（负例）的相关性包括一元特征相关性F_u ^nw、多元特征相关性F_b ^nw、元数据相关性F_m ^nw、主机名相关性F_url ^nw。语料与搜索引擎链接页面的相关性包括一元特征相关性F_u ^l、多元特征相关性F_b ^l、元数据相关性F_m ^l、主机名相关性F_url ^l。语料与搜索引擎相关页面的相关性包括一元特征相关性F_u ^rw、多元特征相关性F_b ^rw、元数据相关性F_m ^rw、主机名相关性F_url ^rw。

第i个语料的通用特征F(T_i,Org)可以被表示为：

F (T_{i}, Org) = {F_{u}^{h}, F_{b}^{h}, F_{m}^{h}, F_{url}^{h}, F_{u}^{w}, . . ., F_{url}^{w}, F_{u}^{nw}, . . . {, F}_{url}^{nw}, F_{u}^{l}, . . ., F_{url}^{l}, F_{u}^{r}, . . ., F_{url}^{r}}

其中，T_i为第i个语料的语料信息，Org表示机构信息。

所述一元特征相关性包括页面中的一元词是否出现在语料中。所述多元特征相关性包括页面中的二元词、二元字符、三元字符中的至少一个是否出现在语料中。所述元数据相关性包括页面的元数据中的关键词是否出现在语料中。所述主机名相关性包括页面的URL地址中包括的主机名是否出现在语料中。

可见，通用特征可以与特定的实体无关，而与实体的某一方面有关。可以在识别过程中，针对特定的给定实体，计算通用特征，以表征语料与给定实体的相关性。

通用特征的计算包括，但不限于以下三种。

1.如果通用特征对应的所述机构信息和所述语料信息的交集为非空，则相应通用特征为1，否则为0。

如上所述，机构信息和语料信息都可表示为字符串。基于字符串的匹配可以判定对应的机构信息与语料信息是否存在交集，即是否存在匹配。例如，unigram类型的语料信息与unigram类型的机构信息（含URL地址中包括的unigram类型的主机名、元数据中的unigram类型的关键词）对应。例如，可以根据unigram类型的语料信息（字符串集合）中是否存在与实体主页页面（仅为举例，也可以是其它页面类型）中的unigram类型的机构信息（字符串集合）相同的字符串，来计算语料与实体主页页面的相关性中的一元特征相关性。类似地，bigram类型的语料信息与bigram类型的机构信息（含URL地址中包括的bigram类型的主机名、元数据中的bigram类型的关键词）对应。语料的URL地址中包括的主机名与页面的URL地址中包括的主机名（字符串）、页面的元数据中的关键词（字符串）、unigram、bigram中适当的字符串对应。

因此，如果通用特征对应的所述机构信息和所述语料信息的交集为非空（即字符串匹配成功），则相应通用特征为1，否则为0。

应注意，这种方法认为只要一个类别（如unigram）的机构信息和语料信息中有一个字符串匹配上了，就认为这个类别匹配上了，这个类别对应的通用特征就为1，如果一个字符串都没匹配上，则通用特征为0。

2.将通用特征对应的所述机构信息和所述语料信息映射为向量空间中的特征向量；比较所述特征向量的相似度，并将所述相似度作为相应通用特征。

机构信息中包括若干字符串，语料信息中也包括字符串。在向量空间中的特征向量包含大量的字符串，特征向量中的每个元素对应一个字符串。因此，机构信息和语料信息都可以被特征向量表示。且特征向量的同一元素位置（一维）对应同一字符串。通过比较特征向量，可以比较机构信息与语料信息的相似度，因此，可将特征向量的相似度作为相应通用特征。

3.将通用特征对应的所述机构信息和所述语料信息进行匹配；对匹配结果进行加权求和，并将加权求和的结果作为相应通用特征。

该方法类似于方法1。将通用特征对应的所述机构信息（字符串集合）和所述语料信息（字符串集合）进行匹配，字符串匹配则匹配结果取值为1，未匹配则匹配结果取值为0，将匹配结果进行加权求和，得到的加权求和结果，作为相应的通用特征。

在步骤S25，基于所计算的通用特征，结合实体名称相关的启发式规则，利用所述训练语料的标注结果，训练通用分类器。

首先介绍实体名称相关的启发式规则。实体名称相关的启发式规则包括：实体名称本身是否包括不止一个单词、和/或语料中是否包含完整实体名称。

实体名称本身是否包括不止一个单词，主要是基于如下考虑。一个单词的指示性相对较弱。如“朝阳”可以指示“朝阳区”、“朝阳医院”、“朝阳公园”等，但两个单词的“朝阳医院”指示性相对较强。

与通用特征类似，启发式规则是与具体的词无关的通用规则，在识别时可针对具体的给定实体。

基于已经计算的通用特征、结合实体名称相关的启发式规则，并利用训练语料的标注结果，即可对通用分类器进行训练。

基于特征，利用已经标注好的语料对分类器进行训练，对于本领域技术人员而言是例行的工作。

下面将参照图1描述根据本发明的实施例的用于确定语料与给定实体的相关性的方法的流程。

图1示出了根据本发明实施例的用于确定语料与给定实体的相关性的方法的第一实施例的流程图。

如图1所示，根据本发明的用于确定语料与给定实体的相关性的方法，包括如下步骤：利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料（步骤S11）；基于所述通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用所述机器标注语料，训练针对所述第一给定实体的自适应分类器（步骤S12）；以及基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，利用训练好的所述自适应分类器，确定第一组语料中的每个语料与第一给定实体的相关性（步骤S13）。

为便于说明，假设已利用针对多个第二给定实体标注的第三组语料，对通用分类器进行了训练。希望利用图1所示的方法，确定未标注的第一组语料中的每个语料与第一给定实体的相关性。第一给定实体可以不同于所述多个第二给定实体。

为了对未标注的第一组语料针对第一给定实体进行标注，希望获得针对第一给定实体的自适应分类器。为了训练自适应分类器，首先在步骤S11中，获得从第二组语料中提取的通用特征以及针对第一给定实体已经标注了的机器标注语料（已标注的第二组语料）。机器标注语料的获取可以减少人工标注成本，并且提高自适应分类器的在线训练的自动化程度。

本领域技术人员应知晓分类器的识别过程与训练过程存在对应关系。因此，与上述通用分类器的训练过程类似，可以针对第一给定实体从作为未标注语料的第二组语料提取通用特征。利用已经训练好的通用分类器，基于已提取的通用特征对第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料。

在步骤S12，训练自适应分类器。训练自适应分类器的语料是步骤S11中获得的机器标注语料，并且结合实体名称相关的启发式规则，所基于的特征包括上述提取的通用特征以及从所述机器标注语料中选取的与所述第一给定实体相关的补充特征。

补充特征是为了更好地刻画第一给定实体，使得自适应分类器对第一给定实体的分类能力更强。与通用特征和启发式规则不同，补充特征针对于具体的第一给定实体，并且限于具体的关键词，具体的关键词不会针对不同的给定实体而有所变化，因此仅针对具体的给定实体。

补充特征包括：从所述机器标注语料中选取的与所述第一给定实体相关的一元词、二元词、二元字符、三元字符等。

在根据本发明的第二实施例中，如图4所示，在步骤S12之前，还可以存在特征选取步骤S14，用于从所述机器标注语料中选取关键词，作为所述补充特征。特征选取算法是本领域技术人员所熟知的，如信息增益方法（IG）、开方检验（CHI）等。在此不做进一步介绍。特征选取算法可以从针对给定实体标注的语料中选取对该给定实体指示性强的关键词。

基于特征（通用特征和补充特征），并结合启发式规则，利用已标注的语料对分类器进行训练是本领域技术人员例行的工作。

可以重复所述补充特征的特征选取步骤及自适应分类器的训练步骤，直至达到自适应分类器的训练结束条件。因此，如图4所示，在自适应训练步骤之后，还可设置自适应训练结束步骤S15，用于验证自适应训练结束条件，在满足自适应训练结束条件的情况下结束自适应训练，在不满足自适应训练结束条件的情况下重复所述特征选取步骤和所述训练自适应分类器的步骤，直到满足所述自适应训练结束条件。

相应地，自适应训练结束条件包括：迭代达到预定次数或自适应分类器的分类结果基本稳定。自适应分类器的分类结果基本稳定例如表现为本轮迭代与上轮迭代的分类结果的变化率小于预定阈值。

经步骤S12,获得了训练好的自适应分类器及针对第一给定实体的补充特征，该自适应分类器可针对第一给定实体进行分类。

因此，在步骤S13，基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，利用训练好的所述自适应分类器，确定第一组语料中的每个语料与第一给定实体的相关性。

基于特征，结合启发式规则，利用训练好的分类器对语料进行分类是本领域技术人员例行的工作。

应注意，此时，由于对第一组语料进行分类，因此，通用特征从第一组语料中提取。

应理解，上述利用第二组语料对自适应分类器进行训练的过程，从本质上来说，也是利用自适应分类器对第二组语料进行分类的过程。因此，所述第一组语料和第二组语料中的至少部分语料可以相同。

在语料较少的情况下，可将欲对其进行分类的第一组语料直接作为用于训练自适应分类器的第二组语料。当自适应分类器训练完毕时，所得到的已标注的第二组语料就已经是自适应分类器对第一组语料的分类结果。

下面，将参照图3描述根据本发明实施例的用于确定语料与给定实体的相关性的装置。

图3示出了根据本发明实施例的用于确定语料与给定实体的相关性的装置的第一实施例的结构方框图。

如图3所示，根据本发明的用于确定语料与给定实体的相关性的装置300包括：通用分类器301，用于基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料；自适应分类器训练单元302，用于基于所述通用分类器使用的通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用所述机器标注语料，训练针对所述第一给定实体的自适应分类器；以及所述自适应分类器303，用于基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，确定第一组语料中的每个语料与第一给定实体的相关性。

图5示出了用于确定语料与给定实体的相关性的装置的第二实施例的结构方框图。如图5所示，装置300还包括：补充特征选取单元304，用于从所述机器标注语料中选取关键词，作为所述补充特征；自适应训练结束单元305，用于验证自适应训练结束条件，在满足自适应训练结束条件的情况下结束自适应训练，在不满足自适应训练结束条件的情况下重复指令所述补充特征选取单元和所述自适应分类器训练单元分别执行选取补充特征和训练自适应分类器的操作，直到满足所述自适应训练结束条件。

如图5所示，装置300还包括：通用特征提取单元306，用于提取所述通用特征。图6示出了根据本发明的实施例的通用特征提取单元的结构方框图。如图6所示，所述通用特征提取单元进一步包括：页面获取单元3061，用于获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种；机构信息获取单元3062，用于从页面获取单元获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个，作为机构信息；语料信息获取单元3063，用于从语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息；以及通用特征计算单元3064，用于基于所述机构信息和所述语料信息，计算得到所述通用特征。

由于在根据本发明的用于确定语料与给定实体的相关性的装置300所包括的通用分类器301、自适应分类器训练单元302、自适应分类器303、补充特征选取单元304、自适应训练结束单元305、通用特征提取单元306的各个单元中的处理与上述描述的步骤S11-S15、S21-S24中的处理存在对应关系，因此为了简洁起见，在此省略这些模块的详细描述。

本发明中使用的分类器可以是任何已知的适当的分类器，例如最大熵分类器、SVM分类器、贝叶斯分类器等。

此外，应当指出本发明的方法、装置及分类器不仅适用于微博，而且也适用于博客等。对于本领域技术人员，将本发明的方法、装置及分类器应用于博客只是例行的工作。

此外，这里尚需指出的是，上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机（例如图7所示的通用计算机700）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图7示出可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706（包括键盘、鼠标等等）、输出部分707（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分708（包括硬盘等）、通信部分709（包括网络接口卡比如LAN卡、调制解调器等）。通信部分709经由网络比如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种用于确定第一组语料中的每个语料与第一给定实体的相关性的方法，包括：

利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料；

基于所述通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用所述机器标注语料，训练针对所述第一给定实体的自适应分类器；以及

基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，利用训练好的所述自适应分类器，确定第一组语料中的每个语料与第一给定实体的相关性。

2.如附记1所述的方法，其中，所述通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种。

3.如附记2所述的方法，其中，所述语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的每一个均包括一元特征相关性、多元特征相关性、元数据相关性、主机名相关性中的至少一个；所述一元特征相关性包括页面中的一元词是否出现在语料中，所述多元特征相关性包括页面中的二元词、二元字符、三元字符中的至少一个是否出现在语料中，所述元数据相关性包括页面的元数据中的关键词是否出现在语料中，所述主机名相关性包括页面的URL地址中包括的主机名是否出现在语料中。

4.如附记3所述的方法，其中，通过如下步骤提取所述通用特征：

获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种；

从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个，作为机构信息；

从语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息；

基于所述机构信息和所述语料信息，计算得到所述通用特征。

5.如附记4所述的方法，其中，所述通用特征计算步骤包括：

如果通用特征对应的所述机构信息和所述语料信息的交集为非空，则相应通用特征为1，否则为0。

6.如附记4所述的方法，其中，所述通用特征计算步骤包括：

将通用特征对应的所述机构信息和所述语料信息映射为向量空间中的特征向量；

比较所述特征向量的相似度，并将所述相似度作为相应通用特征。

7.如附记4所述的方法，其中，所述通用特征计算步骤包括：

将通用特征对应的所述机构信息和所述语料信息进行匹配；

对匹配结果进行加权求和，并将加权求和的结果作为相应通用特征。

8.如附记1所述的方法，其中，实体名称相关的启发式规则包括：实体名称本身是否包括不止一个单词、和/或语料中是否包含完整实体名称。

9.如附记1所述的方法，其中，所述补充特征包括：从所述机器标注语料中选取的与所述第一给定实体相关的一元词、二元词、二元字符、三元字符中的至少一个。

10.如附记1所述的方法，其中，所述第一组语料和第二组语料中的至少部分语料相同。

11.如附记9所述的方法，其中，所述方法还包括：

在所述训练自适应分类器的步骤之前的特征选取步骤，用于从所述机器标注语料中选取关键词，作为所述补充特征；

自适应训练结束步骤，用于验证自适应训练结束条件，在满足自适应训练结束条件的情况下结束自适应训练，在不满足自适应训练结束条件的情况下重复所述特征选取步骤和所述训练自适应分类器的步骤，直到满足所述自适应训练结束条件。

12.如附记11所述的方法，其中，所述自适应训练结束条件包括：迭代达到预定次数或自适应分类器的分类结果基本稳定。

13．如附记1所述的方法，其中，所述实体包括机构；所述语料包括微博帖子或博客帖子。

14.一种用于确定语料与给定实体的相关性的分类器的训练方法，包括：

从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息；

基于所述机构信息和所述语料信息，计算通用特征，所述通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种；以及

基于所计算的通用特征，结合实体名称相关的启发式规则，利用所述训练语料的标注结果，训练所述分类器。

15.如附记14所述的方法，其中，所述通用特征计算步骤包括：

16.如附记14所述的方法，其中，所述通用特征计算步骤包括：

17.如附记14所述的方法，其中，所述通用特征计算步骤包括：

将通用特征对应的所述机构信息和所述语料信息进行匹配；

18.一种用于确定第一组语料中的每个语料与第一给定实体的相关性的装置，包括：

通用分类器，用于基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类，以确定所述第二组语料中的每个语料与所述第一给定实体的相关性，从而得到作为对所述第二组语料的标注结果的机器标注语料；

自适应分类器训练单元，用于基于所述通用分类器使用的通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征，结合实体名称相关的启发式规则，利用所述机器标注语料，训练针对所述第一给定实体的自适应分类器；以及

所述自适应分类器，用于基于从第一组语料提取的通用特征和所述补充特征，结合实体名称相关的启发式规则，确定第一组语料中的每个语料与第一给定实体的相关性。

19.如附记18所述的装置，其中，所述装置还包括：

补充特征选取单元，用于从所述机器标注语料中选取关键词，作为所述补充特征；

自适应训练结束单元，用于验证自适应训练结束条件，在满足自适应训练结束条件的情况下结束自适应训练，在不满足自适应训练结束条件的情况下重复指令所述补充特征选取单元和所述自适应分类器训练单元分别执行选取补充特征和训练自适应分类器的操作，直到满足所述自适应训练结束条件。

20.如附记18所述的装置，还包括通用特征提取单元，用于提取所述通用特征；所述通用特征提取单元包括：

页面获取单元，用于获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种；

机构信息获取单元，用于从页面获取单元获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个，作为机构信息；

语料信息获取单元，用于从语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个，作为语料信息；

通用特征计算单元，用于基于所述机构信息和所述语料信息，计算得到所述通用特征。

Claims

2.如权利要求1所述的方法，其中，所述通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种。

3.如权利要求2所述的方法，其中，所述语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的每一个均包括一元特征相关性、多元特征相关性、元数据相关性、主机名相关性中的至少一个；所述一元特征相关性包括页面中的一元词是否出现在语料中，所述多元特征相关性包括页面中的二元词、二元字符、三元字符中的至少一个是否出现在语料中，所述元数据相关性包括页面的元数据中的关键词是否出现在语料中，所述主机名相关性包括页面的URL地址中包括的主机名是否出现在语料中。

4.如权利要求3所述的方法，其中，通过如下步骤提取所述通用特征：

5.如权利要求1所述的方法，其中，实体名称相关的启发式规则包括：实体名称本身是否包括不止一个单词、和/或语料中是否包含完整实体名称。

6.如权利要求1所述的方法，其中，所述补充特征包括：从所述机器标注语料中选取的与所述第一给定实体相关的一元词、二元词、二元字符、三元字符中的至少一个。

7.如权利要求6所述的方法，其中，所述方法还包括：

8.如权利要求7所述的方法，其中，所述自适应训练结束条件包括：迭代达到预定次数或自适应分类器的分类结果基本稳定。

9.一种用于确定语料与给定实体的相关性的分类器的训练方法，包括：

基于所述机构信息和所述语料信息，计算通用特征，所述通用特征包括：语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种；

10.一种用于确定第一组语料中的每个语料与第一给定实体的相关性的装置，包括：