CN102722518A

CN102722518A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN102722518A
Application number: CN2012100742445A
Authority: CN
Inventors: 高松慎吾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-24
Filing date: 2012-03-20
Publication date: 2012-10-10
Also published as: JP2012212422A; US8543583B2; US20120246176A1

Abstract

一种信息处理装置包括：文档分析单元，从文档数据中提取短语，该短语包括被赋予关联性标签的实体对；以及标签赋予单元，赋予指示实体对之间的关联性的关联性标签。标签赋予单元：获得在包括实体对的短语中包括的词汇语法模式，并从文档数据获得词汇语法模式在该文档数据中出现的出现次数；计数实体对的数量；设置从概率密度分布创建的概率模型，该概率密度分布包括所计数的实体对的数量、、指示赋予关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a；计算在概率模型中使似然最大的参数Z和a；评价赋予关联性标签的正当性；以及基于评价结果赋予关联性标签。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开涉及信息处理装置、信息处理方法和程序，更具体地，涉及这样的信息处理装置、信息处理方法和程序：其能够执行用于构建和扩展用来描述关联性(relevance)的数据库(关联性数据库)的处理。

背景技术

由于近年来大量文档数据被数字化，许多文档数据能够通过文档积累数据库、因特网等等来进行浏览。为了从大量文档数据中高效地获得需要的信息，提出了各种创建和使用文档分析数据的处理。

例如，提出了用于构建和使用用来描述实体，如文档中出现的两个词，之间关联性的数据库的处理。

用于描述诸如两个词的实体之间的关联性的数据库被称为关联性数据库。关联性数据库能被用于不同的应用。

将对构建和使用关联性数据库的处理进行概括性地描述。

例如，在关联性数据库中登记(register)了下列信息：

(a)[Taro，Tokyo(东京)]，作为诸如两个词的实体；以及

(b)(BIRTHPLACE(出生地))，作为指示实体之间关联性的标签(关联性标签)。

将两个词(实体)和关联性标签相互对应地进行登记。

通过这种方式，在关联性数据库中相互对应地登记了下列数据：

(a)多个实体(词)；以及

(b)指示实体之间的关联性的标签(关联性标签)。

利用具有登记的信息的关联性数据库，能够执行高效的文档分析。

例如，从将要分析的文档中检测出包括在数据库中登记的两个词[Taro，Tokyo]的句子(短语)。

从而能够确定，被确定为包括登记的实体的句子是对“BIRTHPLACE”的描述性文本。

通过使用一个实体[Taro]和关联性标签“BIRTHPLACE”作为关键字检索关联性数据库，能够提取出[Taro]的出生地[Tokyo]。

通过使用关联性数据库，可以高速执行各种文档分析。

然而，在构建关联性数据库的处理中，必需从将要处理的文档提取关联词，并确定指示关联性的标签。

通过人力来执行这样的处理成本很高。

在关联性数据库中已经构建了许多文档，但是在因特网等等上每天都有大量新的文档被公开。然而，很难及时地扩展关联性数据库，使其相应于日益增加的信息。

例如，根据现有技术，下列技术可以作为公开了构建关联性数据库的处理的技术的示例。

在计算语言学会(ACL)出版的ACL第47届年会联合会议和AFNLP第4届自然语言处理联合会议(ACL′09)的论文集第1003-1011页，收录了由Mike Mintz、Steven Bills、Rion Snow和Daniel Jurafsky于2009年发表的文章《Distant supervision for relation extraction without labeled data(无需标签数据的关系提取远程监控)》，其中公开了一种使用现有关联性数据库将教师信息赋予文档并扩展关联性数据库的方法。在计算语言学会(ACL)出版的ACL第47届年会联合会议和AFNLP第4届自然语言处理国际联合会议(ACL′09)的论文集第1003-1011页所收录的Mike Mintz、Steven Bills、RionSnow和Daniel Jurafsky于2009年发表的文章《Distant supervision for relationextraction without labeled data》中，描述了使用作为对应数据的、在关联性数据库中登记的实体对和关联性标签，例如实体对[Taro，Tokyo]和关联性标签(BIRTHPLACE)的处理。

使用关联性数据库中登记的数据，将关联性标签(此处为BIRTHPLACE)作为教师标签，赋予(grant)从文档中提取的描述(例如，“Taro born in Tokyo(Taro出生于东京)”)。公开了使用关联性数据库中登记的信息解决分类问题并扩展关联性数据库的处理。

然而，当执行此方法时，可能出现这样的问题：赋予了错误的教师标签。例如，关联性数据库中登记的实体对[Taro，Tokyo]和关联性标签(BIRTHPLACE)可能被赋予下列短语：

(A)Taro lived in Tokyo(Taro住在东京)，和

(B)Taro died in Tokyo(Taro逝世于东京)。

具体地说，可能出现这样的错误：在句子，即，不是描述出生地的短语(A)和(B)(短语)中设置了被赋予短语“Taro born in Tokyo”的实体对[Taro，Tokyo]和关联性标签(BIRTHPLACE)。

从而，从现有关联性数据库提供的信息不是完整的教师信息。这是因为，即使当实体对通常指示多种关联性时，也会使用所述实体对作为关键字，将关联性标签赋予文档中的句子。在计算机语言学会出版的ACL第47届年会联合会议和AFNLP第4届自然语言处理国际联合会议(ACL′09)的论文集中收录的Mike Mintz、Steven Bills、Rion Snow和Daniel Jurafsky于2009年发表的文章《Distant supervision for relation extraction without labeled data》所公开的方法中，关联性标签被错误地包括在教师数据中，从而使整体性能恶化。

发明内容

期望提供一种信息处理装置、信息处理方法和程序，其能够通过减少在赋予关联性标签时的错误来构建和扩展高精度的关联性数据录。

本公开涉及用于基于现有关联性数据库，使用能够从网站等等获得的文档，扩展关联数据库的方法。

根据本公开的实施例，提供一种信息处理装置，包括：文档分析单元，其从文档数据提取短语，该短语包括向其赋予关联性标签的实体对；以及标签赋予单元，其赋予指示所述实体对之间的关联性的关联性标签。所述标签赋予单元：通过分析现有关联性数据库的登记信息和文档数据来获得在包括所述实体对的短语中包括的词汇语法模式，并从所述文档数据获得所述词汇语法模式在该文档数据中出现的出现次数，其中，该现有关联性数据库具有有关实体对和关联性标签的登记信息，并且所述文档数据中存在包括在关联性数据库中登记的所述实体对的至少一个短语；计数在所述文档数据中同时与每对词汇语法模式两者出现的实体对的数量；以及设置从概率密度分布创建的概率模型，该概率密度分布包括所计数的实体对的数量、指示赋予关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a，计算在概率模型中使似然最大的参数Z和a，评价为从所述文档数据中提取的实体对赋予关联性标签的正当性，并基于评价结果赋予关联性标签。

在根据本公开的实施例的信息处理装置中，所述标签赋予单元：可以通过分析现有关联性数据库的登记信息和文档数据来获得在包括实体对的短语中包括的词汇语法模式，其中，该现有关联性数据库具有关于实体对和关联性标签的登记信息，并且该文档数据中存在包括在关联性数据库中登记的实体对的至少一个短语；可以获得属于具有在具有词汇语法模式A的短语中出现的实体对的集合的实体对的数量N1、属于具有在具有不同于词汇语法模式A的词汇语法模式B的短语中出现的实体对的集合的实体对的数量N3，以及属于在具有词汇语法模式A的短语中出现的实体对的集合与在具有词汇语法模式B的短语中出现的实体对的集合之间的重叠部分的集合的实体对的重叠数量N2，然后，可以创建重叠比率矩阵M，该矩阵M具有关于三个实体对数量的比率信息作为元素；并且可以使用利用重叠比率矩阵M的概率模型评价为从文档数据中提取的实体对赋予关联性标签的正当性，并可以基于评价结果赋予关联性标签。

在根据本公开的实施例的信息处理装置中，所述重叠比率矩阵M可以是具有数量N3与N2之间的比率N2/N3和数量N1与N2之间的比率N2/N1作为元素的矩阵。

在根据本公开的实施例的信息处理装置中，所述标签赋予单元可以根据参数Z的值向从文档数据中提取的实体对赋予关联性标签，其中所述参数Z的值是作为通过利用概率模型逐次改变和收敛参数Z和a的值所获得的结果而获得的。

在根据本公开的实施例的信息处理装置中，所述参数Z可以是取决于关联性标签被正确地设置还是错误地设置而具有值1或0的参数。

在根据本公开的实施例的信息处理装置中，所述文档分析单元可以获得诸如在所提取的短语中包括的实体对和作为词汇语法模式的词串的数据，并将所述数据存储在三项数据库中，其中，所述所提取的短语包括向其赋予关联性标签的实体对，并且所述词串被包括于在该短语的语法树中联结所述实体对的最短路径中。

在根据本公开的实施例的信息处理装置中，所述标签赋予单元可以被配置成，从三项数据库存储的数据中选择对其赋予关联性标签的词汇语法模式，并且可以从将被处理的词汇语法模式中排除与在三项数据库中存储的一个词汇语法模式相对应的实体对的数量小于规定值的词汇语法模式以及与在现有关联性数据库中登记的实体对的集合中不包括的实体对相对应的词汇语法模式。

在根据本公开的实施例的信息处理装置中，所述标签赋予单元可以执行作为估计参数Z和a的处理的最大似然估计的估计算法。该估计算法(i)随机地初始化参数Z和a，并且(ii)交替地重复更新如下参数直至收敛(不存在参数Z的变化，在最速上升法之后参数a的变化等于或小于0.001)。此外，所述估计算法(ii-i)在参数Z固定之后通过最速上升法估计参数a，并且(ii-ii)在固定参数a之后，关于c随机地排序参数Z，并在固定另一个参数Zc的同时顺序地重置每个参数Zc的值，以使似然最大，并且重复所述排序和重置，直到参数Z不发生变化。

根据本公开的另一实施例，提供一种在信息处理装置中执行的信息处理方法。该信息处理方法包括：从文档数据中提取短语，所述短语包括向其赋予关联性标签的实体对；以及赋予指示所述实体对之间的关联性的关联性标签。赋予关联性标签包括：通过分析现有关联性数据库的登记信息和所述文档数据来获得在包括所述实体对的短语中包括的词汇语法模式，并从所述文档数据获得所述词汇语法模式在该文档数据中出现的出现次数，其中，该现有关联性数据库具有关于实体对和关联性标签的登记信息，并且所述文档数据中存在包括在关联性数据库中登记的所述实体对的至少一个短语；对于词汇语法模式对，计数在所述文档数据中同时与每对词汇语法模式的两方出现的实体对的数量；以及设置从概率密度分布创建的概率模型，该概率密度分布包括所计数的实体对的数量、指示赋予关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a，计算在概率模型中使似然最大的参数Z和a，评价为从所述文档数据中提取的实体对赋予关联性标签的正当性，并基于评价结果赋予关联性标签。

根据本公开的再一实施例，提供一种使得信息处理装置执行信息处理的程序，包括：从文档数据中提取短语，所述短语包括向其赋予关联性标签的实体对；以及赋予指示所述实体对之间的关联性的关联性标签。赋予关联性标签包括：通过分析现有关联性数据库的登记信息和所述文档数据来获得在包括所述实体对的短语中包括的词汇语法模式，并从所述文档数据获得所述词汇语法模式在该文档数据中出现的出现次数，其中，该现有关联性数据库具有关于实体对和关联性标签的登记信息，并且所述文档数据中存在包括在关联性数据库中登记的所述实体对的至少一个短语；对于一对词汇语法模式，计数在所述文档数据中与每对词汇语法模式两者同时出现的实体对的数量；以及设置从概率密度分布创建的概率模型，该概率密度分布包括所计数的实体对的数量、指示赋予关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a，计算在概率模型中使似然最大的参数Z和a，评价为从所述文档数据中提取的实体对赋予关联性标签的正当性，并基于评价结果赋予关联性标签。

根据本公开的实施例的程序是可以以计算机可读格式提供的、通过存储介质或通信介质提供给例如能够执行各种程序代码的图像处理装置或计算机系统的程序。通过以计算机可读格式提供程序，在信息处理装置或计算机系统上实现根据所述程序执行的处理。

从下述参照本公开的实施例和附图的详细描述，本公开的其他特征和优点将变得清楚。说明书中的系统具有多个装置的逻辑集合配置，并且不局限于具有配置的装置包括在同一机壳内的配置。

根据本公开的实施例，可以以高精确度构建或扩展关联性数据库。特别是，从文档数据中提取出包括向其赋予关联性标签的实体对的短语。赋予关联性标签，该关联性标签表示所提取的短语中包括的实体对之间的关联性。标签赋予单元通过分析现有关联性数据库的登记信息获得在包括实体对的短语中所包括的词汇语法模式出现的出现次数，创建在每个词汇语法模式中的实体对的重叠比率矩阵M，设置包括矩阵M、指示关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a的概率模型，计算具有最大似然的参数Z和a，并基于参数Z的值赋予关联性标签。

通过执行所述处理，可以以高精确度提取和扩展关联性数据库。

附图说明

图1A和图1B是图示在根据本公开的信息处理装置执行的处理中的输入和输出的示图；

图2A和图2B是图示在根据本公开的信息处理装置执行的处理中的、提取三数据项的处理的示图；

图3是图示在根据本公开的信息处理装置执行的处理中的、在词汇语法模式与关联性标签之间的对应性(correspondence)的示图；

图4是图示在根据本公开的信息处理装置执行的处理中的、关联性数据库的配置的例子的示图；

图5是图示在根据本公开的信息处理装置执行的处理中的、可以从教师数据库中获得的信息的例子的示图；

图6是图示在根据本公开的信息处理装置执行的处理中的、关联性标签设置中的错误的机制的示图；

图7是图示在根据本公开的信息处理装置执行的处理中的、包含错误的标签赋予模型的示图；

图8是图示在根据本公开的信息处理装置执行的处理中的、潜在变量(potential variable)的示图；

图9是图示在根据本公开的信息处理装置执行的处理中的、实体对的重叠比率矩阵M的描述的示图；

图10是图示根据本公开的信息处理装置的配置的例子的示图；

图11是根据本公开的信息处理装置执行的处理的流程图；

图12是从文档组提取短语的处理的流程图；

图13A和图13B是图示提取的三数据项的例子的示图；

图14是选择短语的处理的流程图；

图15是图示与特定词汇语法模式相对应的实体对的集合S(p)的例子的示图；以及

图16是图示赋予标签的处理的流程图。

具体实施方式

下文中，将参照附图描述根据本公开的实施例的信息处理装置、信息处理方法和程序。

将按以下顺序进行描述。

1、根据本公开的信息处理装置执行的处理的概述

2、处理装置和处理序列的配置

3、处理的细节

3-1、从文档中提取短语的处理(步骤S101和S102)的细节

3-2、从提取的三数据项中选择关联性标签设置目标的处理(步骤S103到S105)的细节

3-3、赋予关联性标签的处理的细节(步骤S106和S107)

3-3-1、使用概率模型1的处理的例子

3-3-2、使用概率模型2的处理的例子

4、增加实体对的处理

5、根据本公开的配置的综述

1、根据本公开的信息处理装置执行的处理的概述

首先，将描述根据本公开的实施例的信息处理装置的处理的概述。

根据本公开的实施例的信息处理装置执行从文档中提取彼此具有关联性的实体对(实体被设置为专有名词等)并指定实体对的处理。

使用在例如现有数据库中已经登记的关联性标签，执行指定从文档中提取的实体对之间的关联性的处理，即，在新的实体对中设置关联性标签的处理。

根据本公开的实施例的信息处理装置通过使用已构建的关联性数据库(DB)、并且使用关联性数据库(DB)的登记信息，来为从新文档中提取的实体对设置关联性标签，其中所述的已构建的关联性数据库(DB)即被构建为实体对与关联性标签之间的对应信息的集合的现有关联性数据库(DB)。也就是说，信息处理装置执行扩展现有关联性数据库(DB)的处理。

现在将描述根据本公开的实施例的信息处理装置执行的处理的概述。

首先，从将要处理的文档中提取包括实体对的短语(句子)。以及提取词汇语法模式(基于语法树和词的字符串模式)，所述词汇语法模式指示所提取的实体对的关联性。

对于每个词汇语法模式，在文档中对包括该词汇语法模式的短语所包括的实体对的数量进行计数。该实体对的数量被称为计数1。

下文中，认为允许有零个或更多的关联性标签对应于词汇语法模式。当词汇语法模式被确定时，假定同时出现的实体对相互之间具有关联性。当向实体对赋予关联性标签时，赋予与同时出现的词汇语法模式相对应的关联性标签。

使用关于现有关联性DB的登记信息(在实体对与关联性数据库之间的对应信息)向下列词汇语法模式赋予关联性标签(这个“对应”不同于上面描述的关联性标签的对应)。

对于与词汇语法模式同时出现的每个实体对，确定是否存在与来自现有关联性DB的该实体对相对应的关联性标签。当确认存在关联性标签时，将该关联性标签赋予为与词汇语法模式同时出现的实体对的关联性标签。

对所有词汇语法模式执行这个处理。这个处理被称为标签赋予序列1。对于词汇语法模式和关联性标签的各对，计数将关联性标签赋予词汇语法模式的次数。该次数被称为计数2。

在根据本公开的实施例的信息处理装置中，将计数1和计数2用作允许关联性标签对应于词汇语法模式的线索(key)。基本上，在词汇语法模式和关联性标签的对中，预期具有较大(计数2)/(计数1)的值的词汇语法模式与关联性标签相对应。

然而，当在标签赋予序列1中将关联性标签赋予词汇语法模式时，可能将本来没有指示这种关联性的关联性标签赋予词汇语法模式。这是因为，由于实体对通常具有多种关联性，因此即使关联性DB中的实体对与文档中的实体对相同时，关联性DB中的关联性标签也不一定指示文档中描述的实体对之间的关联性。

具体地说，例如，当实体对是两个专有名词Taro和Tokyo时，有可能赋予指示不同种类关联性的关联性标签，如BIRTHPLACE、PLACE OF LIVING(居住地)和PLACE OF DEATH(逝世地)，作为指示所述两个专有名词之间关联性的关联性标签。

这样，即使是相同的实体对，通常也具有多种关联性。因此，即使当关联性DB中的实体对与文档中的实体对相同时，关联性DB中的关联性标签也可能不一定指示文档中描述的实体对之间的关联性。

例如，假定现有关联性数据库具有仅仅关于BIRTHPLACE是用于实体对Taro和Tokyo的关联性标签的登记信息，而新近将要处理的文档中的短语是“Tom lives in Tokyo.(汤姆住在东京。)”

在这种情况下，用于与该短语相对应的词汇语法模式的正确关联性标签是PLACE OF LIVING。然而，当不加变化地应用现有关联性数据库中的登记信息时，BIRTHPLACE被设置为关联性标签。

从而，存在可能设置错误的关联性标签的忧虑。

在根据本公开的实施例的信息处理装置中，对于词汇语法模式的所有实体对，对共同出现的实体对的数量进行计数。这个数量被称为计数3。计数3可被用于估计错误的关联性标签被赋予词汇语法模式的概率。

在根据本公开的实施例的信息处理装置中，使用例如如下所述的参数和计数3，对于在标签赋予序列1中赋予关联性标签的概率(被赋予的关联性标签用计数1和计数2来表示)进行建模。

参数Zc是二值参数，其可以被分配给词汇语法模式c和关联性标签的每个对。这里，考虑一个关联性标签。

参数Zc＝1代表词汇语法模式c表示关联性标签的关联性。

参数Zc＝0代表词汇语法模式c不表示关联性标签的关联性。

该参数的估计结果用作词汇语法模式与关联性标签之间的对应关系。

参数a是在0到1范围内的实值参数，其可被分配给每个关联性标签。

此参数a代表具有关联性标签的关联性的实体对存在于关联性DB中的概率。

例如，通过利用最大似然估计来估计每个参数，可以允许关联性标签与词汇语法模式相对应。

图1A示出了作为输入数据的文档的例子，该输入数据是将被根据本公开实施例的信息处理装置处理的数据；图1B示出了通过该信息处理装置的处理而获得的关联性数据库的组成数据的例子。

输入文档是数字化的文档，如在因特网上公开的文档。

例如，从该文档中选择诸如专有名词的两个词作为实体对。

此外，确定指示所选择的实体对之间的关联性的关联性标签。

例如，从图1A示出的文档中包括的短语“Tom Jackson was born in Indiana(汤姆·杰克逊出生于印第安纳州)”选择的实体对是“Tom Jackson(汤姆·杰克逊)”和“Indiana(印第安那州)”。

在本实施例中，提取专有名词作为实体对。

例如，将指示出生地的“BIRTHPLACE”设置为关联性标签，用于指示“Tom Jackson”和“Indiana”之间的关联性，从而执行设置正确的关联性标签的处理。

根据本公开的实施例的信息处理装置执行提取实体对并为提取的实体对设置正确的关联性标签的处理、以及在关联性数据库中增加和更新条目的处理。

机械地执行选择专有名词作为实体对的处理相对容易，但是向选择的实体对赋予正确的关联性标签则比较困难。

根据本公开的实施例的信息处理装置分析来自将要优先处理的文档的包括作为实体对的专有名词的短语的语法，并根据语法树路径(syntax tree pass)的连接形式提取三数据项。

将参照图2A和图2B描述这个处理。

图2A示出了对文档进行语法分析处理的例子。

通过对下列短语的语法分析来创建图2A中示出的语法树路径：

短语：Tom was born in Kyoto on January 15，1981.(汤姆于1981年1月15日出生于京都。)

首先，从语法树路径提取两个专有名词Tom和Kyoto(京都)作为两个实体。

接下来，选择联结两个实体的最短路径，并提取沿所选择路径的词或词串作为“词汇语法模式”。

获得三条数据，即包括两个实体的“实体对”和“词汇语法模式”，以作为三数据项。

在图2A示出的例子中，提取了实体对“Tom”和“Kyoto”以及词汇语法模式“born in(出生于)”。

通过这种方式，根据本公开的实施例的信息处理装置从将要优先处理的整个文档提取所有的实体对和词汇语法模式的三数据项，并将所提取的三数据项存储在数据库(三项数据库)中。

接下来，对三项数据库中存储的三数据项中包括的实体对执行设置正确的关联性标签的处理。

例如，基于词汇语法模式，可以确定在实体对中是否设置了正确的关联性标签。

在图2A和图2B示出的例子中，提取了词汇语法模式“born in”。然而，在许多情况下，在将要处理的文档中，存在从中提取出词汇语法模式“born in”的多个短语。

例如，如图2B中所示，从具有一个相同的词汇语法模式“born in”的短语中选择了其他的实体对。

将参照图3描述关联性标签与通过语法树上联结实体对的路径的词串形成的词汇语法模式之间的对应关系。

图3是图示作为关联性标签与从文档中提取的词汇语法模式之间的对应关系的、通过1和0表示的正确关系的示图。

示出下列词作为词汇语法模式：

born in(出生于)，

band from，

died in(逝世于)，以及

moved to(搬到)。

示出下列词作为关联性标签：

BIRTHPLACE(出生地)，

PLACE OF DEATH(死亡地)，以及

ORIGIN(出身)。

在用于词汇语法模式的正确关联性标签的对应部分示出[1]。

在用于词汇语法模式的错误的关联性标签的对应部分示出[0]。

也就是说，例如，用于词汇语法模式“born in”的正确关联性标签是被设置为[1]的“BIRTHPLACE”或“ORIGIN”。

此外，用于词汇语法模式“died in”的正确关联性标签是设置为[1]的“PLACE OF DEATH”。

通过这种方式，能够根据词汇语法模式确定关联性标签的正当性。

然而，当在没有人为判决的情况下通过自动处理算法执行设置关联性标签的处理时，在一些情况下可能在实体对中设置错误的关联性标签。

根据本公开的实施例的信息处理装置这行这样的处理：通过使用作为教师信息的、基于给定文档已经构建的关联性数据库的登记信息，在从新近将要处理的文档中提取的实体对中设置关联性标签。

此处设置的关联性标签是作为现有数据库的登记信息设置的关联性标签。

图4中示出了现有关联性数据库的登记信息的例子。

如图4中所示，在关联性数据库中登记了实体对(实体1和实体2)与关联性标签之间的对应数据，所述关联性标签指示了实体对之间的关联性。

根据本公开的实施例的信息处理装置执行这样的处理：通过使用现有关联性数据库的登记信息作为教师信息，向从新输入的文档提取的实体对设置正确的关联性标签。

图5是图示当将现有数据库用作教师数据库时获得的信息(即观测数据D)的示图。

图5示出了在包括一些词汇语法模式[(born in)，(band from)，...]的短语的实体对中设置的关联性标签[(BIRTHPLACE)，(PLACE OF DEATH)，...]的比率。

图5的表中示出的值(322/1342)等表示：标签的赋予数量/词汇语法模式出现的出现次数。

例如，在文档中词汇语法模式“born in”出现的次数是1342。

赋予关联性标签“BIRTHPLACE”的数量是322。

根据本公开的实施例的信息处理装置的标签赋予单元通过分析关于现有关联性数据库的登记信息和文档数据，——该现有关联性数据库具有有关实体对和关联性标签的登记信息，而该文档数据中存在包括关联性数据库中登记的实体对的至少一个短语——由此获得在包括实体对的短语中包括的词汇语法模式的出现次数。具体地说，标签赋予单元获得下述每个数据。

标签赋予单元获得：

属于一集合的实体对的数量N1，该集合具有在具有词汇语法模式A的短语中出现的实体对。

属于一集合的实体对的数量N3，该集合具有在具有词汇语法模式B的短语中出现的实体对，该词汇语法模式B不同于词汇语法模式A；以及

属于在具有词汇语法模式A的短语中出现的实体对的集合与在具有词汇语法模式B的短语中出现的实体对的集合之间的重叠部分的集合的实体对的重叠数量N2。

此外，标签赋予单元创建重叠比率矩阵M，该矩阵M具有关于三个实体对数量的比率信息作为元素。稍后将描述这个处理。

将关联性标签“PLACE OF DEATH”赋予词汇语法模式“born in”的处理是赋予错误的关联性标签的处理。

将参照图6描述设置关联性标签时的错误出现机制。

图6示出了从包括两个不同的词汇语法模式的短语中提取的实体对的集合(集合A和集合B)，所述两个不同的词汇语法模式为：

born in；和

moved to。

正确的关联性标签“ORIGIN”被赋予包括词汇语法模式(born in)的短语的实体对的集合A的部分。

另一方面，错误的关联性标签“ORIGIN”还被赋予包括词汇语法模式“moved to”的短语的实体对的集合B的部分。

集合A和B的交集是文档数据中同时与词汇语法模式“born in”和“movedto”出现的实体对的集合。

当执行将关联性标签“ORIGIN”赋予实体对的处理、而该实体对是用于词汇语法模式“moved to”的实体对时，错误的关联性标签被设置。

根据本公开的实施例的信息处理装置考虑由于该机制导致的关联性标签设置错误而实现了正确的标签设置。

图7是图示在根据本公开的实施例的信息处理装置中使用的关联性标签赋予模型的例子的示图。

与图6中相似，图7示出了从包括两个不同的词汇语法模式“born in”和“moved to”的短语中提取的实体对的集合(集合A和集合B)。

假定N1是从包括词汇语法模式“born in”的短语中提取的实体对的集合(集合A)的分量(component)数量，而N3是从包括词汇语法模式“movedto”的短语中提取的实体对的集合(集合B)的分量数量。

此外，假定N2是从重叠部分，即短语当中出现了词汇语法模式“born in”和“moved to”的短语中提取的实体对的集合的分量数量。

假定a是将关联性标签“ORIGIN”赋予属于集合A的实体对的概率。

在这种情况下，可以估计将关联性标签“ORIGIN”错误地赋予词汇语法模式“moved to”的概率是a×(N2/N3)。

接下来，将参照图8描述在根据本公开的实施例的信息处理装置中使用的潜在变量Zc。

如上所述，可以允许在实体对中设置的关联性标签对应于短语中包括的词汇语法模式，其中实体对来自于所述短语。然而，很难自动地确定词汇语法模式与关联性标签之间的对应关系是否正确。

在根据本公开的实施例的处理中，定义并使用用作确定处理处理的指标(index)的潜在变量Zc(这里将使用一个关联性标签)。

Zc是在其中设置0或1的变量，并且Zc根据每个值而表示下列含义：

Zc＝1：赋予包括词汇语法模式c的短语的实体对的标签是正确的；以及

Zc＝0：赋予包括词汇语法模式c的短语的实体对的标签是不正确的。

图8的(b)部分示出了具有公共部分的两个词汇语法模式c1和c2之间的三种关系的例子。

(b1)部分对应于参照图7描述的例子，示出了当将正确的关联性标签赋予词汇语法模式c1的概率为a时，将错误的关联性标签赋予不同的词汇语法模式c2的概率是a×(N2/N3)。

(b2)和(b3)部分示出了在两个不同的词汇语法模式中不存在“相互作用”的例子。

(b2)部分示出了在两个不同的词汇语法模式中设置了正确的关联性标签的例子(Zc1＝1且Zc2＝1)。向两个词汇语法模式都赋予正确的关联性标签的概率是a。

(b3)部分示出了在两个不同的词汇语法模式中设置了错误的关联性标签的例子(Zc1＝0且Zc2＝0)。

根据本公开的实施例的信息处理装置使用潜在变量来执行一处理，该潜在变量指示赋予包括这样的词汇语法模式的短语的实体对的关联性标签是正确还是错误。

稍后将描述该处理的细节。

根据本公开的实施例的信息处理装置设置预定概率模型，以估计在给定词汇语法模式中设置的关联性标签是正确还是错误。

在使用概率模型执行的处理中，使用了矩阵M，该矩阵M是使用与多个词汇语法模式相对应的实体对的集合的数目创建的。

将参照图9描述矩阵M。

形成矩阵M的矩阵分量(mc′c)是使用与参照图6到图8描述的相同的、被包括在多个不同词汇语法模式的实体对的集合中的分量的数量N1到N3计算的。

也就是说，假定N1是从包括词汇语法模式(C′)的短语中提取的实体对的集合(集合A)的分量数量，N3是从包括词汇语法模式(C)的短语中提取的实体对的集合(集合B)的分量数量，而N2是重叠的实体对的集合的分量数量。

形成矩阵M的矩阵分量(mc′c)对应于从第c个词汇语法模式的角度来看，第c′个词汇语法模式与第c个词汇语法模式之间的公共部分的比率。

同样地，形成矩阵M的矩阵分量(mcc′)对应于从第c′个词汇语法模式的角度来看，第c个词汇语法模式与第c′个词汇语法模式之间的公共部分的比率。

当mcc＝0时，关系式“mc′c＝N2/N3”和关系式“mcc′＝N2/N1”成立。

通过这种方式，根据本公开的实施例的信息处理装置设置预定概率模型，以估计在给定词汇语法模式中设置的关联性标签是正确还是错误。

在使用概率模型执行的处理中，如参照图9描述的，使用矩阵M来执行该处理，其中矩阵M是由使用与多个词汇语法模式相对应的实体对的集合的数量计算的矩阵分量形成的。

2、处理装置和处理序列的配置

接下来，将描述根据本公开的实施例的信息处理装置的配置和处理序列。

图10是图示根据本公开的实施例的信息处理装置的主要单元的配置的示图。

图11是图示由图10中示出的信息处理装置执行的总体处理的流程图。

如图10中所示，信息处理装置100包括文档分析单元101、三项数据库(DB)102、标签赋予单元103和关联性数据库(DB)104。

除了图10中示出的配置之外，信息处理装置100还包括存储器和控制单元，该存储器记录执行下述处理的程序，而该控制单元包括CPU，该CPU用于程序执行功能。

在如下所述的实施例中，例如，在将被扩展的现有关联性数据库(DB)104中已经登记了关联性标签“BIRTHPLACE”(人物和地点与出生地相关联)以及与该关联性标签相对应的实体对的集合。

基于所述信息，信息处理装置100执行高精确度地向从新文档提取的实体对设置正确的关联性标签的处理。

将要处理的文档的语言是英语。

在如下所述的实施例中，在实体对中设置的关联性标签是一个。然而，即使在存在其他关联性标签时，也可以执行相同的处理。

将按照图11的流程图来描述信息处理装置100执行的处理。

信息处理装置100根据图11的流程图执行以下处理。

在步骤S101，从文档组中提取包括实体对的短语。

在步骤S102，从所述短语中提取词汇语法模式和实体对，并将其登记到三项DB中。

在步骤S103，从三项数据库(DB)中读取三数据项。

在步骤S104，从关联性数据库(DB)中读取标签数据。

在步骤S105，选择词汇语法模式。

在步骤S106，根据预定的标签赋予算法将关联性标签赋予实体。

在步骤S107，将实体对和关联性标签登记到关联性数据库(DB)中。

下文中，将详细描述图11的流程图中每个步骤的处理。

3、处理的细节

3-1、从文档中提取短语的处理(步骤S101和S102)的细节

首先，将描述从文档中提取短语的处理。

此处理对应于图11示出的流程图中的步骤S101和S102的处理。

在步骤S101，从文档组中提取包括实体对的短语。

在步骤S102，从所述短语中提取词汇语法模式和实体对，并将其存储到三项数据库(DB)中。

步骤S101和S102的处理，即，从文档组中提取包括实体对的短语的处理由图10中示出的信息处理装置100的文档分析单元101执行。

图12示出了在步骤S101和S102中从文档组中提取短语的处理的详细流程图。

图12示出了根据图12的流程图从文档组中提取短语的处理。

在提取短语的处理中，在存在现有关联性数据库的假设之下，基于新文档数据执行扩展现有关联性数据库的处理。

在步骤S201，读取新文档。

在步骤S202，从读取的文档中指定句子。

在步骤S203，执行从指定的句子中提取专有名词的处理，以指定来自文档的专有名词。

在本实施例中，将专有名词设置为将被登记到关联性数据库中的实体，即与关联性标签对应登记的实体。

在步骤S204，提取其中出现两个或更多专有名词的句子。

在步骤S205，通过执行依赖结构语法分析来创建语法树。

接下来，在步骤S206，指定满足所有下列条件的实体对(即，专有名词对)：

条件1：在联结两个实体(专有名词)的语法树路径中不存在用于界定(delimit)句子的依赖关系(关系代词)；

条件2：在语法树中两个实体(专有名词)之间的依赖路径的长度是3或更小；以及

条件3：在文档的表述中，在两个实体(专有名词)之间的词的数量是10或更小。

通过将沿所提取的实体对之间的语法树路径的词从先头实体(headentity)按顺序排列而获得的模式被称为词汇语法模式。

在步骤S207，在短语中包括的实体对和词汇语法模式被登记到三项DB102中。

三项指的是两个实体(即“实体对”)与沿联结两个实体的语法树路径的词(即“词汇语法模式”)的数据组合。

在三项DB 102中登记的数据可以包括实体对的类型(位置、人物，等等)。

在三项DB 102中存储“实体对”和“词汇语法模式”的处理对应于图11的流程图中的步骤S102的处理。

当在另一个短语中出现相同的实体对和相同的词汇语法模式时，所述相同的实体对和相同的词汇语法模式被当作另外的三项来处理，并且在三项DB102中将其个别地登记为另外的三数据项。

图13A和图13B示出了通过上述处理提取的包括实体对的短语(三数据项)。

图13A示出了将被处理的句子的一部分。

图13B示出了从图4示出的文档中提取的、被登记到三项DB 102中的三数据项，即，“实体对”和“词汇语法模式”的例子。

如图13A中所示，在将要处理的文档中包括文档“...The Jackson botherssigned a new contract with BBS Records in June 1975，...Tom Jackson born inIndiana，...(...杰克逊兄弟在1975年6月与BBS Records签订了新的合约，...汤姆·杰克逊出生于印第安纳州，...”。

从图13A示出的文档中提取图13B示出的“实体对”和“词汇语法模式”(即，三数据项)。

(b1)Jackson brothers(杰克逊兄弟)，signed contract with(与...签订合约)，BBS Records；以及

(b2)Tom Jackson(汤姆·杰克逊)，born in(出生于)，Indiana(印第安纳州)。

在这个例子中，提取了专有名词作为实体，并且提取了语法树上沿联结所述实体的路径的词的组合作为词汇语法模式。

在所提取的短语(b1)中，实体对是“The Jackson bothers(杰克逊兄弟)”和“BBS Records”，并且词汇语法模式(在语法树上沿路径联结的词)是“signedcontract with”。

在提取的短语(b2)中，实体对是“Tom Jackson”和“Indiana”，并且词汇语法模式(语法树上沿路径联结的词)是“born in”。

当短语被确定用于提取三数据项时，同时出现的实体对具有相同的关联性。

下文中，将描述允许关联性标签(BIRTHPLACE)对应于在三项数据库102中登记的三数据项的处理，以作为一个处理的例子。

接下来，将描述从在三项数据库中登记的数据中选择在其中设置关联性标签的目标数据的处理。

下文中，从中提取出登记到三项数据库中的数据(即，三数据项：实体对和词汇语法模式)的句子将被描述为“短语”，并且将描述在短语中设置关联性标签的处理。

该处理对应于将关联性标签赋予从短语中提取的、并且被登记在三项数据库中的实体对的处理。

该处理对应于图11的流程图中的步骤S103到S105。

在步骤S103，从三项数据库(DB)中读出登记的三数据项(实体对和词汇语法模式)。

在步骤S104，从关联性数据库(DB)中读出现有的标签数据(关联性标签)。

在步骤S105，选择为其设置关联性标签的词汇语法模式。

所述处理由图10示出的标签赋予单元103执行。

步骤S103到S105的一系列处理包括这样的处理：排除包括的词汇语法模式与关联性数据库104的登记信息具有较少关系的三数据项，以及包括的词汇语法模式由于在文档中出现的频率很小而被确定为无用的三数据项。

将参照图14的流程图详细描述图11的流程图中的步骤S103到S105的处理。

在步骤S301，标签赋予单元103获得在三项DB 102中登记的所有三数据项。

接下来，在步骤S302，对于在三项DB 102中登记的每个出现的词汇语法模式，组织与该词汇语法模式同时出现的实体对的集合S(p)。

与给定的词汇语法模式p相对应的实体对的集合被称为集合S(p)。

图15中示出了实体对的集合S(p)的特定例子。

图15示出了这样的例子：其中，集合S(p)具有实体对“Taro，Tokyo”、“Tom，Indiana”、“Hanako，Chiba”等等，以作为包括与词汇语法模式相对应的词串“born in”的三数据项中的实体对。

接下来，在步骤S303，从三项数据库102中去除这样的词汇语法模式p：该词汇语法模式p的实体对集合S(p)的分量数量为10或更少。

这个处理对应于排除由于在文档中出现频率很小而被确定为无用的词汇语法模式的处理。

接下来，在步骤S304，从关联性数据库104中读出所有实体对。

接下来，在步骤S305，当集合S(p)不包括存在于关联性数据库104中的实体对时，从三项数据库102中去除相应的词汇语法模式p。

这个处理对应于去除与关于关联性数据库104的登记信息具有较少关系的词汇语法模式的处理。

3-3、赋予关联性标签的处理(步骤S106和S107)的细节

接下来，将描述赋予关联性标签的处理和在数据库中登记数据的处理。

该处理对应于图11的流程图中的步骤S106和S107的处理。

也就是说，在步骤S106，根据预定的标签赋予算法将关联性标签赋予实体。

所述处理由图10中示出的标签赋予单元103执行。

将关联性标签“BIRTHPLACE”选择性地赋予在步骤S105被选择作为将被处理的词汇语法模式的词汇语法模式。

具体地说，检查在关联性数据库中是否存在(登记了)与在步骤S105中选择的词汇语法模式p相对应的实体对集合S(p)的各个分量的实体对。当存在该实体对时，将关联性标签“BIRTHPLACE”赋予词汇语法模式p。对所有词汇语法模式执行这个处理。

将参照图16的流程图描述图11的流程图中的步骤S106的详细处理序列。

如上所述，形成了与词汇语法模式p相对应的实体对的集合S(p)。

此外，假定C是在步骤S105被选择作为将被处理的词汇语法模式的词汇语法模式的总数量。

假定c＝1，2，...，C是词汇语法模式的索引。

此时，假定Nc是与词汇语法模式p相对应的实体对的集合S(p)的分量的数量(实体对的总数量)，并且nc是在第c个词汇语法模式中被赋予了关联性标签的实体对的数量。

在图11的流程图的步骤S106中执行的标签赋予算法是使用以参数Nc和nc表示的概率模型来执行的。

在这个处理中，使用下列参数。

参数Z(＝Zc)：

参数Zc是能被分配给每一对第c个词汇语法模式和关联性标签的二值参数。

“参数Zc＝1”表示第c个词汇语法模式是向其设置了特定关联性标签的词汇语法模式，在本实施例中，该特定关联性标签是BIRTHPLACE。

“参数Zc＝0”表示第c个词汇语法模式不是向其设置了特定关联性标签的词汇语法模式，在本实施例中，该特定关联性标签是BIRTHPLACE。

该参数的估计结果是词汇语法模式与关联性标签“BIRTHPLACE”之间的对应关系。

参数a：

该参数指示具有特定关联性标签(在本实施例中为BIRTHPLACE)的关联性的实体对在关联性数据库104中登记的概率。

参数s：

参数s是等于或大于0的实值参数，能被分配给文档。

该参数指示因实体对的多义性之外的原因导致将关联性标签“BIRTHPLACE”错误地赋予词汇语法模式的概率。

使用这些参数Zc、a和s。

在根据本实施例的处理中，对于与词汇语法模式相对应的所有实体对，计数并使用共同出现的实体对的数量。

对于所有不同的词汇语法模式p≠p′，还计数与词汇语法模式p和词汇语法模式p′相对应的实体对集合之间的重叠数量：S(p)∩S(p′)的分量数量。

与上述词汇语法模式p相对应的实体对集合S(p)的分量数量Nc(实体对的总数量)被设置为对重叠数量计数的值。

这个数量被用于估计将错误的关联性标签赋予词汇语法模式的概率。

在定义概率模型时，可以通过最大似然估计等来获得所述参数。如上所述，分配给每一对词汇语法模式和关联性标签的二值参数Zc表示在词汇语法模式与特定关联性标签(在本实施例中为BIRTHPLACE)之间的对应关系。

下文中，作为标签赋予处理的例子，将顺序描述使用两个概率模型执行的处理的例子。

3-3-1、使用概率模型1的处理的例子

首先，将描述使用概率模型1的标签赋予处理的例子。

作为基本处理，根据下面的表达式1设置概率密度分布，并且根据表达式1估计参数a和Z。

p (D, Z | a, M, s) = Π_{c = 1}^{C} {a^{n_{c}} {(1 - a)}^{N_{c} - n_{c}}}^{z_{c}} {{b_{c}}^{n_{c}} {(1 - b_{c})}^{N_{c} - n_{c}}}^{1 - z_{c}}

......表示式1

其中，

b_{c} = a Σ_{n = 1}^{| T_{c} |} sng (n) F (T_{c}, n) + s

......表示式2

D＝{N_c，n_c}，c＝1，...，C

上面的表达式(1)是代表根据a、M和s的值、D和Z出现的概率的表达式。

根据(表达式1中示出的)概率密度分布估计参数a和Z。

在该表达式中，如上所述，参数a是满足关系0≤a≤1的参数，并且参数a是在0到1的范围内的可以分配给每个关联性标签的实值参数。

该参数表示具有特定关联性标签(在本例中为BIRTHPLACE)的关联性的实体对被登记在关联性数据库104中的概率。

Z＝{z_c}，c＝1，...，C

该参数是具有值1或0的潜在变量。值1表示特定关联性标签(在本实施例中为BIRTHPLACE)被正确地赋予词汇语法模式，而值0表示特定关联性标签(在本实施例中为BIRTHPLACE)被错误地赋予词汇语法模式。

在上面的表达式1中，c是集合S中包括的词汇语法模式的索引，并且c＝1，2，...，C。

将被处理的词汇语法模式的总数量是C。也就是说，在步骤S105中选择的将被处理的词汇语法模式的总数量是C。

此外，如上所述，Nc是与第c个词汇语法模式相对应的实体对集合S(p)的分量数量(实体对的总数量)，并且nc是在第c个词汇语法模式中被赋予了该关联性标签的实体对的数量。

在表达式1中，bc表示当词汇语法模式并不指示特定关联性标签(在本实施例中为BIRTHPLACE)的关联性时，将该关联性标签赋予实体对的概率(错误概率)。考虑了多个实体对的集合的公共部分。

在本实施例中，上面的表达式2用作错误概率bc的计算表达式。

应用于错误概率bc的计算表达式(表达式2)的参数如下。

T_c＝{m_c′c|Z_c′＝1}

F(T_c，n)＝(当从T_c的分量创建n项时所有组合的和)

|T|表示集合T的分量数量。

按照下列顺序执行使用根据表达式1的概率模型执行的标签赋予处理。

首先，根据上面的表达式1定义在估计参数a和Z的处理中应用的矩阵M。

该处理是图16的流程图中的步骤S401的处理。

根据本公开的实施例的信息处理装置的标签赋予单元103分析现有关联性数据库的登记信息和将为该关联性数据库生成的现有文档数据，其中，该现有关联性数据库具有有关实体对和关联性标签的登记信息，由此该标签赋予单元103获得在包括实体对的短语中包括的多个词汇语法模式出现的出现次数。具体地说，获得下列数据。

标签赋予单元103获得：

属于一集合的实体对的数量N1，该集合具有在具有词汇语法模式A的短语中出现的实体对；

属于在具有词汇语法模式A的短语中出现的实体对的集合与在具有词汇语法模式B的短语中出现的实体对的集合之间的、重叠部分的集合的实体对的重叠数量N2。

此外，标签赋予单元103创建重叠比率矩阵M，该矩阵M具有关于三个实体对数量的比率信息作为元素。

矩阵M是c乘c矩阵，并且由下列表达式定义。

M＝(m_c′c)，c＝1，...，C，c′＝1，...，C

是C乘C矩阵，

m_{c^{'} c} = \frac{N_{c^{'} c}}{N_{c}},

m_{{cc}^{'}} = \frac{N_{{cc}^{'}}}{N_{c^{'}}},

在该表达式中，Nc′是第c’个S(p)的分量数量。Nc是第c个S(p)的分量数量，并且Nc′c＝Ncc′是在第c个S(p)与第c′个S(p)之间的公共部分的分量数量。

这里，mc′c是从第c个S(p)的角度来看，在第c′个S(p)与第c个S(p)之间的公共部分的比率。该分量用于估计当特定关联性标签(在本实施例中为BIRTHPLACE)被正确地赋予第c′个词汇语法模式、并且BIRTHPLACE被错误地赋予第c个词汇语法模式时，将BIRTHPLACE错误地赋予第c个S(p)的分量的概率。

在图16的流程图中的步骤S401中，创建矩阵M。

接下来，在步骤S402，基于上述表达式1估计参数Z和a。例如，通过最大似然估计方法执行估计处理。此外，除了作为估计方法的最大似然估计方法之外，还可以通过例如后验概率最大化方法或贝叶斯方法来执行估计处理。

最大似然估计的估计算法的例子如下。

也就是说，估计算法

(i)随机地初始化参数Z和a；

(ii)交替地重复更新下列参数直至收敛(不存在参数Z的变化，在最速上升法(steepest ascending method)之后参数a的变化等于或小于0.001)；

(ii-i)在参数Z固定之后通过最速上升法估计参数a；以及

(ii-ii)，在固定参数a之后关于c随机地排序参数Z，并且在固定另一个参数Zc的同时顺序地重置每个参数Zc的值，从而使似然最大，并且重复排序和重置直到参数Z不发生变化。

在步骤S402，根据最大似然估计、后验概率最大化方法或贝叶斯方法估计参数Z和a。

最后，在步骤S403，基于在步骤S402中获得的作为估计结果的参数Z的值，在所选择的词汇语法模式中设置关联性标签。

也就是说，将关联性标签(在本实施例中为BIRTHPLACE)赋予被确定为“Zc＝1”的词汇语法模式。

然而，上述表达式2中示出的错误概率bc的计算表达式具有计算量过大的问题。

因此，为了减少计算成本，可以根据下列计算表达式近似地计算错误概率bc。

b_{c} = a (1 - Π_{c^{'} = 1}^{C} {(1 - m_{c^{'} c})}^{z_{c^{'}}}) + s

或者

b_{c} = a (1 - Π_{c^{'} = 1}^{C} {(1 - m_{c^{'} c})}^{z_{c^{'}}} + s)

s是如下范围的实值：

0 \leq s \leq \min_{c} Π_{c^{'} = 1}^{C} (1 - m_{c^{'} c})

3-3-2、使用概率模型2的处理的例子

接下来，将描述使用概率模型2执行的标签赋予处理的例子。

考虑用下面的表达式3表示的概率密度分布。

p (D, Z | a, M, s) = Π_{c = 1}^{C} {a^{n_{c}} {(1 - a)}^{N_{c} - n_{c}}}^{z_{c}} {{b_{c}}^{n_{c}} {(1 - b_{c})}^{N_{c} - n_{c}}}^{1 - z_{c}}

......表达式3

其中，

b_{c} = a (Σ_{c^{'} = 1}^{C} m_{c^{'} c} z_{c^{'}} - Σ_{c^{'} = 1}^{C} Σ_{c^{''} + 1}^{C} m_{c^{'} c} m_{c^{''} c} z_{c^{'}} z_{c^{''}}) + s

D＝{N_c，n_c }，c＝1，...，C，i＝1，...，N_c

同样地，计算最大似然情况下的参数Z和a，这就变成了“0≤bc≤1”的受约束优化问题。

受约束的最大似然估计算法的例子如下。

受约束的最大似然估计算法：

(i)随机初始化参数Z和a，以便满足约束条件；

(ii)交替地重复更新如下参数直至收敛(不存在参数Z的变化，在最速上升法之后参数a的变化等于或小于0.001)，其中，当每个更新参数不满足约束条件时，算法相应地停止并返回紧邻的前一值作为估计结果；

(ii-i)在参数Z固定之后通过最速上升法估计参数a；以及

此外，可以与参数a和Z一起估计参数s，该参数s指示因实体对一致之外的理由所导致的标签错误概率。

Σ_{c^{'} = 1}^{C} m_{c^{'} c} \leq 1 - s

特别是，当对所有的c均满足上述表达式时，由于对参数Z和a两者均满足“0≤bc≤1”，所以不会导致受约束的最优化。

当条件满足时，计算量较小。参数Z和a通过最大似然估计来估计。参数Z和a也可以通过后验概率最大化方法或贝叶斯方法来估计。

最大似然估计的估计算法的例子如下。

也就是说，估计算法

(i)随机地初始化参数Z和a；

(ii)交替地重复执行下列操作直至收敛(不存在参数Z的变化，在最速上升法之后参数a的变化等于或小于0.001)；

(ii-i)在参数Z固定之后通过最速上升法估计参数a；以及

可以与参数a和Z一起估计参数s。

通过这种方式，基于通过应用上述概率模型1和2之一执行的处理而估计的参数Z，将BIRTHPLACE赋予“Zc＝1”的词汇语法模式。

将结果登记到关联性数据库中。该处理是图11中步骤S107的处理。

4、增加实体对的处理

接下来，将描述图11中步骤S107的处理。该处理是作为图10中示出的标签赋予单元103的处理执行的。

被赋予了BIRTHPLACE的词汇语法模式p的实体对集合S(p)中的、但在关联性DB中不存在的实体对被添加到关联性DB中。

通过上述处理来执行扩展关联性数据库的处理。

通过上述处理能够获得下列优点。

当将关联性DB的关联性标签赋予(从文档中提取的)词汇语法模式以指示实体对之间的关联性时，可以减少错误的关联性标签。减少错误的关联性标签是通过关联性DB向文档数据加标签或引导(bootstrap)方法所共有的课题。

可以基于用于各个关联性标签的不同标准，检测关联性标签是否被错误地赋予每个词汇语法模式。

由于不是必需设置可能对结果产生很大影响的参数，所以可以实现广泛地应用。

在上述实施例中，作为使用现有关联性数据库的处理示例，已经描述了赋予现有关联性数据库中登记的关联性标签“BIRTHPLACE”的处理示例。然而，例如，在可能不使用现有关联性数据库或者执行设置未在现有关联性数据库中登记的关联性标签的处理的情况下，在执行下列处理以作为前处理时，也可以执行与上述实施例相同的处理。

也就是说，选择描述期望被赋予的诸如BIRTHPLACE的关联性标签的多个短语。例如，选择包括“born in”的短语。通过由人对短语进行确认来可靠地执行该处理。

将从短语中提取的实体对以及关联性标签“BIRTHPLACE”登记到临时数据库中。

可以执行假定该临时关联性数据库是现有数据库的处理。

5、根据本公开的配置的综述

到此为止已经描述了本公开的特定实施例。然而，对本领域技术人员而言明显的是，当然可以在本公开的范围内对本公开的实施例进行修改或替换而不偏离本公开的要旨。也就是说，至此已经描述了本公开的实施例以作为本公开的例子，因而本公开的实施例不应被看作是限制性的。应认为本公开的要旨由权利要求的范围确定。

说明书中公开的技术可以如下配置。

(1)一种信息处理装置包括：文档分析单元，从文档数据中提取短语，所述短语包括被赋予关联性标签的实体对；以及标签赋予单元，赋予指示实体对之间的关联性的关联性标签。标签赋予单元通过分析现有关联性数据库的登记信息和文档数据，获得包括实体对的短语中包括的词汇语法模式，并且从文档数据获得该词汇语法模式在该文档数据中出现的出现次数，其中，所述现有关联性数据库具有关于实体对和关联性标签的登记信息，并且在所述文档数据中存在包括在关联性数据库中登记的实体对的至少一个短语；对于词汇语法模式对，计数在文档数据中与每对词汇语法模式中的两方同时出现的实体对的数量；以及设置从包括所计数的实体对的数量、指示赋予关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a的概率密度分布创建的概率模型，计算在概率模型中使似然最大的参数Z和a，评价为从文档数据中提取的实体对赋予关联性标签的正当性，并且基于评价结果赋予关联性标签。

(2)在(1)所描述的信息处理装置中，标签赋予单元通过分析现有关联性数据库的登记信息和文档数据，获得在包括实体对的短语中包括的词汇语法模式，其中所述现有关联性数据库具有关于实体对和关联性标签的登记信息，并且所述文档数据中存在包括在关联性数据库中登记的实体对的至少一个短语；获得属于具有在具有词汇语法模式A的短语中出现的实体对的集合的实体对的数量N1，属于具有在具有不同于词汇语法模式A的词汇语法模式B的短语中出现的实体对的集合的实体对的数量N3、以及属于在具有词汇语法模式A的短语中出现的实体对的集合与在具有词汇语法模式B的短语中出现的实体对的集合之间的重叠部分的集合的实体对的重叠数量N2，然后，创建重叠比率矩阵M，该矩阵M具有关于三个实体对数量的比率信息作为元素；以及使用利用重叠比率矩阵M的概率模型，来评价为从文档数据中提取的实体对赋予关联性标签的正当性，并基于评价结果赋予关联性标签。

(3)在(2)所描述的信息处理装置中，重叠比率矩阵M是具有数量N3和N2之间的比率N2/N3和数量N1和N2之间的比率N2/N1作为元素的矩阵。

(4)在(1)到(3)中任意一项所描述的信息处理装置，标签赋予单元根据参数Z的值项从文档数据中提取的实体对赋予关联性标签，其中，所述参数Z是作为通过使用概率模型、逐次改变和收敛参数Z和a的值获得的结果而获得的。

(5)在(1)到(4)中任意一项所描述的信息处理装置中，参数Z是取决于关联性标签被正确设置还是错误设置而具有值1或0的参数。

(6)在(1)到(5)中任意一项所描述的信息处理装置中，文档分析单元获得诸如在所提取的短语中包括的实体对和词串的数据，并将所述数据存储在三项数据库中，其中，所述所提取的短语包括被赋予关联性标签的实体对，并且所述词串被包括于在该短语的语法树中的联结所述实体对的最短路径中。

(7)在(1)到(6)中任意一项所描述的信息处理装置中，标签赋予单元被配置成，从三项数据库存储的数据中选择对其赋予关联性标签的词汇语法模式，并且从将被处理的词汇语法模式中排除与在三项数据库中存储的一个词汇语法模式相对应的实体对的数量小于预定值的词汇语法模式以及与在现有关联性数据库中登记的实体对的集合中不包括的实体对相对应的词汇语法模式。

(8)在(1)到(7)中任意一项所描述的信息处理装置中，标签赋予单元执行作为估计参数Z和a的处理的最大似然估计的估计算法，该估计算法(i)随机地初始化参数Z和a，并且(ii)交替地重复更新如下参数直至收敛(不存在参数Z的变化，在最速上升法之后参数a的变化等于或小于0.001)，并且所述估计算法(ii-i)在参数Z固定之后通过最速上升法估计参数a，并且(ii-i)在固定参数a之后，关于c随机地排序参数Z，并在固定另一个参数Zc的同时顺序地重置每个参数Zc的值，以使似然最大，并且重复所述排序和重置，直到参数Z不发生变化。

在本公开的配置中，包括了在上述信息处理装置中执行的处理方法或执行处理方法的程序。

在说明书中，上述一系列处理可以通过硬件、软件或其组合配置来执行。当通过软件执行处理时，可以将记录处理序列的程序安装在嵌入了专用硬件的计算机的存储器中，或者可以将其安装在能够执行各种处理的通用计算机中以便执行。例如，程序可以预先存储在记录媒体中。除了从记录介质安装到计算机之外，程序还可以通过诸如局域网(LAN)或因特网的网络接收，或者可以安装在诸如内部硬盘的记录介质中。

说明书中描述的不同处理可以按照描述的顺序执行，或者可以取决于执行处理的装置的处理能力或根据需要并行地或独立地执行。说明书中的系统具有多个装置的逻辑集合配置，并且不局限于具有配置的装置包括在同一机壳内的配置。

本公开包含与2011年3月24日向日本特许厅提交的日本优先权专利申请JP2011-065240号以及2011年11月29日向日本特许厅提交的日本优先权专利申请JP2011-261036号的公开内容相关的主题，上述申请的全部内容通过引用合并于此。

本领域技术人员应当理解，取决于设计要求和其他因素，可以进行各种修改、组合、子组合和变更，只要它们在权利要求或其等价物的范围之内即可。

Claims

1.一种信息处理装置，包括：

文档分析单元，其从文档数据提取包括向其赋予关联性标签的实体对的短语；以及

标签赋予单元，其赋予指示所述实体对之间的关联性的关联性标签，

其中，所述标签赋予单元

通过分析具有关于实体对和关联性标签的登记信息的现有关联性数据库中的登记信息和其中存在至少一个包括在关联性数据库中登记的实体对的短语的文档数据，来获得在包括实体对的短语中包括的词汇语法模式，并从所述文档数据获得所述词汇语法模式在该文档数据中出现的出现次数

对于词汇语法模式对，计数在所述文档数据中与每对词汇语法模式的两方同时出现的实体对的数量，以及

设置从概率密度分布创建的概率模型，该概率密度分布包括所计数的实体对的数量、指示赋予关联性标签的正当性的参数Z、以及指示正确赋予关联性标签的概率的参数a，计算在概率模型中使似然最大的参数Z和a，评价为从所述文档数据中提取的实体对赋予关联性标签的正当性，并基于评价结果赋予关联性标签。

2.如权利要求1所述的信息处理装置，其中，所述标签赋予单元

通过分析具有关于实体对和关联性标签的登记信息的现有关联性数据库中的登记信息和其中存在至少一个包括在关联性数据库中登记的实体对的短语的文档数据，来获得在包括实体对的短语中包括的词汇语法模式，

获得属于具有在具有词汇语法模式A的短语中出现的实体对的集合的实体对的数量N1、属于具有在具有不同于词汇语法模式A的词汇语法模式B的短语中出现的实体对的集合的实体对的数量N3、以及属于在具有词汇语法模式A的短语中出现的实体对的集合与在具有词汇语法模式B的短语中出现的实体对的集合之间的重叠部分的集合的实体对的重叠数量N2，然后，创建重叠比率矩阵M，该矩阵M具有关于三个实体对数量的比率信息作为元素，并且

使用利用重叠比率矩阵M的概率模型，来评价为从文档数据中提取的实体对赋予关联性标签的正当性，并基于评价结果赋予关联性标签。

3.如权利要求2所述的信息处理装置，其中，所述重叠比率矩阵M是具有数量N3与N2之间的比率N2/N3和数量N1与N2之间的比率N2/N1作为元素的矩阵。

4.如权利要求1所述的信息处理装置，其中，所述标签赋予单元根据参数Z的值向从文档数据中提取的实体对赋予关联性标签，其中所述参数Z的值是作为通过利用概率模型逐次改变和收敛参数Z和a的值所获得的结果而获得的。

5.如权利要求1所述的信息处理装置，其中，所述参数Z是取决于关联性标签被正确地设置还是错误地设置而具有值1或0的参数。

6.如权利要求1所述的信息处理装置，其中，所述文档分析单元获得在所提取的短语中包括的实体对和作为词汇语法模式的词串的数据，并将所述数据存储在三项数据库中，其中，所述所提取的短语包括向其赋予关联性标签的实体对，并且所述词串被包括于在该短语的语法树中联结所述实体对的最短路径中。

7.如权利要求1所述的信息处理装置，其中，所述标签赋予单元被配置成，从三项数据库存储的数据中选择对其赋予关联性标签的词汇语法模式，并且从将被处理的词汇语法模式中排除与在三项数据库中存储的一个词汇语法模式相对应的实体对的数量小于规定值的词汇语法模式以及与在现有关联性数据库中登记的实体对的集合中不包括的实体对相对应的词汇语法模式。

8.如权利要求1所述的信息处理装置，其中，所述标签赋予单元执行作为估计参数Z和a的处理的最大似然估计的估计算法，该估计算法

(i)随机地初始化参数Z和a，并且

(ii)交替地重复更新如下参数直至收敛，收敛是指不存在参数Z的变化，在最速上升法之后参数a的变化等于或小于0.001，

并且所述估计算法

(ii-i)在参数Z固定之后通过最速上升法估计参数a，并且

(ii-ii)在固定参数a之后，关于c随机地排序参数Z，并在固定另一个参数Zc的同时顺序地重置每个参数Zc的值，以使似然最大，并且重复所述排序和重置，直到参数Z不发生变化。

9.一种在信息处理装置中执行的信息处理方法，包括：

从文档数据中提取短语，所述短语包括向其赋予关联性标签的实体对；以及

赋予指示所述实体对之间的关联性的关联性标签，

其中，赋予关联性标签包括

通过分析具有关于实体对和关联性标签的登记信息的现有关联性数据库的登记信息和其中存在至少一个包括在关联性数据库中登记的实体对的短语的文档数据，来获得在包括实体对的短语中包括的词汇语法模式，并从所述文档数据获得所述词汇语法模式在该文档数据中出现的出现次数，

10.一种使得信息处理装置执行信息处理的程序，包括：

赋予指示所述实体对之间的关联性的关联性标签，

其中，赋予关联性标签包括

通过分析具有关于实体对和关联性标签的登记信息的现有关联性数据库的登记信息和其中存在至少一个包括在关联性数据库中登记的实体对的短语的文档数据，来获得在包括所述实体对的短语中包括的词汇语法模式，并从所述文档数据获得所述词汇语法模式在该文档数据中出现的出现次数，