CN106326300A

CN106326300A - 信息处理方法以及信息处理设备

Info

Publication number: CN106326300A
Application number: CN201510382448.9A
Authority: CN
Inventors: 房璐; 缪庆亮; 方瑞玉; 孟遥
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-07-02
Filing date: 2015-07-02
Publication date: 2017-01-11

Abstract

本公开提供一种信息处理方法和信息处理设备。该信息处理方法包括：将预定文本数据库中包括的关键词关联到预定语义知识数据库中，其中，关联到预定语义知识数据库中的关键词作为第一关键词构成第一关键词集合；计算第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由预定文本数据库中未关联到预定语义知识数据库中的第二关键词构成；以及根据第二关键词与各个第一关键词之间的相似度，将第一关键词在预定语义知识数据库中具有的可传递语义关系应用于该第二关键词。根据本公开的信息处理设备和信息处理方法能够容易、准确地将文本数据库中的关键词关联到预定语义知识库中。

Description

信息处理方法以及信息处理设备

技术领域

本发明涉及信息处理领域，尤其涉及用于提取关键词之间关系的信息处理方法和信息处理设备。

背景技术

随着计算机以及互联网技术的进步和发展，大量文本信息呈现指数级快速增长。从海量的非结构化信息中抽取能够表示文本语义的关键词以及关键词之间的语义关系对于知识库、领域本体、语义词典等的验证和构建具有重要意义。因此，如何有效地获取关键词之间的语义关系是本领域亟需解决的问题。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的之一是提供一种信息处理设备、信息处理方法以及电子装置，以至少克服现有的问题。

根据本公开的一个方面，提供一种信息处理信息处理方法，包括：基于预定文本数据库中包括的各个关键词之间的关系、每个关键词与其在预定语义知识数据库中的候选关联词之间的关系、以及各个候选关联词之间的关系，将预定文本数据库中包括的关键词关联到预定语义知识数据库中，其中，关联到预定语义知识数据库中的关键词作为第一关键词构成第一关键词集合；计算所述预定文本数据库中包括的第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由所述预定文本数据库中未关联到所述预定语义知识数据库中的第二关键词构成；以及根据所述第二关键词与各个所述第一关键词之间的相似度，将所述第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

根据本公开的另一方面，提供一种信息处理设备，包括：关联装置，用于基于预定文本数据库中包括的各个关键词之间的关系、每个关键词与其在预定语义知识数据库中的候选关联词之间的关系、以及各个候选关联词之间的关系，将预定文本数据库中包括的关键词关联到预定语义知识数据库中，其中，关联到预定语义知识数据库中的关键词作为第一关键词构成第一关键词集合；相似度计算装置，用于计算所述预定文本数据库中包括的第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由所述预定文本数据库中未关联到所述预定语义知识数据库中的第二关键词构成；以及应用装置，用于根据所述第二关键词与各个所述第一关键词之间的相似度，将所述第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

根据本公开的另一个方面，还提供了一种电子设备，该电子设备包括如上所述的信息处理设备。

依据本公开的其它方面，还提供了一种使得计算机用作如上所述的信息处理设备的程序。

依据本公开的又一方面，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的计算机程序，该计算机程序在执行时能够使计算设备执行上述信息处理方法。

上述根据本公开实施例的信息处理设备和方法以及电子装置，至少能够获得以下益处之一：能够容易、准确地将文本数据库中的关键词关联到预定语义知识库中，并且能够有效地获取关键词之间的语义关系。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的信息处理方法的流程图。

图2是示出根据本公开实施例的将所述第一关键词关联到预定语义知识数据库中(S11)的一个具体实施例的示意性流程图。

图3是示出根据本公开实施例的构建第一关系矩阵(S111)的步骤的一个具体实施例的流程图。

图4示出了根据本公开的关键词关系图的示例。

图5是示出根据本公开实施例的构建第二关系矩阵(S112)的步骤的一个具体实施例的流程图。

图6是示出根据本公开实施例的计算第二关键词与第一关键词之间的相似度(S12)的步骤的一个具体实施例的流程图。

图7是示出根据本公开实施例的信息处理方法的另一种示例处理的流程图。

图8是示出根据本公开实施例的信息处理设备的一种示例结构的框图。

图9是示出了可用来实现根据本公开实施例的信息处理设备和信息处理方法的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

如图1所示，根据本公开的信息处理方法的处理流程包括：

在S11，基于预定文本数据库中包括的各个关键词之间的关系、每个关键词与其在预定语义知识数据库中的候选关联词之间的关系、以及各个候选关联词之间的关系，将预定文本数据库中包括的关键词关联到预定语义知识数据库中，其中，关联到预定语义知识数据库中的关键词作为第一关键词构成第一关键词集合。然后执行S12的处理。

在S12，计算所述预定文本数据库中包括的第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由所述预定文本数据库中未关联到所述预定语义知识数据库中的第二关键词构成。然后执行S13的处理。

在S13，根据所述第二关键词与各个所述第一关键词之间的相似度，将所述第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

根据本公开，预定的文本数据库可以是包含文本数据的各种数据库，例如，文献数据库。预定文本数据库中包括的关键词例如是由文献数据库中包括的、能够表征各文献的主要内容的关键词。

预定文本数据库中包括的第一关键词集合指的是由预定文本数据库中的、能够通过步骤S11被关联到预定语义知识库中的关键词构成的集合。预定文本数据库中包括的第二关键词集合指的是由预定文本数据库中的、不能通过步骤S11被关联到预定语义知识库中的关键词构成的集合。

预定语义知识库例如可以是现有的知识库，例如DBpedia知识库，其包括多个语义关键词以及这些语义关键词之间的语义关系。

根据本公开，关键词在预定语义知识数据库中的候选关联词例如可以是基于关键词与预定语义知识库中的各个关键词之间的相似度确定的，例如可以将预定语义知识库中与关键词之间字符串相似度大于预定阈值或者首字母匹配的关键词作为该关键词的候选关联词。关键词与其候选关联词之间的关系例如可以通过关键词与该候选关联词之间的语义相似度来表示。

根据本公开，例如可以通过各个关键词之间的语义相关度、字符串相似度等等来表示各个关键词之间的关系；类似地，例如可以根据各个候选关联词之间的语义相关度、字符串相似度等等来表示各个候选关联词之间的关系。

如图2所示，将预定文本数据库中包括的关键词关联到预定语义知识数据库中的步骤S11进一步包括：

在S111，计算各个关键词之间的语义相关度，并根据所述各个关键词之间的语义相关度构建第一关系矩阵。

在S112，针对每个关键词，根据预定模式从所述语义知识数据库中提取关键词作为候选关联词，并计算该关键词与各个候选关联词之间的语义相关度以根据该语义相似度构建第二关系矩阵，其中针对所有关键词提取的所有候选关联词构成候选关联词集合。

在S113，计算候选关联词集合中各个候选关联词之间的语义相关度，并根据所述候选关联词之间的语义相关度构建第三关系矩阵。

在S114，基于所述第一关系矩阵、所述第二关系矩阵以及所述第三关系矩阵，将所述关键词关联到所述预定语义知识数据库。

根据本公开，第一关系矩阵是表示预定文本数据库中的关键词之间的关系的矩阵，第二关系矩阵是表示预定文本数据库中的关键词与其在预定语义知识库中的候选关联词之间的关系的矩阵，第三关系矩阵是表示预定语义知识库中各个候选关联词之间的关系的矩阵。

如图3所示，构建第一关系矩阵S111包括：

在S1111，基于所述预定文本数据库中的关键词构建关键词关系图，所述关系图中的每个节点表示一个所述关键词，两个节点之间的边的权重表示相应的两个关键词之间的语义相关度。

图4示出了根据本公开的关键词关系图的示例。如图4所示，节点M、N分别表示关键词a和b，节点M和N之间的边的权重表示关键词a和b之间的语义相关度SR(a，b)。

根据本公开的一个实施例，可以根据现有技术中的计算语义相关度的方法来计算预定文本数据库中各个关键词之间的语义相关度。根据本公开的优选实施例，还可以基于不同关键词在同一语境下出现的次数来计算该不同关键词之间的语义相关度。

例如，可以基于如下公式(1)来计算关键词a和b之间的语义相关度SR(a，b)：

S R (a, b) = 1 - \frac{\lg (\max (| A |, | B |)) - \lg (| A \cap B |)}{\lg (| W | - \lg (\min (| A |, | B |)))} - - - (1)

其中，|A|,|B|分别表示预定文本数据库中与关键词a和b出现在同一语境(例如同一篇文章)下的关键词的集合A和B中关键词的数量，W表示关键词集合W中关键词的数量，即预定文本数据库中包括的所有关键词的数量。

在获得了关键词关系图中各个边的权重，即相关关键词之间的语义相关度之后，可以基于关键词关系图构建表示关键词之间关系的第一关系矩阵。

例如，当预定文本数据库包括的所有关键词的数量为N时，在S1112中，将所述关键词关系图转换为由如下公式(2)表示的第一关系矩阵|N×N|：

| N \times N | = [\begin{matrix} k_{1, 1} & ... & k_{1, n} \\ ... & k_{i, j} & ... \\ k_{n, 1} & ... & k_{n, n} \end{matrix}] - - - (2)

其中，n为关键词集合中包括的关键词的数量，k_ij表示第i个关键词与第j个关键词之间的语义相关度，i和j为自然数。

根据本公开的一个实施例，k_ij例如可以通过根据公式(1)计算的SR(i,j)来获得。

如图5所示，构建第二关系矩阵S112包括：

在S1121，针对每个关键词，在所述预定语义知识库中，提取与该关键词的字符串相似度大于预定阈值或者与该关键词的首字母匹配的关键词作为该关键词的候选关联词。

例如，可以提取与关键词的字符串相似度大于0.8的词作为该关键词的候选关联词。字符串相似度的计算可以采用本领域公知的方法进行计算，在此不再赘述。

通常，关键词经常以缩写形式出现，例如“support vector machine(支持向量机)”有时会被写作其缩写形式SVM。因此，根据本公开，还可以将与关键词首字母匹配的词作为该关键词的候选关联词。

在步骤S1121中针对每个关键词提取了其候选关联词之后，所有关键词的候选关联词构成候选关联词集合。然后，在步骤S1122中，根据每个关键词的上下文及其候选关联词的上下文，计算每个关键词与其各个候选关联词之间的语义相似度。

根据本公开实施例，可以采用本领域公知的语义相似度计算方法，对关键词与其各个候选关联词之间的语义相似度进行计算。根据本公开实施例，在预定文本数据库为文献数据库的情况下，由于文献数据库中，摘要通常也作为一个字段被保存，并且在预定语义知识库中也存在类似于摘要的文本，因此，可以利用这些摘要信息作为上下文，计算关键词与其候选关联词之间的语义相似度。

例如，可以根据如下公式(3)计算关键词K与其候选关联词C之间的语义相似度CR(K,C)。

CR (K, C) = \frac{k \cdot c}{| k | | c |} - - - (3)

其中，k表示关键词K的上下文向量，c表示候选关联词C的上下文向量，|k|和|c|分别表示向量k和c的模。

例如，当通过所有关键词获得的所有候选关联词的数量为M个时，在步骤S1123，可以根据所述关键词与其候选关联词之间的语义相关度，根据如下公式构建第二关系矩阵|N×M|：

| N \times M | = [\begin{matrix} {kc}_{1, 1} & ... & {kc}_{1, m} \\ ... & {kc}_{i, j} & ... \\ {kc}_{n, 1} & ... & {kc}_{n, m} \end{matrix}] - - - (4)

其中，

其中，n为预定文本数据库中包括的关键词的数量；m为候选关联词集合中包括的候选关联词的数量；CR(k_i,c_j)为第i个关键词与其第j个候选关联词之间的语义相似度，i和j为自然数。

在步骤S113计算候选关联词结合中各个候选关联词之间的语义相似度的处理以及根据候选关联词之间的语义相似度构建第三关系矩阵的处理，可以与在步骤S111计算关键词之间的语义相似度的处理以及根据关键词之间的语义相似度构建第一关系矩阵的处理类似。

例如，构建第三关系矩阵的步骤可以包括：基于候选关联词集合中的所有候选关联词构建候选关联词关系图，该关系图中的每个节点表示一个候选关联词，两个节点之间的边的权重表示相应的两个候选关联词之间的语义相关度；将候选关联词关系图转换为由如下公式表示的第三关系矩阵：

| M \times M | = [\begin{matrix} c_{1, 1} & ... & c_{1, m} \\ ... & c_{i, j} & ... \\ c_{m, 1} & ... & c_{m, m} \end{matrix}] - - - (6)

其中，m表示候选关联词集合中候选关联词的数量，c_ij表示第i个候选关联词与第j个候选关联词之间的语义相关度，i和j为自然数。

根据本公开的一个实施例，c_ij例如可以通过根据公式(1)计算的SR(i,j)来获得，但本公开不限于此，也可以采用现有技术中已知的其他计算关键词之间语义相关度的方法来获得c_ij，在此不再赘述。

当在步骤S111、S112、S113分别获得了第一关系矩阵、第二关系矩阵和第三关系矩阵之后，在S114，可以基于第一关系矩阵、第二关系矩阵以及第三关系矩阵，将第一关键词关联到预定语义知识数据库。根据本公开，例如可以通过将第一关系矩阵、第二关系矩阵以及第三关系矩阵进行矩阵相乘获得表示关键词与各个候选关联词之间关系的新的关系矩阵，以确定关键词在预定语义数据库中所关联的关联词，从而将该关键词关联到预定语义数据库中。

例如，可以根据公式(7)对第一、第二、第三关系矩阵进行相乘并获得新的第二关系矩阵|N×M|'，将其作为第二关系矩阵|N×M|再次带入公式(7)中，直到获得的新的第二关系矩阵|N×M|'收敛为止。

|N×M|'＝|N×N|·|N×M|·M×M| (7)

对于关键词K_i，取在收敛的新第二关系矩阵中与该第一关键词具有最大语义相似度且大于预定阈值的候选关联词C_j作为预定语义知识库中与其相关联的关联词。本领域技术人员可以理解，预定阈值可以是通过有限次实验获得或者可以是经验值。

在此情况下，将关联到预定语义知识库中的关键词称为第一关键词。并且，本领域技术人员可以理解，在此情况下，如果所有的候选关联词与该关键词之间的语义相似度都不大于预定阈值，则不将该关键词关联到预定语义知识库中，从而将该关键词称为第二关键词。

根据本公开的实施例，文本数据库中包括的未关联到预定语义知识库中的关联词作为第二关键词。根据本公开，可以基于每个第二关键词与第一关键词之间的相似度，而将第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

根据本公开，可传递语义关系包括如下中至少之一：上下位关系和并列关系。

在预定文本数据库为文献数据库的情况下，根据本公开的实施例，计算各个第二关键词与每个所述第一关键词之间的相似度的步骤S12可以包括：基于第一关键词和第二关键词分别与所述文献数据库中所包括的特定字段之间的关系计算所述第一关键词和所述第二关键词之间的语义相似度。

文献数据中除了关键词(K)之外,一般还存在这样的字段：作者(A)、文章(P)、所发表的期刊或会议(Pub)等。根据本公开，可以通过构建关键词与其它这些字段中每个字段的关系矩阵来确定关键词之间的语义相似度。

如图6所示，计算第二关键词与第一关键词之间的相似度的步骤S12包括：

在S121，针对每个字段，获取该字段与每个第一关键词和每个第二关键词的关系矩阵。根据本公开，例如可以通过如下方式构建关系矩阵。

(1)例如，可以基于关键词与记载该关键词的文章之间的关系，构建关键词-文章关系矩阵M_k,p。如下表所示，“1”表示相应的关键词被相对应的文章所用，“0”表示关键词不被相应的文章所用。如表中示，关键词K₁被文章P₁和P₂所用，关键词K_n-1被文章P₂所用，关键词K_n被文章P_m-1和P_m所用。

表1

例如，可以基于上表，将关键词-文章关系矩阵M_k,p构建为下式(8)：

M_{K, P} = [\begin{matrix} 1 & 1 & ... & 0 & 0 \\ 0 & 0 & ... & 0 & 0 \\ ... & ... & ... & ... & ... \\ 0 & 0 & ... & 0 & 1 \\ 0 & 0 & ... & 1 & 1 \end{matrix}] - - - (8)

(2)类似地，可以基于文章与作者之间的关系(即，文章有哪些作者)，构建文章-作者关系矩阵。表2示出了文章与作者之间的关系，如下表所示，“1”表示相应的文章的作者中包括对应的作者，“0”表示相应的文章的作者中不包括对应的作者。

表2

根据本公开的实施例，可以以类似于关键词-文章关系矩阵M_K，P的方式、基于上表构建文章-作者关系矩阵M_P,A。

类似地，还可以构建文章与所发表期刊之间的关系矩阵M_P,PUB，其具体构建方式与上述关键词-文章矩阵M_K,P、文章-作者关系矩阵M_P,A类似，在此不再赘述。

通过将上述矩阵相乘，可以得到关键词与其他字段的关系：

(1)通过文章得到关键词之间的关系矩阵，M_KPK＝M_K,P·M_P,K，其中，M_P,K为关键词-文章矩阵M_K,P的转置。

(2)通过文章得到关键词与作者之间的关系矩阵，M_KPA＝M_K,P·M_P,A。

(3)通过文章得到关键词与期刊或会议之间的关系矩阵，M_KPPub＝M_K,P·M_P,Pub。

在获得了关键词与各个其他字段之间的关系矩阵之后，在步骤S122，基于每个关系矩阵，获取各个第二关键词的关键词信息向量以及各个第一关键词的关键词信息向量，并且针对每个第二关键词，计算该第二关键词的关键词信息向量与各个第一关键词信息向量的相似度。

更具体地，以关键词之间的关系矩阵M_KPK为例描述关系获取第二关键词以及第一关键词的关键词信息向量的处理。

假设通过文章得到关键词之间的关系矩阵M_KPK被表示为如下矩阵：

如上矩阵中的第i行可以表示第一关键词i的关键词信息向量K_i，即K_i＝(w_i1,w_i2,…，w_im)，第j行可以表示第二关键词j的关键词信息向量K_j，即K_j＝(w_j1,w_j2,…，w_jm)。从而可以根据现有技术中公知的用于计算向量之间相似度的计算方法，计算关键词信息向量之间的相似度。例如，根据本公开，可以采用如下公式(10)计算第一关键词i和第二关键词j的关键词信息向量作为第一关键词和第二关键词之间的相似度：

Score_KPK(i,j)＝cosine_similarity(K_i,K_j) (10)

类似地，可以提取上述关键词-作者关系矩阵M_KPA中的第i行向量作为表示关键词i的作者的信息向量K_i,第j行表示关键词j的作者的信息向量K_j；提取关键词-期刊或会议关系矩阵M_KPPUB中的第i行表示关键词i所发表的期刊或会议的信息向量K_i，第j行表示关键词j所发表的期刊或会议的信息向量K_j,从而计算出基于关键词-作者关系矩阵获得的关键词i和j之间的相似度，以及基于关键词-期刊或会议关系矩阵获得的关键词i和j之间的相似度。

在基于各个关系矩阵计算出第一关键词的关键词信息向量与第二关键词的关键词信息向量之间的相似度之后，在步骤S123，针对每个第二关键词，根据基于每个关系矩阵计算得到的该第二关键词的关键词信息向量与各个第一关键词的关键词信息向量的相似度，计算该第二关键词与各个第一关键词之间的相似度。

根据本公开的一个实施例，可以对基于各个关系矩阵获得的第二关键词的关键词信息向量与第一关键词的关键词信息向量之间的相似度进行加权组合，来获得第二关键词与该第一关键词之间的相似度。

例如，可以通过如下公式(11)来计算第二关键词j与第一关键词i之间的相似度。

Sim(i,j)＝λ₀SR(i,j)+λ₁Score_KPK(i,j)+λ₂Score_KPA(i,j)+λ₃Score_KPPub(i,j) (11)

其中，SR(i,j)为基于上述公式(1)计算的第一关键词i与第二关键词j之间的语义相关度。参数λ₀、λ₁、λ₂、λ₃为在确定第一关键词i与第二关键词j之间的相似度时其语义相关度以及基于关键词之间的关系矩阵、关键词-作者关系矩阵、关键词-期刊或会议关系矩阵获得的各个相似度的权重；其可以由用户根据需要设置，也可以由本领域技术人员根据有限次实验获得。

在对于第二关键词j，基于每个第一关键词计算了相似度之后，可以基于选取与第二关键词之间具有最大相似度的第一关键词，作为可以传递语义关系的第一关键词。

根据本公开的实施例，将所述第一关键词具有的可传递语义关系应用于所述第二关键词的步骤S13包括：针对每个第二关键词，将与其之间的所述相似度为最大的第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于该第二关键词。

通过预定语义知识库中已存在的上下位或者并列关系等，将已关联到知识库中的的第一关键词的上下位关系或者并列关系传递给未关联关键词。

如图7所示，除了与图1的信息处理方法10类似地包括：S11将每个第一关键词关联到预定语义知识数据库中、S12计算第二关键词集合中的各个第二关键词与每个第一关键词之间的相似度、以及S13将所述第一关键词在预定语义知识数据库中具有的可传递语义关系应用于第二关键词之外，还包括S14，利用搜索引擎对应用于第二关键词的可传递语义关系进行验证。

为了提高所抽取的关键词的语义关系的准确性，本公开提出利用搜索引擎进行简单地验证。首先定义一些能明确表示可传递语义关系的模板。例如，以上下位关系为例，英文的“*is a kind of(是一种)*”、中文的“*是一种*”，然后把待验证的两个词代入到模板中，形成一个字符串；在搜索引擎中搜索这个字符串，如果搜索引擎返回的片段中包含此字符串，则待验证的两个词上下文关系成立，否则则不成立。

如图8所示，信息处理设备8包括：关联装置81，用于基于预定文本数据库中包括的第一关键词集合中的各个第一关键词之间的关系、每个第一关键词与其在预定语义知识数据库中的候选关联词之间的关系、以及各个候选关联词之间的关系，将所述每个第一关键词关联到预定语义知识数据库中；相似度计算装置82，用于计算所述预定文本数据库中包括的第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由预定文本数据库中未关联到所述预定语义知识数据库中的第二关键词构成；以及应用装置83，用于根据所述第二关键词与各个所述第一关键词之间的相似度，将所述第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

关联装置81、相似度计算装置82以及应用装置83执行的处理例如可以参照图1至图7描述的信息处理方法中的各个处理步骤，在此省略对其的具体描述。

与现有技术中相比，根据本公开的信息处理设备和信息处理方法具有至少以下一个优点：能够容易、准确地将文本数据库中的关键词关联到预定语义知识库中，并且能够有效地获取关键词之间的语义关系。

此外，本公开的实施例还提供了一种电子装置，该电子装置被配置包括如上所述的信息处理设备8。该电子装置例如可以是以下设备中的任意一种：手机；计算机；平板电脑；以及个人数字助理等。相应地，该电子装置能够拥有如上所述的信息处理设备的有益效果和优点。

上述根据本公开的实施例的信息处理设备(例如图8中所示的信息处理设备)中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

图9是示出了可用来实现根据本公开的实施例的信息处理设备和信息处理方法的一种可能的处理设备的硬件配置的结构简图。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM903中，还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件也连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序可根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开的实施例的图像处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户图像处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到图像处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，在根据本公开的实施例中，本公开提供了如下方案，但不限于此：

方案1、一种信息处理方法，包括：

基于预定文本数据库中包括的各个关键词之间的关系、每个关键词与其在预定语义知识数据库中的候选关联词之间的关系、以及各个候选关联词之间的关系，将预定文本数据库中包括的关键词关联到预定语义知识数据库中，其中，关联到预定语义知识数据库中的关键词作为第一关键词构成第一关键词集合；

计算所述预定文本数据库中包括的第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由所述预定文本数据库中未关联到所述预定语义知识数据库中的第二关键词构成；以及

根据所述第二关键词与各个所述第一关键词之间的相似度，将所述第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

方案2、如方案1所述的信息处理方法，其中，所述可传递语义关系包括如下中至少之一：上下位关系和并列关系。

方案3、如方案1或2所述的信息处理方法，其中，将预定文本数据库中包括的关键词关联到预定语义知识数据库中的步骤包括：

计算各个关键词之间的语义相关度，并根据所述各个关键词之间的语义相关度构建第一关系矩阵；

针对每个关键词，根据预定模式从所述语义知识数据库中提取关键词作为候选关联词，并计算该关键词与各个候选关联词之间的语义相关度以根据该语义相似度构建第二关系矩阵，其中针对所有关键词提取的所有候选关联词构成候选关联词集合；

计算候选关联词集合中各个候选关联词之间的语义相关度，并根据所述候选关联词之间的语义相关度构建第三关系矩阵；以及

基于所述第一关系矩阵、所述第二关系矩阵以及所述第三关系矩阵，将所述关键词关联到所述预定语义知识数据库。

方案4、如方案3所述的信息处理方法，其中，构建第一关系矩阵的步骤包括：

基于所述预定文本数据库中的关键词构建关键词关系图，所述关系图中的每个节点表示一个所述关键词，两个节点之间的边的权重表示相应的两个关键词之间的语义相关度；以及

将所述关键词关系图转换为由如下公式表示的第一关系矩阵|N×N|：

| N \times N | = [\begin{matrix} k_{1, 1} & ... & k_{1, n} \\ ... & k_{i, j} & ... \\ k_{n, 1} & ... & k_{n, n} \end{matrix}];

其中，n为预定文本数据库中包括的关键词的数量，k_ij表示第i个关键词与第j个关键词之间的语义相关度，i和j为自然数。

方案5、如方案4所述的信息处理方法，其中，构建第二关系矩阵的步骤包括：

针对每个关键词，在所述预定语义知识库中，提取与该关键词的字符串相似度大于预定阈值或者与该关键词的首字母匹配的关键词作为该关键词的候选关联词；

根据所述关键词的上下文以及所述候选关联词的上下文，计算每个关键词与其候选关联词之间的语义相似度；

根据所述关键词与其候选关联词之间的语义相似度，构建如下第二关系矩阵|N×M|：

| N \times M | = [\begin{matrix} {kc}_{1, 1} & ... & {kc}_{1, m} \\ ... & {kc}_{i, j} & ... \\ {kc}_{n, 1} & ... & {kc}_{n, m} \end{matrix}];

其中，

方案6、如方案1-5中任一项所述的信息处理方法，其中，

所述预定的文本数据库为文献数据库；

计算各个第二关键词与每个所述第一关键词之间的相似度的步骤包括：基于第一关键词和第二关键词分别与所述文献数据库中所包括的特定字段之间的关系计算所述第一关键词和所述第二关键词之间的语义相似度。

方案7、如方案4-6中任一项所述的信息处理方法，其中，

所述特定字段包括：作者、文章、关键词、所发表的期刊或会议，

计算各个第二关键词与每个所述第一关键词之间的相似度的步骤包括：

针对每个字段，获取该字段与每个第一关键词和每个第二关键词的关系矩阵；

基于每个关系矩阵，获取各个第二关键词的关键词信息向量以及各个第一关键词的关键词信息向量，并且针对每个第二关键词，计算该第二关键词的关键词信息向量与各个第一关键词的关键词信息向量的相似度；以及

针对每个第二关键词，根据基于每个关系矩阵计算得到的该第二关键词的关键词信息向量与各个第一关键词的关键词信息向量的相似度，计算该第二关键词与各个第一关键词之间的相似度。

方案8、如方案7所述的信息处理方法，其中，将所述第一关键词具有的可传递语义关系应用于所述第二关键词的步骤包括：针对每个第二关键词，将与其之间的所述相似度为最大的第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于该第二关键词。

方案9、如方案1-8中任一项所述的信息处理方法，还包括：利用搜索引擎对应用于所述第二关键词的可传递语义关系进行验证。

方案10、一种信息处理设备，包括：

关联装置，用于基于预定文本数据库中包括的各个关键词之间的关系、每个关键词与其在预定语义知识数据库中的候选关联词之间的关系、以及各个候选关联词之间的关系，将预定文本数据库中包括的关键词关联到预定语义知识数据库中，其中，关联到预定语义知识数据库中的关键词作为第一关键词构成第一关键词集合；

相似度计算装置，用于计算所述预定文本数据库中包括的第二关键词集合中的各个第二关键词与每个所述第一关键词之间的相似度，其中所述第二关键词集合由所述预定文本数据库中未关联到所述预定语义知识数据库中的第二关键词构成；以及

应用装置，用于根据所述第二关键词与各个所述第一关键词之间的相似度，将所述第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于所述第二关键词。

方案11、如方案10所述的信息处理设备，其中，所述可传递语义关系包括如下中至少之一：上下位关系和并列关系。

方案12、如方案10或11所述的信息处理设备，其中所述关联装置包括：

第一计算单元，用于计算各个关键词之间的语义相关度，并根据所述各个关键词之间的语义相关度构建第一关系矩阵；

第二计算单元，用于针对每个关键词，根据预定规则从所述语义知识数据库中提取关键词作为候选关联词，并计算该关键词与各个候选关联词之间的语义相关度以根据该语义相似度构建第二关系矩阵，其中针对所有关键词提取的所有候选关联词构成候选关联词集合；

第三计算单元，用于计算候选关联词集合中各个候选关联词之间的语义相关度，并根据所述候选关联词之间的语义相关度构建第三关系矩阵；

关联单元，用于基于所述第一关系矩阵、所述第二关系矩阵以及所述第三关系矩阵，将所述关键词关联到所述预定语义知识数据库。

方案13、如方案12所述的信息处理设备，其中，所述第一计算单元包括：

关系图构建子单元，用于基于所述预定文本数据库中的关键词构建关键词关系图，所述关系图中的每个节点表示一个所述关键词，两个节点之间的边的权重表示相应的两个关键词之间的语义相关度；

第一关系矩阵获取子单元，用于将所述关键词关系图转换为由如下公式表示的第一关系矩阵|N×N|：

| N \times N | = [\begin{matrix} k_{1, 1} & ... & k_{1, n} \\ ... & ... & ... \\ k_{n, 1} & ... & k_{n, n} \end{matrix}];

方案14、如方案13所述的信息处理设备，其中，所述第二计算单元包括：

提取子单元，用于针对每个关键词，在所述预定语义知识库中，提取与该关键词的字符串相似度大于预定阈值或者与该关键词的首字母匹配的关键词作为该关键词的候选关联词；

计算子单元，用于根据所述关键词的上下文以及所述候选关联词的上下文，计算每个关键词与其候选关联词之间的语义相似度；

第二关系矩阵获取子单元，用于根据所述关键词与其候选关联词之间的语义相似度，构建如下第二关系矩阵|N×M|：

| N \times M | = [\begin{matrix} {kc}_{1, 1} & ... & {kc}_{1, m} \\ ... & {kc}_{i, j} & ... \\ {kc}_{n, 1} & ... & {kc}_{n, m} \end{matrix}];

其中，

方案15、如方案10-14中任一项所述的信息处理设备，其中，所述预定的文本数据库为文献数据库，所述相似度计算装置用于基于第一关键词和第二关键词分别与所述文献数据库中所包括的特定字段之间的关系计算所述第一关键词和所述第二关键词之间的语义相似度。

方案16、如方案15所述的信息处理设备，其中，所述特定字段包括：作者、文章、关键词、所发表的期刊或会议，所述相似度计算装置包括：

字段关系矩阵构建单元，用于针对每个字段，获取该字段与每个第一关键词和每个第二关键词的关系矩阵；

向量提取单元，用于基于每个关系矩阵，获取各个第二关键词的关键词信息向量以及各个第一关键词的关键词信息向量，并且针对每个第二关键词，计算该第二关键词的关键词信息向量与各个第一关键词信息向量的相似度；以及

相似度计算单元，用于针对每个第二关键词，根据基于每个关系矩阵计算得到的该第二关键词的关键词向量与各个第一关键词信息向量的相似度，计算该第二关键词与各个第一关键词之间的相似度。

方案17、如方案10-16中任一项所述的信息处理设备，其中，所信息处理设备还包括：验证装置，用于利用搜索引擎对所述应用装置应用于所述第二关键词的可传递语义关系进行验证。

方案18、一种电子设备，包括根据方案10-17中任一项所述的信息理设备，其中电子设备是手机、计算机、平板电脑、或个人数字助理。

方案19、一种使得计算机用作如方案10-17中任一项所述的信息处理设备的程序。

方案20、一种计算机可读存储介质，其上存储有能够由计算设备执行的计算机程序，该程序使得计算机用作如方案10-17中任一项所述的信息处理设备。

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种信息处理方法，包括：

2.如权利要求1所述的信息处理方法，其中，所述可传递语义关系包括如下中至少之一：上下位关系和并列关系。

3.如权利要求1或2所述的信息处理方法，其中，将预定文本数据库中包括的关键词关联到预定语义知识数据库中的步骤包括：

4.如权利要求3所述的信息处理方法，其中，构建第一关系矩阵的步骤包括：

| N \times N | = [\begin{matrix} k_{1, 1} & ... & k_{1, n} \\ ... & k_{i, j} & ... \\ k_{n, 1} & ... & k_{n, n} \end{matrix}];

5.如权利要求4所述的信息处理方法，其中，构建第二关系矩阵的步骤包括：

| N \times M | = [\begin{matrix} {kc}_{1, 1} & ... & {kc}_{1, m} \\ ... & {kc}_{i, j} & ... \\ {kc}_{n, 1} & ... & {kc}_{n, m} \end{matrix}];

其中，

6.如权利要求1-5中任一项所述的信息处理方法，其中，

所述预定的文本数据库为文献数据库；

7.如权利要求4-6中任一项所述的信息处理方法，其中，

8.如权利要求7所述的信息处理方法，其中，将所述第一关键词具有的可传递语义关系应用于所述第二关键词的步骤包括：针对每个第二关键词，将与其之间的所述相似度为最大的第一关键词在所述预定语义知识数据库中具有的可传递语义关系应用于该第二关键词。

9.如权利要求1-8中任一项所述的信息处理方法，还包括：利用搜索引擎对应用于所述第二关键词的可传递语义关系进行验证。

10.一种信息处理设备，包括：