CN104021202A

CN104021202A - 一种知识共享平台的词条处理装置和方法

Info

Publication number: CN104021202A
Application number: CN201410268830.2A
Authority: CN
Inventors: 李永强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2014-09-03
Anticipated expiration: 2034-06-16
Also published as: CN104021202B

Abstract

提供了一种知识共享平台的词条处理装置和方法。所述知识共享平台的词条处理装置包括：候选词条获取单元，用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容，获取与所述第一目录关联的候选词条及其词条内容；内容比较单元，用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度；词条确定单元，用于根据内容比较单元计算的文本相似度，从候选词条中确定与所述第一目录相关的词条。

Description

一种知识共享平台的词条处理装置和方法

技术领域

本发明涉及一种知识共享平台的词条处理装置和方法，更具体地讲，涉及一种网络百科的词条处理装置和方法。

背景技术

随着互联网技术的快速发展，在互联网上能够为用户提供的内容也越来越多，互联网的用户更加倾向于在互联网上搜寻自己想要了解的内容。然而，在用户从互联网搜寻想要了解的内容时，互联网所能够提供的结果通常过于繁杂，并且与用户想要了解的内容可能并不十分相关，这使得用户感到非常的不便。

在互联网上提供的百科应用是一种能够供用户查检所需知识和事实资料的在线资料应用，通常以词条的形式向用户提供相关的知识内容。并且由于互联网能够提供更加丰富的资料，因此现在的互联网百科应用所能够提供的词条内容也越来越详细，不仅包括对于词条的说明，还会包括与词条相关的一些其他内容。例如，如图1A中所示，当展示词条“红楼梦”的相关内容时，不仅会展示对于红楼梦这部作品的内容介绍，还会展示与红楼梦相关的其他信息，诸如作者简介、人物介绍等等内容。由于展示的内容通常较多，因此如图1A中所示，会以目录的形式对这些内容进行归类，以便于用户查看相应内容。

然而，在百科词条之间会存在许多相似或重复的内容。例如，如图1B所示，在词条“红楼梦”的目录项“作者简介”部分，以大量的篇幅介绍了作者“曹雪芹”，而在百科中，“曹雪芹”也是一个百科词条，词条“红楼梦”的部分词条内容与词条“曹雪芹”相似或重复，在词条“红楼梦”的词条内容中以大量的篇幅介绍了与另一词条相关的一些内容。也就是说，在一个词条的词条内容中，通常会存在与其他词条相关的一些内容，这可能导致在向用户展示与该词条相关的内容时，展示的内容过多使得用户难以很快的找到想要的信息，并且这样的词条展示方式需要大量的存储空间来存储每个词条的词条内容。此外，如图1B中所示，尽管在词条“红楼梦”的相关词条内容中包括对作者曹雪芹的一些介绍，但相对于词条“曹雪芹”中提供的与曹雪芹相关的信息而言，这些介绍可能不够详细。因此，需要一种新的百科词条内容设置方法使得能够以更加简洁、高效的方式向用户展示词条的相关信息。

发明内容

根据本发明的一方面，提供了一种知识共享平台的词条处理装置，所述装置包括：候选词条获取单元，用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容，获取与所述第一目录关联的候选词条及其词条内容；内容比较单元，用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度；词条确定单元，用于根据内容比较单元计算的文本相似度，从候选词条中确定与所述第一目录相关的词条。

所述候选词条获取单元可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。

所述内容比较单元可使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。

所述词条确定单元可具体用于：将针对特定候选词条而计算的文本相似度与预设阈值进行比较，如果计算的文本相似度高于预设阈值，则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条。

所述词条确定单元还可用于：确定所述特定候选词条是否满足预设的多条后处理规则；如果所述特定候选词条满足预设的多条后处理规则中的第N条，则所述词条确定单元确定所述第N条后处理规则对应的阀值，并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值，如果高于，则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条，N为自然数。

根据本发明的另一方面，提供了一种知识共享平台的词条处理方法，所述方法包括：根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容，获取与所述第一目录关联的候选词条及其词条内容；计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度；根据计算的文本相似度，从候选词条中确定与所述第一目录相关的词条。

可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。

可使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。

确定与所述第一目录相关的词条的步骤具体可包括：将针对特定候选词条而计算的文本相似度与预设阈值进行比较，如果计算的文本相似度高于预设阈值，则将所述特定候选词条确定为与所述第一目录相关的词条。

确定与所述第一目录相关的词条的步骤可进一步包括：确定所述特定候选词条是否满足预设的多条后处理规则；如果所述特定候选词条满足预设的多条后处理规则中的第N条，则确定所述第N条后处理规则对应的阀值，并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值，如果高于，则将所述特定候选词条确定为与所述第一目录相关的词条，N为自然数。

有益效果

通过应用本发明的知识共享平台的词条处理装置和方法，不仅能够引导用户方便地浏览更详细的词条相关信息，还能够实现词条间的内容去重从而达到节省存储词条内容所需的存储空间的目的。

附图说明

通过下面结合附图对本发明的示例性实施例进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1A和图1B是示出词条目录和内容的示意性示图；

图2是示出根据本发明的示例性实施例的知识共享平台的词条处理装置的框图；

图3是示出根据本发明的示例性实施例的知识共享平台的词条处理方法的流程图。

具体实施方式

提供以下参照附图进行的描述以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解，但这些细节被认为仅是示例性的。因此，本领域的普通技术人员将认识到：在不脱离本发明的范围和精神的情况下，可对这里描述的实施例进行各种改变和修改。此外，为了清楚和简明，可省略已知功能和构造的描述。

图2是示出根据本发明的示例性实施例的知识共享平台的词条处理装置100的框图。

参照图2，本发明的示例性实施例的知识共享平台的词条处理装置100可包括：候选词条获取单元110、内容比较单元120和词条确定单元130。

在本发明的示例性实施例中，候选词条获取单元110可根据目标词条A(例如，红楼梦)的目录中的某个目录B(例如，图1A和1B中的作者之谜)的目录名(即，作者之谜)和所述目录B下的目录内容，获取与所述目录B关联的候选词条C及其词条内容。

具体地讲，候选词条获取单元110可使用trie树(即，字典树)算法从存储有词条的词条数据库提取与所述目录B关联的候选词条并获取其词条内容。例如，候选词条获取单元110可选择目录B的目录名加上目录B的一部分目录内容(例如，目录B下的目录内容的前几句话)组成候选文本，使用trie树算法从该候选文本中找出候选词条的集合C＝{C1，C2，…，Cn}，即，使用trie树从所述候选文本中确定哪些词属于词条数据库中的现有词条，将该候选文本中属于词条数据库中的现有词条的词条确定为候选词条并获取其词条内容。在找出候选词条集合之后，候选词条获取单元110还可通过词条的逆向文件频率(idf)来过滤掉一些无意义的候选词条。在本发明的示例性实施例中，可基于预先设置的语料库或文件集来获得词条的idf。

应该理解，使用trie树算法找出候选词条的方法以及使用idf来滤除无意义的候选词条的方法对于本领域技术人员而言是已知的，因此在此将不再进行详细描述。此外，从所述候选文本中找出哪些词条属于词条数据库中的现有词条的方法也不限于trie树算法，还可使用本领域已知的各种算法对所述候选文本进行处理以确定出候选词条。

在提取出候选词条的集合C之后，内容比较单元120可计算集合C中的每个候选词条的词条内容与目录B下的目录内容(即，目标词条A的词条内容中的用于描述目录B的一部分内容)之间的文本相似度。

在本发明的示例性实施例中，仅作为示例，内容比较单元120可使用tf-idf算法来计算候选词条的词条内容与目录B下的目录内容之间的文本相似度。

具体地讲，首先，内容比较单元120可对待比较的候选词条的词条内容的文本以及目录B下的目录内容的文本进行词语和词性的标注，从而过滤掉一些副词或介词。然后，内容比较单元120可基于所述两个文本中剩余的每个词语的两个词向量tf(关键词词频)和idf(逆向文件频率)来计算每个候选词条的词条内容的文本与目录B下的目录内容的文本之间的文本相似度，例如，可将基于所述剩余词语的tf和idf而计算的候选词条的词条内容的文本与目录B下的目录内容的文本之间的余弦相似度确定为其文本相似度。

应该理解，使用tf-idf算法计算文本相似度的方法对于本领域技术人员而言是已知的并且不限于以上所列举的示例，因此为了简明，在此将不再进行更加详细的描述。

词条确定单元130可根据内容比较单元120计算的文本相似度，从候选词条C中确定与目录B相关的词条。具体地讲，所述词条确定单元130可将针对每个候选词条而计算的文本相似度与预设阈值进行比较，如果计算的文本相似度高于预设阈值，则所述词条确定单元130可将所述候选词条确定为与所述目录B相关的词条。在本发明的实施例中，所述候选阈值可根据候选词条所满足的预设后处理规则而不同。具体地讲，可根据预先确定的后处理规则来对目录B和针对目录B确定的候选词条的集合C进行后处理，判断候选词条集合C中的每个候选词条所满足的后处理规则。例如，对于候选词条集合C中的某个候选词条Ci，词条确定单元130可确定所述候选词条Ci是否满足预设的多条后处理规则；如果所述特定候选词条Ci满足预设的多条后处理规则中的第N条后处理规则(其中，N为自然数)，则所述词条确定单元130可确定所述第N条后处理规则对应的阀值，并判断针对候选词条Ci而计算的文本相似度是否高于与所述第N条后处理规则对应的阈值，如果高于与所述第N条后处理规则对应的阈值，则所述词条确定单元130可将所述候选词条Ci确定为与目录B相关的词条C_B。以下列出了一些用于判断候选词条Ci是否可被确定为与目录B相关的词条的后处理规则。

规则1：如果B不包含A并且B属于人名，则阈值设置为0.5。

规则2：如果B中含有比较明显的关键字并且Ci是人名，则针对B的以下不同关键字，可分别设置相应的阈值：

(1)(专家简介，阈值设置为0.5)；

(2)(乐团简介、作家，阈值设置为0.7)；

(3)(乐队简介、译者简介，阈值设置为0.6)；

(4)(作家简介、声优简介、声优介绍、声优资料、歌手介绍、作者介绍、歌手资料、歌手简介、画家介绍、作者简介、画家简介、作者、声优等，阈值设置为0.5)；

(5)(创始人且词条Ci的词条区分tf值大于预设值，阈值设置为0.4)

(6)(相关信息、相关知识、相关简介、相关介绍，阈值设置为0.8)。

规则3：

(1)如果B不包含A并且B包含Ci，则阈值设置为0.8；

(2)如果B包含A且B等于Ci，则阈值设置为0.4。

规则4：

(1)如果B和Ci的长度同时大于等于4个字，B不包含A，且B也不包含C，则阈值设置为0.8；

(2)如果B的长度大于4个字并且Ci属于实体类，则阈值设置为0.9；

(3)如果B的长度大于4个字，Ci属于实体类，且B包含Ci，则阈值设置为0.9。

然而，应该理解，上面列出的后处理规则仅是为了便于理解而举出的一些示例，在实际应用中，用户还可根据需要而设置不同的后处理规则。

仅作为上述确定结果的一种示例性应用，在确定了与目录B相关的词条C_B之后，在展示目录B的目录内容时，可将所述目录内容中与词条C_B相关的部分替换为具有可链接到词条C_B的词条内容页面的链接形式的词条C_B。这样，当用户希望查看目录B下与词条C_B相关的信息时，可通过点击具有链接的词条C_B来跳转到词条C_B的页面，从而能够获得更详细的关于该部分的相关信息。

如图3中所示，在210，可由根据本发明的示例性实施例的知识共享平台的词条处理装置100的候选词条获取单元110根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容，获取与所述第一目录关联的候选词条及其词条内容。在本发明的示例性实施例中，候选词条获取单元110可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。仅作为示例，候选词条获取单元110可选择目标词条A的多个目录之中的目录B的目录名加上目录B的一部分目录内容(例如，目录B下的目录内容的前几句话)组成候选文本，使用trie树算法从所述候选文本中确定哪些词属于词条数据库中的现有词条，并将该候选文本中属于词条数据库中的现有词条的词条确定为候选词条并获取其词条内容。

在找出与目录关联的候选词条之后，在230，可由知识共享平台的词条处理装置100的内容比较单元120计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。在本发明的示例性实施例中，所述内容比较单元120可使用tf-idf算法来计算候选词条的词条内容和所述第一目录下的目录内容之间的文本相似度。

具体地讲，例如，内容比较单元120可对待比较的候选词条的词条内容的文本以及第一目录下的目录内容的文本进行词语和词性的标注，从而过滤掉一些副词或介词。然后，内容比较单元120可基于所述两个文本中剩余的每个词语的两个词向量tf(关键词词频)和idf(逆向文件频率)来计算每个候选词条的词条内容的文本与第一目录下的目录内容的文本之间的文本相似度，例如，可将基于所述剩余词语的tf和idf而计算的候选词条的词条内容的文本与第一目录下的目录内容的文本之间的余弦相似度确定为其文本相似度。

然后，在250，可由知识共享平台的词条处理装置100的词条确定单元130根据内容比较单元120计算的文本相似度，从候选词条中确定与所述第一目录相关的词条。

在本发明的示例性实施例中，词条确定单元120可将针对候选词条而计算的文本相似度与预设阈值进行比较，如果计算的文本相似度高于预设阈值，则可将所述候选词条确定为与所述第一目录相关的词条。

优选地，在本发明的示例性实施例中，可预设多条后处理规则来从候选词条确定与所述第一目录相关的词条，每条预设规则可具有不同的阈值。在这种情况下，仅作为示例，对于某个候选词条Ci，词条确定单元130可首先确定所述候选词条Ci是否满足预设的多条后处理规则，如果所述特定候选词条Ci满足预设的多条后处理规则中的第N条后处理规则，则所述词条确定单元130可确定所述第N条后处理规则对应的阀值，并判断针对候选词条Ci而计算的文本相似度是否高于与所述第N条后处理规则对应的阈值，如果高于与所述第N条后处理规则对应的阈值，则所述词条确定单元130可将所述候选词条Ci确定为与第一目录相关的词条C_B。

通过应用以上所描述的根据知识共享平台的词条处理装置和方法，不仅能够引导用户方便地浏览更详细的词条相关信息，还能够实现词条间的内容去重从而达到节省存储词条内容所需的存储空间的目的。

本发明示例性实施例可实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储其后可由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。计算机可读记录介质也可分布于连接网络的计算机系统，从而计算机可读代码以分布式存储和执行。此外，完成本发明的功能程序、代码和代码段可容易地被与本发明相关的领域的普通程序员在本发明的范围之内解释。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种知识共享平台的词条处理装置，所述装置包括：

候选词条获取单元，用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容，获取与所述第一目录关联的候选词条及其词条内容；

内容比较单元，用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度；

词条确定单元，用于根据内容比较单元计算的文本相似度，从候选词条中确定与所述第一目录相关的词条。

2.如权利要求1所述的装置，其中，所述候选词条获取单元使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。

3.如权利要求1所述的装置，其中，所述内容比较单元使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。

4.如权利要求1所述的装置，其中，所述词条确定单元具体用于：将针对特定候选词条而计算的文本相似度与预设阈值进行比较，如果计算的文本相似度高于预设阈值，则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条。

5.如权利要求4所述的装置，其中，所述词条确定单元还用于：确定所述特定候选词条是否满足预设的多条后处理规则；如果所述特定候选词条满足预设的多条后处理规则中的第N条，则所述词条确定单元确定所述第N条后处理规则对应的阀值，并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值，如果高于，则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条，N为自然数。

6.一种知识共享平台的词条处理方法，所述方法包括：

根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容，获取与所述第一目录关联的候选词条及其词条内容；

计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度；

根据计算的文本相似度，从候选词条中确定与所述第一目录相关的词条。

7.如权利要求6所述的方法，其中，使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。

8.如权利要求6所述的方法，其中，使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。

9.如权利要求6所述的方法，其中，确定与所述第一目录相关的词条的步骤具体包括：将针对特定候选词条而计算的文本相似度与预设阈值进行比较，如果计算的文本相似度高于预设阈值，则将所述特定候选词条确定为与所述第一目录相关的词条。

10.如权利要求9所述的方法，其中，确定与所述第一目录相关的词条的步骤进一步包括：确定所述特定候选词条是否满足预设的多条后处理规则；如果所述特定候选词条满足预设的多条后处理规则中的第N条，则确定所述第N条后处理规则对应的阀值，并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值，如果高于，则将所述特定候选词条确定为与所述第一目录相关的词条，N为自然数。