CN105512101B

CN105512101B - 一种自动构建主题词的方法及装置

Info

Publication number: CN105512101B
Application number: CN201510859829.1A
Authority: CN
Inventors: 王兴华; 李小磊; 万巍; 尤勇
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Founder Apabi Technology Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2018-06-26
Anticipated expiration: 2035-11-30
Also published as: CN105512101A

Abstract

一种自动构建主题词方法及装置，该方法包括如下步骤：将第一数字资源进行分词，获得第一分词结果；获取第一分词结果中各个分词的权重值；获取至少一篇与第一数字资源相关的第二数字资源；将第二数字资源进行分词，获得第二分词结果；获取第二分词结果中各个分词的权重值；将第一分词结果中各个分词与第二分词结果中各个分词进行匹配；根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重；根据主题词权重选取第一分词结果中的部分分词作为第一数字资源主题词。本发明不仅效率高，而且构建的主题词可以准确地表达第一数字资源的主题思想，能满足标引文献和检索文献的要求。

Description

一种自动构建主题词的方法及装置

技术领域

本发明涉及数字资源处理领域，具体涉及一种自动构建主题词的方法及装置。

背景技术

数字资源是文献信息的表现形式之一,是以数字形式发布、存取、利用的信息资源总和。主题词是指在标引和检索中用以表达文献主题的规范化的词或词组。因此，准确的主题词对文献的检索和标引等具有非常重要的作用，从而如何从数字资源中快速准确地提取主题词以对其进行有效的管理和利用是亟需解决的问题。

对于数字资源的主题词构建，目前一般采用如下几种办法：1)人工设定主题词；2)普通的文档数据抽取方法。

但是上述两种方法都存在不足，人工设定主题词的方法有效率低、成本高、易出错等缺点。普通的文档数据抽取方法，虽然其效率相比人工方式有一些提高，但存在构建效果不佳的问题，如，所选择的主题词实用性不强，不能满足标引文献和检索文献的要求，或者不能准确地表达文献的主题思想。

发明内容

因此，本发明要解决的技术问题在于现有的主题词抽取方法存在构建效果不佳的问题。

为此，本发明实施例提供了如下技术方案：

一种自动构建主题词的方法，包括如下步骤：

将第一数字资源进行分词，获得第一分词结果；

获取第一分词结果中各个分词的权重值；

获取至少一篇与第一数字资源相关的第二数字资源；

将第二数字资源进行分词，获得第二分词结果；

获取第二分词结果中各个分词的权重值；

将第一分词结果中各个分词与第二分词结果中各个分词进行匹配；

根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重；

根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。

优选地，将第一数字资源进行分词获得第一分词结果的步骤和将第二数字资源进行分词获得第二分词结果的步骤均包括：

按照筛选条件对分词进行筛选，筛选条件包括删除停用词。

优选地，至少一篇与第一数字资源相关的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。

优选地，第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。

优选地，第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的：

Y＝(X-MIN)/(MAX-MIN)

其中，X是该分词的词频，MIN是该分词所在分词结果中最小的分词词频，MAX是该分词所在分词结果中最大的分词词频。

优选地，第一分词结果中各个分词的主题词权重是通过以下公式计算得到的：

其中，n为第一分词结果中该分词的权重值，v、w为权值，C_CP_i为第二分词结果中第i个分词的权重值，PP_i为第一分词结果中该分词与第二分词结果中第i个分词的匹配值，m为第二分词结果中不同分词的个数。

一种自动构建主题词的装置，包括：

第一分词单元，用于将第一数字资源进行分词，获得第一分词结果；

第一权重值计算单元，用于获取第一分词结果中各个分词的权重值；

第二数字资源获取单元，用于获取至少一篇与第一数字资源相关的第二数字资源；

第二分词单元，用于将第二数字资源进行分词，获得第二分词结果；

第二权重值计算单元，用于获取第二分词结果中各个分词的权重值；

匹配单元，用于将第一分词结果中各个分词与第二分词结果中各个分词进行匹配；

主题词权重计算单元，用于根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重；

主题词确定单元，用于根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。

本发明实施例技术方案，具有如下优点：

本发明实施例提供的自动构建主题词的方法及装置，其首先利用分词器将第一数字资源进行分词并获取第一分词结果中各个分词的权重值；然后检索出至少一篇与该第一数字资源相似的第二数字资源，并根据该第二数字资源获取其第二分词结果中各个分词的权重值；最后，根据第一分词结果中各个分词与第二分词结果中各个分词的匹配程度和第二分词结果中各个分词的权重值调整第一分词结果中各个分词的权重值作为主题词权重值。最终根据第一分词结果中各个分词的主题词权重值确定出合适的主题词。通过该方法构建的主题词可以准确地表达第一数字资源的主题思想，能满足标引文献和检索文献的要求，且效率高、成本低、效果好。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中一种自动构建主题词的方法流程图；

图2为本发明实施例2中一种自动构建主题词的装置的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

如图1所示，本实施例提供了一种自动构建主题词方法，包括如下步骤：

S1：将第一数字资源进行分词，获得第一分词结果；

S2：获取第一分词结果中各个分词的权重值；

S3：获取至少一篇与第一数字资源相关的第二数字资源；

S4：将第二数字资源进行分词，获得第二分词结果；

S5：获取第二分词结果中各个分词的权重值；

S6：将第一分词结果中各个分词与第二分词结果中各个分词进行匹配；

S7：根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重；

S8：根据主题词权重选取第一分词结果中的部分分词作为第一数字资源主题词。

本实施例提供的自动构建主题词的方法，不仅效率高，而且通过该方法构建的主题词可以准确地表达第一数字资源的主题思想，能满足标引文献和检索文献的要求。

具体地，上述步骤S1中，是利用分词器对第一数字资源进行分词，然后删除停用词后进行词频统计。该停用词包括“了”、“什么”和“的”等，由于停用词大多没有实际的意义，不管其词频的高低如何，都不能作为主题词，因此为了降低后续的计算量且更加准确地构建主题词，此处需要将其筛选掉。本实施例中还可以筛选掉其他不能用作主题词的分词。同样地，步骤S4中也利用分词器将第二数字资源分词后筛选掉停用词再进行词频统计。即步骤S1和S4中都包括按照筛选条件对分词进行筛选的步骤，该筛选条件主要包括删除停用词，也可以根据实际需要加入其它的筛选条件。本实施例中可以事先构建一个停用词表。

具体地，步骤S3中的至少一篇与第一数字资源相关的第二数字资源是通过文章分类检索得出，文章分类检索是采用向量机进行识别、分类以及回归分析。

具体地，上述步骤S2中第一分词结果中各个分词的权重值和步骤S5中第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。本实施例中，第一分词结果中各个分词的词频S_CP1为：中国3 世界5 问题2 解决4 面临1 超越6 恐怖3危机2 信仰1 环境5。第二分词结果中各个分词的词频W_CP为：中国5 分类5 问题3 智慧5难题11 代表6 垄断4 健康4 心态3 世界3 筛选1。

具体地，第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的：

Y＝(X-MIN)/(MAX-MIN)

根据上述分词权重值的计算方法，得到第一分词结果中各个分词的权重值为：中国0.4 世界0.8 问题0.2 解决0.6 面临0.2 超越1.0 恐怖0.4 危机0.2 信仰1.0 环境0.8，记为S_CP2；

得到的第二分词结果中各个分词的权重值，并按降序排序后为：难题1.0 代表0.5中国0.4 分类0.4 智慧0.4 垄断0.3 健康0.3 心态0.2 问题0.2 世界0.2 筛选0。剔除词频进行归一化后权重值为0的词后记为C_CP。

具体地，本实施例中上述步骤S6中，将第一分词结果S_CP2中的各个分词与第二分词结果C_CP中的各个分词进行关系匹配，即相似关系计算，具体采用词向量算法的CBOW(Continuous Bag-of-Word Model)算法。匹配值越高则表示关系越近，匹配值记为PP，如下表所示：

具体地，第一分词结果中各个分词的主题词权重是通过以下公式计算得到的：

本实施例中上述第一分词结果中各个分词的主题词权重的计算过程为：

首先，计算其中“中国”的S_CPC＝(1.0*0.724104+0.5*0.768298+0.4*0.815880+0.4*0.868341+0.3*0.730932+0.3*0.810922+0.2*0.723622+0.2*0.738489+0.2*0.742204)/(1.0+0.5+0.4+0.4+0.3+0.3+0.2+0.2+0.2)＝0.767245886。该步骤中，需要将匹配值等于1的数据剔除。最终第一分词结果中各个分词的S_CPC如下表所示：

S中分词	S_CPC
		超越	0.564564615
信仰	0.253966923
		世界	0.689685486
环境	0.905304667
		解决	0.743733282

中国	0.767245886
		恐怖	0.314501949
问题	0.772889784
		面临	0.836398462
危机	0.800971538

然后，n和w均取值50％，计算第一分词结果中各个分词的主题词权重值S_CPPJ，如下表所示：

S中分词	S_CP2	S_CPC	S_CPPJ	排名
					超越	1.0	0.564564615	0.782282308	2
信仰	1.0	0.253966923	0.626983462	5
					世界	0.8	0.689685486	0.744842743	3
环境	0.8	0.905304667	0.852652334	1
					解决	0.6	0.743733282	0.671866641	4
中国	0.4	0.767245886	0.583622943	6
					恐怖	0.4	0.314501949	0.357250975	10
问题	0.2	0.772889784	0.486444892	9
					面临	0.2	0.836398462	0.518199231	7
危机	0.2	0.800971538	0.500485769	8

本实施例中，根据上表中第一分词结果中各个分词的主题词权重S_CPPJ降序排序结果，选取得分高的前5个分词作为第一数字资源的主题词。在其他的实施方式中，也可根据得分选取其他数目的分词作为主题词。

实施例2

本施例提供一种自动构建主题词的装置，包括：

第一分词单元U1，用于将第一数字资源进行分词，获得第一分词结果；

第一权重值计算单元U2，用于获取第一分词结果中各个分词的权重值；

第二数字资源获取单元U3，用于获取至少一篇与第一数字资源相关的第二数字资源；

第二分词单元U4，用于将第二数字资源进行分词，获得第二分词结果；

第二权重值计算单元U5，用于获取第二分词结果中各个分词的权重值；

匹配单元U6，用于将第一分词结果中各个分词与第二分词结果中各个分词进行匹配；

主题词权重计算单元U7，用于根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重；

主题词确定单元U8，用于根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。

本实施例提供的自动构建主题词的装置，不仅效率高，而且构建的主题词可以准确地表达第一数字资源的主题思想，能满足标引文献和检索文献的要求。

具体地，上述第一分词单元U1中，是利用分词器对第一数字资源进行分词，然后删除停用词后进行词频统计。由于停用词大多没有实际的意义，不能作为主题词，因此为了降低后续的计算量且更加准确地构建主题词，此处需要将其筛选掉。本实施例中还可以筛选掉其他不能用作主题词的分词。同样地，第二分词单元U4中也利用分词器将第二数字资源分词后筛选掉停用词再进行词频统计。即第一分词单元U1和第二分词单元U4中都需要按照筛选条件对分词进行筛选，该筛选条件主要包括删除停用词，也可以根据实际需要加入其它的筛选条件。

具体地，上述第一权重值计算单元U2中第一分词结果中各个分词的权重值和第二权重值计算单元U5中第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。具体地，第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的：

Y＝(X-MIN)/(MAX-MIN)

具体地，上述主题词权重计算单元U7中，第一分词结果中各个分词的主题词权重是通过以下公式计算得到的：

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种自动构建主题词的方法，其特征在于，包括如下步骤：

将第一数字资源进行分词，获得第一分词结果；

获取所述第一分词结果中各个分词的权重值；

获取至少一篇与所述第一数字资源相关的第二数字资源；

将所述第二数字资源进行分词，获得第二分词结果；

获取所述第二分词结果中各个分词的权重值；

将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配；

根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值计算所述第一分词结果中各个分词的主题词权重；

根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的主题词。

2.如权利要求1所述的方法，其特征在于，所述将第一数字资源进行分词获得第一分词结果的步骤和所述将所述第二数字资源进行分词获得第二分词结果的步骤均包括：

按照筛选条件对分词进行筛选，所述筛选条件包括删除停用词。

3.如权利要求1或2所述的方法，其特征在于，所述至少一篇与所述第一数字资源相关的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。

4.如权利要求1或2所述的方法，其特征在于，所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。

5.如权利要求4所述的方法，其特征在于，所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值是通过以下公式计算得到的：

Y＝(X-MIN)/(MAX-MIN)

6.如权利要求1或2所述的方法，其特征在于，所述第一分词结果中各个分词的主题词权重是通过以下公式计算得到的：

其中，n为所述第一分词结果中该分词的权重值，v、w为权值，C_CP_i为所述第二分词结果中第i个分词的权重值，PP_i为所述第一分词结果中该分词与所述第二分词结果中第i个分词的匹配值，m为第二分词结果中不同分词的个数。

7.一种自动构建主题词的装置，其特征在于，包括：

第一权重值计算单元，用于获取所述第一分词结果中各个分词的权重值；

第二数字资源获取单元，用于获取至少一篇与所述第一数字资源相关的第二数字资源；

第二分词单元，用于将所述第二数字资源进行分词，获得第二分词结果；

第二权重值计算单元，用于获取所述第二分词结果中各个分词的权重值；

匹配单元，用于将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配；

主题词权重计算单元，用于根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值计算所述第一分词结果中各个分词的主题词权重；

主题词确定单元，用于根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的主题词。