CN107247709B

CN107247709B - 一种百科词条标签的优化方法及系统

Info

Publication number: CN107247709B
Application number: CN201710627612.7A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2021-03-16
Anticipated expiration: 2037-07-28
Also published as: CN107247709A

Abstract

本发明提供一种百科词条标签的优化方法，其包括以下步骤：S1：对百科词条进行判断是否有标签；若有标签，则执行步骤S2；若无标签，则执行步骤S3；S2：对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签；S3：获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签。相比于现有技术，本发明可在合适的时间内完成标签优化工作。该方法提高了百科词条的三元组数据的标签的正确性，改善了知识本体库的质量，提高了问答系统回答用户问题的正确性。

Description

一种百科词条标签的优化方法及系统

技术领域

本发明涉及优化方法，特别是一种百科词条标签的优化方法及系统。

背景技术

知识库，又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对某一(或某些)领域问题求解的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据，由专家经验得到的启发式知识，如某领域内有关的定义、定理和运算法则以及常识性知识等。

知识库有着广泛的应用，典型的应用有智能问答系统或自动问题系统或问答知识库，自动问题系统中存储着一些预设的问题，并存储预设问题对应的答案信息，在公众用户提出问题时，自动问题系统会将公众用户提出的问题与预设的问题进行匹配，若匹配成功，自动问题系统会将该预设问题对应的答案信息反馈给公众用户。

在问答系统领域中，往往需要从百科中抽取结构化数据来扩展知识本体库。所要抽取的结构数据为三元组格式，即词条-词条属性-属性值。为了提高在本体库中搜索词条的速度，需要会利用词条标签对词条进行分类，以缩减搜索词条的范围，同时了解该词条所属领域。但是百科词条经常会有标签错误或无标签的情况。

同时，对于词条有可能会存在多个标签，由于词条标签经常是由网民编辑的，标签质量难以保证。即使是由专业的工作人员编辑词条标签，同样会出现标签质量不高的情况。目前的方法，无法提供更好的优化效果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供了一种百科词条标签的优化方法及系统。

本发明通过以下的方案实现：一种百科词条标签的优化方法，其包括以下步骤：

S1：对百科词条进行判断是否有标签；若有标签，则执行步骤S2；若无标签，则执行步骤S3；

S2：对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签；

S3：获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签；

所述步骤S3中具体包括以下步骤：

S31：获得无标签词条的各个属性词的词向量，将所有属性词的向量相加再取平均得到的最终的一个向量；

S32：将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较；

S33：获取有标签的词条中匹配出跟无标签的词条最相近的词条，并把其标签作为无标签的词条的标签；

所述步骤S33中，在有标签的词条中匹配出跟无标签的词条最相近的词条时，具体通过：

遍历全部有标签的词条，并匹配出相似度最大的词条标签；

或着，通过抽取设定数量的有标签的词条，并匹配出相似度最大的词条标签；

或者，通过设定一个相似度阈值，当余弦相似度大于设定的相似度阈值时，则结束匹配；

所述步骤S2中具体包括：

S21：对百科语料进行训练，获得word2vec模型；

S22：向量化词条属性和词条标签；

S23：获取词条标签向量和词条属性向量的余弦相似度；

S24：将余弦相似度最大值所对应的标签作为该词条的最佳标签。

本发明还提供了一种百科词条标签的优化系统，其包括判断模块、有标签词条处理模块和无标签词条处理模块；

所述判断模块，用于对百科词条的标签进行判断，若该词条有标签时，则发送至所述有标签词条处理模块，若该词条无标签时，则发送至所述无标签词条处理模块；

所述有标签词条处理模块，用于对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签；

所述无标签词条处理模块，用于获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签；

所述无标签词条处理模块包括：

属性词向量获取模块，用于获得无标签词条的各个属性词的词向量，将所有属性词的向量相加再取平均得到的最终的一个向量；

相似度比较模块，用于将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较；

无标签词条的标签获取模块，用于获取有标签的词条中匹配出跟无标签的词条最相近的词条，并把其标签作为无标签的词条的标签；

所述无标签词条的标签获取模块具体通过：

遍历全部有标签的词条，并匹配出相似度最大的词条标签；

或者，通过设定一个相似度阈值，当余弦相似度大于设定的相似度阈值时，则结束匹配。

所述有标签词条处理模块包括：

模型获取模块，用于对百科语料进行训练，获得word2vec模型；

向量化模块，用于向量化词条属性和词条标签；

余弦相似度获取模块，用于获取词条标签向量和词条属性向量的余弦相似度；

最佳标签获取模块，用于将余弦相似度最大值所对应的标签作为该词条的最佳标签。

相比于现有技术，本发明可在合适的时间内完成标签优化工作。该方法提高了百科词条的三元组数据的标签的正确性，改善了知识本体库的质量，提高了问答系统回答用户问题的正确性。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是本发明的百科词条标签优化方法的步骤流程图。

图2是本步骤S2的具体步骤流程图。

图3是本步骤S3的具体步骤流程图。

图4是本发明的百科词条标签优化系统的连接框图。

具体实施方式

以下结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

为了解决现有技术的缺陷，本发明提供了一种百科词条标签的优化方法和系统，具体通过以下实施例进行介绍：

请参阅图1，其为本发明的百科词条标签优化方法的步骤流程图。本发明的百科词条标签的优化方法，其包括以下步骤：

S2：对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签。具体的请同时参阅图2，其为本步骤S2的具体步骤流程图。所述步骤S2中包括：

S21：对百科语料进行训练，获得word2vec模型。

S22：向量化词条属性和词条标签。

S23：获取词条标签向量和词条属性向量的余弦相似度。

S3：获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签。

具体的请同时参阅图2，其为本步骤S3的具体步骤流程图。所述步骤S3中包括以下步骤：

S31：获得无标签词条的各个属性词的词向量，将所有属性词的向量相加再取平均得到的最终的一个向量。

通过word2vec得到的词向量是类似[0.792,-0.188,-0.235,0.104,-0.343,...]这样类似的一个几十到几百维的向量。因为每一个词的维度是一样的。所以，可以把两个向量相加，作为两个词的向量。所以，所有属性词的向量表示，就是把所有属性词的向量相加再取平均得到的最终的一个向量。词条的多个属性，就可以融合为一个向量。

S32：将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较。

S33：获取有标签的词条中匹配出跟无标签的词条最相近的词条，并把其标签作为无标签的词条的标签。具体的，若两个词条的属性越相近，余弦相似度越高。根据这一特点，可以从有标签的词条中匹配出跟无标签的词条最相近的词条，并把它的标签作为无标签的词条的标签，从而实现了为无标签的词条打上一个正确的标签这一功能。

进一步，所述步骤S33中，在有标签的词条中匹配出跟无标签的词条最相近的词条时，具体包括以下三种方式：

(1)遍历全部有标签的词条，并匹配出相似度最大的词条标签。这方法适用于有标签的词条数在合适的范围内的情况。

(2)通过抽取设定数量的有标签的词条，并匹配出相似度最大的词条标签。这方法适用于有标签的词条数较多或者打标签的时间较长的情况。

(3)通过设定一个相似度阈值，当余弦相似度大于设定的相似度阈值时，则结束匹配。例如通过计算可以得出如下单词对的语义相似性：

Cosine(WE“钱”，WE“买”)＝0.79

Cosine(WE“钱”，WE“现金”)＝0.93

Cosine(WE“钱”，WE“赚钱”)＝0.81

Cosine(WE“钱”，WE“钞票”)＝0.95

如果设置阈值为0.9，只要获取一个相似度，‘钱’跟‘现金’就不管后面的相似标签了。因为已经满足要求，提高了效率。

以下通过两个具体实例，介绍一下本发明的百科词条标签的优化方法的应用方式。

例1：“丈夫”是一个有标签的词条，其标签有：影视、词语、词汇、电视剧和称谓共5个标签。在不给定词条属性的情况下，这5个标签都是正确的。

当给出词条“丈夫”的全部属性(中文名、其它译名、制片地区、导演、编剧、主演、集数、类型、出品人、导演和编剧)后，利用本发明可实现对上述5个标签按正确性作降序排序，排序结果为：电视剧、词语、称谓、词汇、影视。最后，把词条“丈夫”的标签定为“电视剧”。上百度百科查询词条“丈夫”，发现这的确是一部电视剧。

例2：“安静琪”是一个无标签的词条。该词条的属性有：姓名、外文名、国籍、民族、出生地、职业、毕业院校、身高、体重和三围共10个。利用本发明方法可以匹配到词条“王希怡”“张诗菡”。“王希怡”“张诗菡”的属性都是姓名、国籍、出生地、出生日期、职业、毕业院校、身高、体重和三围，与“安静琪”的属性极为相似。已知“王希怡”的标签是模特，“张诗菡”的标签是艺人，于是利用它们俩的标签为“安静琪”打上了“模特”和“艺人”这两个标签。上百度百科查询词条“安静琪”，发现安静琪的确是模特和艺人。

另外请同时参阅图4，其为本发明的百科词条标签优化系统的连接框图。本发明还提供了一种百科词条标签的优化系统，其包括判断模块1、有标签词条处理模块2和无标签词条处理模块3。

所述判断模块1，用于对百科词条的标签进行判断，若该词条有标签时，则发送至所述有标签词条处理模块，若该词条无标签时，则发送至所述无标签词条处理模块。

所述有标签词条处理模块2，用于对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签。

所述无标签词条处理模块3，用于获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签。

具体的，所述有标签词条处理模块2包括：模型获取模块21、向量化模块22、余弦相似度获取模块23和最佳标签获取模块24。

所述模型获取模块21，用于对百科语料进行训练，获得word2vec模型。

所述向量化模块22，用于向量化词条属性和词条标签。

所述余弦相似度获取模块23，用于获取词条标签向量和词条属性向量的余弦相似度。

所述最佳标签获取模块24，用于将余弦相似度最大值所对应的标签作为该词条的最佳标签。

进一步，所述无标签词条处理模块3包括：属性词向量获取模块31、相似度比较模块32和无标签词条的标签获取模块33。

所述属性词向量获取模块31，用于获得无标签词条的各个属性词的词向量，将所有属性词的向量相加再取平均得到的最终的一个向量。

所述相似度比较模块32，用于将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较。

所述无标签词条的标签获取模块33，用于获取有标签的词条中匹配出跟无标签的词条最相近的词条，并把其标签作为无标签的词条的标签。

具体的，所述无标签词条的标签获取模块33具体通过以下几种方式实现：

Cosine(WE“钱”，WE“买”)＝0.79

Cosine(WE“钱”，WE“现金”)＝0.93

Cosine(WE“钱”，WE“赚钱”)＝0.81

Cosine(WE“钱”，WE“钞票”)＝0.95

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种百科词条标签的优化方法，其特征在于：包括以下步骤：

所述步骤S2中具体包括：

S21：对百科语料进行训练，获得word2vec模型；

S22：向量化词条属性和词条标签；

S23：获取词条标签向量和词条属性向量的余弦相似度；

S24：将余弦相似度最大值所对应的标签作为该词条的最佳标签；

所述步骤S3中具体包括以下步骤：

遍历全部有标签的词条，并匹配出相似度最大的词条标签；

或者，通过抽取设定数量的有标签的词条，并匹配出相似度最大的词条标签；

2.一种百科词条标签的优化系统，其特征在于：包括判断模块、有标签词条处理模块和无标签词条处理模块；

所述有标签词条处理模块包括：

向量化模块，用于向量化词条属性和词条标签；

最佳标签获取模块，用于将余弦相似度最大值所对应的标签作为该词条的最佳标签；

所述无标签词条处理模块包括：

所述无标签词条的标签获取模块具体通过：

遍历全部有标签的词条，并匹配出相似度最大的词条标签；