CN109359301A

CN109359301A - 一种网页内容的多维度标注方法及装置

Info

Publication number: CN109359301A
Application number: CN201811219240.5A
Authority: CN
Inventors: 李扬曦; 杜翠兰; 佟玲玲; 段东圣; 井雅琪; 翟羽佳; 段运强; 任博雅; 程光
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-02-19

Abstract

本发明公开了一种网页内容的多维度标注方法及装置，该方法包括：将待标注的网页内容文本转换为词向量；根据词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果；对待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词；构建第二类维度规则知识库；将第二类维度实体词与第二类维度规则知识库进行匹配，得到第二类维度标注结果。本发明从网页的内容出发，利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注，解决了传统基于词频统计分类方法分类准确率低的问题；利用命名实体识别和规则知识库对第二类维度进行标注，丰富了网页的标注内容，提升了用户体验。

Description

一种网页内容的多维度标注方法及装置

技术领域

本发明涉及数据挖掘领域，特别是涉及一种网页内容的多维度标注方法及装置。

背景技术

如何通过分析互联网网页内容，提取并对网页进行标注是互联网数据管理和挖掘等应用的重要基础。目前，对网页进行分类标注的方法中，多采用基于词频统计的方法，其标注准确率低；同时，目前的网页标注通常只对单一维度进行标注处理，标注信息量有限，不利于全面掌握网页信息。

发明内容

本发明提供一种网页内容的多维度标注方法及装置，用以解决现有技术的分类标准方法准确率低且标注信息量有限的问题。

为解决上述技术问题，一方面，本发明提供一种网页内容的多维度标注方法，包括：将待标注的网页内容文本转换为词向量；根据所述词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果；对所述待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词；构建第二类维度规则知识库；将所述第二类维度实体词与所述第二类维度规则知识库进行匹配，得到第二类维度标注结果。

进一步，所述将待标注的网页内容文本转换为词向量，包括：使用词向量生成工具在预设语料库中生成词向量列表；将所述待标注的网页内容文本进行分词处理；根据所述词向量列表，将所述分词转换为所述词向量。

进一步，所述将待标注的网页内容文本转换为词向量之后，还包括：将所述待标注的网页内容文本与预设应急标注项进行相似度对比；在所述相似度超过预设相似度的情况下，将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。

进一步，所述第一类维度至少包括：事件维度；所述第二类维度至少包括以下维度之一：人物维度、地点维度、时间维度、组织机构维度。

进一步，所述构建第二类维度规则知识库，包括：在所述第二类维度为人物维度时，根据历史总结的重点人物信息，构建重点人物规则知识库；在所述第二类维度为地点维度时，根据地理实体编码规则，构建地点规则知识库；在所述第二类维度为时间维度时，根据历史总结的特殊时期信息，构建特殊时期规则知识库；在所述第二类维度为组织机构维度时，根据组织机构代码表对现有组织机构建设情况进行枚举，构建组织机构规则知识库。

另一方面，本发明还提供一种网页内容的多维度标注装置，包括：转换模块，用于将待标注的网页内容文本转换为词向量；第一类维度标注模块，用于根据所述词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果；识别模块，用于对所述待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词；构建模块，用于构建第二类维度规则知识库；第二类维度标注模块，用于将所述第二类维度实体词与所述第二类维度规则知识库进行匹配，得到第二类维度标注结果。

进一步，所述转换模块，具体用于：使用词向量生成工具在预设语料库中生成词向量列表；将所述待标注的网页内容文本进行分词处理；根据所述词向量列表，将所述分词转换为所述词向量。

进一步，还包括：对比模块，用于将所述待标注的网页内容文本与预设应急标注项进行相似度对比；所述第一类维度标注模块，还用于在所述相似度超过预设相似度的情况下，将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。

进一步，所述构建模块，具体用于：在所述第二类维度为人物维度时，根据历史总结的重点人物信息，构建重点人物规则知识库；在所述第二类维度为地点维度时，根据地理实体编码规则，构建地点规则知识库；在所述第二类维度为时间维度时，根据历史总结的特殊时期信息，构建特殊时期规则知识库；在所述第二类维度为组织机构维度时，根据组织机构代码表对现有组织机构建设情况进行枚举，构建组织机构规则知识库。

本发明从网页的内容出发，利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注，解决了传统基于词频统计分类方法分类准确率低的问题；利用命名实体识别和规则知识库对第二类维度进行标注，丰富了网页的标注内容，提升了用户体验。

附图说明

图1是本发明第一实施例中网页内容的多维度标注方法的流程图；

图2是本发明第一实施例中CNN分类模型示意图；

图3是本发明第二实施例中网页内容的多维度标注装置的结构示意图；

图4是本发明第二实施例中另一种网页内容的多维度标注装置的结构示意图。

具体实施方式

为了解决现有技术的分类标准方法准确率低且标注信息量有限的问题，本发明提供了一种网页内容的多维度标注方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明的第一实施例公开了一种网页内容的多维度标注方法，其流程示意图如图1所示，主要包括步骤S101至S105：

S101，将待标注的网页内容文本转换为词向量。

网页的内容通常包括文本、图片、跳转链接，甚至视频播放器、音频播放器等，而对网页进行分类标注时，由于文本内容最容易获取，也最能直接反应网页需要表示的内容，因此通常只根据网页的文本内容进行标注。

在针对待标注的网页内容文本进行基于第一类维度的标注之前，在本实施例中，第一类维度为事件维度，首先将待标注的网页内容文本转换为词向量，以方便进行后续的深度自然学习和分类。具体地，将待标注的网页内容文本转换为词向量时，首先使用词向量生成工具在预设语料库中生成词向量列表，在本实施例中使用搜狗语料作为预设语料库，也可以使用其他语料库作为预设语料库；其次将待标注的网页内容文本进行分词处理，文本分词使用的是语言技术平台(LTP，Language Technology Plantform)工具，也可使用Standford coreNLP或中科院NLPIR分词系统，具体分词工具的选用根据实际情况而定；最后，根据词向量列表，将分词转换为词向量，其中，词向量生成使用的是词向量word2vec工具，也可使用其他工具进行，本实施例在此不进行限制。

S102，根据词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果。

根据步骤S101得到的词向量结果，通过卷积神经网络(CNN，ConvolutionalNeural Network)分类模型进行分类，根据对各个分类进行评分的阈值设定，可以得到分类结果，分类结果即为第一类维度的标注结果，本实施例中使用的CNN分类模型如图2所示。

进一步地，在将待标注的网页内容文本转换为词向量之后，可以将待标注的网页内容文本与预设应急标注项进行相似度对比，在相似度超过预设相似度的情况下，将预设应急标注项作为待标注的网页内容的第一类维度标注结果，可以对事件标注结果进行快速确定；在相似度未超过预设相似度的情况下，再使用CNN分类模型进行分类。与此同时，还可以通过人工对标注结果进行核查，将标注错误的网页添加到应急标注项，待应急标注处理使用，在后续的标注过程中，通过应急标注处理，可以对修正的事件标注结果进行快速线上更正反馈。

另外，本发明实施例中还可以对CNN分类模型进行训练和更新，根据样本数据对CNN分类器进行重新训练，训练结束后，更新分类模型，完成分类器的线下更新，保证分类算法更新灵活，线上和线下均可实现更新操作。

S103，对待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词。

在本实施例中，第二类维度包括至少以下维度之一：人物维度、地点维度、时间维度、组织机构维度，即通过标注上述一种或几种第二类维度，来丰富网页内容的标注结果，达到对网页内容进行深度挖掘的目的。

在对第二类维度进行标注时，首先针对待标注的网页内容文本进行实体识别，得到对应的实体词，在本实施例中，进行实体识别的工具也可使用LTP工具或可以实现实体识别的其他工具。

S104，构建第二类维度规则知识库。

第二类维度实体识别后，构建第二类维度规则知识库。具体地，根据第二类维度的具体类别，构建不同类别的规则知识库如下：

在第二类维度为人物维度时，根据历史总结的重点人物信息，构建重点人物规则知识库；在第二类维度为地点维度时，根据地理实体编码规则，构建地点规则知识库；在第二类维度为时间维度时，根据历史总结的特殊时期信息，构建特殊时期规则知识库；在第二类维度为组织机构维度时，根据组织机构代码表对现有组织机构建设情况进行枚举，构建组织机构规则知识库。

S105，将第二类维度实体词与第二类维度规则知识库进行匹配，得到第二类维度标注结果。

在进行第二类维度标注时，将第二类维度实体词与对应的第二类维度规则知识库进行匹配，匹配成功的实体词即作为第二类维度的标注结果，如将人名实体词与重点人物规则知识库进行匹配，得到人物标注结果；将地点实体词与地点规则知识库进行匹配，得到地点标注结果；时间实体词和与特殊时期规则知识库匹配得到的特殊时期信息，作为时间维度标注结果；组织机构实体词与组织机构规则知识库进行匹配，得到组织机构标注结果。

本实施例从网页的内容出发，利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注，解决了传统基于词频统计分类方法分类准确率低的问题；利用命名实体识别和规则知识库对第二类维度进行标注，丰富了网页的标注内容，提升了用户体验。

应当了解的是，本实施例中限定的顺序可以不是最终实现时所执行的步骤，本实施例中步骤S101和S102是具有前后逻辑关联的步骤，其目的是对于事件维度进行标注，步骤S103至S105是具有前后逻辑关联的步骤，其目的是对于人物维度、地点维度、时间维度、组织机构维度中的一项或多项进行标注，也就是说，在执行步骤S101和S102的时，可以同时执行步骤S103至S105，以同时进行第一类维度和第二类维度的标准过程。并且，由于人物维度、地点维度、时间维度、组织机构维度进行标注时，互相之间不存在逻辑关系或数据联系，因此，在标注第二类维度时，可以同时执行4次步骤S103至S105，以同时进行人物维度、地点维度、时间维度、组织机构维度的标注。

本发明的第二实施例提供了一种网页内容的多维度标注装置，其结构示意图如图3所示，主要包括：转换模块10，用于将待标注的网页内容文本转换为词向量；第一类维度标注模块20，与转换模块10耦合，用于根据词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果；识别模块30，用于对待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词；构建模块40，与识别模块30耦合，用于构建第二类维度规则知识库；第二类维度标注模块50，与构建模块40耦合，用于将第二类维度实体词与第二类维度规则知识库进行匹配，得到第二类维度标注结果。

具体地，转换模块10将待标注的网页内容文本转换为词向量时，首先使用词向量生成工具在预设语料库中生成词向量列表，在本实施例中使用搜狗语料作为预设语料库，也可以使用其他语料库作为预设语料库；其次将待标注的网页内容文本进行分词处理，文本分词使用的是LTP工具，也可使用Standford coreNLP或NLPIR分词系统，具体分词工具的选用根据实际情况而定；最后，根据词向量列表，将分词转换为词向量，其中，词向量生成使用的是word2vect工具，也可使用其他工具进行，本实施例在此不进行限制。

根据转换模块10得到的词向量结果，通过CNN分类模型进行分类，根据对各个分类进行评分的阈值设定，可以得到分类结果，分类结果即为第一类维度的标注结果。

进一步地，在将待标注的网页内容文本转换为词向量之后，可以通过对比模块60将待标注的网页内容文本与预设应急标注项进行相似度对比，此时标注装置的结构示意图如图4所示，在相似度超过预设相似度的情况下，第一类维度标注模块20将预设应急标注项作为待标注的网页内容的第一类维度标注结果，可以对事件标注结果进行快速确定；在相似度未超过预设相似度的情况下，第一类维度标注模块20再使用CNN分类模型进行分类。与此同时，还可以通过人工对标注结果进行核查，将标注错误的网页添加到应急标注项，待应急标注处理使用，在后续的标注过程中，通过应急标注处理，可以对修正的事件标注结果进行快速线上更正反馈。

在本实施例中，第二类维度包括至少以下维度之一：人物维度、地点维度、时间维度、组织机构维度，即通过标注上述一种或几种第二类维度，来丰富网页内容的标注结果，达到对网页内容进行深度挖掘的目的。在对第二类维度进行标注时，首先通过识别模块30针对待标注的网页内容文本进行实体识别，得到对应的实体词，在本实施例中，进行实体识别的工具也可使用LTP工具或可以实现实体识别的其他工具。

第二类维度实体识别后，由构建模块40构建第二类维度规则知识库。具体地，根据第二类维度的具体类别，构建不同类别的规则知识库如下：

在第二类维度标注模块50进行第二类维度标注时，将第二类维度实体词与对应的第二类维度规则知识库进行匹配，匹配成功的实体词即作为第二类维度的标注结果，如将人名实体词与重点人物规则知识库进行匹配，得到人物标注结果；将地点实体词与地点规则知识库进行匹配，得到地点标注结果；时间实体词和与特殊时期规则知识库匹配得到的特殊时期信息，作为时间维度标注结果；组织机构实体词与组织机构规则知识库进行匹配，得到组织机构标注结果。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种网页内容的多维度标注方法，其特征在于，包括：

将待标注的网页内容文本转换为词向量；

根据所述词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果；

对所述待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词；

构建第二类维度规则知识库；

将所述第二类维度实体词与所述第二类维度规则知识库进行匹配，得到第二类维度标注结果。

2.如权利要求1所述的多维度标注方法，其特征在于，所述将待标注的网页内容文本转换为词向量，包括：

使用词向量生成工具在预设语料库中生成词向量列表；

将所述待标注的网页内容文本进行分词处理；

根据所述词向量列表，将所述分词转换为所述词向量。

3.如权利要求1所述的多维度标注方法，其特征在于，所述将待标注的网页内容文本转换为词向量之后，还包括：

将所述待标注的网页内容文本与预设应急标注项进行相似度对比；

在所述相似度超过预设相似度的情况下，将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。

4.如权利要求1至3中任一项所述的多维度标注方法，其特征在于，所述第一类维度至少包括：事件维度；所述第二类维度至少包括以下维度之一：人物维度、地点维度、时间维度、组织机构维度。

5.如权利要求4所述的多维度标注方法，其特征在于，所述构建第二类维度规则知识库，包括：

在所述第二类维度为人物维度时，根据历史总结的重点人物信息，构建重点人物规则知识库；

在所述第二类维度为地点维度时，根据地理实体编码规则，构建地点规则知识库；

在所述第二类维度为时间维度时，根据历史总结的特殊时期信息，构建特殊时期规则知识库；

在所述第二类维度为组织机构维度时，根据组织机构代码表对现有组织机构建设情况进行枚举，构建组织机构规则知识库。

6.一种网页内容的多维度标注装置，其特征在于，包括：

转换模块，用于将待标注的网页内容文本转换为词向量；

第一类维度标注模块，用于根据所述词向量，进行卷积神经网络分类，并将分类结果作为第一类维度标注结果；

识别模块，用于对所述待标注的网页内容进行第二类维度实体识别，得到第二类维度实体词；

构建模块，用于构建第二类维度规则知识库；

第二类维度标注模块，用于将所述第二类维度实体词与所述第二类维度规则知识库进行匹配，得到第二类维度标注结果。

7.如权利要求6所述的多维度标注装置，其特征在于，所述转换模块，具体用于：

使用词向量生成工具在预设语料库中生成词向量列表；

将所述待标注的网页内容文本进行分词处理；

根据所述词向量列表，将所述分词转换为所述词向量。

8.如权利要求6所述的多维度标注装置，其特征在于，还包括：

对比模块，用于将所述待标注的网页内容文本与预设应急标注项进行相似度对比；

所述第一类维度标注模块，还用于在所述相似度超过预设相似度的情况下，将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。

9.如权利要求6至8最后那个任一项所述的多维度标注装置，其特征在于，所述第一类维度至少包括：事件维度；所述第二类维度至少包括以下维度之一：人物维度、地点维度、时间维度、组织机构维度。

10.如权利要求9所述的多维度标注装置，其特征在于，所述构建模块，具体用于：