CN106355628B

CN106355628B - 图文知识点标注方法和装置、图文标注的修正方法和系统

Info

Publication number: CN106355628B
Application number: CN201510420322.6A
Authority: CN
Inventors: 唐先明; 陶鹏; 王晓丽; 邓达康; 郭攀红; 韩宝东; 陈长胜; 赵志成; 成尧
Original assignee: China Petroleum and Chemical Corp; Sinopec Exploration and Production Research Institute
Current assignee: China Petroleum and Chemical Corp; Sinopec Exploration and Production Research Institute
Priority date: 2015-07-16
Filing date: 2015-07-16
Publication date: 2019-07-05
Anticipated expiration: 2035-07-16
Also published as: CN106355628A

Abstract

本发明公开了一种图文知识点标注方法和装置、图文标注的修正方法和系统。所述图文知识点标注方法包括：构建知识图谱知识节点标注模型；判断待标注图文单元的类型为文本文件或者图像文件；根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征，其中，所述预处理特征用于概括图文单元的隐含内容；基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。本发明在细颗粒度上对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取，并将提取的特征输入到知识图谱标注模型中，得出概括该图文单内容的多维的主题知识点标注。

Description

图文知识点标注方法和装置、图文标注的修正方法和系统

技术领域

本发明涉及图文标注技术领域，具体地说，涉及一种图文知识点标注方法和装置、图文标注的修正方法和系统。

背景技术

图文资料是油气勘探等专业领域最基本、最常用的信息载体。在互联网迅速普及的今天，图文资料等信息随之加速传播，上述信息量也急剧膨胀。在如此庞大的信息量中，用户一般需经搜索引擎筛选后获得所需图文信息。

现有的搜索引擎普遍采用基于关键词或全文分词的索引机制。该搜索机制很容易将图文中出现的词与真正描述图文的内容混为一谈，从而严重影响用户检索的效率。例如，在勘探领域里，专业人员经常需要检索“地质构造”或“地质构造研究”，其真实检索意图是搜索描述这一概念的篇章、段落或图像，而不需搜索出现了这个词的文本单元。但由于某些并无实质地质构造研究的篇章或文档中会频繁提到这些词，导致检索结果中会出现大量的概述及背景介绍类的篇章或文档。而一些反映地质构造研究具体成果的篇章或图片，很可能由于基本不出现该词而根本不出现在搜索结果中，或在搜索结果中排序较后。

因此，需要通过图文标注的方式组织和管理这些信息，方便用户获取所需图文信息。

在含有大量图文混合资料的勘探领域内，目前主流的、效果优良的标注方法是人工标注方法，尤其是对图文单元的描述主题的知识点标注方法。虽然采用这一方法可以较为准确的标注图文资料，但标注成本高。因此，该方法难以规模化应用于大量图文资料，尤其是在使用者希望将标注细化到资料内部各个章节和各幅图片的情况下。

标注缺失会导致专业人员使用搜索引擎查询资料或分类浏览时，常常因为无法准确定位到某些具有某个词语概念含义、但不显式包含该词语的内容单元而降低查全率；标注不精准则会导致专业人员在查询浏览时，经常因受到某段落提及了某概念词语、但该段落内容却与此概念词语相关性不大的内容单元干扰而降低查准率。

目前常用的、针对文本的自动化标注方法，是简单的TFIDF的关键词提取及一些分类标注方法。这一方法没有使用带有丰富的命名实体间关系的知识图谱，不能从概念层面准确标注篇章和段落。此外，在实际操作时，一般的文本分类标引方法往往要求大量充分的人工标注语料，这对于知识图谱中含有上千个分类节点(对应需要有十万甚至几十万的标注语料)的勘探等专业领域，同样也是个巨大的人工成本。

在勘探等很多专业领域，人们开始利用知识图谱来表示各类知识资源、分析个人及组织的知识体系的结构和组成等，但在图文标注技术中使用知识图谱的成熟技术方案很少。现有技术还不具备在复杂的勘探领域，快速、准确、全面、低成本地对海量图文单元进行多维度的标注。

因此，亟需一种对海量图文资料进行多维度标注及概括性描述的图文知识点标注方法、装置及系统。

发明内容

本发明要解决的技术问题在于克服现有图文标注技术中并不具备对海量图文资料进行多维度的标注及概括性描述的技术缺陷。

本发明的实施例提供一种图文知识点标注方法，包括：

构建知识图谱知识节点标注模型；

判断待标注图文单元的类型为文本文件或者图像文件；

根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征，其中，所述预处理特征用于概括图文单元的隐含内容；

基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。

在一个实施例中，在提取待标注图文单元中命名实体的显性关键特征的预处理特征的步骤中，

提取待标注图文单元中显性提及的命名实体、命名实体的属性描述和命名实体出现的频度作为显性关键特征；

统计在图文单元内出现的具有相同词性的分词的总频度及不同分词的数量，具有相同属性的命名实体总频度及具有不同属性的命名实体的数量作为预处理特征，以概括图文单元的隐含内容。

在所述待标注图文单元的类型为文本文件的情况下，识别文本文件中命名实体的显性关键特征；

在所述待标注图文单元的类型为图像文件的情况下，基于图像处理技术识别图像文件文字区域中的单个文字，根据单个文字的图像特征识别由单个文字组成的文字单元的显性关键特征。

在一个实施例中，在基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签的步骤中，

将图文单元d表示为(W,C)，其中，W为命名实体支撑的矢量空间的词频分布矢量，C为命名实体的概念类型或者词性类别支撑的矢量空间的命名实体概念类型或者词性类别的频度分布矢量；

在设定的标注模型Model(μ)下，计算图文单元d对应的知识点标签T的概率P(T|W,C,μ)，其中μ为矢量化的多变量参数；

在概率P(T|W,C,μ)大于预设概率阈值的情况下，将图文单元d标注到知识点标签T上。

在一个实施例中，在构建知识图谱知识节点标注模型的步骤中包括：

初始化步骤，根据已知的知识图谱和对应于该知识图谱上各个知识节点的初始标注语料集合，建立初始标注模型；

更新步骤，基于半监督学习算法对初始标注模型进行训练来优化标注模型Model(μ)，从而获得多变量参数μ的最优估计值，以使得概率P(T|W,C,μ)与标注图文单元的知识点标签T的概率期望值最小。

在一个实施例中，在基于半监督学习算法对初始标注模型进行训练的步骤中，

基于流形假设构建多维的分词簇或者命名实体矢量空间，其包括由具有相同概念类型的命名实体和具有相同词性的分词构成的子空间；

将系统中的未标注语料矢量映射在子空间，得到未标注语料矢量在每个分词或者命名实体总词频上的映射，以及，在词性和命名实体类型的频度及分词和命名实体的数量上的映射；

根据未标注语料矢量与知识点节点矢量在子空间上的距离或者相似度的矢量测度的叠加，调整未标注语料的预处理特征对标注模型的贡献的权重值，从而使得标注模型概括未标注语料的隐含内容。

根据本发明的另一方面，还提供一种图文标注的修正方法，包括：

如上文所述的图文知识点标注方法，以及，

基于图文单元中的显性关键特征和知识点标签构建索引库，按照显性关键特征和/或知识点标签对图文单元进行分类展示或者检索，对图文单元的知识点标签进行修正；

根据修正后的知识点标签更新标注语料库。

根据本发明的另一方面，还提供一种图文知识点标注装置，包括：

模型构建单元，其设置为构建知识图谱知识节点标注模型；

类型判断单元，其设置为判断待标注图文单元的类型为文本文件或者图像文件；

特征提取单元，其设置为根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征，其中，所述预处理特征用于概括图文单元的隐含内容；

多维标注单元，其设置为基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。

在一个实施例中，所述特征提取单元包括：

显性特征提取模块，其设置为提取待标注图文单元中显性提及的命名实体、命名实体的属性描述和命名实体出现的频度作为显性关键特征；

预处理特征提取模块，其设置为统计在图文单元内出现的具有相同词性的分词的总频度及不同分词的数量，具有相同属性类型的命名实体总频度及具有不同属性的命名实体的数量作为预处理特征，以概括图文单元的隐含内容。

根据本发明的另一方面，还提供一种图文标注的修正系统，包括：

如上文所述的图文知识点标注装置，以及，

跨图文知识图谱应用平台，其包括索引单元和修正单元，其中，所述索引单元设置为基于图文单元中的显性关键特征和知识点标签构建索引库，按照显性关键特征和/或知识点标签对图文单元进行分类展示或者检索，所述修正单元设置为对图文单元的知识点标签进行修正；

语料库更新单元，其设置为根据修正后的知识点标签更新标注语料库。

本发明的实施例在大幅降低人工训练成本的基础上，利用计算机在细颗粒度上对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取，并将提取的特征输入到知识图谱概率标注模型中计算，得出概括该图文单内容的多维的主题知识点标注。基于这样的标注系统建立的查询及分类浏览系统将可以显著提升使用者的查询效率。

另一方面，在某些极端情况下，例如图文单元中未提及某地质研究概念词，但是其中提及的各个命名实体及各种词隐含为该地质研究概念涵盖的具体内容时，传统的检索往往会丢失该内容，而本发明的实施例仍可将该图文单元标注为该地质概念。

此外，本发明的实施例还使用户在基于知识图谱的标注查阅资料的同时，提供对所查阅的资料的知识图谱标注进行补充及修正的功能，从而让知识图谱及其语义标注系统可以不断进化，从而持续提升用户的检索及分类浏览的体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明实施例一的图文知识点标注方法的步骤流程图；

图2是根据本发明实施例一的图文知识点标注装置的结构示意图；

图3是根据本发明实施例二的修正图文标注的方法的步骤流程图；

图4是根据本发明实施例二的修正图文标注的系统的结构示意图；

图5是根据本发明实施例三的修正图文标注的系统的结构示意图；

图6是在具体示例中油气勘探领域的知识图谱的局部结构示意图；

图7是在具体示例中油气勘探领域的一个文本段落的示意图；

图8是在具体示例中油气勘探领域的一个图像的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明作进一步地详细说明。

勘探等专业领域的知识是一个涉及多种学科、多种技术、多种形式的复杂体系，知识图谱也较为复杂，涉及很多不同类型的概念类和大量的对象实例，相互间也有各种不同形式的关联关系，表达上具有多维度、多层次的特点。

而现有的图文标注技术大多数在一定程度上解决文本结构化或图像内文字提取的问题。但是都不具备在复杂的勘探业务领域，低成本对海量图文单元进行多维度的标注及概括性描述，且能持续提升标注准确性及检索的用户体验的能力。

本发明实施例所提供的图文知识点标注方法，是基于在本体论(Ontology)基础上的勘探等领域的知识图谱建立的。结合专业领域知识图谱对图文单元的内容进行标引，并概括性描述图文单元的主题。具体而言，专业领域的Ontology就是在建立一套勘探领域的多层级的概念(类)体系的归属，并建立每个层级下的归属于该抽象类的个体(实例)，以及在此基础上建立类及个体的属性描述(它们所可能具有的属性、特征、特性、特点和参数)及某种关联关系。最终，专业领域的知识图谱建立的是一整套的类间、个体对象间、以及类与个体对象间的关系。

在基于Ontology的知识图谱的建立中，通常以命名实体(Named Entity)统一表述个体(对象实例)及其对象类型(抽象出的概念类)。通过对命名实体的识别、命名实体的属性和命名实体间关联关系的发现，建立及更新知识图谱。前述命名实体，是指人名、机构名、地名以及其他所有以名称为标识的实体。本发明的实施例可用于地理、医学等专业领域，以下仅以勘探领域为例进行阐述。在勘探领域内，重要的命名实体的类型包括：地质年代、盆地、井、构造单元、研究方法等等以名称为标识的实体。

实施例一

图1是本发明实施例提供的一种图文知识点标注方法的步骤流程图。首先构建知识图谱知识节点标注模型(步骤S110)。具体来说，包括初始化步骤和更新步骤。其中，在初始化步骤中根据已知的知识图谱和对应于该知识图谱上各个知识节点的初始标注语料集合，建立初始标注模型，在更新步骤中，基于半监督学习(Semi-supervised Learning)算法对初始标注模型进行训练来优化标注模型。详细的优化过程在下文的具体示例中进行描述。

该方法还包括判断待标注图文单元的类型为文本文件或者图像文件(步骤S120)，以及提取待标注图文单元中命名实体的显性关键特征的预处理特征(步骤S130)。在步骤S130中，提取待标注图文单元中显性提及的命名实体、命名实体的属性描述和命名实体出现的频度作为显性关键特征，统计在图文单元内出现的具有相同词性的分词的总频度及不同分词的数量，以及具有相同类型的命名实体总频度及不同的命名实体的数量作为预处理特征，以概括图文单元的隐含内容。

具体而言，在所述待标注图文单元的类型为文本文件的情况下，识别文本文件中命名实体的显性关键特征；在所述待标注图文单元的类型为图像文件的情况下，基于图像处理技术识别图像文件文字区域中的单个文字，根据单个文字的图像特征识别由单个文字组成的文字单元的显性关键特征。

随后，基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签(步骤S140)。

本实施例提供的图文知识点标注方法可以对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取，并将提取的特征输入到知识图谱概率标注模型中计算，得出概括该图文单内容的多维的主题知识点标注。

在某些极端情况下，例如图文单元中未提及某地质研究概念词，但是其中提及的各个命名实体及各种词隐含为该地质研究概念涵盖的具体内容时，本实施例仍可将该图文单元标注为该地质概念。

图2是本发明实施例提供的一种图文知识点标注装置200的结构示意图。该装置包括模型构建单元210、判断单元220、特征提取单元230和多维标注单元240。其中，模型构建单元210设置为构建知识图谱知识节点标注模型。模型建立单元210包括初始化模块211和更新模块212，初始化模块211设置为根据已知的知识图谱和对应于该知识图谱上各个知识节点的初始标注语料集合，建立初始标注模型，更新模块212设置为基于半监督学习算法对初始标注模型进行训练来优化标注模型。

判断单元220设置为判断待标注图文单元的类型为文本文件或者图像文件。

特征提取单元230设置为根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征，具体而言，特征提取单元230包括有显性特征提取模块和预处理特征提取模块(图2中未示出)。显性特征提取模块用于提取待标注图文单元中显性提及的命名实体、命名实体的属性描述和命名实体出现的频度作为显性关键特征。预处理特征提取模块用于统计在图文单元内出现的具有相同词性的分词的总频度及不同分词的数量，以及具有相同类型的命名实体总频度及不同的命名实体的数量作为预处理特征，以概括图文单元的隐含内容。

多维标注单元240设置为基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。

实施例二

图3是本发明实施例提供的一种修正图文标注的方法的步骤流程图。其中，与图1相同的步骤采用同样的附图标记表示。与图1不同的是，图3还包括基于图文单元中的显性关键特征和知识点标签构建索引库，按照显性关键特征和/或知识点标签对图文单元进行分类展示或者检索，对图文单元的知识点标签进行修正(步骤S150),根据修正后的知识点标签更新标注语料库(步骤S160),随后根据标注语料库更新知识图谱知识节点标注模型。

本实施例在用户使用基于知识图谱的标注查阅资料的同时，提供对所查阅的资料的知识图谱标注进行补充及修正的功能，从而让知识图谱及其语义标注系统可以不断进化，从而持续提升用户的检索及分类浏览的体验。

图4是本发明实施例提供的一种修正图文标注系统的结构示意图。该系统包括图文知识点标注装置200、跨图文知识图谱应用平台300和语料库更新单元400。

跨图文知识图谱应用平台300包括索引单元310和修正单元320，其中，所述索引单元310设置为基于图文单元中的显性关键特征和知识点标签构建索引库，按照显性关键特征和/或知识点标签对图文单元进行分类展示或者检索，所述修正单元320设置为对图文单元的知识点标签进行修正。

语料库更新单元400设置为根据修正后的知识点标签更新标注语料库，更新模块212根据标注语料库更新知识图谱知识节点标注模型。

实施例三

本实施例提供一种用于油气勘探领域的修正图文标注的系统，如图5所示。该系统包括图文知识点标注装置、跨图文知识图谱应用平台和语料库更新单元。

其中，图文知识点标注装置用于对单一图文单元进行知识点标签的多维标注。在本实施例中，图文知识点标注装置包括模型构建单元、类型判断单元(图5中未示出)，以及单一文本单元内知识点多维标注子单元和单一图像内知识点多维标注子单元。

其中，模型构建单元用于构建知识图谱知识节点标注模型并进行更新，类型判断单元用于判断待标注图文单元的类型为文本文件或者图像文件。

所述单一文本单元内知识点多维标注子单元包含两个连续作用的模块：单一文本单元内关键特征提取模块和单一文本单元内知识点标注模块。

单一文本内单元内关键特征提取模块用于提取出单一文本中显性提及的关键特征，主要为命名实体(地质年代、储层、构造单元等的全称或简称)及对命名实体的一些属性描述词语(例如反映岩厚度、地质构造单元距离、地质构造单元走向的形容词)及其出现频度，并在此基础上加入一些关于实体及描述词语类型的统计分布的更具抽象性的预处理特征。

所述单一文本单元内的知识点标注模块，在关键特征提取基础上，采用基于规则的分类算法或者统计分类算法，来计算出可以真实概述该文本单元(但是未必出现在该文本单元的内容中)的内容主题的知识图谱上的知识点标签。概括地说，这一模块是一个基于知识图谱的具有层级关系的概率模型，在此模型上输入文本单元提取的特征，计算出对应概率较大的知识图谱上的知识节点。该概率模型的建立及更新，将在模型建立单元中进行描述。

所述单一图像内知识点多维标注子单元包含两个连续作用的模块：单一图像内关键特征提取模块、单一图像内知识点标注模块。

单一图像内关键特征提取模块,主要是通过图像处理及文本关键词及命名实体提取技术，提取出单一图像内的文字展示内容中显性提及的关键特征，单一文本内单元内关键特征提取模块提取的特征相似。

所述单一图像内的知识点标注模块，在单一图像的关键特征提取基础上，采用与单一文本单元内的知识点标注模块基本一样的操作方法，计算出可以真实概述该图像的主题标签。

再次回到图5，所述跨图文知识图谱应用平台主要是基于对文本单元及图像的关键特征提取及知识点标注，建立一个包含关键词及命名实体索引、以及主题知识点标签索引的索引库，并基于此索引库，向用户提供分类浏览及关键词检索的服务。

其中，所述分类浏览模块提供浏览功能。根据用户对概念导航页中不同的概念标签的操作指令，系统弹出对应标签结果页，按某种排序标准，排列出各种各样的文本单元的摘要(含全文链接)及图像缩略图(含原图链接)。

所述关键词检索模块提供检索功能。接收用户输入的检索关键词，系统对应提供与查询内容相关的按照关联度排序的文本单元的摘要(含全文链接)及图像缩略图(含原图链接)的结果列表。其中，关联度计算优先考虑概括文本单元或图像内容语义的主题知识点标签，其次是文本显性提及的关键词或命名实体。

本实施例中跨图文知识图谱应用平台中包括修正单元，优选的，该修正单元在检索或是分类浏览的结果列表页中采用特别的用户互动与纠错界面实现。其特点是列表里的每个结果项的展示空间里，均附加一个允许用户修正其类别标签的按钮及相应的修改界面。这些语料及用户的修正动作，将会通过语料库更新单元存储于标注语料库中。

在一个优选的示例中，语料库更新单元结合用户的专业性及权威度对用户的每个修正标签加权，最后选出分数超出阈值的标签赋予该语料，并更新标注语料库。

模型构建单元基于标注语料库的标注语料，建立及持续更新知识图谱节点标注模型，主要是概念标注模型。这一单元在实际运作中，按阶段分为两个部分，一个是知识图谱模型建立(初始化步骤)，一个是知识图谱模型更新(更新步骤)。本实施例的主要优势之一，是采用半监督学习算法，对特征的矢量空间表达做了改造，从而在初始化-冷启动阶段，可以节省大量人工，训练得出较为有效的分类器进行概念标注，并在随后的运营中，充分利用跨图文知识图谱应用平台持续提供的语料标注，不断优化模型，提高标注的效果。

以下对图5中模型构建单元的具体作用进行详细描述。

模型构建单元在初始化过程中，根据已知的知识图谱和对应于该知识图谱上各个知识节点的初始标注语料集合，建立初始标注模型。例如，基于一个勘探等专业领域知识图谱，即该领域内关于不同概念类及具体实例的命名实体间的隶属关系、属性、关联关系的一个多维、多层级的结构关系图，以及一个对应于该图谱上各个知识节点的较小集合的标注语料，初始化建立一个对文本内容的知识图谱知识节点标注模型。具体而言，基于机器学习中的半监督学习算法，具体实施采用了EM(Expectation-Maximization)期望值最小算法，从而保证了初始化阶段使用较小量的语料依然可以达成较优的标注效果。

在更新过程中，基于标注语料库中不断丰富的标注语料，持续更新知识图谱知识节点标注模型，保证系统在实际运行时可以低成本地不断获得用户的反馈及修正，从而不断提升模型的标注效果，及用户的使用体验。

具体示例

本部分提供利用修正图文标注的系统对油气勘探领域图文资料的具体示例进行标注的实施过程。

参照图5，单一文本内单元关键特征提取模块主要作用为提取出单一文本中显性提及的关键特征，主要为命名实体(地质年代、储层、构造单元等的全称或简称)及对命名实体的一些属性描述词语(例如反映岩及对命名实体的一些属性描述词语层的厚度、地质构造单元距离、地质构造单元走向的形容词)及出现频度，并在此基础上加入某些预处理特征。

整体方法是，基于已有的知识图谱，及勘探等领域的专业词典(其中包含了描述对象实例或概念类的命名实体的专业词汇及对应的命名实体类型。例如：寒武纪、奥陶纪等词语的实体类型为地质年代)，通过隐马尔可夫模型方法或条件随机场方法，提取文本单元中出现的单词，包括分词及词性识别结果、命名实体及所属类型识别结果、新词识别结果、属性关系识别结果，并摒除各类可以认定对知识点标注无意义的停止词(例如：你、我、他、的、地、得等)，进行计算抽取出该句子及段落所显性涉及的命名实体-包括概念类及对象实例，以及对命名实体的一些属性描述词语。

在上述词语及命名实体识别的基础上，进行预处理，获得部分增强的预处理特征，将这些预处理特征加入后续的知识点标注模块的输入中。具体实施中，下述预处理特征集合对后续的概括性知识点标注具有较为显著的意义：在文本单元内出现的某词性的总词频及不同词的个数、在文本单元内出现的某类型的命名实体总频度及不同的实体个数。

之所以增加预处理特征集的具体原因是这类特征往往是概括性的特征，在很多情况下，可能比基础的具体的对象实例，更能决定该文本单元的某些概念性的类别属性。比如，决定某文本单元是否属于“地质构造单元研究”这一类别，往往取决于该单元内是否出现了很多具体的地质构造单元实例，而非“地质构造单元”这个词的出现次数，或某些具体的地质构造单元的出现次数。当然，有时某些具体的子类别，又往往取决于某些具体的实例对象的出现与否。针对这种较为复杂的分类情况，我们选择将原始提取的命名实体及关键词，以及预处理后特征，统一按照TFIDF等方法处理，提取出在本单元出现频率统计上突出于背景(全部文本单元)的频率的特征集合，将其作为该文本单元的语义特征。

在图5中单一文本单元内的知识点标注模块在显性关键特征提取基础上，采用基于规则的分类算法或者统计分类算法，来计算出可以真实概述该文本单元(但是未必出现在该文本单元的内容里的)的内容主题的知识点分类标签。这一模块的应用基础为预先有一个相对完备的知识图谱的知识点分类模型。

当各个知识节点有明确的规则模型定义时，可以使用基于规则的分类算法进行一系列规则检验的工作，该方法较易实现但是普适性比较差。或者,当对应于各个知识节点有一批标好类别的语料时，可以采用统计分类算法如Classification and RegressionTree、Chaid,SVM,Bayesian Net、EM/HEM、Logistic Regression Model。这些方法的普适性较好，但是要求有较多的标注好知识点的文本单元(称为标注语料)。关于这些统计分类算法的描述，可参考Geoffrey McLachlan专著的Discriminant Analysis and StatisticalPattern Recognition(John Wiley and Sons于2004年出版)。

在模型正确建立的基础上，直接输入文本单元关键特征模块提取的特征，就可以获得对文本单元的知识点的标注。

本发明实施例中，定义在某标注模型Model(μ)下，文本d产生概念标签为T的概率为P(T|d,μ)；其中μ为一个矢量化的多变量参数，以高斯分布的概率模型为例,μ由中心值(mean)及标准偏差(standard deviation)构成。在本一个优选的示例中，建议采用Mixtureof Gaussian模型。

在独立性假设下，文本单元的特征表达是通过单个的词或命名实体的矢量表示的。在独立性假设失效情况下，则考虑N-gram，同时考虑某些词共现的高相关性，采用LSI等降维手段。总之，文本单元的有效表达方式，仍是基于词或词组的矢量表达。

基于这一假设，在常用的词簇描述方式中，文本单元表示为文本的关键词或全部分词的词频，所以可以转换为P(T|W,μ)，W为词支撑的矢量空间的词频分布矢量。但在本发明的文本单元描述方式中，文本d被表达为(W,C)，其中W为具体的关键词或命名实体支撑的矢量空间的词频分布矢量，而C为命名实体概念类或词性类别支撑的矢量空间的词性类别及命名实体类别频度分布矢量，所以转换为P(T|W,μ)。

当μ确定时，文本单元的从属于对应各个知识点的概率可以被计算出，因而基于概率是否过阈值(如0.9)或概率排序，就可以给文本单元赋予一个或几个概念标签。

然而实际情况是系统在初始化之前μ未知，需要通过统计模型进行估计,而且后续还需用不断增加语料进行优化。这就是统计分类模型的训练过程，其准确率依赖于充分的语料标注集合。充分的语料标注往往意味着巨大的人工整理工作，尤其是面对勘探等行业的庞大的含有超过千个知识类别节点的知识图谱体系时，意味着数十万个标注好的文本单元(每个知识节点都对应需要有50个以上的归属于该节点的训练语料以求充分覆盖，同时需要注意到语料在知识节点上分配的不均衡性)。

如何在显著降低语料标注成本的基础上保持优良的标注效果，在勘探领域图文标注问题上，成为了文本标注系统能否成功实施的关键所在。这一问题的解决方案的两个关键点，包括初始化阶段仅有少量标注语料时如何建立查全率及查准率较为良好的知识图谱标注模型，及后续运营中不断更新丰富语料标注。其中，在更新步骤中，基于半监督学习算法对初始标注模型进行训练来优化标注模型Model(μ)，从而获得多变量参数μ的最优估计值，以使得概率P(T|W,C,μ)与标注图文单元的知识点标签T的概率期望值最小。知识图谱标注模型的初始化和更新方法将在后文的对模型构建单元和跨图文知识图谱应用平台中描述。

在图5中，单一图像内多维知识点标注子单元包含两个连续作用的模块：单一图像内关键特征提取模块、单一图像内知识点标注模块。

单一图像内关键特征提取模块,主要目的为提取出单一图像出现的文字展示内容中显性提及的关键特征，这些关键特征与前述的单一文本内单元关键特征提取模块所提取的特征一致。

单一图像内关键特征提取模块采用的方法是,通过图像处理技术-具体为边缘提取、纹理分析、图像分割、OCR识别等技术，首先将图像中的文字区域识别出来,并识别出其对应的单字，进而借助这些单字的图像特征(例如相互位置、聚类、颜色及纹理相似度)，识别出由单字组成的整个文字单元及对应的命名实体-概念类及对象实例。其中的图像处理技术介绍，可参见戚飞虎等译著《模式识别与图像处理》，上海交通大学出版社1989年出版，及Milan Sonka,Vaclav Hlavac和Roger Boyle合著的Image Processing，Analysis,andMachine Vision,Second Edition，英文原版为Thomson出版社，授权国内人民邮电出版社于2001年印刷。

当图像中的文字被提取后，后续的处理可参照单一文本单元内关键特征提取模块的处理方式，最终得出该图像的特征集合描述。

所述单一图像内的知识点标注模块，在单一图像的关键特征提取基础上，采用与单一文本单元内的知识点标注模块基本一样的操作方法，计算出可以真实概述该图像的主题知识点标签。

在图5中，跨图文知识图谱应用运营平台主要是基于对文本单元及图像的关键特征提取及主题知识点标注，建立一个包含全文索引、关键词及命名实体索引、以及知识点标签索引的索引库，并基于此索引库，向用户提供分类浏览及关键词检索的服务。

所述关键词检索模块提供检索功能。接收用户输入的检索关键词，系统对应提供与查询内容相关的按照关联度排序的文本单元的摘要(含全文链接)及图像缩略图(含原图链接)的结果列表。其中，在关联度计算中，文本单元或图像的概念标签与用户输入关键词相同，权重增加最多；文本单元或图像的关键词或命名实体与用户输入关键词相同，权重增加较小；文本单元或图像中的其他词语与用户输入关键词相同，权重增加最小。

在本发明的实施例中，检索或分类浏览的结果列表页通过特别的用户互动与纠错界面展示，其特点是列表里的每个结果项的展示空间里，均附加一个允许用户修正其提取出的知识点标签的按钮及相应的修改界面。这样，用户在使用该系统过程中，可以发挥群体智慧(Collective Intelligence)，以非常低的个体人工成本来修正模型对于文本单元的部分错误标注，从而迅速积累大量的标注好的语料。这些语料及用户的修正动作，将会通过语料库更新单元，存储于标注语料库中。

所述的语料库更新单元不是简单地将用户的修正标签直接存储于标注语料库，而是结合用户的专业性及权威度对用户的每个修正标签加权，最后选出分数超出阈值的一个或多个知识点标签赋予该语料。

在图5中，模型构建单元将基于标注语料库的标注语料，建立及持续更新知识图谱的模型，主要是知识图谱知识节点标注模型。勘探行业的知识图谱，是一个庞大、多维度、同时每个维度又多层级的一个知识图谱。图6表示了知识图谱在某个具体的地质对象和知识概念目录分类两个维度的局部结构。所谓的知识图谱建模，就是对于这些知识图谱框架中的每个知识节点，都要建立知识图谱知识节点标注模型，也就是分类模型，用来确定输入的文本单元，是否符合该知识节点的模型，是否可以标注为该知识节点。

模型构建单元的主要技术挑战，在于初始化(冷启动)时，如何使用较少的人工，在整体语料缺乏的情况下，仍能获得较好的概念标注效果。本发明的实施例采用半监督学习算法，主要是借助流形假设，对特征的矢量空间表达做了改造，建立了较好的半监督学习机制，从而在系统初始化阶段，可以节省大量人工，训练得出较为有效的分类器，并在随后的运营中，充分利用跨图文知识图谱应用运营平台不断充实、更新的语料不断提高标注的效果。

在一个优选的示例中，在基于半监督学习算法对初始标注模型进行训练的步骤中包括：基于流形假设构建多维的分词簇或者命名实体矢量空间，其包括由具有相同概念类型的命名实体和具有相同词性的分词构成的子空间；将系统中的未标注语料矢量映射在子空间，得到未标注语料矢量在每个分词或者命名实体总词频上的映射，以及，在词性和命名实体类型的频度及分词和命名实体的数量上的映射；根据未标注语料矢量与知识点节点矢量在子空间上的距离或者相似度的矢量测度的叠加，调整未标注语料的预处理特征对标注模型的贡献的权重值，从而使得标注模型概括未标注语料的隐含内容。

首先简单介绍下半监督学习(Semi-supervised Learning)算法，它是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价，提高学习机器性能具有非常重大的实际意义。近年来出现并获得大量成功应用的深度学习(Deep Learning)算法应该可以算作半监督学习的一个成功的样本模型，它的优点是可以在底层自动进行特征抽取聚类，然后再应用分类算法，在现有算法中最接近人脑的思维方式。关于深度学习算法，可参考Hinton,G.E.,Osindero,S.and Teh,Y.所著的论文“A fast learning algorithm for deep belief nets”(发表于NeuralComputation 18:1527-1554,2006)。

半监督学习的一种普遍性假设是流形假设，流形假设的主要思想是同一个局部邻域内的样本数据具有相似的性质，因此其标记也应该是相似。在该假设下，未标记的样本数据就能够让数据空间变得更加密集，从而有利于更加标准地分析局部区域的特征，也使得决策函数能够比较完满地进行数据拟合。

具体在勘探领域，基于流形的假设，本实施例建立了一个更为精巧的多维的词簇或命名实体矢量空间，整个矢量空间由多个子空间组成，每个类型的命名实体或同一类词性的词构成一个子空间。矢量之间的距离或相似度的测度，是子空间上的距离或相似度的矢量测度的叠加。而矢量映射在子空间内的子矢量，同时考虑了两个矢量在每个具体词/命名实体的映射(即频度)，以及两个矢量在词性和命名实体类型的频度及不同个体数的映射。

举例来说，假设有3个文本单元，A文本单元里提及了5个不同的地质构造单元及3个方位词，B文本单元提及了4个不同的地质构造单元及2个方位词，但是A、B文本单元里提及的具体方位词及地质构造单元实例无重合。C文本单元提及了A文本单元里的2个地质构造单元及B文本单元里的2个地质构造单元。在传统的文本矢量空间里，无法度量出A与B有相似性，两者距离很大。而C与A及C与B均有一定相似性。然而在我们的新模型中，即使代表两个文本单元的两个矢量A和B具有完全不同的词和命名实体(对象实例)，系统仍然能够测度出两者一定的相似性，并度量出A与B两者在宏观维度上映射的距离更接近，虽然在地质构造单元子空间维度内，A与C、B与C的距离较小，而A与B的距离较大。因而通过流形假设，即使训练语料比较稀疏，也可以通过半监督学习，把未标记的局部样本数据也通过这种含有概括推演机制的矢量空间的距离度量，标记为疑似某某类，并开始传导，建立较为优良的分类模型。

具体实施中，本发明的实施例利用EM(期望最大化)算法，通过少量标注文本及大批未标注文本的统计分析不断优化P(T|W,C,μ)的统计概率模型，从而获得一个最优的μ的估计使得P(T|W,C,μ)与标注文本单元的分类标签的概率期望值最小化。

以构造特征这个概念节点的模型训练为例，假设系统启动学习建模时，只有3-5个标注为构造特征的语料和其他大约几千个未标注为该概念节点的语料，以及大量的未标注语料。由于我们引进了概述性的预处理特征，系统将会在迭代中，不断加强构造特征类型预处理特征及方位词预处理特征两个矢量维度上的偏差对于Log(P(Tag＝T|W，C)概率模型的贡献的权重值，而不断减弱具体的构造类型对象实例及具体的方位词维度，以及其他的命名实体及词维度上的贡献权重，因为在这两个维度为主构成的超平面上，标注为“构造特征”知识点的语料和其他大约几千个未标注为该概念节点的语料展现出统计上明显(Statistically Significant)的区分性。

相反地，如果没有加入词性及命名实体类型的统计项这些特征，模型就失去了概括能力。这样的模型，无论用SVM、EM或是其他监督学习算法，可能需要数千个(涵盖了数千个构造单元实例及数十个方位词)的标注好的文本单元语料，才可能获得一个优良的概念标注模型。

下文以几个实际的勘探领域文本单元及图像为例，对本文本标引方法的具体实施效果进行演示：

图7是一个待标注的文本单元(因该文本单元比较大，部分描述卡塔克隆起和古城墟隆起的文字内容省略)，对该文本单元进行特征提取，提取出的特征包含有如下内容。

1)大量的各级地质构造单元，其中中央隆起区、巴楚隆起、卡塔克隆起、古城墟隆起的在文本单元全文中出现频度较高。在显示出的局部文本单元例子中，巴楚隆起出现4次，中央隆起带出现4次，另外的文本单元词频较低。整体而言，地质构造单元类型的命名实体出现总频度及出现的不同命名实体的个数，都比较高。

2)大量地理位置的方位词，如西北、东南、NW向展布，西南邻、东北邻，以及跟地理位置描述相关的属性词：分段、分带、相隔、界限等。

基于知识图谱标注模型，系统可以识别出整个文本单元里最有概括意义的地质构造单元是塔里木盆地下的中央隆起带，因为被多次提及的巴楚隆起、卡塔克隆起、古城墟隆起也都是归属中央隆起带的知识点。

由于该文本单元出现了很多个不同的地质构造单元，同时含有很多地理方位的属性描述词，本实施例的知识图谱标注模型，会标注出该文本单元符合知识分类体系的“构造特征”知识点的模型描述，虽然“构造特征”这个词并未出现在该文本单元内。

这样，系统就将本文本单元的知识点标注到下述2个最具概括性的知识节点上：

油气勘探开发/综合研究/勘探地质研究/构造研究/构造特征

塔里木盆地/中央隆起带

进一步，还将以略低的匹配分数，将本文本单元标注到下述5个不同层面上具有概括性的知识节点上：

油气勘探开发/综合研究/勘探地质研究/构造研究/构造特征/断裂构造

油气勘探开发/综合研究/勘探地质研究/构造研究/构造特征/构造格局

塔里木盆地/中央隆起带/巴楚隆起

塔里木盆地/中央隆起带/卡塔克隆起

塔里木盆地/中央隆起带/古城墟隆起

图8是一个待标注的图像。单一图像内关键特征提取模块通过图像处理技术，首先将图像中的文字区域识别出来,并识别出其对应的单字。进一步地，基于每个文字单元所包含的文字覆盖领域的图像特征的一致性，比如颜色一致、纹理一致等，以及基于文字排列由上至下由左至右，可以提取一系列文字单元：

1)在图像右下角提取出一系列对应图标的文字单元：“盆内隆起”“井位”“基底出露区”“推测断裂”等，并识别出这些是一系列与地理位置相关的命名实体类型。

2)在图像主体部分提取出“中央隆起带”“塔北隆起”“塔南隆起”“西南坳陷”“北部坳陷”“库车坳陷”“东南坳陷”等文字单元，系统可以识别出这些文字单元描述的是具体的地质构造单元实例。

进一步地，单一图像内的知识点标注模块将标注该图像为“塔里木盆地”(图像中未出现该词，但塔里木盆地恰好覆盖了单一图像内关键特征提取模块提取出的地质构造单元实例)，在分类目录体系上将其标注为“构造特征”及“构造格局”(基于该图被识别为大量的地质构造单元实例的地理位置信息)。

当使用者输入“中央隆起带构造特征”或“中央隆起带构造格局”等词查询内容时，本发明的系统将会通过知识点索引表，检索出图3所示的文本单元，并优先排序。也就是说，该文本单元的排序将优于那些图文单元里显性提及了“构造单元”“中央隆起带”但是其实主题涵义并非这两者的图文单元(比如某些文献成果的背景介绍篇章里，简单提到了“中央隆起带构造单元”等多个类似的词作为例子但并未展开描述)。

当使用者输入“塔里木盆地构造格局”查询内容时，本发明的系统将会通过知识点索引表，检索出图8所示的图片，并优先排序。该图像将会比那些图文单元里显性提及了“构造单元”“塔里木盆地”但是其实主题涵义并非这两者的图文单元(比如某个中国或中国西边的地质勘探地图里，显示了“塔里木盆地”及“构造格局”等词，但图片内容并未描述塔里木盆地内部的构造格局)优先显示。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种图文知识点标注方法，其特征在于，包括：

构建知识图谱知识节点标注模型；

判断待标注图文单元的类型为文本文件或者图像文件；

统计在图文单元内出现的具有相同词性的分词的总频度及不同分词的数量，具有相同属性的命名实体总频度及具有不同属性的命名实体的数量作为预处理特征，以概括图文单元的隐含内容；

2.根据权利要求1所述的图文知识点标注方法，其特征在于，在提取待标注图文单元中命名实体的显性关键特征的预处理特征的步骤中，

3.根据权利要求1所述的图文知识点标注方法，其特征在于，在基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签的步骤中，

4.根据权利要求1所述的图文知识点标注方法，其特征在于，在构建知识图谱知识节点标注模型的步骤中包括：

5.根据权利要求4所述的图文知识点标注方法，其特征在于，在基于半监督学习算法对初始标注模型进行训练的步骤中，

6.一种图文标注的修正方法，其特征在于，包括：

如权利要求1-5中任一项所述的图文知识点标注方法，以及，

根据修正后的知识点标签更新标注语料库。

7.一种图文知识点标注装置，其特征在于，包括：

模型构建单元，其设置为构建知识图谱知识节点标注模型；

特征提取单元，包括：

预处理特征提取模块，其设置为统计在图文单元内出现的具有相同词性的分词的总频度及不同分词的数量，具有相同属性类型的命名实体总频度及具有不同属性的命名实体的数量作为预处理特征，以概括图文单元的隐含内容；

8.一种图文标注的修正系统，其特征在于，包括：

如权利要求7所述的图文知识点标注装置，以及，