CN107391613B

CN107391613B - 一种工业安全主题多文档自动消歧方法及装置

Info

Publication number: CN107391613B
Application number: CN201710538752.7A
Authority: CN
Inventors: 李博; 陈汉腾; 冯岩; 符式定; 李建欣
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2020-09-11
Anticipated expiration: 2037-07-04
Also published as: CN107391613A

Abstract

本发明公开了一种工业安全主题多文档自动消歧方法及装置，所述方法包括：创建具有多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；获取输入的关键词，并采集与所述关键词相关的多个文档，所述多个文档形成文档集合；为所述文档集合中的各个文档标注相应的标签；将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，所述目标主题子集为所述主题集合的子集；基于所述DAG主题结构图，确定与各个文档的标签相关联的主题；针对所述目标主题子集中的各个主题，将与所述主题相关联的文档分为一组。

Description

一种工业安全主题多文档自动消歧方法及装置

技术领域

本发明涉及文档消歧技术领域，尤其涉及一种基于多子模优化方法的工业安全主题多文档自动消歧方法及装置。

背景技术

近年来，机器学习迅速发展，已经被应用到各个领域。目前，机器学习应用往往涉及到对于实验对象的分组，具体到自然语言处理领域，很多机器学习应用都需要对于输入的多文档进行分类。使用消歧技术可以替代传统的人工方式，进行高效而准确的文档分类，因而其对于机器学习的发展有着深刻的促进作用。

目前已有的消歧技术是结合无回路有向图(DAG，Directed Acyclic Graph)主题结构图，设计子模函数，来针对输入的文档的标签挑选主题，并最终根据输出的主题集合将输入文档进行分组。然而，该方法使用的DAG主题结构图并没有考虑不同类型主题间的区别，因此图的继承结构也就相应的不够准确。

发明内容

为解决上述技术问题，本发明实施例提供了一种工业安全主题多文档自动消歧方法及装置。

本发明实施例提供的工业安全主题多文档自动消歧方法，包括：

创建具有多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；

获取输入的关键词，并采集与所述关键词相关的多个文档，所述多个文档形成文档集合；

为所述文档集合中的各个文档标注相应的标签；

将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，所述目标主题子集为所述主题集合的子集；

基于所述DAG主题结构图，确定与各个文档的标签相关联的主题；

针对所述目标主题子集中的各个主题，将与所述主题相关联的文档分为一组。

本发明实施例中，所述创建具有多种维度的DAG主题结构图，包括：

针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图；对多种类型的DAG主题结构图进行融合，得到多种维度的DAG主题结构图。

本发明实施例中，所述针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图；对多种类型的DAG主题结构图进行融合，得到多种维度的DAG主题结构图，包括：

从维基百科的历史镜像中提取出各个主题，依据各个主题之间的关系结构构建出实体对应的DAG主题结构图；

从在线动词词典的动词库中提取出各个动词类，依据各个动词类之间的关系结构构建出动词对应的DAG主题结构图；

从地图资源中提取出各个地理位置，依据各个地理位置的关系结构创建地理位置对应的DAG主题结构图；

根据时间轴创建时期对应的DAG主题结构图

对所述实体对应的DAG主题结构图、动词对应的DAG主题结构图、地理位置对应的DAG主题结构图以及时期对应的DAG主题结构图进行融合，得到具有多种维度的DAG主题结构图。

本发明实施例中，所述将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，包括：

将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中；

所述多子模函数从所述主题集合中选择多种主题子集作为输入，分别得到多个多子模函数的值；

当所述多子模函数的值达到极大值时，所输入的主题子集作为所述目标主题子集。

本发明实施例中，所述基于所述DAG主题结构图，确定与各个文档的标签相关联的主题，包括：

针对所述文档集合中的各个文档，在所述DAG主题结构图中查找与所述文档的标签对应的主题；

将所述文档与以下主题进行关联：与所述文档的标签对应的主题、与所述文档的标签对应的主题在所述DAG主题结构图中的所有父主题。

本发明实施例提供的工业安全主题多文档自动消歧装置，包括：

创建模块，用于创建具有多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；

获取模块，用于获取输入的关键词，并采集与所述关键词相关的多个文档，所述多个文档形成文档集合；

标注模块，用于为所述文档集合中的各个文档标注相应的标签；

优化模块，用于将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，所述目标主题子集为所述主题集合的子集；

关联模块，用于基于所述DAG主题结构图，确定与各个文档的标签相关联的主题；

分类模块，用于针对所述目标主题子集中的各个主题，将与所述主题相关联的文档分为一组。

本发明实施例中，所述创建模块，具体用于针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图。

本发明实施例中，所述创建模块，具体用于：

根据时间轴创建时期对应的DAG主题结构图

本发明实施例中，所述优化模块，具体用于将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中；所述多子模函数从所述主题集合中选择多种主题子集作为输入，分别得到多个多子模函数的值；当所述多子模函数的值达到极大值时，所输入的主题子集作为所述目标主题子集。

本发明实施例中，所述关联模块，具体用于针对所述文档集合中的各个文档，在所述DAG主题结构图中查找与所述文档的标签对应的主题；将所述文档与以下主题进行关联：与所述文档的标签对应的主题、与所述文档的标签对应的主题在所述DAG主题结构图中的所有父主题。

本发明实施例的技术方案中，创建具有多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；获取输入的关键词，并采集与所述关键词相关的多个文档，所述多个文档形成文档集合；为所述文档集合中的各个文档标注相应的标签；将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，所述目标主题子集为所述主题集合的子集；基于所述DAG主题结构图，确定与各个文档的标签相关联的主题；针对所述目标主题子集中的各个主题，将与所述主题相关联的文档分为一组。采用本发明实施例的技术方案，使用多个不同类型的DAG主题结构图，改善了DAG主题结构图的继承结构。使用多子模优化技术代替常用的单子模函数模型进行消歧，增加了先验知识的维度，从而获得被优化对象更多的信息，提高了函数的描述能力，改善优化的效果与效率。

附图说明

图1为本发明实施例的工业安全主题多文档自动消歧方法的流程示意图；

图2为本发明实施例的工业安全主题多文档自动消歧方法的信息流向图；

图3为发明实施例的DAG主题结构图一；

图4为发明实施例的DAG主题结构图二；

图5为发明实施例的DAG主题结构图三；

图6为本发明实施例的优化流程图；

图7为本发明实施例的消歧效果图；

图8为本发明实施例的工业安全主题多文档自动消歧装置的结构组成示意图；

图9为本发明实施例的计算机设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

以下为与本发明实施例相关的关键术语的解释说明：

子模函数：若A是B的子集，则对于函数f()，如果有f(A+e)-f(A)≥f(B+e)-f(B)成立，则说f()函数是子模的，f()函数称为子模函数。一般，子模函数具有边际递减效应，单一元素带来的增量，随着考虑的基础集合的增大而减少。

多子模函数：多子模函数保持了子模函数边际递减的性质，所不同的是它取多个集合作为输入，即增加了输入的维度。在实际应用中，多子模函数往往具有对于输入对象更强的描述能力。

多文档消歧：多文档消歧是指，为了解决某标题(title)天然与多个不同主题(topic)的文档相关联，而产生歧义的问题，而将与该标题相关的文档按照其主题进行分组，从而消除歧义的技术。简而言之，就是将多个文档根据主题进行分类的过程。这一技术在机器学习领域有着广泛而重要的应用。

图1为本发明实施例的工业安全主题多文档自动消歧方法的流程示意图，如图1所示，所述工业安全主题多文档自动消歧方法包括以下步骤：

步骤101：创建具有多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合。

本发明实施例中，针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图；对多种类型的DAG主题结构图进行融合，得到多种维度的DAG主题结构图。

具体地，从维基百科的历史镜像中提取出各个主题，依据各个主题之间的关系结构构建出实体对应的DAG主题结构图；

根据时间轴创建时期对应的DAG主题结构图

步骤102：获取输入的关键词，并采集与所述关键词相关的多个文档，所述多个文档形成文档集合。

步骤103：为所述文档集合中的各个文档标注相应的标签。

步骤104：将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，所述目标主题子集为所述主题集合的子集。

具体地，将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中；

步骤105：基于所述DAG主题结构图，确定与各个文档的标签相关联的主题。

具体地，针对所述文档集合中的各个文档，在所述DAG主题结构图中查找与所述文档的标签对应的主题；

步骤106：针对所述目标主题子集中的各个主题，将与所述主题相关联的文档分为一组。

图2为本发明实施例的工业安全主题多文档自动消歧方法的信息流向图，如图2所示，具体包括如下过程：

1)多种维度的DAG主题结构图的创建：

1.1)从维基百科(Wikipedia)的历史镜像中提取出其各个主题以及子主题，从而获得主题结构，并据此构建出实体(entity)对应的DAG主题结构图，如图3所示。

1.2)从在线的动词词典(Verbnet)的动词库中提取出全部动词类以及动词子类，从而创建出动词对应的DAG主题结构图，如图4所示。

1.3)从地图资源中提取出地理位置的包含结构，并据此创建地理位置对应的DAG主题结构图，如图5所示。

1.4)根据时间轴，创建时期对应的DAG主题结构图。

1.5)对于以上创建出的几个DAG主题结构图进行整合，创建出多维度的DAG主题结构图。

2)输入文档集采集：

根据任一关键词，利用搜索引擎搜索并收集与其相关的文档集合。

3)标注标签：

利用Tagme等标签应用，为采集到的文档集中的文档标注细粒度标签，以便后续分类处理。

4)函数优化：

将多维度的DAG主题结构图与标注后的文档集合，输入预先设计好的多子模函数中。多子模函数选取DAG主题结构图中的部分主题集合(主题子集)作为输入，并根据该部分主题集合中主题的多样性以及其对于文档集合的覆盖性、概括性等因素，对输入的主题子进行打分。

具体地，利用随机贪心算法对于多子模函数进行优化，选取使得多子模函数达到极大值的那组输入，即DAG主题结构图中的主题子集，作为优化的最终输出。

具体参照图6所示，设计目标函数

其中，f_i(S)代表单个元素的函数，w_i代表与f_i(S)对应的权重。S代表函数的输入数据，即DAG主题结构图中的主题子集。在DAG主题结构图中查找最具代表性的主题子集作为文档的多维主题标签S^*，这里，S^*能够使得目标函数最大化。本发明实施例中采用随机贪心算法使得目标函数最大化，即：

上述方案中，f_i(S)可以选择但不局限于图6所示的六种函数。

5)生成消歧页：

对于最初输入的每个文档，在DAG主题结构图中找到该文档的标签对应的主题，并称该文档与这些主题以及主题在DAG主题结构图中的所有父主题相关。

对于4)中最终选取的主题子集中的每个主题，将与各个主题相关的文档分为一组，从而完成对多文档的分组(即消歧)。假设输入的关键词为苹果，则分组的效果如图7所示。

本发明实施例的技术方案，使用多子模优化技术代替常用的的单子模函数模型进行消歧，增加了先验知识的维度(从单维度的DAG主题结构图变为多维度的DAG主题结构图)，从而获得被优化对象更多的信息，提高了函数的描述能力，改善优化的效果与效率。综合考虑选取主题覆盖性、多样性、概括性等多个方面因素自主设计了一组用于消歧的多子模函数框架，具有良好的灵活性与可拓展性。在消歧过程中使用了多维度的DAG主题结构图，从而将不同类别的主题区分开来，使DAG主题结构图的继承结构更加合理，从而使得之后基于该DAG主题结构图的多子模优化的过程取得更好的优化效果。求解消歧模型过程中由多子模函数出发设计一种基于随机贪心的快速迭代主题选取方法，使得在文档主题选取问题在多项式时间内获得大于1/2最优解的近似结果。

图8为本发明实施例的工业安全主题多文档自动消歧装置的结构组成示意图，如图8所示，所述工业安全主题多文档自动消歧装置包括：

创建模块801，用于创建具有多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；

获取模块802，用于获取输入的关键词，并采集与所述关键词相关的多个文档，所述多个文档形成文档集合；

标注模块803，用于为所述文档集合中的各个文档标注相应的标签；

优化模块804，用于将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，所述目标主题子集为所述主题集合的子集；

关联模块805，用于基于所述DAG主题结构图，确定与各个文档的标签相关联的主题；

分类模块806，用于针对所述目标主题子集中的各个主题，将与所述主题相关联的文档分为一组。

本发明实施例中，所述创建模块801，具体用于针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图。

本发明实施例中，所述创建模块801，具体用于：

根据时间轴创建时期对应的DAG主题结构图

本发明实施例中，所述优化模块804，具体用于将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中；所述多子模函数从所述主题集合中选择多种主题子集作为输入，分别得到多个多子模函数的值；当所述多子模函数的值达到极大值时，所输入的主题子集作为所述目标主题子集。

本发明实施例中，所述关联模块805，具体用于针对所述文档集合中的各个文档，在所述DAG主题结构图中查找与所述文档的标签对应的主题；将所述文档与以下主题进行关联：与所述文档的标签对应的主题、与所述文档的标签对应的主题在所述DAG主题结构图中的所有父主题。

本领域技术人员应当理解，图8所示的工业安全主题多文档自动消歧装置中的各单元的实现功能可参照前述工业安全主题多文档自动消歧方法的相关描述而理解。

本发明实施例上述工业安全主题多文档自动消歧装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，ReadOnly Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例还提供一种计算机存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本发明实施例的上述工业安全主题多文档自动消歧方法。

图9为本发明实施例的计算机设备的结构组成示意图，如图9所示，所述计算机设备包括存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机可执行指令，所述处理器902执行所述计算机可执行指令时实现如下方法步骤：

为所述文档集合中的各个文档标注相应的标签；

以上涉及计算机设备的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。

本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种工业安全主题多文档自动消歧方法，其特征在于，所述方法包括：

针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图；对多种类型的DAG主题结构图进行融合，得到多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；

为所述文档集合中的各个文档标注相应的标签；

2.根据权利要求1所述的工业安全主题多文档自动消歧方法，其特征在于，所述针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图；对多种类型的DAG主题结构图进行融合，得到多种维度的DAG主题结构图，包括：

根据时间轴创建时期对应的DAG主题结构图；

3.根据权利要求1所述的工业安全主题多文档自动消歧方法，其特征在于，所述将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中，并对所述多子模函数进行优化；根据优化结果，确定出目标主题子集，包括：

4.根据权利要求1所述的工业安全主题多文档自动消歧方法，其特征在于，所述基于所述DAG主题结构图，确定与各个文档的标签相关联的主题，包括：

5.一种工业安全主题多文档自动消歧装置，其特征在于，所述装置包括：

创建模块，用于针对每种类型的主题，基于该类型的各个主题之间的关系结构构建出相应的DAG主题结构图；对多种类型的DAG主题结构图进行融合，得到多种维度的DAG主题结构图，所述DAG主题结构图中的全部主题形成主题集合；

6.据权利要求5所述的工业安全主题多文档自动消歧装置，其特征在于，所述创建模块，具体用于：

根据时间轴创建时期对应的DAG主题结构图；

7.根据权利要求5所述的工业安全主题多文档自动消歧装置，其特征在于，所述优化模块，具体用于将所述DAG主题结构图和标注标签后的文档集合，输入多子模函数中；所述多子模函数从所述主题集合中选择多种主题子集作为输入，分别得到多个多子模函数的值；当所述多子模函数的值达到极大值时，所输入的主题子集作为所述目标主题子集。

8.根据权利要求5所述的工业安全主题多文档自动消歧装置，其特征在于，所述关联模块，具体用于针对所述文档集合中的各个文档，在所述DAG主题结构图中查找与所述文档的标签对应的主题；将所述文档与以下主题进行关联：与所述文档的标签对应的主题、与所述文档的标签对应的主题在所述DAG主题结构图中的所有父主题。