CN110362673B

CN110362673B - 基于摘要语义分析的计算机视觉类论文内容判别方法及系统

Info

Publication number: CN110362673B
Application number: CN201910644291.0A
Authority: CN
Inventors: 陈星�; 郭晨皓; 李鸣
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2022-07-08
Anticipated expiration: 2039-07-17
Also published as: CN110362673A

Abstract

本发明涉及一种基于摘要语义分析的计算机视觉类论文内容判别方法及系统。该方法包括：针对输入的计算机视觉类论文的摘要进行预处理，并根据预处理结果完成机器学习模型结构名称的提取；提取计算机视觉类论文的关键词组，并将提取到的关键词组中的所有词都加入一个单词集合；设计每一个研究领域类别设计单词表，并对每一个表中的每个单词设计权重，统计单词集合中每一个词表中的得分，最大的得分对应的类别即为研究领域类别；根据得到的关键词组构建备选关键词组集，根据确定的研究领域类别及其对应的词表和权重，对备选关键词组集中的所有词组进行计算得分，最高得分的即为概述摘要的目标关键词组。本发明能够实现计算机视觉类论文内容的判别。

Description

基于摘要语义分析的计算机视觉类论文内容判别方法及系统

技术领域

本发明属于自然语言处理领域，具体涉及一种基于摘要语义分析的计算机视觉类论文内容判别方法及系统。

背景技术

随着大数据和机器学习等计算机技术近几年引发的巨大关注以及取得的令人瞩目的成果，含有更多隐藏层具有更加复杂的网络结构被提出，能够比传统的机器学习方法更具有强大有效的特征学习和特征表达能力。同时，为计算机视觉领域的研究提供了更多的思路和方法，在目标检测、目标跟踪、超分辨率、图片生成、3D建模和人体姿态相关等方向都有了广泛的应用，并取得了令人欣喜的实验结果。

由此，产生了如何根据所遇到的问题，快速找到所需要的模型，或者根据已知模型，找到对应解决的问题的需求。

为了满足这样的需求，就希望能对计算机论文进行应用类型的判别以及自动文本摘要，利用自然语言处理的技术提取出论文的简练结构化信息。而根据计算机视觉类论文的特点，在论文的摘要部分常常会存在着能够给予读者快速理解论文主要工作以及贡献的有价值的关键信息。

于是根据计算机视觉类论文的摘要，通过自然语言处理的分词、句法语法分析等技术，对文本进行内容判别和自动文本摘要等操作，获得我们希望提取的信息就成了一个值得试验的思路。

根据上述的思路，对六个特定类别的计算机视觉类论文：目标检测、目标跟踪、超分辨率相关、图片生成、3D建模和人体姿态相关，针对其摘要进行摘要中机器学习模型名称的提取，实现基于摘要的论文研究领域判别以及概述摘要的关键词组抽取模型。

发明内容

本发明的目的在于提供一种基于摘要语义分析的计算机视觉类论文内容判别方法及系统，能够实现计算机视觉类论文内容的判别。

为实现上述目的，本发明的技术方案是：一种基于摘要语义分析的计算机视觉类论文内容判别方法，包括如下步骤：

步骤S1、针对输入的计算机视觉类论文的摘要进行预处理，而后，根据预处理结果完成机器学习模型结构名称的提取；

步骤S2、首先，提取计算机视觉类论文的关键词组，并将提取到的关键词组中的所有词都加入一个单词集合；而后，设计每一个研究领域类别设计单词表，并对每一个表中的每个单词设计权重，统计单词集合中每一个词表中的得分，最大的得分对应的类别即为研究领域类别；

步骤S3、根据步骤S2得到的关键词组构建备选关键词组集，而后，根据步骤S2确定的研究领域类别及其对应的词表和权重，对备选关键词组集中的所有词组进行计算得分，最高得分的即为概述摘要的目标关键词组。

在本发明一实施例中，所述步骤S1具体实现如下：

步骤S11、预处理：针对输入的计算机视觉类论文的摘要进行预处理，包括将段落形式的摘要切分成句子，再将句子由自然语言处理工具corenlp进行分词和依存分析的操作；

步骤S12、构建基于依存树的名称关键词提取模型：根据分词的结果顺序排列的词列表和依存分析的结果依存树，以关键词'network','Network','NETWORK'为起点向前回溯查找依存关系为amod,numod,det,acomp,nmod且父节点为关键词的词语加入代表机器学习模型结构名称的词列表中，完成机器学习模型结构名称的提取。

在本发明一实施例中，所述步骤S2具体实现如下：

步骤S21、提取关键词组，设计八种提取模型及其对应的触发模型的关键词：

提取模型一：首句主语，首句依存树的根节点的依存对象即是句子的主语；

提取模型二：关键词及其依存为修饰关系的词语；

提取模型三：关键词由case/mark 关系关联的目标短语；

提取模型四：及物动词关键词的直接宾语；

提取模型五：修饰动词关键词直接宾语的从句作为目标词组；

提取模型六：for引导的短语作为目标短语；

提取模型七：根节点为及物动词引导的宾语作为目标短语；

提取模型八：根节点为非及物动词引导的宾语或动词短语作为目标短语；

而后，将提取到的关键词组中的所有词都加入一个单词集合，集合中单词不重复；

步骤S22、判别研究领域：设计每一个研究领域类别设计单词表，并对每一个表中的每个单词设计权重，统计步骤S21得到的单词集合在每一个词表中的得分，最大的得分对应的类别即为研究领域类别。

在本发明一实施例中，所述步骤S3具体实现如下：

步骤S31、构建备选关键词组集：根据步骤S22中关键词组构建备选关键词组集；

步骤S32、判别目标词组：由步骤S22中确定的研究领域类别及其对应的词表和权重，对备选关键词组集中的所有词组进行计算得分，最高的即为本模块抽取的目标词组。

本发明还提供了一种基于摘要语义分析的计算机视觉类论文内容判别系统，包括：

机器学习模型结构名称的提取模块，针对输入的计算机视觉类论文的摘要进行预处理，而后，根据预处理结果完成机器学习模型结构名称的提取；

论文研究领域判别器模块，提取计算机视觉类论文的关键词组，并将提取到的关键词组中的所有词都加入一个单词集合；而后，设计每一个研究领域类别设计单词表，并对每一个表中的每个单词设计权重，统计单词集合中每一个词表中的得分，最大的得分对应的类别即为研究领域类别；

摘要概述的关键词组抽取模块，根据论文研究领域判别器模块得到的关键词组构建备选关键词组集，而后，根据论文研究领域判别器模块确定的研究领域类别及其对应的词表和权重，对备选关键词组集中的所有词组进行计算得分，最高得分的即为概述摘要的目标关键词组。

在本发明一实施例中，所述机器学习模型结构名称的提取模块，具体实现如下：

预处理：针对输入的计算机视觉类论文的摘要进行预处理，包括将段落形式的摘要切分成句子，再将句子由自然语言处理工具corenlp进行分词和依存分析的操作；

构建基于依存树的名称关键词提取模型：根据分词的结果顺序排列的词列表和依存分析的结果依存树，以关键词'network','Network','NETWORK'为起点向前回溯查找依存关系为amod,numod,det,acomp,nmod且父节点为关键词的词语加入代表机器学习模型结构名称的词列表中，完成机器学习模型结构名称的提取。

在本发明一实施例中，所述论文研究领域判别器模块，具体实现如下：

提取关键词组，设计八种提取模型及其对应的触发模型的关键词：

提取模型二：关键词及其依存为修饰关系的词语；

提取模型三：关键词由case/mark 关系关联的目标短语；

提取模型四：及物动词关键词的直接宾语；

提取模型六：for引导的短语作为目标短语；

提取模型七：根节点为及物动词引导的宾语作为目标短语；

判别研究领域：设计每一个研究领域类别设计单词表，并对每一个表中的每个单词设计权重，统计上述得到的单词集合在每一个词表中的得分，最大的得分对应的类别即为研究领域类别。

在本发明一实施例中，所述摘要概述的关键词组抽取模块，具体实现如下：

构建备选关键词组集：根据论文研究领域判别器模块得到关键词组构建备选关键词组集；

判别目标词组：由论文研究领域判别器模块确定的研究领域类别及其对应的词表和权重，对备选关键词组集中的所有词组进行计算得分，最高的即为本模块抽取的目标词组。

相较于现有技术，本发明具有以下有益效果：本发明能够实现计算机视觉类论文内容的判别。

附图说明

图1为本发明基于摘要语义分析的计算机视觉类论文内容判别流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基于摘要语义分析的计算机视觉类论文内容判别方法，包括如下步骤：

以下为本发明的具体实现过程。

1、基于摘要语义分析的计算机视觉类论文内容判别的方法概览

图1给出了基于摘要语义分析的计算机视觉类论文内容判别技术的方法概览。该系统以计算机视觉类论文摘要为输入，通过系统中三个模块：机器学习模型结构名称的提取模块，论文研究领域判别器模块，摘要概述的关键词组抽取模块，分别提取出机器学习模型结构名称，论文的研究领域还有概述论文的关键词组。

2、工作流程

2.1、机器学习模型结构名称的提取模块

第一步，预处理。针对输入进系统的计算机视觉类论文的摘要进行预处理，主要包括把段落形式的摘要切分成句子，再将句子由自然语言处理工具corenlp进行分词和依存分析的操作。

第二步，构建基于依存树的名称关键词提取模型。根据分词的结果顺序排列的词列表和依存分析的结果依存树，以关键词'network','Network','NETWORK'，为起点向前回溯查找依存关系为amod,numod,det,acomp,nmod且父节点为关键词的词语加入代表机器学习模型结构名称的词列表中，完成器学习模型结构名称的提取。

2.2、论文研究领域判别器模块

第一步，提取关键词组，设计八种提取模型及其对应的触发模型的关键词：

提取模型一：首句主语，首句依存树的根节点的依存对象即是句子的主语。

提取模型二：关键词及其依存为修饰关系的词语，以特定关键词为出发条件向前向后获取修饰型依存关系的词组成词组。

提取模型三：关键词由case/mark 关系关联的目标短语，适用于 the problem of这一类关键词后跟mark/case依存关系的句式，提取例句中of后的词组。

提取模型四：及物动词关键词的直接宾语，对于特定的动词关键词如improve这类及物动词，后面的之间宾语常代表文章的主要工作。

提取模型五：修饰动词关键词直接宾语的从句作为目标词组，适用于如“Wepropose something that/to …”这样由动词（propose）引导的的直接宾语的从句或动词修饰。

提取模型六：for引导的短语作为目标短语，for引导的短语常表示目的

提取模型七：根节点为及物动词引导的宾语作为目标短语，适用于类似“Wepropose something”，而句子中成分“something”即是目标词组的情况

提取模型八：根节点为非及物动词引导的宾语或动词短语作为目标短语。使用于类似“We focus on something”，不同于模型七，本模型的动词是非及物动词，需要介词引导宾语。

将提取到的关键词组中的所有词都加入一个单词集合，集合中单词不重复。

第二步，判别研究领域。设计每一个研究领域类别设计单词表，并对每一个表中的每个单词设计权重。统计上一步得到的单词集合在每一个词表中的得分，最大的得分对应的类别即为研究领域的类别。

2.3、摘要概述的关键词组抽取模块

第一步，构建备选关键词组集。由2.2中关键词组的抽取当做这个模块的备选关键词组集。

第二步，判别目标词组。由2.2中确定的研究领域类别及其对应的词表和权重，对备选关键词组集中的所有词组进行计算得分，最高的即为本模块抽取的目标词组。

3、实施例

通过对72个样本的六个研究领域类别的测试结果如表1所示：

表1 测试结果

类别	准确率	召回率	F1值	论文数
					1.目标检测	0.93	1.00	0.97	14
2.目标跟踪	1.00	0.73	0.84	11
					3.超分辨率	0.81	0.93	0.87	14
4.图片生成	0.92	1.00	0.96	11
					5.3D建模	1.00	0.70	0.82	10
6.人体姿态识别	1.00	1.00	1.00	12
					平均/总计	0.94	0.90	0.91	72

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于摘要语义分析的计算机视觉类论文内容判别方法，其特征在于，包括如下步骤：

步骤S2、首先，提取计算机视觉类论文的关键词组，并将提取到的关键词组中的所有词都加入一个单词集合；而后，为每一个研究领域类别设计单词表，并对每一个单词表中的每个单词设计权重，统计单词集合在每一个单词表中的得分，最大的得分对应的类别即为研究领域类别；

步骤S3、根据步骤S2得到的关键词组构建备选关键词组集，而后，根据步骤S2确定的研究领域类别及其对应的单词表和权重，对备选关键词组集中的所有词组计算得分，最高得分的关键词组即为概述摘要的目标关键词组；

所述步骤S1具体实现如下：

步骤S12、构建基于依存树的名称关键词提取模型：根据分词的结果顺序排列的词列表和依存分析的结果依存树，以关键词'network','Network','NETWORK'为起点向前回溯查找依存关系为amod,numod,det,acomp,nmod且父节点为关键词的词语加入代表机器学习模型结构名称的词列表中，完成机器学习模型结构名称的提取；

所述步骤S2具体实现如下：

提取模型二：关键词及其依存为修饰关系的词语；

提取模型三：关键词由case/mark 关系关联的目标短语；

提取模型四：及物动词关键词的直接宾语；

提取模型六：for引导的短语作为目标短语；

提取模型七：根节点为及物动词引导的宾语作为目标短语；

步骤S22、判别研究领域：为每一个研究领域类别设计单词表，并对每一个单词表中的每个单词设计权重，统计步骤S21得到的单词集合在每一个单词表中的得分，最大的得分对应的类别即为研究领域类别。

2.根据权利要求1所述的一种基于摘要语义分析的计算机视觉类论文内容判别方法，其特征在于，所述步骤S3具体实现如下：

步骤S32、判别目标关键词组：由步骤S22中确定的研究领域类别及其对应的单词表和权重，对备选关键词组集中的所有词组计算得分，最高得分的关键词组即为概述摘要抽取的目标关键词组。

3.一种基于摘要语义分析的计算机视觉类论文内容判别系统，其特征在于，包括：

论文研究领域判别器模块，提取计算机视觉类论文的关键词组，并将提取到的关键词组中的所有词都加入一个单词集合；而后，为每一个研究领域类别设计单词表，并对每一个单词表中的每个单词设计权重，统计单词集合在每一个单词表中的得分，最大的得分对应的类别即为研究领域类别；

摘要概述的关键词组抽取模块，根据论文研究领域判别器模块得到的关键词组构建备选关键词组集，而后，根据论文研究领域判别器模块确定的研究领域类别及其对应的单词表和权重，对备选关键词组集中的所有词组计算得分，最高得分的关键词组即为概述摘要的目标关键词组；

所述机器学习模型结构名称的提取模块，具体实现如下：

构建基于依存树的名称关键词提取模型：根据分词的结果顺序排列的词列表和依存分析的结果依存树，以关键词'network','Network','NETWORK'为起点向前回溯查找依存关系为amod,numod,det,acomp,nmod且父节点为关键词的词语加入代表机器学习模型结构名称的词列表中，完成机器学习模型结构名称的提取；

所述论文研究领域判别器模块，具体实现如下：

提取模型二：关键词及其依存为修饰关系的词语；

提取模型三：关键词由case/mark 关系关联的目标短语；

提取模型四：及物动词关键词的直接宾语；

提取模型六：for引导的短语作为目标短语；

提取模型七：根节点为及物动词引导的宾语作为目标短语；

判别研究领域：为每一个研究领域类别设计单词表，并对每一个单词表中的每个单词设计权重，统计上述得到的单词集合在每一个单词表中的得分，最大的得分对应的类别即为研究领域类别。

4.根据权利要求3所述的一种基于摘要语义分析的计算机视觉类论文内容判别系统，其特征在于，所述摘要概述的关键词组抽取模块，具体实现如下：

判别目标关键词组：由论文研究领域判别器模块确定的研究领域类别及其对应的单词表和权重，对备选关键词组集中的所有词组计算得分，最高得分的关键词组即为概述摘要抽取的目标关键词组。