CN110134957B

CN110134957B - 一种基于语义分析的科技成果入库方法及系统

Info

Publication number: CN110134957B
Application number: CN201910397876.7A
Authority: CN
Inventors: 朱全聪; 周年荣; 李波; 张林山; 黄星; 常亚东; 利佳; 邹京希; 曾保友; 王娇; 朱梦梦; 潘晨; 张成伟
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2023-06-13
Anticipated expiration: 2039-05-14
Also published as: CN110134957A

Abstract

本发明公开了一种基于语义分析的科技成果入库方法及系统，包括：首先获取科技成果文件，利用语义分析模块对所述科技成果文件进行语义分析，得到科技成果初始数据；判断科技成果库中是否存在所述科技成果初始数据；如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中。相比较于现有技术，本申请提供的科技成果入库方法不需要人工导入，也不需要针对每个模板定制开发导入程序，能够显著的提高科技成果入库的效率。

Description

一种基于语义分析的科技成果入库方法及系统

技术领域

本发明涉及科技管理及信息技术领域，特别涉及一种基于语义分析的科技成果入库方法及系统。

背景技术

国家历来非常重视科技创新工作，并给予科技创新工作大力的政策支持，企业是科技创新的主体。许多企业的科技创新工作已积累了大量的科技成果，随着世界科技环境格局的交替和变更，我国科技成果转化工作越来越迫切。科技成果转化工作首先需要有科技成果库的基础支撑，企业历史积累的科技成果往往以表格文件的形式进行登记，而且不同年份，成果登记的文件模板近似但不一致。传统的科技成果库创建方式有两种：一种方法是采用手工数据录入手段建立科技成果库，因为每个年份的科技成果数据模型不一，需要软件技术人员和较多科技成果录入人员的支撑，另一种方法是利用模板导入的方式，但需要针对每个模板定制开发导入程序，现有的科技成果入库方法效率低下。

发明内容

本申请提供了一种基于语义分析的科技成果入库方法及系统，以解决现有的科技成果入库方法效率低下的问题。

为了解决上述技术问题本发明第一方面提供一种基于语义分析的科技成果入库方法，所述方法包括：

获取科技成果文件；

利用语义分析模块对所述科技成果文件进行语义分析，得到科技成果初始数据；

判断科技成果库中是否存在所述科技成果初始数据；

如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中。

优选的，所述利用语义分析模块对所述科技成果文件进行语义分析，包括：

利用语义分析模块识别所述科技成果文件的字段，得到所述科技成果初始数据。

优选的，所述判断科技成果库中是否存在所述科技成果初始数据；如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中，包括：

判断所述科技成果库中是否存在所述科技成果文件的字段；

如果所述科技成果库中不存在所述科技成果文件的字段，则将所述科技成果文件的字段添加到所述科技成果库中；

获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本；

判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本；

如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。

优选的，所述判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本；如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中，包括：

获取所述科技成果库中的标签库；

将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化；

判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本；

如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本，则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本添加到所述科技成果库中。

优选的，所述方法还包括：

将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，和所述科技成果文件的字段的字段值，拼装SQL插入语句；

将所述SQL插入语句添加到所述科技成果库中。

相应于本申请实施例的第一方面，根据本申请实施例的第二方面，提供基于语义分析的科技成果入库系统，所述系统包括：

获取单元，用于获取科技成果文件；

语义分析单元，用于利用语义分析模块对所述科技成果文件进行语义分析，得到科技成果初始数据；

判断单元，用于判断科技成果库中是否存在所述科技成果初始数据；

优选的，所述语义分析单元包括：

识别模块，用于利用语义分析模块识别所述科技成果文件的字段，得到所述科技成果初始数据。

优选的，所述判断单元包括：

第一判断模块，用于判断所述科技成果库中是否存在所述科技成果文件的字段；

第一获取模块，用于获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本；

第二判断模块，用于判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本；

优选的，所述第二判断模块包括：

第二获取模块，用于获取所述科技成果库中的标签库；

标签化模块，用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化；

第三判断模块，用于判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本；

如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本，则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。

优选的，所述系统还包括：

拼装单元，用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，和所述科技成果文件的字段的字段值，拼装SQL插入语句；

将所述SQL插入语句添加到所述科技成果库中。

本申请第一方面提供的基于语义分析的科技成果入库方法包括：首先获取科技成果文件，利用语义分析模块对所述科技成果文件进行语义分析，得到科技成果初始数据；判断科技成果库中是否存在所述科技成果初始数据；如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中。相比较于现有技术，本发明提供的入库方法和系统，利用利用语义分析模块对科技成果文件进行语义分析得到能够智能识别的科技成果初始数据，之后判断科技成果库中是否存在该科技成果初始数据，如果科技成果库中不存在该科技成果初始数据，则将该科技成果初始数据添加到科技成果库中。本申请提供的科技成果入库方法不需要人工导入，也不需要针对每个模板定制开发导入程序，能够显著的提高科技成果入库的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语义分析的科技成果入库方法的流程示意图；

图2为本发明实施例提供的基于语义分析的科技成果入库系统的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决相关技术问题，本公开实施例首先提供了一种基于语义分析的科技成果入库方法，如图1所示，可以包括以下步骤：

在步骤S101中，获取科技成果文件。

在本公开实施例中，科技成果文件可以是事先存储在科技成果库中的，可以是表格形式的相关数据，其中相关数据可以包括数字、文字、字母等类型的字符，科技成果文件可以是通过人工输入至科技成果库中，也可以是人工在相关终端设备中输入之后，自动上传至科技成果库。

步骤S102，利用语义分析模块对所述科技成果文件进行语义分析，得到科技成果初始数据。

在本公开实施例中，语义分析模块可以基于之前的历史网络数据获得，例如以历史网络数据作为训练样本训练出语义分析模型。关于根据语义分析模型对网络数据进行语义分析的过程本实施例不做详述，可参照现有技术中各种实现方式实施。值得说明的是，网络数据处理装置具体可以采用语义分析领域中的科技成果相关技术领域分析，判别录入的科技成果的相关技术领域。

具体的，所述利用语义分析模块对所述科技成果文件进行语义分析，可以包括：利用语义分析模块识别所述科技成果文件的字段，得到所述科技成果初始数据。比如可以根据同义词或者近义词进行语义分析得到所述科技成果文件的字段。某一件科技成果属于机器人领域，语义分析模块对其进行同义词或近义词分析，可以得到机器人，机械臂，传动装置，液压缸、控制系统等字段作为能够表征该科技成果真实内容的相关字段。而识别这些字段是通过历史记录建立的语义分析模块进行的，语义分析模块可以根据用户的使用记录建立，比如某一用户是某一机器人国家重点实验室，语义分析模块是根据该重点实验室的相关研究工作的内容建立的。也可以根据网络建立专业性更强的语义分析模块。

步骤S103，判断科技成果库中是否存在所述科技成果初始数据；

利用语义分析模块对所述科技成果文件进行语义分析后，将得到的科技成果的初始数据与科技成果库进行对比分析，比如某一机器人国家重点实验室的科技成果库中包含了待添加的科技成果的所有相关字段，则该科技成果已经在科技成果库中存在，可以将该科技成果忽略，避免重复添加。如果某一机器人国家重点实验室的科技成果库中包含了待添加的科技成果的部分相关字段，而另一部分相关字段并不包含，则可以判断该科技成果不存在于该科技成果库中，可以将该科技成果添加到该科技成果库中。

作为优选的实施例，所述判断科技成果库中是否存在所述科技成果初始数据；如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中，可以包括：

判断所述科技成果库中是否存在所述科技成果文件的字段；

作为优选的实施例，所述判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本；如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中，可以包括：

获取所述科技成果库中的标签库；

作为优选的实施例，所述方法还包括：

将所述SQL插入语句添加到所述科技成果库中。

在实际应用中，本申请的科技成果入库方法可以包括：

科技成果登记表：以excel、word中的表格进行登记的科技成果文件。将科技成果登记表批量导入到语义分析模块；遍历科技成果登记表：遍历文件，遍历文件中的成果登记表，以一个成果登记表格为粒度；识别字段：根据同义词、近义词语义分析方法识别字段；检查字段：判断该字段是否已在数据库存在；添加字段：根据检查结果，若为数据库未存在的字段，则进行添加，若已存在，则该步骤忽略；存储字段信息：将字段信息保存到字段信息表；识别字段值：提取已识别字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，通过语义分析方法，对比科技成果字段中文名和所提取两段文本，最终确定科技成果字段的字段值；成果入库：根据字段信息、字段值，拼装SQL插入语句，将科技成果存入科技成果库；数据定义及数据录入工具：负责操纵数据库的工具，如查询、插入等操作。成果库:存储科技成果及其配置信息的数据库。

本申请的科技成果入库方法可实现动态创建数据库表、动态添加数据表字段，同时可将表和表字段的相关信息记录下来，可根据表信息和表字段信息和对应数据信息合成入库SQL语句，执行语句并提交后数据存入数据库；提供一种基于语义分析的科技成果字段识别方法，该方法能够提取科技成果登记表格中的成果字段中文名称，通过语义分析中的同义词、近义词分析，结合科技成果库中已存在的字段信息，判断字段是否已存在，若科技成果库中该成果字段已存在，则进行到下一步，若不存在，则将其当成一个新字段，然后利用网络翻译工具接口，将中文含义的字段翻译为英文字段名，利用“基于web应用的数据定义和数据录入工具”向科技成果库添加新的科技成果库字段；提供一种基于语义分析的科技成果字段内容识别方法，该方法依据已识别出的科技成果字段在科技成果登记表中的位置，提取当前表格横向位置坐标+1或纵向位置坐标+1的单元格的文本，通过语义分析方法，对比科技成果字段中文名和所提取两段文本，最终确定科技成果字段的字段值；通过上述方法遍历玩一个成果登记表格后，就确定一个成果的字段中文名、字段值，利用“基于web应用的数据定义和数据录入工具”将科技成果录入科技成果库。若一个成果登记文件中，存在多个成果登记表格，在一一遍历完成表格，提取多个成果信息，批量存入成果库。本申请提供的科技成果入库方法不需要人工导入，也不需要针对每个模板定制开发导入程序，能够显著的提高科技成果入库的效率。

图2为本发明实施例提供的基于语义分析的科技成果入库系统的框图，所述系统包括：

获取单元U1001，用于获取科技成果文件；

语义分析单元U1002，用于利用语义分析模块对所述科技成果文件进行语义分析，得到科技成果初始数据；

判断单元U1003，用于判断科技成果库中是否存在所述科技成果初始数据；

所述语义分析单元U1002可以包括：

所述判断单元U1003可以包括：

所述第二判断模块可以包括：

第二获取模块，用于获取所述科技成果库中的标签库；

所述系统还可以包括：

将所述SQL插入语句添加到所述科技成果库中。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于语义分析的科技成果入库方法，其特征在于，所述方法包括：

获取科技成果文件；

判断科技成果库中是否存在所述科技成果初始数据；如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中；

其中，所述利用语义分析模块对所述科技成果文件进行语义分析，包括：

利用语义分析模块识别所述科技成果文件的字段，得到所述科技成果初始数据；

所述判断科技成果库中是否存在所述科技成果初始数据；如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中，包括：

判断所述科技成果库中是否存在所述科技成果文件的字段；

2.如权利要求1所述的基于语义分析的科技成果入库方法，其特征在于，所述判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本；如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本，则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中，包括：

获取所述科技成果库中的标签库；

3.如权利要求1所述的基于语义分析的科技成果入库方法，其特征在于，所述方法还包括：

将所述SQL插入语句添加到所述科技成果库中。

4.一种基于语义分析的科技成果入库系统，其特征在于，所述系统包括：

获取单元，用于获取科技成果文件；

判断单元，用于判断科技成果库中是否存在所述科技成果初始数据FF1B如果所述科技成果库中不存在所述科技成果初始数据，则将所述科技成果初始数据添加到所述科技成果库中；

其中，所述语义分析单元包括：

识别模块，用于利用语义分析模块识别所述科技成果文件的字段，得到所述科技成果初始数据；

所述判断单元包括：

5.如权利要求4所述的基于语义分析的科技成果入库系统，其特征在于，所述第二判断模块包括：

第二获取模块，用于获取所述科技成果库中的标签库；

6.如权利要求4所述的基于语义分析的科技成果入库系统，其特征在于，所述系统还包括：

将所述SQL插入语句添加到所述科技成果库中。