CN110134957B - 一种基于语义分析的科技成果入库方法及系统 - Google Patents

一种基于语义分析的科技成果入库方法及系统 Download PDF

Info

Publication number
CN110134957B
CN110134957B CN201910397876.7A CN201910397876A CN110134957B CN 110134957 B CN110134957 B CN 110134957B CN 201910397876 A CN201910397876 A CN 201910397876A CN 110134957 B CN110134957 B CN 110134957B
Authority
CN
China
Prior art keywords
scientific
technological achievement
position coordinate
library
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910397876.7A
Other languages
English (en)
Other versions
CN110134957A (zh
Inventor
朱全聪
周年荣
李波
张林山
黄星
常亚东
利佳
邹京希
曾保友
王娇
朱梦梦
潘晨
张成伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Yunnan Power Grid Co Ltd filed Critical Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority to CN201910397876.7A priority Critical patent/CN110134957B/zh
Publication of CN110134957A publication Critical patent/CN110134957A/zh
Application granted granted Critical
Publication of CN110134957B publication Critical patent/CN110134957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义分析的科技成果入库方法及系统,包括:首先获取科技成果文件,利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;判断科技成果库中是否存在所述科技成果初始数据;如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中。相比较于现有技术,本申请提供的科技成果入库方法不需要人工导入,也不需要针对每个模板定制开发导入程序,能够显著的提高科技成果入库的效率。

Description

一种基于语义分析的科技成果入库方法及系统
技术领域
本发明涉及科技管理及信息技术领域,特别涉及一种基于语义分析的科技成果入库方法及系统。
背景技术
国家历来非常重视科技创新工作,并给予科技创新工作大力的政策支持,企业是科技创新的主体。许多企业的科技创新工作已积累了大量的科技成果,随着世界科技环境格局的交替和变更,我国科技成果转化工作越来越迫切。科技成果转化工作首先需要有科技成果库的基础支撑,企业历史积累的科技成果往往以表格文件的形式进行登记,而且不同年份,成果登记的文件模板近似但不一致。传统的科技成果库创建方式有两种:一种方法是采用手工数据录入手段建立科技成果库,因为每个年份的科技成果数据模型不一,需要软件技术人员和较多科技成果录入人员的支撑,另一种方法是利用模板导入的方式,但需要针对每个模板定制开发导入程序,现有的科技成果入库方法效率低下。
发明内容
本申请提供了一种基于语义分析的科技成果入库方法及系统,以解决现有的科技成果入库方法效率低下的问题。
为了解决上述技术问题本发明第一方面提供一种基于语义分析的科技成果入库方法,所述方法包括:
获取科技成果文件;
利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;
判断科技成果库中是否存在所述科技成果初始数据;
如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中。
优选的,所述利用语义分析模块对所述科技成果文件进行语义分析,包括:
利用语义分析模块识别所述科技成果文件的字段,得到所述科技成果初始数据。
优选的,所述判断科技成果库中是否存在所述科技成果初始数据;如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中,包括:
判断所述科技成果库中是否存在所述科技成果文件的字段;
如果所述科技成果库中不存在所述科技成果文件的字段,则将所述科技成果文件的字段添加到所述科技成果库中;
获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本;
判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;
如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
优选的,所述判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中,包括:
获取所述科技成果库中的标签库;
将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化;
判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本;
如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本添加到所述科技成果库中。
优选的,所述方法还包括:
将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,和所述科技成果文件的字段的字段值,拼装SQL插入语句;
将所述SQL插入语句添加到所述科技成果库中。
相应于本申请实施例的第一方面,根据本申请实施例的第二方面,提供基于语义分析的科技成果入库系统,所述系统包括:
获取单元,用于获取科技成果文件;
语义分析单元,用于利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;
判断单元,用于判断科技成果库中是否存在所述科技成果初始数据;
如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中。
优选的,所述语义分析单元包括:
识别模块,用于利用语义分析模块识别所述科技成果文件的字段,得到所述科技成果初始数据。
优选的,所述判断单元包括:
第一判断模块,用于判断所述科技成果库中是否存在所述科技成果文件的字段;
如果所述科技成果库中不存在所述科技成果文件的字段,则将所述科技成果文件的字段添加到所述科技成果库中;
第一获取模块,用于获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本;
第二判断模块,用于判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;
如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
优选的,所述第二判断模块包括:
第二获取模块,用于获取所述科技成果库中的标签库;
标签化模块,用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化;
第三判断模块,用于判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本;
如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
优选的,所述系统还包括:
拼装单元,用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,和所述科技成果文件的字段的字段值,拼装SQL插入语句;
将所述SQL插入语句添加到所述科技成果库中。
本申请第一方面提供的基于语义分析的科技成果入库方法包括:首先获取科技成果文件,利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;判断科技成果库中是否存在所述科技成果初始数据;如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中。相比较于现有技术,本发明提供的入库方法和系统,利用利用语义分析模块对科技成果文件进行语义分析得到能够智能识别的科技成果初始数据,之后判断科技成果库中是否存在该科技成果初始数据,如果科技成果库中不存在该科技成果初始数据,则将该科技成果初始数据添加到科技成果库中。本申请提供的科技成果入库方法不需要人工导入,也不需要针对每个模板定制开发导入程序,能够显著的提高科技成果入库的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于语义分析的科技成果入库方法的流程示意图;
图2为本发明实施例提供的基于语义分析的科技成果入库系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决相关技术问题,本公开实施例首先提供了一种基于语义分析的科技成果入库方法,如图1所示,可以包括以下步骤:
在步骤S101中,获取科技成果文件。
在本公开实施例中,科技成果文件可以是事先存储在科技成果库中的,可以是表格形式的相关数据,其中相关数据可以包括数字、文字、字母等类型的字符,科技成果文件可以是通过人工输入至科技成果库中,也可以是人工在相关终端设备中输入之后,自动上传至科技成果库。
步骤S102,利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据。
在本公开实施例中,语义分析模块可以基于之前的历史网络数据获得,例如以历史网络数据作为训练样本训练出语义分析模型。关于根据语义分析模型对网络数据进行语义分析的过程本实施例不做详述,可参照现有技术中各种实现方式实施。值得说明的是,网络数据处理装置具体可以采用语义分析领域中的科技成果相关技术领域分析,判别录入的科技成果的相关技术领域。
具体的,所述利用语义分析模块对所述科技成果文件进行语义分析,可以包括:利用语义分析模块识别所述科技成果文件的字段,得到所述科技成果初始数据。比如可以根据同义词或者近义词进行语义分析得到所述科技成果文件的字段。某一件科技成果属于机器人领域,语义分析模块对其进行同义词或近义词分析,可以得到机器人,机械臂,传动装置,液压缸、控制系统等字段作为能够表征该科技成果真实内容的相关字段。而识别这些字段是通过历史记录建立的语义分析模块进行的,语义分析模块可以根据用户的使用记录建立,比如某一用户是某一机器人国家重点实验室,语义分析模块是根据该重点实验室的相关研究工作的内容建立的。也可以根据网络建立专业性更强的语义分析模块。
步骤S103,判断科技成果库中是否存在所述科技成果初始数据;
如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中。
利用语义分析模块对所述科技成果文件进行语义分析后,将得到的科技成果的初始数据与科技成果库进行对比分析,比如某一机器人国家重点实验室的科技成果库中包含了待添加的科技成果的所有相关字段,则该科技成果已经在科技成果库中存在,可以将该科技成果忽略,避免重复添加。如果某一机器人国家重点实验室的科技成果库中包含了待添加的科技成果的部分相关字段,而另一部分相关字段并不包含,则可以判断该科技成果不存在于该科技成果库中,可以将该科技成果添加到该科技成果库中。
作为优选的实施例,所述判断科技成果库中是否存在所述科技成果初始数据;如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中,可以包括:
判断所述科技成果库中是否存在所述科技成果文件的字段;
如果所述科技成果库中不存在所述科技成果文件的字段,则将所述科技成果文件的字段添加到所述科技成果库中;
获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本;
判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;
如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
作为优选的实施例,所述判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中,可以包括:
获取所述科技成果库中的标签库;
将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化;
判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本;
如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本添加到所述科技成果库中。
作为优选的实施例,所述方法还包括:
将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,和所述科技成果文件的字段的字段值,拼装SQL插入语句;
将所述SQL插入语句添加到所述科技成果库中。
在实际应用中,本申请的科技成果入库方法可以包括:
科技成果登记表:以excel、word中的表格进行登记的科技成果文件。将科技成果登记表批量导入到语义分析模块;遍历科技成果登记表:遍历文件,遍历文件中的成果登记表,以一个成果登记表格为粒度;识别字段:根据同义词、近义词语义分析方法识别字段;检查字段:判断该字段是否已在数据库存在;添加字段:根据检查结果,若为数据库未存在的字段,则进行添加,若已存在,则该步骤忽略;存储字段信息:将字段信息保存到字段信息表;识别字段值:提取已识别字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,通过语义分析方法,对比科技成果字段中文名和所提取两段文本,最终确定科技成果字段的字段值;成果入库:根据字段信息、字段值,拼装SQL插入语句,将科技成果存入科技成果库;数据定义及数据录入工具:负责操纵数据库的工具,如查询、插入等操作。成果库:存储科技成果及其配置信息的数据库。
本申请的科技成果入库方法可实现动态创建数据库表、动态添加数据表字段,同时可将表和表字段的相关信息记录下来,可根据表信息和表字段信息和对应数据信息合成入库SQL语句,执行语句并提交后数据存入数据库;提供一种基于语义分析的科技成果字段识别方法,该方法能够提取科技成果登记表格中的成果字段中文名称,通过语义分析中的同义词、近义词分析,结合科技成果库中已存在的字段信息,判断字段是否已存在,若科技成果库中该成果字段已存在,则进行到下一步,若不存在,则将其当成一个新字段,然后利用网络翻译工具接口,将中文含义的字段翻译为英文字段名,利用“基于web应用的数据定义和数据录入工具”向科技成果库添加新的科技成果库字段;提供一种基于语义分析的科技成果字段内容识别方法,该方法依据已识别出的科技成果字段在科技成果登记表中的位置,提取当前表格横向位置坐标+1或纵向位置坐标+1的单元格的文本,通过语义分析方法,对比科技成果字段中文名和所提取两段文本,最终确定科技成果字段的字段值;通过上述方法遍历玩一个成果登记表格后,就确定一个成果的字段中文名、字段值,利用“基于web应用的数据定义和数据录入工具”将科技成果录入科技成果库。若一个成果登记文件中,存在多个成果登记表格,在一一遍历完成表格,提取多个成果信息,批量存入成果库。本申请提供的科技成果入库方法不需要人工导入,也不需要针对每个模板定制开发导入程序,能够显著的提高科技成果入库的效率。
图2为本发明实施例提供的基于语义分析的科技成果入库系统的框图,所述系统包括:
获取单元U1001,用于获取科技成果文件;
语义分析单元U1002,用于利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;
判断单元U1003,用于判断科技成果库中是否存在所述科技成果初始数据;
如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中。
所述语义分析单元U1002可以包括:
识别模块,用于利用语义分析模块识别所述科技成果文件的字段,得到所述科技成果初始数据。
所述判断单元U1003可以包括:
第一判断模块,用于判断所述科技成果库中是否存在所述科技成果文件的字段;
如果所述科技成果库中不存在所述科技成果文件的字段,则将所述科技成果文件的字段添加到所述科技成果库中;
第一获取模块,用于获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本;
第二判断模块,用于判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;
如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
所述第二判断模块可以包括:
第二获取模块,用于获取所述科技成果库中的标签库;
标签化模块,用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化;
第三判断模块,用于判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本;
如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
所述系统还可以包括:
拼装单元,用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,和所述科技成果文件的字段的字段值,拼装SQL插入语句;
将所述SQL插入语句添加到所述科技成果库中。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (6)

1.一种基于语义分析的科技成果入库方法,其特征在于,所述方法包括:
获取科技成果文件;
利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;
判断科技成果库中是否存在所述科技成果初始数据;如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中;
其中,所述利用语义分析模块对所述科技成果文件进行语义分析,包括:
利用语义分析模块识别所述科技成果文件的字段,得到所述科技成果初始数据;
所述判断科技成果库中是否存在所述科技成果初始数据;如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中,包括:
判断所述科技成果库中是否存在所述科技成果文件的字段;
如果所述科技成果库中不存在所述科技成果文件的字段,则将所述科技成果文件的字段添加到所述科技成果库中;
获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本;
判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;
如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
2.如权利要求1所述的基于语义分析的科技成果入库方法,其特征在于,所述判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中,包括:
获取所述科技成果库中的标签库;
将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化;
判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本;
如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本添加到所述科技成果库中。
3.如权利要求1所述的基于语义分析的科技成果入库方法,其特征在于,所述方法还包括:
将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,和所述科技成果文件的字段的字段值,拼装SQL插入语句;
将所述SQL插入语句添加到所述科技成果库中。
4.一种基于语义分析的科技成果入库系统,其特征在于,所述系统包括:
获取单元,用于获取科技成果文件;
语义分析单元,用于利用语义分析模块对所述科技成果文件进行语义分析,得到科技成果初始数据;
判断单元,用于判断科技成果库中是否存在所述科技成果初始数据FF1B如果所述科技成果库中不存在所述科技成果初始数据,则将所述科技成果初始数据添加到所述科技成果库中;
其中,所述语义分析单元包括:
识别模块,用于利用语义分析模块识别所述科技成果文件的字段,得到所述科技成果初始数据;
所述判断单元包括:
第一判断模块,用于判断所述科技成果库中是否存在所述科技成果文件的字段;
如果所述科技成果库中不存在所述科技成果文件的字段,则将所述科技成果文件的字段添加到所述科技成果库中;
第一获取模块,用于获取所述科技成果文件的字段的横向位置坐标+1或纵向位置坐标+1的单元格的文本;
第二判断模块,用于判断所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本;
如果所述科技成果库中不存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
5.如权利要求4所述的基于语义分析的科技成果入库系统,其特征在于,所述第二判断模块包括:
第二获取模块,用于获取所述科技成果库中的标签库;
标签化模块,用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本标签化;
第三判断模块,用于判断所述科技成果库中的标签库中是否存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本;
如果所述科技成果库中的标签库中不存在所述科技成果库中是否存在所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的标签化文本,则将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本添加到所述科技成果库中。
6.如权利要求4所述的基于语义分析的科技成果入库系统,其特征在于,所述系统还包括:
拼装单元,用于将所述科技成果文件的字段横向位置坐标+1或纵向位置坐标+1的单元格的文本,和所述科技成果文件的字段的字段值,拼装SQL插入语句;
将所述SQL插入语句添加到所述科技成果库中。
CN201910397876.7A 2019-05-14 2019-05-14 一种基于语义分析的科技成果入库方法及系统 Active CN110134957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910397876.7A CN110134957B (zh) 2019-05-14 2019-05-14 一种基于语义分析的科技成果入库方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910397876.7A CN110134957B (zh) 2019-05-14 2019-05-14 一种基于语义分析的科技成果入库方法及系统

Publications (2)

Publication Number Publication Date
CN110134957A CN110134957A (zh) 2019-08-16
CN110134957B true CN110134957B (zh) 2023-06-13

Family

ID=67573705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910397876.7A Active CN110134957B (zh) 2019-05-14 2019-05-14 一种基于语义分析的科技成果入库方法及系统

Country Status (1)

Country Link
CN (1) CN110134957B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
CN105447142A (zh) * 2015-11-23 2016-03-30 中国农业大学 一种双模式农业科技成果分类方法及系统
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN107085613A (zh) * 2017-05-17 2017-08-22 广州四三九九信息科技有限公司 入库文件的过滤方法和装置
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108132916A (zh) * 2017-11-30 2018-06-08 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN109408555A (zh) * 2018-09-19 2019-03-01 智器云南京信息科技有限公司 数据类型识别方法及装置、数据入库方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193520A1 (en) * 2003-03-27 2004-09-30 Lacomb Christina Automated understanding and decomposition of table-structured electronic documents
US8914419B2 (en) * 2012-10-30 2014-12-16 International Business Machines Corporation Extracting semantic relationships from table structures in electronic documents
FR3016981A1 (fr) * 2014-01-28 2015-07-31 Deadia Procede d'analyse semantique d'un texte

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
CN105447142A (zh) * 2015-11-23 2016-03-30 中国农业大学 一种双模式农业科技成果分类方法及系统
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107085613A (zh) * 2017-05-17 2017-08-22 广州四三九九信息科技有限公司 入库文件的过滤方法和装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108132916A (zh) * 2017-11-30 2018-06-08 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN109408555A (zh) * 2018-09-19 2019-03-01 智器云南京信息科技有限公司 数据类型识别方法及装置、数据入库方法及装置

Also Published As

Publication number Publication date
CN110134957A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN109033080B (zh) 基于概率转移矩阵的医疗术语标准化方法及系统
CN112035653B (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
CN102662930B (zh) 一种语料标注方法及装置
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN103970666B (zh) 一种软件重复缺陷报告检测的方法
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN111143571A (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN110134957B (zh) 一种基于语义分析的科技成果入库方法及系统
CN117033816A (zh) 停车推荐方法、装置、电子设备及存储介质
CN110489514B (zh) 提升事件抽取标注效率的系统及方法、事件抽取方法及系统
CN110162684B (zh) 基于深度学习的机器阅读理解数据集构建以及评估方法
Plum et al. Large-scale data harvesting for biographical data
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.
CN113050933B (zh) 脑图数据处理方法、装置、设备及存储介质
CN110110280B (zh) 对坐标的曲线积分计算方法、装置、设备及存储介质
CN112650754A (zh) 一种关系型数据库的数据全量导入Hive的方法
Chen Natural language processing in web data mining
CN116935424A (zh) 一种信息提取方法、装置、设备及可读存储介质
CN117592470A (zh) 大语言模型驱动的低成本公报数据抽取方法
CN116028612A (zh) 一种基于多维表格的智能问答构建方法、系统及装置
CN117251469A (zh) 一种sql语句生成方法、系统、介质及设备
CN113901828A (zh) 一种文章智能分段和贴标签的方法
CN115481631A (zh) 企业简称提取方法、装置、设备及介质
CN113127647A (zh) 一种基于大数据分析的工艺知识库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant