CN113780438A - 一种基于大数据的科技项目申报辅导系统 - Google Patents
一种基于大数据的科技项目申报辅导系统 Download PDFInfo
- Publication number
- CN113780438A CN113780438A CN202111081017.0A CN202111081017A CN113780438A CN 113780438 A CN113780438 A CN 113780438A CN 202111081017 A CN202111081017 A CN 202111081017A CN 113780438 A CN113780438 A CN 113780438A
- Authority
- CN
- China
- Prior art keywords
- module
- text
- declaration
- science
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 6
- 238000000034 method Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的科技项目申报辅导系统,包括服务器、申报模块、数据库、文本检测模块及审核模块;所述申报模块用于用户提交科技项目申报书;所述数据库用于存储不相似的文本数据;所述文本检测模块用于对所提交的科技项目申报书进行相似性检测,并将检测结果反馈至审核模块;本发明进一步提高科技项目的相似性评估精度,有效缓解重复立项的问题,以确保科研经费的有效利用,同时,可辅助审查人员做出合理的决策,且大大提高了审核的效率,进而推动我国科技项目审查工作的智能化管理。
Description
技术领域
本发明涉及科技项目申报技术领域,具体是一种基于大数据的科技项目申报辅导系统。
背景技术
项目申报是指政府机关针对企业或其他研究单位作出的一系列优惠政策,企业或相关研究单位再根据政府的政策进行编写申报文件然后根据相关申报要求和流程进行申报。可申请的项目包括国家省市资助计划体系及各部委资助计划比如863计划,973计划,科技型中小企业创新基金,中小企业发展专项资金,企业科技新技术,国家社科基金,国家自科基金,省社科基金、省自科基金等不同级别的项目,申请时难度不同,申请人的资格和条件也各有不同。
随着我国科技项目规模的快速增长,其评审难度也在不断增大,科技项目的“多体系申报”与“重复立项”问题日益凸显。据不完全统计,我国历年的科技申报项目中,与国内历史申报项目的重复率超过40%,与国外历史申报项目及公开技术的重复率占比接近20%。科技项目的重复投入与重复研宄等问题将导致一些优质科技项目因国家科技项目资助计划的桎梏而无法获得资助,一方面造成了科研资源的浪费,另一方面也造成了科研计划的无序发展与低水平重复,不仅损害了科技研宄的宏观效益,而且导致了知识资产的流失。
发明内容
本发明的目的在于提供一种基于大数据的科技项目申报辅导系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的科技项目申报辅导系统,包括服务器、申报模块、数据库、文本检测模块及审核模块;
所述申报模块用于用户提交科技项目申报书;
所述数据库用于存储不相似的文本数据;
所述文本检测模块用于对所提交的科技项目申报书进行相似性检测,并将检测结果反馈至审核模块;
所述审核模块用于将获取的检测结果进行进一步审核,并将审核后的数据上传至服务器;
所述服务器用于对接收到的科技项目申报书及审核后的数据进行数据交换。
作为本发明进一步的方案:所述数据库分别与文本检测模块及服务器建立数据共享。
作为本发明再进一步的方案:所述数据库包括数据存储模块,所述数据存储模块可对数据库的数据进行动态更新。
作为本发明再进一步的方案:所述文本检测模块包括文本预处理模块、相似度计算模块及分析模块,所述文本预处理模块将所提交的科技项目申报书与数据存储模块中的数据均发送至相似度计算模块中对所提交的科技项目申报书的相似性进行检测,所述分析模块用以对计算结果进行分析。
作为本发明再进一步的方案:所述文本预处理模块用于对所提交的科技项目申报书中的文本信息进行提取,并将其提取的结构采用文本表示模型进行显示。
作为本发明再进一步的方案:提取的文本信息包括对文本分词的提取、关键词的提取以及文本有效句子的提取。
作为本发明再进一步的方案:所述相似度计算模块包括对文本的基本内容相似度计算、详细内容相似度计算机文本语义相似度计算。
作为本发明再进一步的方案:所述分析模块用于对计算结果进行判断分析,对于不相似的文本进行数据库存储,并返回给审核模块,进入后续的评审阶段,对于相似性高的文本,提取相似度高的文本片段进行对比显示,以查看它们具体的相似情况,提供决策支持。
作为本发明再进一步的方案:所述分析模块中设置有文本阈值及句子阈值,所述文本阈值用于显示最终的相似度文本,所述句子阈值用于显示两篇对比的申报书详细的比对信息。
作为本发明再进一步的方案:所述数据库中设置有不同领域的数据对比库。
与现有技术相比,本发明的有益效果是:
本发明进一步提高科技项目的相似性评估精度,有效缓解重复立项的问题,以确保科研经费的有效利用,同时,可辅助审查人员做出合理的决策,且大大提高了审核的效率,进而推动我国科技项目审查工作的智能化管理。
附图说明
图1为一种基于大数据的科技项目申报辅导系统的结构示意图。
图2为一种基于大数据的科技项目申报辅导系统中文本检测模块的结构示意图。
图3为一种基于大数据的科技项目申报辅导系统中文本检测模块的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~3,本发明实施例中,一种基于大数据的科技项目申报辅导系统,包括服务器、申报模块、数据库、文本检测模块及审核模块;所述申报模块用于用户提交科技项目申报书;所述数据库用于存储不相似的文本数据;所述文本检测模块用于对所提交的科技项目申报书进行相似性检测,并将检测结果反馈至审核模块;所述审核模块用于将获取的检测结果进行进一步审核,并将审核后的数据上传至服务器;所述服务器用于对接收到的科技项目申报书及审核后的数据进行数据交换。
所述数据库分别与文本检测模块及服务器建立数据共享。
所述数据库包括数据存储模块,所述数据存储模块可对数据库的数据进行动态更新。
所述文本检测模块包括文本预处理模块、相似度计算模块及分析模块,所述文本预处理模块将所提交的科技项目申报书与数据存储模块中的数据均发送至相似度计算模块中对所提交的科技项目申报书的相似性进行检测,所述分析模块用以对计算结果进行分析。
所述文本预处理模块用于对所提交的科技项目申报书中的文本信息进行提取,并将其提取的结构采用文本表示模型进行显示。
提取的文本信息包括对文本分词的提取、关键词的提取以及文本有效句子的提取。
所述相似度计算模块包括对文本的基本内容相似度计算、详细内容相似度计算机文本语义相似度计算。
所述分析模块用于对计算结果进行判断分析,对于不相似的文本进行数据库存储,并返回给审核模块,进入后续的评审阶段,对于相似性高的文本,提取相似度高的文本片段进行对比显示,以查看它们具体的相似情况,提供决策支持。
所述分析模块中设置有文本阈值及句子阈值,所述文本阈值用于显示最终的相似度文本,所述句子阈值用于显示两篇对比的申报书详细的比对信息。
所述数据库中设置有不同领域的数据对比库。
科技项目申报书的查重是项目评审阶段一个重要的环节,对于评审工作组来说也是一项重要的工作,本系统的设计科达到实现一个对科技项目申报书的自动检测,这种检测是在语义分析的基础上并提供相似对比文本的目的,以方便工作人员进行决策,本系统主要针对科技项目申报书做中文文本信息处理,支持对数据库的动态更新,把不相似的文本存储到数据库中,增加比对库,其次,可对对输入的文本进行自动处理,转化为计算机识别的文本,再次,对结果显示进行相似度高的文本片段进行对比显示,方便查看抄袭情况,提供决策支持,基于以上特点本系统采用C/S架构进行搭建,当项目申报者向服务器提交项目申报书,服务器便会感知有数据更新,并通过文本检测模块对所提交的项目申报书进行相似性检测,根据检测结果及相似详情,将结果反馈给审核模块。
在文本检测模块中,对已立项项目申报书按照项目所属领域,分别对不同领域的申报书进行文本抽取,分别提取出项目基本情况中包含的“项目名称”和“主题词”及“项目简介”、“立项背景”、“国内外比较”、“主要科学技术”、“创新点”等内容,读入到内存中,然后再插入到相应领域的数据库中的相应字段中,这样需要的对比库就建好了,当系统得到待检测文本时,首先对待检测文本进行提取与读入,然后利用相应的相似度计算方法分别计算项目基本情况字段的相似度和详细内容的不同字段的相似度,将得到的计算结果进行计算得到文本的相似度,最后利用系统中的分析模块对计算结果进行判断分析,对于不相似的文本进行数据库存储,返回给审核模块,进入后续的评审阶段,对于相似性高的文本,提取相似度高的文本片段进行对比显示,以查看它们具体的相似情况,提供决策支持。
分析模块主要是对经过相似度计算模块得到的相似度集合中的结果进行比较与分析。具体方法如下:首先将相似度集合中的值与预先设定的文本相似度阈值θ1进行比较,如果集合中的相似度值高于或等于设定的阈值,则暂判定该项目申报书与已有项目申报书属于相似项目,进一步通过两项目句子相似度高于某一片段阈值θ2的相似度句子进行对比显示以实现相似性的裁定;如果相似度集合中没有大于或等于文本相似度阈值θ1的申报书,说明带检测申报书与已有申报书无相关性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的科技项目申报辅导系统,其特征在于,包括服务器、申报模块、数据库、文本检测模块及审核模块;
所述申报模块用于用户提交科技项目申报书;
所述数据库用于存储不相似的文本数据;
所述文本检测模块用于对所提交的科技项目申报书进行相似性检测,并将检测结果反馈至审核模块;
所述审核模块用于将获取的检测结果进行进一步审核,并将审核后的数据上传至服务器;
所述服务器用于对接收到的科技项目申报书及审核后的数据进行数据交换。
2.根据权利要求1所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述数据库分别与文本检测模块及服务器建立数据共享。
3.根据权利要求1所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述数据库包括数据存储模块,所述数据存储模块可对数据库的数据进行动态更新。
4.根据权利要求3所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述文本检测模块包括文本预处理模块、相似度计算模块及分析模块,所述文本预处理模块将所提交的科技项目申报书与数据存储模块中的数据均发送至相似度计算模块中对所提交的科技项目申报书的相似性进行检测,所述分析模块用以对计算结果进行分析。
5.根据权利要求1所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述文本预处理模块用于对所提交的科技项目申报书中的文本信息进行提取,并将其提取的结构采用文本表示模型进行显示。
6.根据权利要求5所述的一种基于大数据的科技项目申报辅导系统,其特征在于,提取的文本信息包括对文本分词的提取、关键词的提取以及文本有效句子的提取。
7.根据权利要求1所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述相似度计算模块包括对文本的基本内容相似度计算、详细内容相似度计算机文本语义相似度计算。
8.根据权利要求7所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述分析模块用于对计算结果进行判断分析,对于不相似的文本进行数据库存储,并返回给审核模块,进入后续的评审阶段,对于相似性高的文本,提取相似度高的文本片段进行对比显示,以查看它们具体的相似情况,提供决策支持。
9.根据权利要求4所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述分析模块中设置有文本阈值及句子阈值,所述文本阈值用于显示最终的相似度文本,所述句子阈值用于显示两篇对比的申报书详细的比对信息。
10.根据权利要求1所述的一种基于大数据的科技项目申报辅导系统,其特征在于,所述数据库中设置有不同领域的数据对比库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081017.0A CN113780438A (zh) | 2021-09-15 | 2021-09-15 | 一种基于大数据的科技项目申报辅导系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081017.0A CN113780438A (zh) | 2021-09-15 | 2021-09-15 | 一种基于大数据的科技项目申报辅导系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113780438A true CN113780438A (zh) | 2021-12-10 |
Family
ID=78844103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111081017.0A Withdrawn CN113780438A (zh) | 2021-09-15 | 2021-09-15 | 一种基于大数据的科技项目申报辅导系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780438A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739512A (zh) * | 2023-06-07 | 2023-09-12 | 哈尔滨融美科技有限公司 | 一种基于人工智能云平台的数据分析管理系统及方法 |
-
2021
- 2021-09-15 CN CN202111081017.0A patent/CN113780438A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739512A (zh) * | 2023-06-07 | 2023-09-12 | 哈尔滨融美科技有限公司 | 一种基于人工智能云平台的数据分析管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190370296A1 (en) | Method and device for mining an enterprise relationship | |
US20090300043A1 (en) | Text based schema discovery and information extraction | |
CA2807494C (en) | Method and system for integrating web-based systems with local document processing applications | |
CN112035653A (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN103885966A (zh) | 电子商务交易平台中的问答交互方法和系统 | |
CN112651218A (zh) | 一种标书自动生成方法、管理方法、介质以及计算机 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN112907358A (zh) | 贷款用户信用评分方法、装置、计算机设备和存储介质 | |
CN111522950B (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN113780438A (zh) | 一种基于大数据的科技项目申报辅导系统 | |
CN110852054A (zh) | 一种不良资产经营领域合同版本自动化对比工具及方法 | |
Bertsch et al. | Detection of puffery on the english wikipedia | |
CN113220885B (zh) | 一种文本处理方法和系统 | |
CN114118089A (zh) | 一种基于裁判文书的企业司法诉讼关系的构建方法及系统 | |
Owda et al. | Financial discussion boards irregularities detection system (fdbs-ids) using information extraction | |
CN112988704A (zh) | 一种基于ai咨询数据库集群搭建方法和系统 | |
CN112434504A (zh) | 生成文件信息的方法、装置、电子设备和计算机可读介质 | |
CN113448918B (zh) | 一种企业科研成果管理方法及管理平台、设备、存储介质 | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
Cao et al. | Skill requirements analysis for data analysts based on named entities recognition | |
Ding et al. | Textual information extraction model of financial reports | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211210 |
|
WW01 | Invention patent application withdrawn after publication |